ES2306076T3

ES2306076T3 - Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix.

Info

Publication number: ES2306076T3
Application number: ES05700983T
Authority: ES
Inventors: Jurgen Herre; Christof Faller
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Agere Systems LLC
Priority date: 2004-01-20
Filing date: 2005-01-17
Publication date: 2008-11-01
Anticipated expiration: 2025-01-17
Also published as: CN1910655A; JP2007519349A; EP1706865B1; PT1706865E; KR100803344B1; US7394903B2; MXPA06008030A; WO2005069274A1; NO20063722L; BRPI0506533B1; BRPI0506533A; AU2005204715A1; US20050157883A1; DE602005006385T2; CA2554002C; RU2329548C2; CN1910655B; AU2005204715B2; CA2554002A1; DE602005006385D1

Abstract

Aparato para construir una señal de salida multicanal, utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada (Lc) y un segundo canal de entrada (Rc) derivado a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende: medios (322) para determinar un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y para determinar un segundo canal base seleccionando el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y medios (324) para sintetizar un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la posición del oyente considerada, y para sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.

Description

Aparato y método para construir una señal de salida multicanal o para generar una señal de downmix.

Campo de la invención

La presente invención se refiere a un aparato y un método para procesar una señal de audio multicanal y en particular, a un aparato y un método para procesar una señal de audio multicanal en una forma compatible con estéreo.

Antecedentes de la invención y técnica anterior

En los últimos tiempos, la técnica de reproducción de audio multicanal, cada vez se está volviendo más importante. Esto puede deberse al hecho de que las técnicas de compresión/codificación de audio tales como la bien conocida técnica mp3 han hecho posible distribuir grabaciones de audio por Internet u otros canales de transmisión que tienen un ancho de banda limitado. La técnica de codificación mp3 se ha vuelto tan famosa debido al hecho de que permite la distribución de todas las grabaciones en un formato estéreo, es decir, una representación digital de la grabación de audio, que incluye un canal de estéreo primero o izquierdo y un canal de estéreo segundo o derecho.

Sin embargo, hay desventajas básicas de sistemas de sonido de dos canales convencionales. Por tanto, se ha desarrollado la técnica de sonido envolvente. Una representación de sonido multicanal recomendada incluye, además de los dos canales de estéreo L y R, un canal central adicional C y dos canales envolventes Ls, Rs. Este formato de sonido de referencia también se denomina como estéreo tres/dos, que significa tres canales frontales y dos canales envolventes. En general, se requieren cinco canales de transmisión. En un entorno de reproducción, se requieren al menos cinco altavoces en los cinco lugares diferentes respectivos para obtener un punto óptimo a una cierta distancia desde los cinco altavoces bien colocados.

Se conocen varias técnicas en la técnica para reducir la cantidad de datos requeridos para la transmisión de una señal de audio multicanal. Estas técnicas se denominan técnicas de estéreo conjunto. Con este fin, se hace referencia a la figura 10, que muestra un dispositivo 60 de estéreo conjunto. Este dispositivo puede ser un dispositivo que implementa por ejemplo intensidad estéreo (IS, intensity stereo) o codificación de indicación binaural (BCC, binaural cue coding). Un dispositivo de este tipo generalmente recibe, como una entrada, al menos dos canales (CH1, CH2,... CHn), y emite un único canal portador y datos paramétricos. Los datos paramétricos se definen de tal manera que, en un descodificador, pueda calcularse una aproximación de un canal original (CH1, CH2, ... CHn).

Normalmente, el canal portador incluirá muestras de subbanda, coeficientes espectrales, muestras de dominio del tiempo, etc., que proporcionan una representación comparativamente precisa de la señal subyacente, mientras que los datos paramétricos no incluyen tales muestras de coeficientes espectrales sino que incluyen parámetros de control para controlar un cierto algoritmo de reconstrucción tales como ponderación por multiplicación, desplazamiento de tiempo, desplazamiento de frecuencia, ... Los datos paramétricos, por lo tanto, incluyen sólo una representación comparativamente imprecisa de la señal o el canal asociado. Puesto en números, la cantidad de datos requerida por un canal portador estará en el intervalo de 60 a 70 kbits/s, mientras que la cantidad de datos requerida por información lateral paramétrica para un canal estará en el intervalo de 1,5 a 2,5 kbits/s. Un ejemplo para datos paramétricos son los bien conocidos factores de escala, información de intensidad estéreo o parámetros de indicación binaural tal como se describirá a continuación.

La codificación de intensidad estéreo se describe en la preimpresión AES 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, febrero de 1994, Amsterdam. En general, el concepto de intensidad estéreo se basa en aplicar una transformada de eje principal a los datos de ambos canales de audio estereofónicos. Si la mayoría de los puntos de datos se concentran alrededor del primer eje principal, puede conseguirse una ganancia de codificación girando ambas señales un cierto ángulo antes de la codificación. Esto, sin embargo, no es siempre cierto para técnicas de producción estereofónicas reales. Por lo tanto, esta técnica se modifica excluyendo la segunda componente ortogonal de la transmisión en el flujo de bits. Por tanto, las señales reconstruidas para los canales izquierdo y derecho consisten en versiones ajustadas a escala o ponderadas de manera diferente de la misma señal transmitida. Sin embargo, las señales reconstruidas difieren en su amplitud pero son idénticas respecto a su información de fase. Las envolventes de tiempo-energía de ambos canales de audio originales, sin embargo, se conservan mediante la operación de ajuste a escala selectiva, que normalmente funcionada de una manera selectiva en frecuencia. Esto se ajusta a la percepción humana del sonido a altas frecuencias, donde las indicaciones espaciales dominantes se determinan por las envolventes de energía.

Adicionalmente, en implementaciones prácticas, la señal transmitida, es decir, el canal portador se genera a partir de la señal de suma del canal izquierdo y el canal derecho en lugar de girar ambas componentes. Además, este procesamiento, es decir, generar parámetros de intensidad estéreo para realizar la operación de ajuste a escala, se realiza selectivo en frecuencia, es decir independientemente por cada banda de factor de escala, es decir, partición de frecuencia de codificador. Preferiblemente, ambos canales se combinan para formar un canal "portador" o combinado, y, además del canal combinado, se determina la información de intensidad estéreo que depende de la energía del primer canal, la energía del segundo canal o la del combinado o canal.

\newpage

La técnica BCC se describe en el artículo de convención AES 5574, "Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, mayo de 2002, Munich. En codificación BCC, se convierte un número de canales de entrada de audio a una representación espectral utilizando una transformada basada en DFT con ventanas superpuestas. El espectro uniforme resultante se divide en particiones no superpuestas que tiene cada un índice. Cada partición tiene un ancho de banda proporcional al ancho de banda rectangular equivalente (ERB, equivalent rectangular bandwidth). Las diferencias de nivel entre canales (ICLD, inter-channel level differences) y las diferencias de tiempo entre canales (ICTD, inter-channel time differences) se estiman para cada partición para cada trama k. Las ICLD e ICTD se cuantifican y codifican dando como resultado un flujo de bits BCC. Las diferencias de nivel entre canales y las diferencias de tiempo entre canales se dan para cada canal respecto a un canal de referencia. Entonces, se calculan los parámetros según las fórmulas predeterminadas, que dependen de ciertas particiones de la señal que va a procesarse.

En el lado del descodificador, el descodificador recibe una señal mono y el flujo de bits BCC. La señal mono se transforma en el dominio de la frecuencia y se introduce en un bloque de síntesis espacial, que también recibe valores ICLD e ICTD descodificados. En el bloque de síntesis espacial, los valores de parámetros BCC (ICLD e ICTD) se utilizan para realizar una operación de ponderación de la señal mono con el fin de sintetizar las señales multicanal, que, después de una conversión de frecuencia/tiempo, representan una reconstrucción de la señal de audio multicanal original.

En el caso de BCC, el módulo 60 de estéreo conjunto, está operativo para emitir la información lateral de canal de tal manera que los datos de canal paramétricos son parámetros ICLD o ICTD cuantificados y codificados, donde uno de los canales originales se utiliza como el canal de referencia para codificar la información lateral de canal.

Normalmente, el canal portador se forma de la suma de los canales originales participantes.

Naturalmente, las técnicas anteriores sólo proporcionan una representación mono para un descodificador, que sólo puede procesar el canal portador, pero no puede procesar los datos paramétricos para generar una o más aproximaciones de más de un canal de entrada.

La técnica de codificación de audio conocida como codificación de indicación binaural (BCC) también se describe bien en las publicaciones de solicitud de patente estadounidenses. US 2003, 0219130 A1, 2003/0026441 A1 y 2003/0035553 A1. También se hace referencia adicional a "Binaural Cue Coding. Part II: Schemes and Applications", C. Faller y F. Baumgarte, IEEE Trans. On Audio and Speech Proc., volumen 11, nº 6, noviembre de 2993.

A continuación, se elabora con más detalle un esquema BCC genérico típico para codificación de audio multicanal con referencia a las figuras 11 a 13. La figura 11 muestra un esquema de codificación de indicación binaural genérico de este tipo para codificar/transmitir señales de audio multicanal. La señal de entrada de audio multicanal en una entrada 110 de un codificador 112 BCC se somete a downmix en un bloque 114 de downmix. En el presente ejemplo, la señal multicanal original en la entrada 110 es una señal envolvente de cinco canales que tiene un canal izquierdo frontal, un canal derecho frontal, un canal envolvente izquierdo, un canal envolvente derecho y un canal central. En una realización preferida de la presente invención, el bloque 114 de downmix produce una señal de suma mediante una simple adición de estos cinco canales en una señal mono. Se conocen en la técnica otros esquemas de downmix de tal manera que, utilizando una señal de entrada multicanal, puede obtenerse una señal de downmix que tiene un único canal. Este único canal se emite en una línea 115 de señal de suma. Una información lateral obtenida mediante un bloque 116 de análisis BCC se emite en una línea 117 de información lateral. En el bloque de análisis BCC, se calculan las diferencias de nivel entre canales (ICLD) y diferencias de tiempo entre canales (ICTD) tal como se ha comentado anteriormente. Recientemente, se ha mejorado el bloque 116 de análisis BCC para también calcular los valores de correlación entre canales (valores ICC). La señal de suma y la información lateral se transmiten, preferiblemente en una forma cuantificada y codificada, a un descodificador 120 BCC. El descodificador BCC descompone la señal de suma transmitida en un número de subbandas y aplica ajuste a escala, retardos y otros procesamientos para generar las subbandas de las señales de audio multicanal de salida. Este procesamiento se realiza de tal manera que los parámetros ICLD, ICTD e ICC (indicaciones) de una señal multicanal reconstruida en una salida 121 son similares a las indicaciones respectivas para la señal multicanal original en la entrada 110 en el codificador 112 BCC. Con este fin, el descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un bloque 123 de procesamiento de información lateral.

A continuación, se explica la construcción interna del bloque 122 de síntesis BCC con referencia a la figura 12. La señal de suma en la línea 115 se introduce en una unidad de conversión de tiempo/frecuencia o banco 125 de filtros FB. En la salida del bloque 125, existe un número N de señales de subbanda o, en un caso extremo, un bloque de coeficientes espectrales, cuando el banco 125 de filtros de audio realiza una transformada 1:1, es decir una transformada que produce N coeficientes espectrales a partir de N muestras de dominio del tiempo.

El bloque 122 de síntesis BCC comprende además una etapa 126 de retardo, una etapa 127 de modificación de nivel, una etapa 128 de procesamiento de correlación y una etapa 129 de banco de filtros inversos IFB. En la salida de la etapa 129, la señal de audio multicanal reconstruida tiene por ejemplo cinco canales en el caso de un sistema envolvente de cinco canales, puede emitirse a un conjunto de altavoces 124 tal como se ilustra en la figura 11.

\newpage

Tal como se muestra en la figura 12, la señal de entrada s(n) se convierte al dominio de la frecuencia o al dominio de banco de filtros por medio del elemento 125. La señal emitida por el elemento 125 se multiplica de tal manera que se obtienen varias versiones de la misma señal tal como se ilustra mediante el nodo 130 de multiplicación. El número de versiones de la señal original es igual al número de canales de salida en la señal de salida que va a reconstruirse cuando, en general, cada versión de la señal original en el nodo 130 se somete a cierto retardo d_{1}, d_{2}, ..., d_{i}, ..., d_{N}. Los parámetros de retardo se calculan mediante el bloque 123 de procesamiento de información lateral en la figura 11 y se derivan a partir de las diferencias de tiempo entre canales tal como se determina mediante el bloque 116 de análisis BCC.

Lo mismo es cierto para los parámetros de multiplicación a_{1}, a_{2}, ..., a_{i}, ..., a_{N}, que también se calculan mediante el bloque 123 de procesamiento de información lateral basándose en las diferencias de tiempo entre canales tal como se calcula mediante el bloque 116 de análisis BCC.

Los parámetros ICC calculados mediante el bloque 116 de análisis BCC se utilizan para controlar la funcionalidad del bloque 128, de tal manera que se obtienen ciertas correlaciones entre las señales retardadas y manipuladas en nivel en las salidas del bloque 128. Ha de observarse que el ordenamiento de las etapas 126, 127 y 128 puede ser diferente del caso mostrado en la figura 12.

Ha de observarse aquí que, en un procesamiento a lo largo de tramas de una señal de audio, el análisis BCC se realiza a lo largo de tramas, es decir variable en el tiempo y también a lo largo de la frecuencia. Esto significa que, para cada banda espectral, se obtienen los parámetros BCC. Esto significa que, en el caso de que el banco 125 de filtros de audio descomponga la señal de entrada en por ejemplo 32 señales de paso banda, el bloque de análisis BCC obtiene un conjunto de parámetros BCC para cada una de las 32 bandas. Naturalmente, el bloque 122 de síntesis BCC de la figura 11, que se muestra en detalle en la figura 12, realiza una reconstrucción que también se basa en las 32 bandas en el ejemplo.

A continuación, se hace referencia a la figura 13, que muestra una configuración para determinar ciertos parámetros BCC. Normalmente, los parámetros ICLD, ICTD e ICC pueden definirse entre pares de canales. Sin embargo, se prefiere determinar los parámetros ICLD e ICTD entre un canal de referencia y cada otro canal. Esto se ilustra en la figura 13A.

Los parámetros ICC pueden definirse de diferentes maneras. Más en general, se podrían estimar parámetros ICC en el codificador entre todos los pares de canales posibles tal como se indica en la figura 13B. En este caso, un descodificador sintetizaría ICC de tal manera que sea aproximadamente la misma que en la señal multicanal original entre todos los pares de canales posibles. Sin embargo, se propuso estimar sólo parámetros ICC entre los dos canales más fuertes cada vez. Este esquema se ilustra en la figura 13C, en la que se muestra un ejemplo, en el que en un momento de tiempo, se estima un parámetro ICC entre los canales 1 y 2, y en otro momento de tiempo, se calcula un parámetro ICC entre los canales 1 y 5. El descodificador sintetiza entonces la correlación entre canales entre los canales más fuertes en el descodificador y aplica alguna regla heurística para calcular y sintetizar la coherencia entre canales para los pares de canales restantes.

Respecto al cálculo de, por ejemplo, los parámetros de multiplicación a_{1}, aN basándose en los parámetros ICLD transmitidos, se hace referencia al artículo de convención AES 5574 citado anteriormente. Los parámetros ICLD representan una distribución de energía en una señal multicanal original. Sin pérdida de generalidad, se muestra en la figura 13A que hay cuatro parámetros ICLD que muestran la diferencia de energía entre todos los demás canales y el canal izquierdo frontal. En el bloque 123 de procesamiento de información lateral, se derivan los parámetros de multiplicación a_{1}, ..., a_{N} a partir de los parámetros ICLD de tal manera que la energía total de todos los canales de salida reconstruidos es la misma que (o proporcional a) la energía de la señal de suma transmitida. Una manera sencilla de determinar estos parámetros es un proceso de dos etapas, en el que, en una primera etapa, el factor de multiplicación para el canal frontal izquierdo se ajusta a la unidad, mientras que los factores de multiplicación para los demás canales en la figura 13A se ajustan a los valores ICLD transmitidos. Después, en una segunda etapa, se calcula la energía de todos los cinco canales y se compara con la energía de la señal de suma transmitida. Después, todos los canales se reducen en escala utilizando un factor de reducción de escala que es igual para todos los canales, donde el factor de reducción de escala se elige de tal manera que la energía total de todos los canales de salida reconstruidos es, después de la reducción de escala, igual a la energía total de la señal de suma transmitida.

Naturalmente, hay otros métodos para calcular los factores de multiplicación, que no se basan en el proceso de dos etapas sino que sólo requieren un proceso de una etapa.

Respecto a los parámetros de retardo, ha de observarse que los parámetros de retardo ICTD, que se transmiten desde un codificador BCC pueden utilizarse directamente, cuando el parámetro de retardo d_{1} para el canal frontal izquierdo se ajusta a cero. No tiene que realizarse reajuste a escala aquí, ya que un retardo no altera la energía de la señal.

Respecto a la medida de coherencia entre canales ICC transmitida desde el codificador BCC al descodificador BCC, ha de observarse en este momento que puede realizarse una manipulación de coherencia modificando los factor de multiplicación a1, ..., an tal como multiplicando los factores de ponderación de todas las subbandas con números aleatorios con valores entre 20log10(-6) y 201og10(6). La secuencia pseudoaleatoria se elige preferiblemente de tal manera que la varianza es aproximadamente constante para todas las bandas críticas, y el promedio es cero dentro de cada banda crítica. La misma secuencia se aplica a los coeficientes espectrales para cada trama diferente. Por tanto, el ancho de imagen de auditorio se controla modificando la varianza de la secuencia pseudoaleatoria. Una mayor varianza crea un ancho de imagen mayor.

La modificación de varianza puede realizarse en bandas individuales que son de un ancho de banda crítico. Esto permite la existencia simultánea de múltiples objetos en una escena de auditorio, teniendo cada objeto un ancho de imagen diferente. Una distribución de amplitud adecuada para la secuencia pseudoaleatoria es una distribución uniforme en una escala logarítmica tal como se comenta en la publicación de solicitud de patente estadounidense 2003/0219130 A1. Sin embargo, todo el procesamiento de síntesis BCC se relaciona con un único canal de entrada transmitido como la señal de suma desde el codificador BCC al descodificador BCC tal como se muestra en la figura 11.

Para transmitir los cinco canales de una manera compatible, es decir, en un formato de flujo de bits, que también es comprensible para un descodificador de estéreo normal, la denominada técnica de matrizado se ha utilizado tal como se describe en "MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3", G. Theile y G. Stoll, preimpresión AES 3403, octubre de 1992, San Francisco. Los cinco canales de entrada L, R, C, Ls y Rs se alimentan en un dispositivo de matrizado que realiza una operación de matrizado para calcular los canales de estéreo compatibles o básicos Lo, Ro a partir de los cinco canales de entrada. En particular, estos canales de estéreo básicos Lo/Ro se calculan tal como se establece a continuación:

1

x e y son constantes. Los otros tres canales C, Ls, Rs se transmiten como están en una capa de extensión, además de una capa de estéreo básica, que incluye una versión codificada de las señales de estéreo básicas Lo/Ro. Con respecto al flujo de bits, esta capa de estéreo básica Lo/Ro incluye una cabecera, información tal como factores de escala y muestras de subbanda. La capa de extensión multicanal, es decir el canal central y los dos canales envolventes se incluyen en el campo de extensión multicanal, que también se denomina campo de datos auxiliar.

En un lado del descodificador, se realiza una operación de matrizado inverso con el fin de formar reconstrucciones de los canales izquierdo y derecho en la representación de cinco canales utilizando los canales de estéreo básicos Lo, Ro y los tres canales adicionales. Adicionalmente, los tres canales adicionales se descodifican a partir de la información auxiliar con el fin de obtener una representación envolvente o de cinco canales descodificada de la señal de audio multicanal original.

Otro enfoque para codificación multicanal se describe en la publicación "Improved MPEG-2 audio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, preimpresión AES 3865, febrero de 1994, Amsterdam, en la que, para obtener compatibilidad hacia atrás, se consideran modos compatibles hacia atrás. Con este objetivo, se utiliza una matriz de compatibilidad para obtener dos denominados canales de downmix Lc, Rc a partir de los cinco canales de entrada originales. Además, es posible seleccionar dinámicamente los tres canales auxiliares que se transmiten como datos auxiliares.

Con fin de aprovecharse de la irrelevancia de estéreo, la técnica de estéreo conjunto se aplica a grupos de canales, por ejemplo los tres canales frontales, es decir, para el canal izquierdo, el canal derecho y el canal central. Con este objetivo, estos tres canales se combinan para obtener un canal combinado. Este canal combinado se cuantifica y empaqueta en el flujo de bits.

Después, este canal combinado junto con la información estéreo conjunto correspondiente se introduce en un módulo de descodificación de estéreo conjunto para obtener canales descodificados de estéreo conjunto, es decir un canal izquierdo descodificado de estéreo conjunto, un canal derecho descodificado de estéreo conjunto y un canal central descodificado de estéreo conjunto. Estos canales descodificados de estéreo conjunto se introducen, junto con el canal envolvente izquierdo y el canal envolvente derecho en un bloque de matriz de compatibilidad para formar el primer y el segundo canal de downmix Lc, Rc. Después, se empaquetan versiones cuantificadas de ambos canales de downmix y una versión cuantificada del canal combinado en el flujo de bits junto con parámetros de codificación de estéreo conjunto.

Por lo tanto, utilizando codificación de intensidad estéreo, se transmite un grupo de señales de canal original independientes dentro de una única parte de datos "portadores". El descodificador entonces reconstruye las señales implicadas como datos idénticos, que se vuelven a ajustar a escala según sus envolventes de tiempo-energía originales. Por consiguiente, una combinación lineal de los canales transmitidos llevará a resultados, que son bastante diferentes del downmix original. Esto se aplica a cualquier tipo de codificación de estéreo conjunto basada en el concepto de intensidad estéreo. Para un sistema de codificación que proporciona canales de downmix compatibles, hay una consecuencia directa: la reconstrucción por desmatrizado, tal como se describe en la publicación anterior, sufre los artefactos provocados por la reconstrucción imperfecta. Utilizando un denominado esquema de predistorsión de estéreo conjunto, en el que se realiza una codificación de estéreo conjunto de los canales izquierdo, derecho y central, antes del matrizado en el codificador, alivia este problema. De esta manera, el esquema de desmatrizado para la reconstrucción, introduce menos artefactos, ya que, en el lado del codificador, las señales descodificadas de estéreo conjunto se han utilizado para generar los canales de downmix. Por tanto, el proceso de reconstrucción imperfecta se desplaza a los canales de downmix compatibles Lc y Rc, en los que es mucho más probable que se enmascare por la propia señal de audio.

Aunque un sistema de este tipo ha dado como resultado en menos artefactos debido al desmatrizado en el lado del descodificador, sin embargo tiene algunas desventajas. Una desventaja es que los canales de downmix compatibles con estéreo Lc y Rc no se derivan a partir de los canales originales sino a partir de versiones codificadas/descodificada de intensidad estéreo de los canales originales. Por lo tanto, se incluyen pérdidas de datos debido al sistema de codificación de intensidad estéreo en los canales de downmix compatibles. Un descodificador sólo estéreo, que sólo descodifica los canales compatibles en lugar de los canales codificados de intensidad estéreo de mejora, por lo tanto, proporciona una señal de salida, que se ve afectada por las pérdidas de datos inducidas por intensidad estéreo.

Adicionalmente, tiene que transmitirse un canal adicional completo además de los dos canales de downmix. Este canal es el canal combinado, que se forma por medio de una codificación de estéreo conjunto del canal izquierdo, el canal derecho y el canal central. Adicionalmente, la información de intensidad estéreo para reconstruir los canales originales L, R, C a partir del canal combinado también tiene que transmitirse al descodificador. En el descodificador se realiza un desmatrizado inverso, es decir, una operación de desmatrizado, para derivar los canales envolventes a partir de los dos canales de downmix. Adicionalmente, se aproximan los canales originales izquierdo, derecho y central por descodificación de estéreo conjunto utilizando el canal combinado transmitido y los parámetros de estéreo conjunto transmitidos. Ha de observarse que los canales originales izquierdo, derecho y central se derivan por descodificación de estéreo conjunto del canal combinado.

Se ha descubierto que en el caso de técnicas de intensidad estéreo, cuando se utilizan en combinación con señales multicanal, sólo pueden producirse señales de salida totalmente coherentes que se basan en el mismo canal base.

En técnicas BCC, es bastante costoso reducir la coherencia entre canales en una señal de salida multicanal reconstruida, ya que se requiere un generador de números pseudoaleatorios para influir en los sectores de ponderación. Adicionalmente, se ha mostrado que este tipo de procesamiento es problemático ya que pueden introducirse artefactos debido a manipulación de manera aleatoria de factores de multiplicación o factores de retardo de tiempo, que pueden ser audibles bajo ciertas circunstancias y, por lo tanto, deterioran la calidad de la señal de salida multicanal reconstruida.

Sumario de la invención

Por lo tanto, un objeto de la presente invención es proporcionar un concepto para un procesamiento o procesamiento inverso eficaz en bits y con artefactos reducidos de una señal de audio multicanal.

Según el primer aspecto de la presente invención, este objeto se consigue mediante un aparato para construir una señal de salida multicanal utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada y un segundo canal de entrada derivados a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende: señal multicanal original; medios para determinar un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y para determinar un segundo canal base seleccionando el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y medios para sintetizar un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la ubicación del oyente considerada, y para sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.

Según el segundo aspecto de la presente invención, este objeto se consigue mediante un método de construcción de una señal de salida multicanal utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada y un segundo canal de entrada derivados a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende: determinar un primer canal base seleccionando uno del primero y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y determinar un segundo canal base seleccionando el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y sintetizar un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la posición del oyente considerada, y sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.

Según el tercer aspecto de la presente invención, este objeto se consigue mediante un aparato para generar una señal de downmix a partir de una señal original multicanal, teniendo la señal de downmix un número de canales que es inferior a un numero de canales originales, que comprende: medios para calcular un primer canal de downmix y un segundo canal de downmix utilizando una regla de downmix; medios para calcular información de nivel paramétrica que representa una distribución de energía entre los canales en la señal original multicanal; medios para determinar una medida de coherencia entre dos canales originales, estando ubicados los dos canales originales en un lado de una posición del oyente considerada; y medios para formar la señal de salida utilizando el primer y el segundo canal de downmix, la información de nivel paramétrica y sólo al menos una medida de coherencia entre dos canales originales ubicados en un lado o un valor derivado a partir de al menos una medida de coherencia, pero no utilizando ninguna medida de coherencia entre canales ubicados en diferentes lados de la posición del oyente considerada.

Según un cuarto aspecto de la presente invención, este objeto se consigue mediante un método para generar una señal de downmix a partir de una señal original multicanal, teniendo la señal de downmix un número de canales que es inferior a un número de canales originales, que comprende: calcular un primer canal de downmix y un segundo canal de downmix utilizando una regla de downmix; calcular información de nivel paramétrica que representa una distribución de energía entre dos canales en la señal original multicanal; determinar una medida de coherencia entre dos canales originales, estando ubicados los dos canales originales en un lado de una posición del oyente considerada; y formar una señal de salida utilizando el primer y el segundos canal de downmix, la información de nivel paramétrica y sólo al menos una medida de coherencia entre dos canales originales ubicados en un lado o un valor derivado a partir de la al menos una medida de coherencia, pero no utilizando ninguna medida de coherencia entre canales ubicados en diferentes lados de la posición del oyente considerada.

Según un quinto aspecto y un sexto aspecto de la presente invención, este objeto se consigue mediante un programa informático que incluye el método para construir la señal de salida multicanal o el método de generación de una señal de downmix.

La presente invención se basa en el hallazgo de que se obtiene una reconstrucción eficaz y con artefactos reducidos de una señal de salida multicanal, cuando hay dos o más canales, que pueden transmitirse de un codificador a un descodificador, donde los canales que son preferiblemente un canal de estéreo izquierdo y uno derecho muestran un cierto grado de incoherencia. Esto normalmente será el caso, ya que los canales de estéreo izquierdo y derecho o los canales de estéreo compatibles izquierdo y derecho según se obtienen por downmix de una señal multicanal normalmente mostrarán un cierto grado de incoherencia, es decir no serán totalmente coherentes o estarán totalmente correlacionados.

Según la presente invención, los canales de salida reconstruidos de la señal de salida multicanal se descorrelacionan entre sí determinando diferentes canales base para los diferentes canales de salida, donde los diferentes canales base se obtienen utilizando grados variables de los canales transmitidos no correlacionados.

Dicho de otro modo, un canal de salida reconstruido que tiene, por ejemplo, el canal de entrada transmitido izquierdo como un canal base estaría, en el dominio de subbanda BCC, totalmente correlacionado con otro canal de salida reconstruido que tiene el mismo, por ejemplo, canal izquierdo que el canal base considerando que no hay "síntesis de correlación" adicional. En este contexto, ha de observarse que los ajustes de nivel y retardo determinísticos no reducen la coherencia entre estos canales. Según la presente invención, la coherencia entre estos canales, que es del 100% en el ejemplo anterior, se reduce a un cierto grado de coherencia o medida de coherencia utilizando un primer canal base para construir el primer canal de salida y utilizando un segundo canal base para construir el segundo canal de salida, donde el primer y el segundo canal base tienen diferentes "partes" de los dos canales transmitidos (descorrelacionados). Esto significa que el primer canal base se ve influenciado más por el primero transmitido o es incluso idéntico al primer canal transmitido, comparado con el segundo canal base que se ve influenciado menos por el primer canal, es decir, que se ve más influenciado por el segundo canal transmitido.

Según la presente invención, la descorrelación inherente entre los canales transmitidos se utiliza para proporcionar canales descorrelacionados en una señal de salida multicanal.

En una realización preferida, se determina una medida de coherencia entre pares de canales respectivos tales como el izquierdo frontal y el envolvente izquierdo o el derecho frontal y el envolvente derecho en un codificador de una forma dependiente del tiempo y dependiente de la frecuencia y se transmite como información lateral, a un descodificador de la invención de tal manera que puede obtenerse una determinación dinámica de canales base y, por lo tanto, una manipulación dinámica de coherencia entre los canales de salida reconstruidos.

En comparación con el caso de la técnica anterior mencionado anteriormente, en el que sólo se transmite una indicación ICC para los dos canales mas fuertes, el sistema de la invención es mas fácil de controlar y proporciona una reconstrucción de mejor calidad, ya que no es necesaria la determinación de los canales mas fuertes en un codificador o descodificador, ya que la medida de coherencia inventiva siempre se refiere al mismo par de canales independientemente del hecho de si este par de canales incluye los canales más fuertes o no. Se obtiene calidad superior comparado con los sistemas de la técnica anterior porque se transmiten dos canales de downmix desde un codificador a un descodificador, de tal manera que la relación de coherencia izquierda/derecha se transmite automáticamente de tal modo que no se requiere información adicional sobre una coherencia izquierda/derecha.

Una ventaja adicional de la presente invención tiene que verse en el hecho de que puede reducirse una carga de trabajo de cálculo en el lado del descodificador, puesto que la carga de procesamiento de descorrelación normal puede reducirse o incluso eliminarse completamente.

Preferiblemente, la información lateral de canal paramétrica para uno o más de los canales originales se deriva de tal manera que se refiere a uno de los canales de downmix en lugar de, como en la técnica anterior, a un canal de estéreo conjunto "combinado" adicional. Esto significa que la información lateral de canal paramétrica se calcula de tal manera que, en un lado de descodificador, un reconstructor de canal utiliza la información lateral de canal y uno de los canales de downmix o una combinación de los canales de downmix para reconstruir una aproximación del canal de audio original, al cual se asigna la información lateral de canal.

Este concepto es ventajoso porque proporciona una extensión multicanal eficaz en bits de tal manera que puede reproducirse una señal de audio multicanal en un descodificador.

Adicionalmente, el concepto es compatible hacia atrás, ya que un descodificador de escala inferior que sólo está adaptado para procesamiento de dos canales, puede simplemente ignorar la información de extensión, es decir, la información lateral de canal. El descodificador de escala inferior sólo puede reproducir los dos canales de downmix para obtener una representación estéreo de la señal de audio multicanal original.

Sin embargo, un descodificador de escala superior, que está habilitado para funcionamiento multicanal, puede utilizar la información lateral de canal transmitida para reconstruir aproximaciones de los canales originales.

La presente realización es ventajosa ya que es eficaz en bits, puesto que, en contraste con la técnica anterior no se requiere ningún canal portador adicional más allá del primer y el segundo canal de downmix Lc, Rc. En su lugar, la información lateral de canal se refiere a uno o ambos canales de downmix. Esto significa que los propios canales de downmix sirven como un canal portador, con el que se combina la información lateral de canal para reconstruir un canal de audio original. Esto significa que la información lateral de canal es preferiblemente información lateral paramétrica, es decir, información que no incluye ninguna muestra de subbanda o coeficientes espectrales. En su lugar, la información lateral paramétrica es información utilizada para ponderar (en tiempo y/o frecuencia) el canal de downmix respectivo o la combinación los canales de downmix respectivos para obtener una versión reconstruida de un canal original seleccionado.

En una realización preferida de la presente invención, se obtiene una codificación compatible hacia atrás de una señal multicanal basada en una señal de estéreo compatible. Preferiblemente, la señal de estéreo compatible (señal de downmix) se genera utilizando matrizado de los canales originales de señales de audio multicanal.

Preferiblemente, la información lateral de canal para un canal original seleccionado se obtiene basándose en técnicas de estero conjunto tales como codificación de intensidad estéreo o codificación de indicación binaural. Por tanto, en el lado del descodificador, no tiene que realizarse ninguna operación de desmatrizado. Los problemas asociados con el desmatrizado, es decir, se evitan ciertos artefactos relacionados con una distribución indeseable de ruido de cuantificación en operaciones de desmatrizado. Esto se debe al hecho de que el descodificador utiliza un reconstructor de canal, que reconstruye una señal original, utilizando uno de los canales de downmix o una combinación de los canales de downmix y la información lateral de canal transmitida.

Preferiblemente, el concepto inventivo se aplica a una señal de audio multicanal que tienen cinco canales. Estos cinco canales son un canal izquierdo L, un canal derecho R, un canal central C, un canal envolvente izquierdo Ls, y un canal envolvente derecho Rs. Preferiblemente, los canales de downmix son canales de downmix compatibles con estéreo Ls y Rs, que proporcionan una representación estéreo de la señal de audio multicanal original.

Según la realización preferida en la presente invención, para cada canal original, se calcula información lateral de canal en un lado de codificador empaquetada en los datos de salida. La información lateral de canal para el canal izquierdo original se deriva utilizando el canal de downmix izquierdo. La información lateral de canal para el canal envolvente izquierdo original se deriva utilizando el canal de downmix izquierdo. La información lateral de canal para el canal derecho original se deriva a partir del canal de downmix derecho. La información lateral de canal para el canal envolvente derecho original se deriva a partir del canal de downmix derecho.

Según la realización preferida de la presente invención, la información de canal para el canal central original se deriva utilizando el primer canal de downmix así como el segundo canal de downmix, es decir, utilizando una combinación de los dos canales de downmix. Preferiblemente, esta combinación es una suma.

\newpage

Por tanto, los agrupamientos, es decir, la relación entre la información lateral de canal y la señal portadora, es decir, el canal de downmix utilizado para proporcionar información lateral de canal para un canal original seleccionado, son tales que, para calidad optima, se selecciona un cierto canal de downmix, que contiene la cantidad relativa mas alta posible de la señal multicanal original respectiva que se representa por medio de información lateral de canal. Como tal se utilizan una señal portadora de estéreo conjunto, el primer y el segundo canal de downmix. Preferiblemente, también puede utilizarse la suma del primer y el segundo canal de downmix. Naturalmente, la suma del primer y el segundo canal de downmix puede utilizarse para calcular la información lateral de canal para cada uno de los canales originales. Sin embargo, preferiblemente la suma de los canales de downmix se utiliza para calcular la información lateral de canal del canal central original en un entorno envolvente, tal como envolvente de cinco canales, envolvente de siete canales, envolvente 5.1 o envolvente 7.1. Utilizar la suma del primer y el segundo canal de downmix es especialmente ventajoso, ya que no tiene que realizarse sobrecarga de transmisión adicional. Esto se debe al hecho de que ambos canales de downmix están presentes en el descodificador, de tal manera que la suma de estos canales de downmix puede realizarse fácilmente en el descodificador sin requerir ningún bit de transmisión
adicional.

Preferiblemente, la información lateral de canal que forma la extensión multicanal se introduce en el flujo de bits de datos de salida de una manera compatible, de tal manera que un descodificador de escala inferior simplemente ignora los datos de extensión multicanal y sólo proporciona una representación estéreo de la señal de audio multicanal.

Sin embargo, un codificador de escala superior no sólo utiliza dos canales de downmix, si no que, además, emplea la información lateral de canal para reconstruir una representación multicanal completa de la señal de audio original.

Breve descripción de los dibujos

Posteriormente se describen realizaciones preferidas de la presente invención en referencia a los dibujos adjuntos, en los que:

la figura 1A es un diagrama de bloques de una realización preferida del codificador de la invención;

la figura 1B es un diagrama de bloques de un codificador de la invención para proporcionar una medida de coherencia para pares de canales de entrada respectivos.

la figura 2A es un diagrama de bloques de una realización preferida del descodificador de la invención;

la figura 2B es un diagrama de bloques de un descodificador de la invención que tiene diferentes canales base para diferentes canales de salida;

la figura 2C es un diagrama de bloques de una realización preferida de los medios para sintetizar de la figura 2B;

la figura 2D es un diagrama de bloques de una realización preferida del aparato mostrado en la figura 2C para un sistema envolvente de 5 canales;

la figura 2E es una representación esquemática de medios para determinar una medida de coherencia en un codificador de la invención;

la figura 2F es una representación esquemática de un ejemplo preferido para determinar un factor de ponderación para calcular un canal base que tiene una cierta medida de coherencia con respecto a otro canal base;

la figura 2G es un diagrama esquemático de una manera preferida de obtener un canal de salida reconstruido basándose en un cierto factor de ponderación calculado mediante el esquema mostrado en la figura 2F;

la figura 3A es un diagrama de bloques para una implementación preferida de los medios de cálculo para obtener la información lateral de canal selectiva en frecuencia;

la figura 3B es una realización preferida de un calculador que implementa procesamiento de estéreo conjunto tal que como codificación de intensidad o codificación de indicación binaural;

la figura 4 ilustra otra realización preferida de los medios para calcular información lateral de canal, en los que la información lateral de canal son factores de ganancia;

la figura 5 ilustra una realización preferida de una implementación del descodificador, cuando el codificador se implementa tal como en la figura 4;

la figura 6 ilustra una implementación preferida de los medios para proporcionar los canales de downmix;

la figura 7 ilustra agrupamientos de canales originales y de downmix para calcular la información lateral de canal para los canales originales respectivos;

la figura 8 ilustra otra realización preferida de un codificador de la invención;

la figura 9 ilustra otra implementación de un descodificador de la invención; y

la figura 10 ilustra un codificador de estéreo conjunto de la técnica anterior;

la figura 11 es una representación de diagrama de bloques de una cadena de descodificador/codificador BCC de la técnica anterior;

la figura 12 es un diagrama de bloques de una implementación de la técnica anterior de un bloque de síntesis BCC de la figura 11;

la figura 13 es una representación de un esquema bien conocido para determinar los parámetros ICLD, ICTD e ICC;

la figura 14A es una representación esquemática del esquema para atribuir diferentes canales base para la reproducción de diferentes canales de salida;

la figura 14B es una representación de los pares de canales necesarios para determinar los parámetros ICC e ICTD;

la figura 15A es una representación esquemática de una primera selección de canales base para construir una señal de salida de 5 canales; y

la figura 15B es una representación esquemática de una segunda selección de canales base para construir una señal de salida de 5 canales.

\vskip1.000000\baselineskip

Descripción detallada de realizaciones preferidas

La figura 1A muestra un aparato para procesar una señal 10 de audio multicanal que tiene al menos tres canales originales tales como R, L y C. Preferiblemente, la señal de audio original tiene más de tres canales, tales como cinco canales en el entorno envolvente, lo que se ilustra en la figura 1A. Los cinco canales son el canal izquierdo L, el canal derecho R, el canal central C, el canal envolvente izquierdo Ls y el canal envolvente derecho Rs. El aparato de la invención incluye medios 12 para proporcionar un primer canal de downmix Lc y un segundo canal de downmix Rc, derivándose el primer y el segundo canal de downmix a partir de los canales originales. Para derivar los canales de downmix a partir de los canales originales, existen varias posibilidades. Una posibilidad es derivar los canales de downmix Lc y Rc por medio de matrizado de los canales originales utilizando una operación de matrizado tal como se ilustra en la figura 6. Esta operación de matrizado se realiza en el dominio del tiempo.

Los parámetros de matrizado a, b y t se seleccionan de tal manera que son menores que o igual a 1. Preferiblemente, a y b son 0,7 ó 0,5. El parámetro de ponderación global t se elige preferiblemente de tal modo que se evita recorte de canal.

Como alternativa, tal como se indica en la figura 1A, los canales de downmix Lc y Rc también pueden suministrarse externamente. Esto puede realizarse cuando los canales de downmix Lc y Rc son el resultado de una operación de "mezclado a mano". En este escenario, un ingeniero de sonido mezcla los canales de downmix por sí mismo en lugar de utilizar una operación de matrizado automatizada. El ingeniero de sonido realiza mezclado creativo para obtener canales de downmix optimizados Lc y Rc que dan la mejor representación estéreo posible de la señal de audio multicanal original.

En caso de un suministro externo de los canales de downmix, los medios para proporcionar no realizan una operación de matrizado sino simplemente reenvían los canales de downmix suministrados externamente a medios 14 de cálculo posteriores.

Los medios 14 de cálculo están operativos para calcular la información lateral de canal tal como l_{i}, ls_{i}, r_{i} o rs_{i} para canales originales seleccionados tales como L, Ls, R o Rs, respectivamente. En particular, los medios 14 para cálculo están operativos para calcular la información lateral de canal tal como un canal de downmix, cuando se ponderan utilizando la información lateral de canal, se da como resultado una aproximación del canal original seleccionado.

Como alternativa o adicionalmente, los medios para calcular la información lateral de canal están operativos además para calcular la información lateral de canal para un canal original seleccionado, de tal manera que un canal de downmix combinado que incluye una combinación del primer el y segundo canal de downmix, cuando se ponderan utilizando la información lateral de canal calculada, da como resultado una aproximación del canal original seleccionado.

Para mostrar esta característica en la figura, se ilustran un sumador 14a y un calculador 14b de información lateral de canal combinado.

Está claro para los expertos en la técnica que estos elementos no tienen que implementarse como elementos distintos. En su lugar, toda la funcionalidad de los bloques 14, 14a y 14b puede implementarse por medio de un cierto procesador que puede ser un procesador de propósito general o cualquier otro medio para realizar la funcionalidad requerida.

Adicionalmente, ha de observarse en este momento que las señales de canal que son muestras de subbanda o valores de dominio de la frecuencia se indican en letras mayúsculas. La información lateral de canal, en contraste con los propios canales, se indica mediante letras minúsculas. La información lateral de canal c; es, por lo tanto, la información lateral de canal para el canal central original C.

La información lateral de canal así como los canales de downmix Lc y Rc o una versión codificada Lc' y Rc' como se produce por un codificador 16 de audio se introducen en un formateador 18 de datos de salida. En general, el formateador 18 de datos de salida actúa como medios para generar datos de salida, incluyendo los datos de salida la información lateral de canal para al menos un canal original, el primer canal de downmix o una señal derivada a partir del primer canal de downmix (tal como una versión codificada del mismo) y el segundo canal de downmix o una señal derivada a partir del segundo canal de downmix (tal como una versión codificada del mismo).

Los datos de salida o el flujo 20 de bits de salida pueden transmitirse entonces a un descodificador de flujo de bits o pueden almacenarse o distribuirse. Preferiblemente, el flujo 20 de bits de salida es un flujo de bits compatible que también puede leerse mediante un descodificador de escala inferior que no tenga capacidad de extensión multicanal. Estos codificadores de escala inferior tales como los descodificadores mp3 del estado de la técnica normales más existentes, simplemente ignorarán los datos de extensión multicanal, es decir, la información lateral de canal. Sólo descodificarán el primer y el segundo canal de downmix para producir una salida estéreo. Los descodificadores de escala superior, tales como los descodificadores habilitados para multicanal leerán la información lateral de canal y generarán
una aproximación de los canales de audio originales de tal manera que se obtiene una impresión de audio multicanal.

La figura 8 muestra una realización preferida de la presente invención en el entorno de envolvente de cinco canales/mp3. En este caso, se prefiere escribir los datos de mejora envolvente en el campo de datos auxiliar en la sintaxis de flujo de bits mp3 estandardizada de tal manera que se obtiene un flujo de bits "mp3 envolvente".

La figura 1B ilustra una representación más detallada del elemento 14 de la figura 1A. En una realización preferida de la presente invención, un calculador 14 incluye medios 141 para calcular información de nivel paramétrica que representa una distribución de energía entre los canales en la señal original multicanal mostrada en 10 en la figura 1A. El elemento 141 por lo tanto puede generar información de nivel de salida para todos los canales originales. En una realización preferida, esta información de nivel incluye parámetros ICLD obtenidos por síntesis BCC regular tal como se ha descrito en conexión con las figuras 10 a 13.

El elemento 14 además comprende medios 142 para determinar una medida de coherencia entre dos canales originales ubicados en un lado de la posición del oyente considerada. En caso del ejemplo envolvente de 5 canales mostrado en la figura 1A, tal par de canales incluye el canal derecho R y el canal envolvente derecho Rs o, como alternativa o adicionalmente el canal izquierdo L y el canal envolvente izquierdo Ls. El elemento 14 como alternativa comprende además medios 143 para calcular la diferencia de tiempo para tal par de canales, es decir, un par de canales que tiene canales que están ubicados en un lado de una posición del oyente considerada.

El formateador 18 de datos de salida de la figura 1A está operativo para introducir en el flujo de datos en 20 la información de nivel que representa una distribución de energía entre los canales en la señal original multicanal y una medida de coherencia sólo para el par de canales izquierdo y envolvente izquierdo y/o el par de canales derecho y envolvente derecho. El formateador de datos de salida, sin embargo, está operativo para no incluir cualquier otra medida de coherencia u opcionalmente diferencias de tiempo en la señal de salida de tal manera que la cantidad de información lateral se reduce comparado con el esquema de la técnica anterior en el que se transmitían indicaciones ICC para todos los pares de canales posibles.

Para ilustrar el codificador de la invención tal como se muestra en la figura 1B con más detalle, se hace referencia a la figura 14A y la figura 14B. En la figura 14A, se da una disposición de los altavoces de canal para un sistema de 5 canales de ejemplo con respecto a una posición del oyente considerada, que se ubica en el punto central de un círculo en el cual se colocan los altavoces respectivos. Tal como se comentó anteriormente, el sistema de 5 canales incluye un canal envolvente izquierdo, un canal izquierdo, un canal central, un canal derecho y un canal envolvente derecho. Naturalmente, un sistema de este tipo también puede incluir un canal de altavoz de graves que no se muestra en la figura 14.

Ha de observarse en este caso que el canal envolvente izquierdo también puede denominarse como "canal izquierdo posterior". Lo mismo es cierto para el canal envolvente derecho. Este canal también se conoce como el canal derecho posterior.

En contraste con el estado de la técnica BBC con un canal de transmisión, en el que se utiliza el mismo canal base, es decir la señal mono transmitida tal como se muestra en la figura 11 para generar cada uno de los N canales de salida, el sistema de la invención utiliza, como un canal base, uno de los N canales transmitidos o una combinación lineal de los mismos como el canal base para cada uno de los N canales de salida.

Por lo tanto, la figura 14 muestra un esquema N a M, es decir un esquema en el que N canales originales se someten a downmix para dar dos canales de downmix. En el ejemplo de la figura 14, N es igual a 5 mientras que M es igual a 2. En particular, para la reconstrucción de canal izquierdo frontal, se utiliza el canal izquierdo L_{C} transmitido. Análogamente, para la reconstrucción de canal derecho frontal, se utiliza el segundo canal R_{C} transmitido como el canal base. Adicionalmente, se utiliza una combinación igual de L_{C} y R_{C} como el canal base para reconstruir el canal central. Según una realización de la presente invención, se transmiten adicionalmente medidas de correlación desde un codificador a un descodificador. Por lo tanto, para el canal envolvente izquierdo, no sólo se utiliza el canal izquierdo L_{C} transmitido sino el canal transmitido L_{C} + \alpha_{1}R_{C} de tal manera que el canal base para reconstruir el canal envolvente izquierdo no es completamente coherente con el canal base para reconstruir el canal izquierdo frontal. Análogamente, se realiza el mismo procedimiento para el lado derecho (con respecto a la posición del oyente considerada), porque el canal base para reconstruir el canal envolvente derecho es diferente del canal base para reconstruir el canal derecho frontal, donde la diferencia depende de la medida de coherencia \alpha2 que preferiblemente se transmite desde un codificador a un descodificador como información lateral.

El proceso de la invención, por lo tanto, es único ya que para la reproducción cada canal de salida preferible, se utiliza un canal base diferente, donde los canales base son iguales a los canales transmitidos o una combinación lineal de los mismos. Esta combinación lineal puede depender de los canales base transmitidos en grados variables, en la que estos grados dependen de medidas de coherencia que dependen de la señal multicanal original.

El proceso de obtener los N canales base dados los M canales transmitidos se denomina "upmixing". Este upmixing puede implementarse multiplicando un vector con los canales transmitidos por una matriz NxM para generar N canales base. Al hacerlo, se forman combinaciones lineales de canales de señal transmitidos para producir señales base para las señales de canal de salida. Un ejemplo específico para upmixing se muestra en la figura 14A, que es un esquema 5 a 2 aplicado para generar un señal de salida envolvente de 5 canales con una transmisión estéreo de 2 canales. Preferiblemente, el canal base para un canal de salida de altavoz de graves adicional es el mismo que el canal central L+R. En una realización preferida de la presente invención, se proporciona una medida de coherencia variable en el tiempo y, opcionalmente, variante en frecuencia, de tal manera que se obtiene una matriz de upmixing adaptativa con el tiempo, que es, opcionalmente, también selectiva en frecuencia.

A continuación, se hace referencia a la figura 14B que muestra un entorno para la implementación de codificador de la invención ilustrada en la figura 1 B. En este contexto, ha de observarse que las indicaciones ICC e ICTD entre izquierdo y derecho y envolvente izquierdo y envolvente derecho son las mismos que en la señal de estéreo transmitida. De esta manera, según la presente invención, no hay necesidad de utilizar indicaciones ICC e ICTD entre izquierdo y derecho y envolvente izquierdo y envolvente derecho para sintetizar o reconstruir una señal de salida. Otra razón para no sintetizar indicaciones ICC e ICTD entre izquierdo y derecho y envolvente izquierdo y envolvente derecho es el objetivo general que establece que los canales base tienen que modificarse lo menos posible para mantener calidad de señal máxima. Cualquier modificación de señal introduce potencialmente artefactos o no naturalidad.

Por lo tanto, sólo se proporciona una representación de nivel de la señal multicanal original que se obtiene proporcionando las indicaciones ICLD, mientras que, según la presente invención, los parámetros ICC e ICTD sólo se calculan y transmiten para pares de canales en un lado de la posición del oyente considerada. Esto se ilustra por la línea discontinua 144 para el lado izquierdo y la línea discontinua 145 para el lado derecho en la figura 14B. En contraste con ICC e ICTD, la síntesis ICLD es más bien no problemática con respecto a artefactos y no naturalidad, debido a que sólo implica ajuste a escala de señales de subbanda. Por tanto, se sintetizan ICLD como generalmente en BCC regular, es decir entre un canal de referencia y todos los demás canales. Hablando más en general, en un esquema N 2 M, se sintetizan ICLD entre pares de canales de manera similar a BCC regular. Las indicaciones ICC e ICTD, sin embargo, según la presente invención, sólo se sintetizan entre pares de canales que están en el mismo lado con respecto a la posición del oyente considerada, es decir, para el par de canales que incluye el canal izquierdo frontal y el envolvente izquierdo o el par de canales que incluye el canal derecho frontal y el envolvente derecho.

En el caso de sistemas envolventes de 7 canales o más, en los que hay tres canales en el lado izquierdo y tres canales en el lado derecho, puede aplicarse el mismo esquema, en el que sólo se transmiten parámetros de coherencia para pares de canales posibles en el lado izquierdo o el lado derecho, para proporcionar diferentes canales base para la reconstrucción de los diferentes canales de salida en un lado de la posición del oyente considerada. El codificador N a M de la invención tal como se muestra en la figura 1A y la figura 1B es, por lo tanto, único ya que las señales de entrada se someten a downmix para dar no un único canal sino M canales, y que las indicaciones ICTD e ICC se estiman y transmiten sólo entre los pares de canales para los cuales es necesario.

En un sistema envolvente de 5 canales, la situación se muestra en la figura 14B de lo cual queda claro que al menos tiene que transmitirse una medida de coherencia entre el izquierdo y el envolvente izquierdo. Esta medida de coherencia también puede utilizarse para proporcionar descorrelación entre el derecho y el envolvente derecho. Esta es una implementación de información lateral baja. En caso de que se tenga más capacidad de canal disponible, también puede generarse y transmitirse una medida de coherencia separada entre el canal derecho y envolvente derecho de tal manera que, en un descodificador de la invención, pueden obtenerse también diferentes grados de descorrelación en el lado izquierdo y en el lado derecho.

La figura 2A muestra una ilustración de un descodificador de la invención que actúa como un aparato para datos de entrada de procesamiento inverso recibidos en un puerto 22 de datos de entrada. Los datos recibidos en el puerto 22 de datos de entrada son los mismos datos que la salida en el puerto 20 de datos de salida en la figura 1A. Como alternativa, cuando los datos no se transmiten a través de un canal cableado sino a través de un canal inalámbrico, los datos recibidos en el puerto 22 de entrada de datos son datos derivados a partir de los datos originales producidos por el codificador.

Los datos de entrada del descodificador se introducen en un lector 24 de flujo de datos para leer los datos de entrada para finalmente obtener la información 26 lateral de canal y el canal 28 de downmix izquierdo y el canal 30 de downmix derecho. En caso que los datos de entrada incluyan versiones codificadas de los canales de downmix, que corresponde al caso, en el que el codificador 16 de audio de la figura 1A está presente, el lector 24 de flujo de datos también incluye un descodificador de audio, que está adaptado al codificador de audio utilizado para codificar los canales de downmix. En este caso, el descodificador de audio, que es parte del lector 24 de flujo de datos, está operativo para generar el primer canal de downmix L_{C} y el segundo canal de downmix R_{C}, o dicho en forma más exacta, una versión descodificada de esos canales. Para facilidad de descripción, sólo se hace una distinción entre señales y versiones descodificadas de las mismas cuando se establece explícitamente.

La información 26 lateral de canal y los canales 28 y 30 de downmix izquierdo y derecho emitidos por el lector 24 de flujo de datos se alimentan en un reconstructor 32 multicanal, para proporcionar una versión 34 reconstruida de las señales de audio originales, que pueden reproducirse por medio de un reproductor 36 multicanal. En caso que el reconstructor multicanal esté operativo en el dominio de la frecuencia, el reproductor 36 multicanal recibirá datos de entrada de dominio de la frecuencia, que tienen que descodificarse de una cierta manera tal como convertirse al dominio del tiempo antes de reproducirlos. Con este objetivo, el reproductor 36 multicanal también puede incluir recursos de descodificación.

Ha de observarse en este momento que un descodificador de escala inferior sólo tendrá el lector 24 de flujo de datos, que sólo emite los canales 28 y 30 de downmix izquierdo y derecho a una salida 38 estéreo. Un descodificador de la invención mejorado, sin embargo, extraerá la información 26 lateral de canal y utilizará esta información lateral y los canales 28 y 30 de downmix para reconstruir versiones 34 reconstruidas de los canales originales utilizando el reconstructor 32 multicanal.

La figura 2B muestra una implementación de la invención del reconstructor 32 multicanal de la figura 2A. Por lo tanto, la figura 2B muestra un aparato para construir una señal de salida multicanal utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada y un segundo canal de entrada derivado a partir de una señal multicanal original, y describiendo la información lateral paramétrica interrelaciones entre canales de la señal original multicanal. El aparato de la invención mostrado en la figura 2B incluye medios 320 para proporcionar una medida de coherencia que depende de un primer canal original y un segundo canal original, estando incluidos el primer canal original y el segundo canal original en la señal multicanal original. En caso que la medida de coherencia se incluya en la información lateral paramétrica, la información lateral paramétrica se introduce en medios 320 tal como se ilustra en la figura 2B. La medida de coherencia que se proporciona por los medios 320 se introduce en los medios 322 para determinar canales base. En particular, los medios 322 están operativos para determinar un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación predeterminada del primer y el segundo canal de entrada. Los medios 322 están operativos además para determinar un segundo canal base utilizando la medida de coherencia de tal manera que el segundo canal base es diferente del primer canal base debido a la medida de coherencia. En el ejemplo mostrado en la figura 2B, que se refiere al sistema de envolvente de 5 canales, el primer canal de entrada es el canal de estéreo compatible izquierdo L_{C}; y el segundo canal de entrada es el canal de estéreo compatible derecho R_{C}. Los medios 322 están operativos para determinar los canales base que ya se han descrito en conexión con la figura 14A. Por tanto, a la salida de los medios 322, se obtiene un canal base separado por cada uno de los canales de salida que han de reconstruirse, en los que, preferiblemente, los canales base emitidos por los medios 322 son todos diferentes entre sí, es decir, tienen una medida de coherencia entre los mismos, que es diferente para cada par.

Los canales base emitidos por los medios 322 y la información lateral paramétrica tal como ICLD, ICTD o información de intensidad estéreo se introducen en los medios 324 para sintetizar el primer canal de salida tal como L utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado L, que es una versión reproducida del primer canal original correspondiente, y para sintetizar un segundo canal de salida tal como Ls utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original. Además, los medios 324 para sintetizar están operativos para reproducir el canal derecho R y el canal envolvente derecho Rs utilizando otro par de canales base, donde los canales base en este otro par son diferentes entre sí debido a la medida de coherencia o debido a una medida de coherencia adicional que se ha derivado para el par de canales derecho/envolvente derecho.

Una implementación más detallada del descodificador de la invención se ilustra en la figura 2C. Puede verse que en la realización preferida que se muestra en la figura 2C, la estructura general es similar a la estructura que ya se ha descrito en conexión con la figura 12 para un descodificador BCC de la técnica anterior del estado de la técnica. Contrariamente a la figura 12, el esquema de la invención mostrado en la figura 2C incluye dos bancos de filtros de audio, es decir un banco de filtros para cada señal de entrada. Naturalmente, también es suficiente un único banco de filtros. En este caso, se requiere un control que se introduce en el único banco de filtros, las señales de entrada en un orden secuencial. Los bancos de filtros se ilustran mediante los bloques 319a y 319b. La funcionalidad de los elementos 320 y 322, que se ilustran en la figura 2B, se incluye en un bloque 323 de upmixing en la figura 2C.

A la salida del bloque 323 de upmixing, se obtienen los canales base, que son diferentes entre sí. Esto está en contraste con la figura 12, en la que los canales base en el nodo 130 son idénticos entre sí. Los medios 324 de síntesis mostrados en la figura 2B incluyen preferiblemente una etapa 324a de retardo, una etapa 324b de modificación de nivel y, en algunos casos, una etapa de procesamiento para realizar tareas 324c de procesamiento adicional así como un número respectivo de bancos 324d de filtros de audio inversos. En una realización, la funcionalidad de los elementos 324a, 324b, 324c y 324d puede ser la misma que en el dispositivo de la técnica anterior descrito en conexión con la figura 12.

La figura 2D muestra un ejemplo más detallado de la figura 2C para una configuración envolvente de 5 canales, en la que se introducen dos canales de entrada y_{1} e y_{2} y se obtienen cinco canales de salida construidos tal como se muestra en la figura 2D. En contraste con la figura 2C, se da un diseño más detallado del bloque 323 de upmixing. En particular, se ilustra un dispositivo 330 de suma para proporcionar los canales base para reconstruir un canal de salida central. Adicionalmente, dos bloques 331, 332 con título "W" se muestran en la figura 2D. Estos bloques realizan la combinación ponderada de los dos canales de entrada basándose en la medida de coherencia K que se introduce en una entrada 334 de medida de coherencia. Preferiblemente, el bloque 331 ó 332 de ponderación también realiza operaciones de procesamiento posterior respectivas para los canales base tales como suavizado en el tiempo y frecuencia tal como se comentará a continuación. Por tanto, la figura 2C es un caso general de la figura 2D, en la que la figura 2C ilustra cómo se generan los N canales de salida, dados los M canales de entrada del descodificador. Las señales transmitidas se transforman a un dominio de subbanda.

El proceso de cálculo de los canales base para cada canal de salida se denota como upmixing, debido a que cada canal base preferiblemente es una es una combinación lineal de los canales transmitidos. El upmixing puede realizarse en el dominio del tiempo o en el dominio de subbanda o frecuencia.

Para calcular cada canal base, puede aplicarse un cierto procesamiento para reducir efectos de cancelación/amplifi-
cación cuando los canales transmitidos están desfasados o en fase. La ICTD se sintetiza imponiendo retardos en las señales de subbanda e la ICLD se sintetiza ajustando a escala las señales de subbanda. Pueden utilizarse diferentes técnicas para sintetizar ICC tales como manipular los factores de ponderación o los retardos de tiempo por medio de una secuencia de números aleatorios. Sin embargo, ha de observarse en este momento que preferiblemente, no se realiza ningún procesamiento de coherencia/correlación entre canales de salida excepto la determinación de la invención de los diferentes canales base para cada canal de salida. Por lo tanto, un dispositivo de la invención preferido procesa indicaciones ICC recibidas desde un codificador para construir los canales base e indicaciones ICTD e ICLD recibidas desde un codificador para manipular el canal base ya construido. Por tanto, las indicaciones ICC o, hablando de manera más generar, las medidas de coherencia no se utilizan para manipular un canal base sino que se utilizan para construir el canal base que se manipula posteriormente.

En el ejemplo específico mostrado en la figura 2D, se descodifica una señal envolvente de cinco canales de una transmisión estéreo de 2 canales. Una señal de estéreo de 2 canales transmitida se convierte a un dominio de subbanda. Después, se aplica upmixing para generar cinco canales base diferentes preferibles. Las indicaciones ICTD sólo se sintetizan entre el izquierdo y el envolvente izquierdo, y el derecho y el envolvente derecho aplicando retardos di(k) tal como se ha comentado en conexión con la figura 14B. También, se utilizan las medidas de coherencia para construir los canales base (bloques 331 y 332) en la figura 2D en vez de para realizar cualquier procesamiento posterior en el bloque 324c.

De manera inventiva, las indicaciones ICC e ICTD entre izquierdo y derecho y envolvente izquierdo y envolvente derecho se mantienen como en la señal de estéreo transmitida. Por lo tanto, serán suficientes una única indicación ICC y un parámetro de una única indicación ICTD y, por lo tanto, se transmitirán desde un codificador a un
descodificador.

En otra realización, pueden calcularse indicaciones ICC e indicaciones ICTD para ambos lados en un codificador. Estos dos valores pueden transmitirse desde un codificador a un descodificador. Como alternativa, el codificador puede calcular una indicación ICC o ICTD resultante introduciendo las indicaciones para ambos lados en una función matemática tal como una función promedio, etc., para derivar el valor resultante a partir de las dos medidas de coherencia.

A continuación, se hace referencia a las figuras 15a y 15b para mostrar una implementación de baja complejidad del concepto inventivo. Mientras que una implementación de alta complejidad requiere una determinación del lado del codificador de la medida de coherencia, al menos entre un par de canales en un lado de la parte del oyente considerada, y la transmisión de esta medida de coherencia preferiblemente en una forma cuantificada y codificada de entropía, la versión de baja complejidad no requiere ninguna determinación de medida de coherencia en el lado del codificador ni ninguna transmisión desde el codificador al descodificador de tal información. Sin embargo, para obtener una buena calidad subjetiva de la señal de salida multicanal reconstruida, se proporciona una medida de coherencia predeterminada o, dicho de otro modo, factores de ponderación predeterminados para determinar una combinación ponderada de los canales de entrada transmitidos utilizando tal factor de ponderación predeterminado, mediante los medios 324 de la figura 2D. Existen varias posibilidades para reducir la coherencia en canales base para la reconstrucción de los canales de salida. Sin la medida de la invención, los canales de salida respectivos serían, en una implementación de línea base, en la que no se codifican y transmiten ICC e ICTD, totalmente coherentes. Por lo tanto, cualquier uso de cualquier medida de coherencia predeterminada reducirá la coherencia en señales de salida reconstruidas, de tal manera que las señales de salida reproducidas son mejores aproximaciones de los canales originales correspondientes.

Para evitar por lo tanto que los canales base sean totalmente coherentes, el upmixing se realiza tal como se muestra por ejemplo en la figura 15A como una alternativa o la figura 15B como otra alternativa. Los cinco canales base se calculan de tal manera que ninguno de ellos sea totalmente coherente, si la señal de estéreo transmitida tampoco es totalmente coherente. Esto da como resultado que se reduzca automáticamente una coherencia entre canales entre el canal izquierdo y el canal envolvente izquierdo o entre el canal derecho y el canal envolvente derecho, cuando se reduce la coherencia entre canales entre el canal izquierdo y el canal derecho. Por ejemplo, para una señal de audio que es independiente entre todos los canales tal como una señal de aplauso, tal upmixing tiene la ventaja de que se genera cierta independencia entre el izquierdo y el envolvente izquierdo y el derecho y el envolvente derecho sin necesidad de sintetizar (y codificar) coherencia entre canales explícitamente. Por supuesto, esta segunda versión de upmixing puede combinarse con un esquema que aún sintetice ICC e ICTD.

La figura 15A muestra un upmixing optimizado para izquierdo frontal y derecho frontal, en el que se mantiene la mayoría de la independencia entre el izquierdo frontal y el derecho frontal.

La figura 15B muestra otro ejemplo, en el que el izquierdo frontal y el derecho frontal por una parte y el envolvente izquierdo y el envolvente derecho por otra parte, se tratan en la misma manera porque el grado de independencia de los canales frontales y posteriores es el mismo. Esto puede verse en la figura 15B por el hecho de que un ángulo entre izquierdo/derecho frontal es el mismo que el ángulo entre envolvente izquierdo/derecho.

Según la realización preferida de la presente invención, se utiliza upmixing dinámico en lugar de una selección estática. Con este objetivo, la invención también se refiere a un algoritmo mejorado que puede adaptar dinámicamente la matriz de upmixing con el fin de optimizar un comportamiento dinámico. En el ejemplo mostrado a continuación, la matriz de upmixing puede elegirse para los canales posteriores, de tal manera se hace posible la reproducción óptima de coherencia frontal-posterior. El algoritmo de la invención comprende las siguientes etapas:

Para los canales frontales, se utiliza una simple asignación de canales base, tal como la descrita en la figura 14A o 15A. Con esta simple elección, se conserva coherencia de los canales a lo largo del eje izquierdo/derecho.

En el codificador, se miden los valores de coherencia frontal-posterior tales como indicaciones ICC entre los pares izquierdo/envolvente izquierdo y preferiblemente entre derecho/envolvente derecho.

En el descodificador, los canales base para los canales posterior izquierdo y posterior derecho se determinan formando combinaciones lineales de las señales de canal transmitidas, es decir, un canal izquierdo transmitido y un canal derecho transmitido. Específicamente, los coeficientes de upmixing se determinan de tal manera que la coherencia real entre el izquierdo y el envolvente izquierdo y el derecho y el envolvente derecho alcanza los valores medidos en el codificador. Para fines prácticos, esto puede conseguirse cuando las señales de canal transmitidas muestran descorrelaciones suficientes, que normalmente es el caso en escenarios de cinco canales habituales.

En la realización preferida de upmixing dinámico, un ejemplo de una implementación que se considera como el mejor modo de llevar a cabo la invención, se dará con respecto a la figura 2E, en cuanto a una implementación de codificador y a la figura 2F y la figura 2G con respecto a una implementación de descodificador. La figura 2E muestra un ejemplo para medir valores de coherencia frontal/posterior (valores ICC) entre el canal izquierdo y envolvente izquierdo o entre el canal derecho y envolvente derecho, es decir, entre un par de canales ubicados en un lado respecto a una posición del oyente considerada.

La ecuación mostrada en la caja en la figura 2C da una medida de coherencia cc entre el primer canal x y el segundo canal y. En un caso, el primer canal x es el canal izquierdo, mientras que el segundo canal y es el canal envolvente izquierdo. En otro caso, el canal x es el canal derecho, mientras que el segundo canal y es el canal envolvente derecho. x_{i} representa una muestra del canal x respectivo en el momento de tiempo i, mientras que y_{i} representa una muestra en un momento de tiempo del otro canal original y. Ha de observarse en este caso que la medida de coherencia puede calcularse completamente en el dominio del tiempo. En este caso, el índice de suma i recorre desde un borde inferior a un borde superior, donde el otro borde normalmente es el mismo que el número de muestras en una trama en caso de un procesamiento a lo largo de tramas.

Como alternativa, también pueden calcularse medidas de coherencia entre señales de paso banda, es decir, señales que tienen anchos de banda reducidos con respecto a la señal de audio original. En este último caso, la medida de coherencia no sólo depende del tiempo sino también depende de la frecuencia. Las indicaciones ICC frontal/posterior resultantes, es decir, CC_{1} para la coherencia frontal/posterior izquierda y CC_{r} para la coherencia frontal/posterior derecha, se transmiten a un descodificador como información lateral paramétrica preferiblemente en forma cuantificada y codificada.

A continuación, se hará referencia a la figura 2F para mostrar un esquema de upmixing de descodificador preferido. En el caso ilustrado, el canal izquierdo transmitido se mantiene como el canal base para el canal de salida izquierdo. Con el fin de derivar el canal base para el canal de salida posterior izquierdo, se determina una combinación lineal entre el canal transmitido izquierdo (l) y el derecho (r), es decir l + \alphar. El factor de ponderación \alpha se determina de tal manera que la correlación cruzada entre l y l + \alphar es igual al valor CC_{1} deseado transmitido para el lado izquierdo y CC_{r} para el lado derecho o en general la medida de coherencia k.

El cálculo del valor \alpha apropiado se describe en la figura 2F. En particular, una correlación cruzada normalizada de dos señales l y r se define tal como se muestra en la ecuación en el bloque de la figura 2E.

Dadas dos señales transmitidas l y r, el factor de ponderación \alpha tiene que determinarse de tal manera que la correlación cruzada normalizada de la señal l y l + r sea igual a un valor deseado k, es decir, la medida de coherencia. Esta medida se define entre -1 y +1.

Usando la definición de la correlación cruzada para los dos canales, se obtiene la ecuación dada en la figura 2F para el valor k. Utilizando varias abreviaturas que se dan en la parte inferior de la figura 2F, la condición para k puede rescribirse como una ecuación cuadrática, la solución de la cual da el factor de ponderación \alpha.

Puede demostrarse que la ecuación siempre tiene soluciones de valor real, es decir, que está garantizado que el discriminante es no negativo.

Dependiendo de la correlación cruzada básica de la señal l y r, y de la correlación cruzada deseada k, una de ambas soluciones suministradas puede de hecho llevar al negativo del valor de correlación cruzada deseado y, por lo tanto, se descarta para todo cálculo adicional.

Después de calcular la señal de canal base como una combinación lineal de la señal l y la señal r, la señal resultante se normaliza (reajusta a escala) a la energía de señal original de la señal de canal l o r transmitida.

De manera similar, la señal de canal base para el canal de salida derecho puede derivarse intercambiando el papel de los canales izquierdo y derecho, es decir considerando la correlación cruzada entre r y r + \alphal.

En la práctica, se prefiere suavizar los resultados del proceso de cálculo para el valor \alpha a lo largo del tiempo y la frecuencia, con el fin de obtener calidad de señal máxima. También pueden utilizarse medidas de correlación frontal/posterior diferentes a izquierdo/posterior izquierdo y derecho/posterior derecho para maximizar adicionalmente la calidad de señal.

Posteriormente se dará una descripción de etapa por etapa de la funcionalidad realizada por el reconstructor 32 multicanal de la figura 2A, con referencia a la figura 2G.

Preferiblemente, se calcula un factor de ponderación \alpha (200) basándose en una medida de coherencia dinámica proporcionada desde un codificador a un descodificador o basándose en un suministro estático de una medida de coherencia tal como se describe en conexión con la figura 15A y la figura 15B. Después, se suaviza el factor de ponderación a lo largo del tiempo y/o frecuencia (etapa 202) para obtener un factor de ponderación suavizado \alpha_{s}. Después, se calcula un canal base b para que sea por ejemplo l + \alpha_{s}r (etapa 204). El canal base b se utiliza entonces, junto con otros canales base, para calcular las señales de salida en bruto.

Tal como queda claro a partir de la caja 206, se requieren la ICLD de representación de nivel así como la ICTD de representación de retardo para calcular señales de salida en bruto. Después, las señales de salida en bruto se ajustan en escala para tener la misma energía que una suma de las energías individuales de los canales de entrada izquierdo y derecho. Dicho de otro modo, las señales de salida en bruto se ajustan en escala por medio de un factor de escala de tal manera que una suma de las energías individuales de las señales de salida en bruto ajustadas a escala es la misma que la suma de las energías individuales de los canales de entrada izquierdo y derecho transmitidos.

Como alternativa, también se podría calcular la suma de los canales transmitidos izquierdo y derecho y utilizar la energía de la señal resultante. Adicionalmente, también podría calcularse una señal de suma por una suma a lo largo de las muestras de las señales de salida en bruto y utilizar la energía de la señal resultante para fines de ajuste a escala.

Después, en una salida de la caja 208, se obtienen los canales de salida reconstruidos, que son únicos porque ninguno de los canales de salida reconstruidos es totalmente coherente con otro de los canales de salida reconstruidos de tal manera que se obtiene una calidad máxima de la señal de salida reproducida.

En resumen, el concepto inventivo es ventajoso ya que puede utilizarse un número arbitrario de canales transmitidos (M) y un número arbitrario de canales de salida (N).

Adicionalmente, la conversión entre los canales transmitidos y los canales base para los canales de salida se realiza preferiblemente a través de upmixing dinámico.

En una realización importante, el upmixing consiste en una multiplicación por una matriz de upmixing, es decir, formar combinaciones lineales de los canales transmitidos, en el que preferiblemente se sintetizan canales frontales utilizando canales base transmitidos correspondientes como canales base, mientras que los canales posteriores consisten en una combinación lineal de los canales transmitidos, dependiendo el grado de combinación lineal de una medida de coherencia.

Adicionalmente, este proceso de upmixing se realiza preferiblemente adaptativo a la señal de una forma variable en el tiempo. Específicamente, el proceso de upmixing depende preferiblemente de una información lateral transmitida desde un codificador BCC tal como indicaciones de coherencia entre canales para una coherencia frontal/posterior.

Dado el canal base para cada canal de salida, se aplica un procesamiento similar a una codificación de indicación binaural regular para sintetizar indicaciones espaciales, es decir, aplicando ajustes a escala y retardos en subbandas y aplicando técnicas para reducir la coherencia entre canales, en el que las indicaciones ICC se utilizan adicionalmente, o como alternativa, para construir canales base respectivos para obtener reproducción óptima de coherencia frontal/posterior.

La figura 3A muestra una realización del calculador 14 de la invención para calcular la información lateral de canal, en la que un codificador de audio por una parte y el calculador de información lateral de canal por otra parte operan en la misma representación espectral de la señal multicanal. Sin embargo, la figura 1 muestra la otra alternativa, en la que el codificador de audio por una parte y el calculador de información lateral de canal por otra parte operan en representaciones espectrales diferentes de la señal multicanal. Cuando los recursos de cálculo no son tan importantes como la calidad de audio, se prefiere la alternativa de la figura 1A, ya que pueden utilizarse bancos de filtros optimizados individualmente para codificación de audio y cálculo de información lateral. Cuando, sin embargo los recursos de cálculo son un tema importante, se prefiere la alternativa de la figura 3A, ya que esta alternativa requiere menos potencia de cálculo debido a una utilización compartida de elementos.

El dispositivo mostrado en la figura 3A está operativo para recibir dos canales, A, B. El dispositivo mostrado en la figura 3A está operativo para calcular una información lateral para el canal B, de tal manera que utilizando esta información lateral de canal para el canal original seleccionado B, puede calcularse una versión reconstruida del canal B a partir de la señal de canal A. Adicionalmente, el dispositivo mostrado en la figura 3A está operativo para formar información lateral de canal de dominio de la frecuencia, tal como parámetros para ponderar (multiplicando o procesando en tiempo tal como en codificación BCC, por ejemplo) valores espectrales de muestras de subbanda. Con este objetivo, el calculador de la invención incluye formar ventanas y medios 140a de conversión de tiempo/frecuencia para obtener una representación de frecuencia del canal A en una salida 140b o una representación de dominio de la frecuencia del canal B en una salida 140c.

En la realización preferida, la determinación de información lateral (mediante los medios 140f de determinación de información lateral) se realiza utilizando valores espectrales cuantificados. Después, un cuantificador 140d está también presente que preferiblemente se controla utilizando un modelo psicoacústico que tiene una entrada 140e de control de modelo psicoacústico. Sin embargo, no se requiere un cuantificador, cuando los medios 140c de determinación de información lateral utilizan una representación no cuantificada del canal A para determinar la información lateral de canal para el canal B.

En caso de que la información lateral de canal para el canal B se calcule mediante una representación de dominio de la frecuencia del canal A y la representación de dominio de la frecuencia del canal B, los medios 140A de conversión de tiempo/frecuencia y formación de ventanas pueden ser los mismos que se utilizan en un codificador de audio basado en bancos de filtros. En este caso, cuando se considera AAC (ISO/IEC 13818-3), los medios 140 se implementan como un banco de filtros MDCT (MDCT = transformada de coseno discreto modificado) con 50% de funcionalidad superposición-y-adición.

En tal caso, el cuantificador 140d es un cuantificador iterativo tal como el que se utiliza cuando se generan señales de audio codificadas AAC o mp3 .La representación de dominio de la frecuencia del canal A, que preferiblemente ya se ha cuantificado puede entonces utilizarse directamente para codificación de entropía utilizando un codificador 140g de entropía, que puede ser un codificador basado en Huffman o un codificador de entropía que implementa codificación aritmética.

Cuando se compara con la figura 1, la salida del dispositivo en la figura 3A es la información lateral tal como l_{i} para un canal original (correspondiente a la información lateral para B en la salida del dispositivo 140f). El flujo de bits codificado de entropía para el canal A corresponde por ejemplo al canal de downmix izquierdo codificado Lc' en la salida del bloque 16 de la figura 1. A partir de la figura 3A queda claro que el elemento 14 (figura 1), es decir el calculador para calcular la información lateral de canal y el codificador 16 de audio (figura 1), pueden implementarse como medios separados o pueden implementarse como una versión compartida de tal manera ambos dispositivos comparten varios elementos tales como el banco 140a de filtros MDCT, el cuantificador 140e y el codificador 140g de entropía. Naturalmente, en caso de que se requiera una transformada diferente, etc. para determinar una información lateral de canal, entonces el codificador 16 y el calculador 14 (figura 1) se implementarán en dispositivos diferentes de tal manera que ambos elementos no compartan el banco de filtros, etc.

En general, el determinador real para calcular la información lateral (o expresado de manera general el calculador 14), puede implementarse como un módulo de estéreo conjunto tal como se ilustra en la figura 3B, que opera según cualquiera de las técnicas de estéreo conjunto tales como codificación de intensidad estéreo o codificación de indicación binaural.

En contraste con tales codificadores de intensidad estéreo de la técnica anterior, los medios 140f de determinación de la invención no tienen que calcular el canal combinado. El "canal combinado" o canal portador, como se puede decir, ya existe y es el canal de downmix compatible izquierdo Lc o el canal de downmix compatible derecho Rc o una versión combinada de estos canales de downmix tal como Lc + Rc. Por lo tanto, el dispositivo 140f de la invención sólo tiene que calcular la información de ajuste a escala para ajustar a escala el canal de downmix respectivo de tal manera que se obtiene la envolvente de energía/tiempo del canal original seleccionado respectivo, cuando el canal de downmix se pondera utilizando la información de ajuste a escala o, como se puede decir, la información direccional de intensidad.

Por lo tanto, el módulo 140f de estéreo conjunto de la figura 3B se ilustra de tal manera que recibe, como una entrada, el canal "combinado" A, que es el primer o segundo canal de downmix o una combinación de los canales de downmix, y el canal seleccionado original. Este módulo, naturalmente, emite el canal "combinado" A y los parámetros de estéreo conjunto como información lateral de canal de tal manera que, utilizando el canal combinado A y los parámetros de estéreo conjunto puede calcularse una aproximación del canal seleccionado original B.

Como alternativa, el módulo 140f de estéreo conjunto puede implementarse para realizar codificación de indicación binaural.

En el caso de BCC, el módulo 140f de estéreo conjunto está operativo para emitir la información lateral de canal de tal manera que la información lateral de canal son parámetros ICLD o ICTD cuantificados y codificados, donde el canal original seleccionado sirve como el canal real que va a procesarse, mientras que el canal de downmix respectivo utilizado para calcular la información lateral, tal como el primero, el segundo o una combinación del primer y el segundo canal de downmix se utiliza como el canal de referencia en el sentido de la técnica de codificación/descodificación BCC.

Con referencia a la figura 4, se da una implementación dirigida en energía simple del elemento 140. Este dispositivo incluye un selector 44 de banda de frecuencia que selecciona una banda de frecuencia del canal A y una banda de frecuencia correspondiente del canal B. Después, en ambas bandas de frecuencia, se calcula una energía por medio de un calculador 42 de energía para cada ramificación. La implementación detallada del calculador 42 de energía dependerá de si la señal de salida del bloque 40 es una señal de subbanda o son coeficientes de frecuencia. En otras implementaciones, en las que se calculan factores de escala para banda de factor de escala, ya se pueden utilizar factores de escala del primer y el segundo canal A, B como valores de energía E_{A} y E_{B} o al menos como estimaciones de la energía. En un dispositivo 44 de cálculo de factor de ganancia, se determina un factor de ganancia g_{B} para la banda de frecuencia seleccionada basándose en una cierta regla tal como la regla de determinación de ganancia ilustrada en el bloque 44 de la figura 4. En este caso, el factor de ganancia g_{B} puede utilizarse directamente para ponderar muestras de dominio del tiempo o coeficientes de frecuencia tal como se describirá posteriormente en la figura 5. Con este objetivo, el factor de ganancia g_{B}, que es válido para la banda de frecuencia seleccionada se utiliza como la información lateral de canal para el canal B como el canal original seleccionado. Este canal original seleccionado B no se transmitirá al descodificador pero se representará por la información lateral de canal paramétrica tal como se calcula por el calculador 14 en la figura 1.

Ha de observarse en este momento que no es necesario transmitir valores de ganancia como información lateral de canal. También es suficiente transmitir valores dependientes de frecuencia relacionados con la energía absoluta del canal original seleccionado. Después, el descodificador tiene que calcular la energía real del canal de downmix y el factor de ganancia basándose en la energía de canal de downmix y la energía transmitida para el canal B.

La figura 5 muestra una posible implementación de una configuración de descodificador, en conexión con un codificador de audio perceptivo basado en transformada. En comparación con la figura 2, las funcionalidades del descodificador de entropía y el cuantificador 50 inverso (figura 5) se incluirán en el bloque 24 de la figura 2. La funcionalidad de los elementos 52a, 52b de conversión de frecuencia/tiempo (figura 5), sin embargo, se implementará en el elemento 36 de la figura 2. El elemento 50 de la figura 5 recibe una versión codificada de la primera o la segunda señal de downmix Lc' o Rc'. En la salida del elemento 50, está presente una versión al menos parcialmente descodificada del primer y el segundo canal de downmix, que posteriormente se denomina canal A. El canal A se introduce en un selector 54 de banda de frecuencia para seleccionar una cierta banda de frecuencia del canal A. Esta banda de frecuencia seleccionada se pondera utilizando un multiplicador 56. El multiplicador 56 recibe, para multiplicar, un cierto factor ganancia g_{B}, que se asigna a la banda de frecuencia seleccionada, seleccionada por el selector 54 de banda de frecuencia, que corresponde al selector 40 de banda de frecuencia de la figura 4, en el lado del codificador. En la entrada del conversor 52a de frecuencia tiempo existe, junto con otras bandas, una representación de dominio de la frecuencia del canal A. En la salida del multiplicador 56 y, en particular, en la entrada de los medios 52b de conversión de frecuencia/tiempo, habrá una representación de dominio de la frecuencia reconstruida del canal B. Por lo tanto, en la salida del elemento 52a, habrá una representación de dominio del tiempo para el canal A, mientras que, en la salida del elemento 52b, habrá una representación de dominio del tiempo del canal reconstruido B.

Ha de observarse en este momento que, dependiendo de la cierta implementación, el canal de downmix descodificado Lc o Rc no se reproduce en un descodificador mejorado multicanal. En tal descodificador mejorado multicanal, los canales de downmix descodificados sólo se utilizan para reconstruir los canales originales. Los canales de downmix descodificados sólo se reproducen en descodificadores sólo estéreo de escala inferior.

Con este objetivo, se hace referencia a la figura 9, que muestra la implementación preferida de la presente invención en un entorno envolvente/mp3. Un flujo de bits envolvente mejorado mp3 se introduce en un descodificador 24 mp3 estándar, que emite versiones descodificadas de los canales de downmix originales. Estos canales de downmix pueden después reproducirse directamente por medio de un descodificador de bajo nivel. Como alternativa, estos dos canales se introducen en el dispositivo 32 de descodificación de estéreo conjunto avanzado que también recibe los datos de extensión multicanal, que preferiblemente se introducen en campos de datos auxiliares en un flujo de bits que cumple con mp3.

Posteriormente, se hace referencia a la figura 7 que muestra el agrupamiento del canal original seleccionado y el respectivo canal de downmix o canal de downmix combinado. Con respecto a esto, la columna derecha de la tabla en la figura 7 corresponde al canal A en la figura 3A, 3B, 4 y 5, mientras que la columna en la parte media corresponde al canal B en estas figuras. En la columna de izquierda de la figura 7, se expone explícitamente la información lateral de canal respectiva. Según la tabla de la figura 7, la información lateral de canal l_{i} para el canal izquierdo original L se calcula utilizando el canal de downmix izquierdo Lc. La información lateral de canal envolvente izquierdo ls_{i} se determina por medio del canal envolvente izquierdo seleccionado original Ls y el canal de downmix izquierdo Lc es el portador. La información lateral de canal derecho r_{i} para el canal derecho original R se determina utilizando el canal de downmix derecho Rc. Adicionalmente, la información lateral de canal para el canal envolvente derecho Rs se determina utilizando el canal de downmix derecho Rc como el portador. Finalmente, la información lateral de canal c_{i} para el canal central C se determina utilizando el canal de downmix combinado, que se obtiene por medio de una combinación del primer y el segundo canal de downmix, que puede calcularse fácilmente tanto en un codificador como en un descodificador y que no requiere ningún bit adicional para transmisión.

Naturalmente, también se puede calcular la información lateral de canal para el canal izquierdo por ejemplo basándose en un canal de downmix combinado o incluso un canal de downmix que se obtiene por una adición ponderada del primer y el segundo canal de downmix tal como 0,7 Lc y 0,3 Rc, siempre que los parámetros de ponderación sean conocidos para un descodificador o se transmitan en consecuencia. Para la mayoría de las aplicaciones, sin embargo se preferirá sólo derivar la información lateral de canal para el canal central a partir del canal de downmix combinado, es decir, a partir de una combinación del primer y el segundo canal de downmix.

Para mostrar el potencial de ahorro de bits de la presente invención, se da el siguiente ejemplo típico. En caso de una señal de audio de cinco canales, un codificador normal requiere una tasa de transmisión de bits de 64 kbits/s para cada canal que asciende a una tasa de transmisión de bits total de 320 kbits/s para la señal de cinco canales. Las señales de estéreo izquierda y derecha requieren una tasa de transmisión de bits de 128 kbits/s. La información lateral de canales para un canal está entre 1,5 y 2 kbits/s. Por tanto, incluso en un caso en el que se transmite información lateral de canal para cada uno de los cinco canales, estos datos adicionales suman sólo 7,5 a 10 kbits/s. Por tanto, el concepto inventivo permite la transmisión de una señal de audio de cinco canales utilizando una tasa de transmisión de bits de 138 kbits/s (comparado con 320 (!) kbits/s) con buena calidad, ya que el descodificador no utiliza la operación de desmatrizado problemática. Probablemente aún más importante es el hecho de que el concepto inventivo es totalmente compatible hacia atrás, ya que cada uno de los reproductores mp3 existentes puede reproducir el primer canal de downmix y el segundo canal de downmix para producir una salida estéreo convencional.

Dependiendo del entorno de aplicación, los métodos de la invención para construir o generar pueden implementarse en hardware o software. La implementación puede ser un medio de almacenamiento digital tal como un disco o CD que tiene señales de control legibles electrónicamente, que puede actuar conjuntamente con un sistema informático programable de tal manera que se lleven a cabo los métodos de la invención. Expresado de manera general, la invención, por lo tanto, también se refiere a un producto de programa informático que tiene un código de programa almacenado en un portador legible por máquina, adaptándose el código de programa para realizar los métodos de la invención, cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, la invención, por lo tanto, se refiere también a un programa informático que tiene un código de programa para realizar los métodos, cuando el programa informático se ejecuta en un ordenador.

Claims

1. Aparato para construir una señal de salida multicanal, utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada (Lc) y un segundo canal de entrada (Rc) derivado a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende:

medios (322) para determinar un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y para determinar un segundo canal base seleccionando el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y

medios (324) para sintetizar un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la posición del oyente considerada, y para sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.

2. Aparato según la reivindicación 1, que comprende además:

medios (320) para proporcionar una medida de coherencia, dependiendo la medida de coherencia de una coherencia entre un primer canal original y un segundo canal original, incluyéndose el primer y el segundo canal originales en una señal multicanal original;

en el que los medios (322) para determinar están operativos para determinar el primer y el segundo canal base diferentes entre si basándose en la medida de coherencia.

3. Aparato según la reivindicación 1, en el que los al menos dos canales originales incluyen un canal original izquierdo y un canal original envolvente izquierdo o un canal original derecho y un canal original envolvente derecho.

4. Aparato según la reivindicación 1, en el que una combinación del primer y el segundo canal de entrada determinada para ser el segundo canal base es tal que uno de los dos canales de entrada contribuye al segundo canal base más que el otro canal de entrada.

5. Aparato según la reivindicación 2, en el que la medida de coherencia es variable en el tiempo de tal manera que los medios (320) para determinar están operativos para determinar el segundo canal base como una combinación del primer canal de entrada y el segundo canal de entrada, siendo la combinación variable a lo largo del tiempo.

6. Aparato según la reivindicación 2, en el que la información lateral paramétrica incluye la medida de coherencia, determinándose la medida de coherencia utilizando el primer canal original y el segundo canal original, en el que los medios (320) para proporcionar están operativos para extraer la medida de coherencia a partir de la información lateral paramétrica.

7. Aparato según la reivindicación 6, en el que la señal de entrada tiene una secuencia de tramas y la información lateral paramétrica incluye una secuencia de parámetros que incluye la medida de coherencia, estando asociados los parámetros con las tramas.

8. Aparato según la reivindicación 1, en el que la señal original incluye además un canal central (C), y en el que los medios (322) para determinar están operativos además para calcular un tercer canal base utilizando el primer canal de entrada y el segundo canal de entrada en partes iguales.

9. Aparato según la reivindicación 1, en el que la información lateral paramétrica depende de la frecuencia y los medios (324) para sintetizar están operativos para realizar una síntesis dependiente de la frecuencia.

10. Aparato según la reivindicación 1, en el que la información lateral paramétrica incluye parámetros de codificación de indicación binaural (BCC) incluyendo parámetros de diferencia de nivel entre canales y parámetros de retardo de tiempo entre canales, y en el que los medios para sintetizar están operativos para realizar una síntesis BCC utilizando un canal base determinado por los medios para determinar cuando se sintetiza un canal de salida.

11. Aparato según la reivindicación 2, en el que los medios (322) para determinar están operativos para determinar el primer canal base como uno del primer y el segundo canal de entrada y para determinar el segundo canal base como una combinación ponderada del primer y el segundo canal de entrada, dependiendo un factor de ponderación de la medida de coherencia.

12. Aparato según la reivindicación 11, en el que el factor de ponderación se determina según lo siguiente:

2

donde \alpha es el factor de ponderación y donde A, B, C se determinan según lo siguiente,

3

donde L, R, C se determinan según lo siguiente,

4

y donde k es la medida de coherencia, y donde l es el primer canal de entrada y r es el segundo canal de entrada.

13. Aparato según la reivindicación 11, en el que la medida de coherencia se da para una banda de frecuencia, y en el que los medios para determinar están operativos para determinar el segundo canal base para la banda de frecuencia.

14. Aparato según la reivindicación 11, en el que la medida de coherencia se determina según lo siguiente:

5

donde cc(x, y) es la medida de coherencia entre dos canales originales x, y, donde x_{i} es una muestra en un momento de tiempo i del primer canal original, y donde y_{i} es una muestra en un momento de tiempo i del segundo canal original.

15. Aparato según la reivindicación 1, en el que los medios (322) para determinar están operativos para ajustar a escala los canales de salida utilizando medidas de potencia derivadas a partir de los canales originales, transmitiéndose las medidas de potencia dentro de la información lateral paramétrica.

16. Aparato según la reivindicación 11, en el que los medios (322) para determinar están operativos para suavizar el factor de ponderación a lo largo del tiempo y/o frecuencia.

17. Aparato según la reivindicación 1, en el que la información lateral paramétrica incluye información de nivel que representa una distribución de energía de los canales originales en la señal original, y en el que los medios para sintetizar están operativos para ajustar a escala los canales de salida de tal manera que una suma de las energías de los canales de salida es igual a una suma de las energías del primer canal de entrada y el segundo canal de entrada.

18. Aparato según la reivindicación 17, en el que los medios (324) para sintetizar están operativos para calcular canales de salida en bruto basándose en canales base determinados y la información de nivel y para ajustar a escala los canales de salida en bruto de tal manera que una energía total de canales de salida en bruto en escala es igual a una energía total del primer y el segundo canal de entrada.

19. Aparato según la reivindicación 1, en el que la señal de entrada incluye un canal izquierdo y un canal derecho, y el canal original incluye un canal izquierdo frontal, un canal envolvente izquierdo, un canal derecho frontal y un canal envolvente derecho, y en el que los medios (322) para determinar están operativos para determinar

el canal izquierdo como el canal base para una síntesis del canal izquierdo frontal (L),

el canal derecho es el canal base para una síntesis del canal derecho frontal (R),

una combinación del canal izquierdo y el canal derecho como el canal base para el canal envolvente izquierdo (Ls) o el canal envolvente derecho (Rs).

20. Aparato según la reivindicación 1,

en el que la señal de entrada incluye un canal izquierdo y un canal derecho y la señal original incluye un canal izquierdo frontal, un canal envolvente izquierdo, un canal derecho frontal y un canal envolvente derecho, y en el que los medios para determinar están operativos para determinar

el canal izquierdo como el canal base para una síntesis del canal izquierdo frontal,

el canal derecho como el canal base para una síntesis del canal envolvente derecho, y

una combinación del primer y el segundo canal de entrada como el canal base para una síntesis del canal derecho frontal o el canal envolvente izquierdo.

21. Método de construcción de una señal de salida multicanal utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada y un segundo canal de entrada derivados a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende:

determinar (322) un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y determinar un segundo canal base seleccionado el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y

sintetizar (324) un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la posición del oyente considerada, y sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.

22. Aparato para generar una señal de downmix a partir de una señal original multicanal, teniendo la señal de downmix un número de canales que es inferior a un número de canales originales, que comprende:

medios (12) para calcular un primer canal de downmix y un segundo canal de downmix utilizando una regla de downmix;

medios (14) para calcular información de nivel paramétrica que representa una distribución de energía entre los canales en la señal original multicanal;

medios (142) para determinar una medida de coherencia entre dos canales originales, estando ubicados los dos canales originales en un lado de una posición del oyente considerada; y

medios (18) para formar una señal de salida utilizando el primer y el segundo canal de downmix, la información de nivel paramétrica y sólo al menos una medida de coherencia entre dos canales originales ubicados en un lado o un valor derivado a partir de al menos una medida de coherencia, pero no utilizando ninguna medida de coherencia entre canales ubicados en diferentes lados de la posición del oyente considerada.

23. Aparato según la reivindicación 22, que comprende además medios (143) para determinar información de retardo de tiempo entre dos canales originales ubicados en un lado de la posición del oyente considerada; y

en el que los medios (18) para formar están operativos para incluir sólo información de nivel de tiempo entre dos canales originales ubicados en un lado de la posición del oyente considerada pero no información de nivel de tiempo entre dos canales originales ubicados en diferentes lados de la posición del oyente considerada.

24. Método de generación de una señal de downmix a partir de una señal original multicanal, teniendo la señal de downmix un número de canales inferior al número de canales originales, que comprende:

calcular (12) un primer canal de downmix y un segundo canal de downmix utilizando una regla de downmix;

calcular (124) información de nivel paramétrica que representa una distribución de energía entre los canales en la señal original multicanal;

determinar (142) una medida de coherencia entre dos canales originales, estando ubicados los dos canales originales en un lado de una posición del oyente considerada; y

formar (18) una señal de salida utilizando el primer y el segundo canal de downmix, la información de nivel paramétrica y sólo al menos una medida de coherencia entre dos canales originales ubicados en un lado o un valor derivado a partir de la al menos una medida de coherencia, pero no utilizando ninguna medida de coherencia entre canales ubicados en lados diferentes de la posición del oyente considerada.

25. Programa informático que tiene un código de programa para realizar el método de construcción de una señal multicanal según la reivindicación 21 o el método de generación de una señal de downmix según la reivindicación 24.