ES2278348T3

ES2278348T3 - Codificacion/decodificacion multicanal compatible.

Info

Publication number: ES2278348T3
Application number: ES04787072T
Authority: ES
Inventors: Juergen Herre; Johannes Hilpert; Stefan Geyersberger; Andreas Hoelzer; Claus Spenger
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2003-10-02
Filing date: 2004-09-30
Publication date: 2007-08-01
Anticipated expiration: 2024-09-30
Also published as: NO342804B1; NO20191058A1; RU2006114742A; US20190110146A1; NO20180990A1; US20180359588A1; US7447317B2; NO20180991A1; US10237674B2; NO345265B1; US20190239018A1; US20190379990A1; NO344483B1; RU2327304C2; US20130016843A1; US10455344B2; EP1668959A2; DE602004004168D1; IL174286A; HK1092001A1

Abstract

Aparato para procesar una señal de audio multicanal, teniendo la señal de audio multicanal al menos tres canales originales, que comprende: un medio (12) para proporcionar un primer canal de mezclado descendente como un canal de mezclado descendente izquierdo y un segundo canal de mezclado descendente como un canal de mezclado descendente derecho, derivándose el primer y segundo canales de mezclado descendentes de los canales originales de manera que los canales de mezclado descendente izquierdo y derecho se forman de manera que el resultado, cuando se reproduce, es una representación estéreo de la señal de audio multicanal; un medio (14) medios para calcular la información lateral de canal para un canal original seleccionado de las señales originales, siendo el medio para calcular operativo para calcular la información lateral de canal de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer y segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, dan como resultando una aproximación del canal original seleccionado; y un medio (18) para generar datos de salida, incluyendo los datos de salida la información lateral de canal.

Description

Codificación/decodificación multicanal compatible.

Campo de la invención

La presente invención se refiere a un aparato y método para procesar una señal de audio multicanal y en particular, a un aparato y método para procesar una señal de audio multicanal en una manera estéreo-compatible.

Antecedentes de la invención y técnica anterior

En tiempos recientes, la técnica de reproducción de audio multicanal se vuelve más y más importante. Esto puede deberse al hecho de que las técnicas de compresión/codificación de audio tal como la técnica mp3 bien conocida ha hecho posible distribuir grabaciones de audio a través de Internet u otros canales de transmisión que tienen un ancho de banda limitado. La técnica que codifica mp3 se ha vuelto famosa debido al hecho de que permite la distribución de todas las grabaciones en un formato estéreo, es decir, una representación digital de la grabación de audio incluyendo un canal estéreo primero o izquierdo y un canal estéreo segundo o derecho.

Sin embargo, existen inconvenientes básicos de los sistemas de sonido de dos canales convencionales. Por lo tanto, se ha desarrollado la técnica de suspensión periférica. Una representación de suspensión periférica multicanal recomendada incluye, además de los dos canales estéreo L y R, un canal C central adicional y dos canales Ls, Rs de suspensión periférica. Este formato de sonido de referencia también se conoce como tri/bi-estéreo que se refiere a tres canales frontales y dos canales de suspensión periférica. Generalmente, se requieren cinco canales de transmisión. En un ambiente de reproducción, al menos cinco altavoces en cinco lugares diferentes respectivos son necesarios para obtener un punto suave óptimo a una cierta distancia de los cinco altavoces bien colocados.

Se conocen varias técnicas en la materia para reducir la cantidad de datos requeridos para la transmisión de una señal de audio multicanal. Tales técnicas se llaman técnicas estéreo de conjunto. Para este fin, se hace referencia a la figura 10 que muestra un dispositivo estéreo de conjunto 60. Este dispositivo puede ser un dispositivo que implementa por ejemplo, estéreo de intensidad (IS) o código de indicación binaural (BCC). Tal dispositivo generalmente recibe -como una entrada- al menos dos canales (CH1, CH2, ... CHn) y emite un solo canal portador y datos paramétricos. Los datos paramétricos se definen de manera que en un decodificador, puede calcularse una aproximación de un canal original (CH1, CH2, ...CHn).

Normalmente, el canal portador incluirá muestras de sub-banda, coeficientes espectrales, muestras de dominio de tiempo etc., que proporcionan una representación comparativamente fina de la señal subyacente, mientras que los datos paramétricos no incluyen tales muestras de coeficientes espectrales pero incluyen parámetros de control para controlar un cierto algoritmo de reconstrucción tal como la ponderación mediante multiplicación, cambio de hora, cambio de frecuencia,... Los datos paramétricos por lo tanto incluyen solo una representación comparativamente burda de la señal o el canal asociado. Establecido en números, la cantidad de datos requeridos por un canal portador estarán en el intervalo de 60 - 70 kbit/s, mientras que la cantidad de los datos requeridos por la información lateral paramétrica para un canal estará en el intervalo de 1,5 - 2,5 kbit/s. Un ejemplo para los datos paramétricos son los factores de graduación bien conocidos, los parámetros de información estéreo de intensidad o de indicación binaurales tal como se describirá a continuación.

La codificación estéreo de intensidad se describe en la preimpresión 3799 de AES, "Codificación Estéreo de Intensidad", J. Herre, K.H. Brandenburg, D. Lederer, Febrero 1994, Amsterdam. Generalmente, el concepto de estéreo de intensidad se basa en una transformada de eje principal para aplicarse a los datos de ambos canales de audio estereofónicos. Si la mayoría de los puntos de datos se concentran alrededor del primer eje principal, puede lograrse una ganancia de codificación al girar ambas señales mediante un cierto ángulo antes de la codificación. Sin embargo, esto no siempre es verdad para las técnicas de producción estereofónicas reales. Por lo tanto, esta técnica se modifica al excluir el segundo componente ortogonal de la transmisión en el flujo de bits. Así, las señales reconstruidas para los canales izquierdo y derecho consisten de versiones ponderadas o graduadas de manera diferente de la misma señal transmitida. Sin embargo, las señales reconstruidas difieren en su amplitud pero son idénticas con respecto a su información de fase. Sin embargo, las envolturas de energía-tiempo de ambos canales de audio originales, se conservan por medio de la operación de graduación selectiva, que típicamente opera en una manera selectiva de frecuencia. Esto se conforma a la percepción humana del sonido a altas frecuencias, en donde las indicaciones espaciales dominantes se determinan mediante las envolturas de energía.

Adicionalmente, en implementaciones prácticas, la señal transmitida, es decir, el canal portador se genera a partir de la suma de la señal del canal izquierdo y el canal derecho en lugar de girar ambos componentes. Además, este procesamiento, es decir, generar los parámetros de estéreo de intensidad para llevar a cabo la operación de graduación, se lleva a cabo en selección de frecuencia, es decir, independientemente para cada banda de factor de graduación, es decir, división de la frecuencia codificadora. Preferiblemente, ambos canales se combinan para formar un canal combinado o "portador" y además del canal combinado, se determina la información estéreo de intensidad que depende de la energía del primer canal, la energía del segundo canal o la energía del combinado o canal.

\newpage

La técnica BCC se describe en el documento de la convención AES 5574, "Codificación de indicación binaural aplicada a la compresión de audio estéreo y multicanal", C. Faller, Baumgarte, Mayo 2002, Munich. En la codificación BCC, un número de canales de entrada de audio se convierte a una representación espectral utilizando una transformada en base a DFT con ventanas de solapamiento. El espectro uniforme resultante se divide en divisiones de no solapamiento teniendo cada una un índice. Cada división tiene un ancho de banda proporcional al ancho de banda rectangular equivalente (ERB). Las diferencias de nivel de inter-canal (ICLD) y las diferencias de tiempo de inter-canal (ICTD) se estiman para cada división para cada trama k. El ICLD e ICTD se cuantifican y codifican dando como resultado un flujo de bits BCC. Las diferencias de nivel de inter-canal y las diferencias de tiempo de inter-canal se dan para cada canal con relación a un canal de referencia. Entonces, los parámetros se calculan según las fórmulas prescritas, que dependen de ciertas divisiones de la señal a procesarse.

En un lado de decodificador, el decodificador recibe una monoseñal y el flujo de bits BCC. La monoseñal se transforma en el dominio de frecuencia y se introduce en un bloque de síntesis espacial, que también recibe los valores ICLD e ICTD decodificados. En el bloque de síntesis espacial, los valores de los parámetros BCC (ICLD e ICTD) se utilizan para llevar a cabo una operación de ponderación de la monoseñal para sintetizar las señales multicanal, que después de una conversión de frecuencia/tiempo, representan una reconstrucción de la señal de audio multicanal original.

En el caso de BCC, el módulo 60 estéreo de conjunto es operativo para emitir la información lateral de canal de tal forma que los datos paramétricos de canal son parámetros ICLD o ICTD cuantificados y codificados, en donde uno de los canales originales se utiliza como el canal de referencia para codificar la información lateral de canal.

Normalmente, el canal portador se forma de la suma de los canales originales participantes.

Naturalmente, las técnicas anteriores solo proporcionan una mono-representación para un decodificador, que solamente puede procesar el canal portador, pero no es capaz de procesar los datos paramétricos para generar una o más aproximaciones de más de un canal de entrada.

Para transmitir los cinco canales en una forma compatible, es decir, en un formato de flujo de bits, que también puede entenderse para un decodificador estéreo normal, la tal denominada técnica de combinación matricial, se ha utilizado como se describe en "Suspensión periférica MUSICAM: un sistema de codificación multicanal universal compatible con ISO 11172-3", G. Theile y G. Stoll, preimpresión 3403 de AES, Octubre de 1992, San Francisco. Los cinco canales L, R, C, Ls y Rs de entrada se alimentan en un dispositivo de combinación matricial que lleva a cabo una operación de combinación matricial para calcular los canales Lo, Ro estéreo básicos o compatibles, a partir de los cinco canales de entrada. En particular, estos canales Lo/Ro estéreo básicos se calculan como se establece a continuación:

Lo = L + xC + yLs

Ro = R + xC + yRs

x e y son constantes. Los otros tres canales C, Ls, Rs se transmiten como se encuentran en una capa de extensión, además de una capa estéreo básica, que incluye una versión codificada de señales Lo/Ro estéreo básicas. Con respecto al flujo de bits, esta capa estéreo básica de Lo/Ro incluye un encabezado, información tal como los factores de graduación y las muestras de sub-banda. La capa de extensión multicanal, es decir, el canal central y los dos canales de suspensión periférica se incluyen en el campo de extensión multicanal, que también se denomina campo de datos auxiliar.

En un lado de decodificador, se lleva a cabo una operación de combinación matricial inversa para formar las reconstrucciones de los canales izquierdo y derecho en la representación de cinco canales utilizando los canales Lo, Ro estéreo básicos y los tres canales adicionales. Adicionalmente, los tres canales adicionales se decodifican de la información auxiliar para obtener una representación de cinco canales o de suspensión periférica decodificada de la señal de audio multicanal original.

Se describe otro enfoque para la codificación multicanal en la publicación "Codificación multicanal de audio MPEG-2 mejorada", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, preimpresión 3865 de AES, Febrero de 1994, Amsterdam, en la cual con el fin de obtener compatibilidad hacia atrás, se consideran los modos compatibles hacia atrás. Con este fin, se utiliza una matriz de compatibilidad para obtener dos de los tal denominados canales Lc, Rc de mezclado descendente a partir de los cinco canales de entrada originales. Además, es posible seleccionar dinámicamente los tres canales auxiliares transmitidos como datos auxiliares.

Con el fin de explotar la irrelevancia estéreo, se aplica una técnica estéreo de conjunto a los grupos de canales, por ejemplo, los tres canales frontales, es decir, para el canal izquierdo, el canal derecho y el canal central. Con este fin, estos tres canales se combinan para obtener un canal combinado. Este canal combinado se cuantifica y empaqueta en el flujo de bits. Entonces, este canal combinado junto con la información estéreo de conjunto correspondiente se introduce en un módulo de decodificación estéreo de conjunto para obtener los canales decodificados estéreo de conjunto, es decir, un canal izquierdo decodificado estéreo de conjunto, un canal derecho decodificado estéreo de conjunto y un canal central decodificado estéreo de conjunto. Estos canales decodificados estéreo de conjunto, junto con el canal de suspensión periférica izquierdo y el canal de suspensión periférica derecho, se introducen en un bloque de matriz de compatibilidad para formar el primer y segundo canales Lc, Rc de mezclado descendente. Entonces, las versiones cuantificadas de ambos canales de mezclado descendente y una versión cuantificada del canal combinado se empaquetan en el flujo de bits junto con los parámetros de codificación estéreo de conjunto.

Por lo tanto, utilizando la codificación estéreo de intensidad, un grupo de señales de canales originales independientes se transmite dentro de una sola porción de datos "portadores". El decodificador reconstruye entonces las señales involucradas como datos idénticos, que se regradúan según sus envolturas de energía-tiempo originales. Consecuentemente, una combinación lineal de los canales transmitidos llevará a resultados, que son bastante diferentes del mezclado descendente original. Esto se aplica a cualquier clase de codificación estéreo de conjunto en base al concepto estéreo de intensidad. Para un sistema de codificación que proporciona canales de mezclado descendente compatibles, existe una consecuencia directa: La reconstrucción deshaciendo la combinación matricial, tal como se describe en la publicación anterior, sufre de artefactos provocados por la reconstrucción imperfecta. Utilizando un tal denominado esquema de predistorsión estéreo de conjunto, en el cual una codificación estéreo de conjunto de los canales izquierdo, derecho y central se lleva a cabo antes de la combinación matricial en el codificador, se mejora este problema. De esta forma, el esquema de deshacer la combinación matricial para la reconstrucción introduce menos artefactos, ya que en el lado de codificador, las señales decodificadas estéreo de conjunto se han utilizado para generar los canales de mezclado descendente. Así, el proceso de reconstrucción imperfecta se cambia a los canales Lc y Rc de mezclado descendente compatibles, en donde es mucho más probable que se enmascaren por la propia señal de audio.

Aunque tal sistema ha dado como resultado menos artefactos debido a que se deshace la combinación matricial en el lado de decodificador, éste sin embargo tiene algunas desventajas. Una desventaja es que los canales Lc y Rc de mezclado descendente estéreo-compatibles se derivan no a partir de los canales originales sino a partir de las versiones codificadas/decodificadas estéreo de intensidad de los canales originales. Por lo tanto las pérdidas de datos debidas al sistema de codificación estéreo de intensidad se incluyen en los canales de mezclado descendente compatibles. Un decodificador solo estéreo, sólamente decodifica los canales compatibles en lugar de mejorar los canales codificados estéreo de intensidad, por lo tanto proporciona una señal de salida que está afectada por las pérdidas de datos inducidos de estéreo intensidad.

Adicionalmente, un canal adicional completo tiene que transmitirse además de los dos canales de mezclado descendente. Este canal es el canal combinado, que se forma por medio de codificación estéreo de conjunto del canal izquierdo, el canal derecho y el canal central. Adicionalmente, la información estéreo de intensidad para reconstruir los canales L, R, C originales a partir del canal combinado también tiene que transmitirse al decodificador. En el decodificador, una combinación matricial inversa, es decir, se lleva a cabo una operación para deshacer la combinación matricial para derivar los canales de suspensión periférica de los dos canales de mezclado descendente. Adicionalmente, los canales izquierdo, derecho y central originales se aproximan mediante la decodificación estéreo de conjunto utilizando el canal combinado transmitido y los parámetros estéreo de conjunto transmitidos. Debe notarse que los canales izquierdo, derecho y central originales se derivan por la decodificación estéreo de conjunto del canal combinado.

El documento EP 0688113 A2 describe un método y aparato para codificar y decodificar señales de audio digitales y un aparato para grabar audio digital. Una señal original multicanal que tiene un canal central, un canal izquierdo, un canal derecho, un canal de suspensión periférica izquierdo y un canal de suspensión periférica derecho se introduce en un analizador común. El analizador común analiza qué parte de los distintos canales pueden tratarse en común y emite de manera selectiva solamente la parte de los datos de audio de lo canales respectivos que van a tratarse en común. Las partes de los canales originales que no pueden tratarse en común se codifican de manera separada. Mediante circuitos de transformada ortogonal, los canales originales se transforman en el dominio de frecuencia. A continuación, un selector de procesamiento de tratamiento común selecciona, basándose en datos sobre tratamiento común, el intervalo de frecuencia tal para el que el nivel absoluto de ruido de cuantificación generado por el tratamiento común se hace inferior a la curva de audibilidad mínima. Los otros datos en tiempo o frecuencia, donde no se cumple esta condición, no se tratan en común sino que se codifican y transmiten de manera separada.

El documento de patente de los EE.UU. describe un método para codificar una pluralidad de señales de audio. El canal izquierdo, el canal derecho y el canal central se introducen en un codificador estéreo de conjunto, que emite una señal codificada de conjunto. Después de la cuantificación en un bloque de cuantificación, la señal se suministra a un empaquetador de flujo de bits. Además, esta señal codificada de conjunto se introduce en un decodificador estéreo de conjunto para obtener señales decodificadas simuladas. Estas señales decodificadas simuladas se introducen en una matriz de compatibilidad, que también recibe el canal de suspensión periférica izquierdo y el canal de suspensión periférica derecho. Basándose en estos cinco canales, se generan y cuantifican una señal compatible izquierda y una señal compatible derecha y finalmente se envían al empaquetador de flujo de bits.

Es el objetivo de la presente invención proporcionar un concepto para un procesamiento o procesamiento inverso eficiente en bits y reducido en artefactos de una señal de audio multicanal.

Según un primer aspecto de la presente invención, este objetivo se logra mediante un aparato para procesar una señal de audio multicanal, teniendo la señal de audio de multicanal al menos tres canales originales, que comprende: un medio para proporcionar un primer canal de mezclado descendente y un segundo canal de mezclado descendente, derivándose el primer y segundo canales de mezclado descendente de los canales originales; un medio para calcular la información lateral de canal para un canal original seleccionado de las señales originales, siendo el medio para calcular operativo para calcular la información lateral de canal de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer y segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, da como resultado una aproximación del canal original seleccionado; y un medio para generar datos de salida, incluyendo los datos de salida la información lateral de canal, el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente.

Según un segundo aspecto de la presente invención, este objetivo se logra por un método de procesar una señal de audio multicanal, teniendo al menos la señal de audio multicanal tres canales originales, que comprende: proporcionar un primer canal de mezclado descendente y un segundo canal de mezclado descendente, derivándose el primer y segundo canal de mezclado descendente a partir de los canales originales; calculando la información lateral de canal para un canal original seleccionado de las señales originales por lo que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer y segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, da como resultado una aproximación del canal original seleccionado; y generar los datos de salida, incluyendo los datos de salida la información lateral de canal, el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente.

Según un tercer aspecto de la presente invención, este objetivo se logra mediante un aparato para el procesamiento inverso de datos de entrada, incluyendo los datos de entrada la información lateral de canal, un primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y un segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente, en el que el primer canal de mezclado descendente y el segundo canal de mezclado descendente se derivan de al menos tres canales originales de una señal de audio multicanal y en el que la información lateral de canal se calcula de tal forma que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer canal de mezclado descendente y el segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, da como resultado una aproximación del canal original seleccionado, comprendiendo el aparato: un lector de datos de entrada para leer los datos de entrada para obtener el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente y la información lateral de canal; y un reconstructor de canal para reconstruir la aproximación del canal original seleccionado utilizando la información lateral de canal en el canal de mezclado descendente o el canal de mezclado descendente combinado para obtener la aproximación del canal original seleccionado.

Según un cuarto aspecto de la presente invención, este objetivo se logra por un método de procesamiento inverso de datos de entrada, incluyendo los datos de entrada información lateral de canal, un primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y un segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente, en el que el primer canal de mezclado descendente y el segundo canal de mezclado descendente se derivan de al menos tres canales originales de una señal de audio multicanal y en el que la información lateral de canal se calcula de tal forma que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer canal de mezclado descendente y el segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, da como resultado una aproximación del canal original seleccionado, comprendiendo el método: leer los datos de entrada para obtener el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente y la información lateral de canal; y reconstruir la aproximación del canal original seleccionado utilizando la información lateral de canal y el canal de mezclado descendente o el canal de mezclado descendente combinado para obtener la aproximación del canal original seleccionado.

Según un quinto aspecto y un sexto aspecto de la presente invención, este objetivo se logra mediante un programa informático que incluye el método de procesamiento o el método de procesamiento inverso.

La presente invención se basa en el descubrimiento de que se obtiene la codificación eficiente y reducida en artefactos de la señal de audio multicanal, cuando dos canales de mezclado descendente que preferiblemente representan los canales estéreo izquierdo y derecho se empaquetan en lo datos de salida.

Inventivamente, la información lateral de canal paramétrica para uno o más de los canales originales se deriva de tal forma que se relaciona con uno de los canales de mezclado descendente en lugar de, como en la técnica anterior, con un canal estéreo de conjunto "combinado". Esto se refiere a que la información lateral de canal paramétrica se calcula de tal forma que sobre un lado de decodificador, un reconstructor de canal utiliza la información lateral de canal y uno de los canales de mezclado descendente o una combinación de los canales de mezclado descendente para reconstruir una aproximación del canal de audio original, al cual se asigna la información lateral de canal.

El concepto inventivo es ventajoso en que proporciona una extensión multicanal eficiente en bits de manera que puede reproducirse una señal de audio multicanal en un decodificador.

\newpage

Adicionalmente, el concepto inventivo es compatible hacia atrás, ya que un decodificador en graduación inferior, que solo se adapta para el procesamiento de dos canales, puede simplemente ignorar la información de extensión, es decir, la información lateral de canal. El decodificador de graduación inferior solamente puede reproducir los dos canales de mezclado descendente para obtener una representación estéreo de la señal de audio multicanal original. Sin embargo, un decodificador de graduación mayor que se facilita para la operación multicanal, puede utilizar la información lateral de canal transmitida para reconstruir las aproximaciones de los canales originales.

La presente invención es ventajosa en que es de eficiente en bits, ya que, en contraste con la técnica anterior, no se requiere ningún canal portador adicional más allá de los canales Lc, Rc de mezclado descendente primero y segundo. En su lugar, la información lateral de canal se relaciona con uno o ambos de los canales de mezclado descendente. Esto significa que los propios canales de mezclado descendente sirven como un canal portador, al cual se combina la información lateral de canal para reconstruir un canal de audio original. Esto significa que la información lateral de canal es preferiblemente la información lateral paramétrica, es decir, información que no incluye cualquiera de las muestras de sub-banda o coeficientes espectrales. En su lugar, la información lateral paramétrica es información utilizada para ponderar (en tiempo y/o frecuencia) el canal de mezclado descendente respectivo o la combinación de los canales de mezclado descendente respectivos para obtener una versión reconstruida de un canal original seleccionado.

En una realización preferida de la presente invención, se obtiene una codificación compatible hacia atrás de una señal multicanal que se basa en una señal estéreo compatible. Preferiblemente, la señal estéreo compatible (señal de mezclado descendente) se genera utilizando la combinación matricial de los canales originales de la señal de audio multicanal.

Inventivamente, la información lateral de canal para un canal original seleccionado se obtiene en base a las técnicas estéreo de conjunto tales como la codificación estéreo de intensidad o codificación de indicación binaural. Así, en el lado de decodificador, tiene que llevarse a cabo la operación para deshacer la combinación matricial. Se evitan los problemas asociados con deshacer la combinación matricial, es decir, ciertos artefactos relacionados con una distribución no deseada de cuantificación de ruido en las operaciones para deshacer la combinación matricial. Esto se debe al hecho de que el decodificador utiliza un reconstructor de canal, que reconstruye una señal original, al utilizar uno de los canales de mezclado descendente o una combinación de los canales de mezclado descendente y la información lateral de canal transmitida.

Preferiblemente, se aplica el concepto inventivo a una señal de audio de mutli-canal que tiene cinco canales. Estos cinco canales son una canal L izquierdo, una canal R derecho, un canal C central, un canal Ls de suspensión periférica izquierdo y un canal Rs de suspensión periférica derecho. Preferiblemente, los canales de mezclado descendente son canales Ls y Rs de mezclado descendente estéreo compatibles, que proporcionan una representación de estéreo de la señal de audio multicanal original.

Según la realización preferida de la presente invención, para cada canal original, la información lateral de canal se calcula en un lado de codificador empaquetado en los datos de salida. La información lateral de canal para el canal izquierdo original se deriva utilizando el canal de mezclado descendente izquierdo. La información del canal lateral para el canal de suspensión periférica izquierdo se deriva utilizando el canal de mezclado descendente izquierdo. La información lateral de canal para el canal derecho original se deriva a partir del canal de mezclado descendente derecho. La información del canal lateral para el canal de suspensión periférica derecho se deriva utilizando el canal de mezclado descendente derecho.

Según la realización preferida de la presente invención, la información de canal para el canal central original se deriva utilizando el primer canal de mezclado descendente así como el segundo canal de mezclado descendente, es decir, utilizando una combinación de los dos canales de mezclado descendente. Preferiblemente, esta combinación es una suma.

Así, los agrupamientos, es decir, la relación entre la información lateral de canal y la señal portadora, es decir, el canal de mezclado descendente utilizado para proporcionar la información lateral de canal para un canal original seleccionado son de tal forma que, para una calidad óptima, se selecciona un cierto canal de mezclado descendente, que contiene la cantidad relativa más alta posible de la señal multicanal original respectiva que se representa por medio de la información lateral de canal. Como una señal portadora estéreo de conjunto de este tipo, se utilizan el primer y segundo canales de mezclado descendente. Preferiblemente, también puede utilizarse la suma del primer y segundo canales de mezclado descendente. Naturalmente, la suma del primer y segundo canales de mezclado descendente puede utilizarse para calcular la información lateral de canal para cada uno de los canales originales. Sin embargo, preferiblemente, se utiliza la suma de los dos canales de mezclado descendente para calcular la información lateral de canal del canal central original en un ambiente de suspensión periférica, tal como cinco canales de suspensión periférica, siete canales de suspensión periférica, suspensión periférica de 5.1 o suspensión periférica de 7.1. Es especialmente ventajoso utilizar la suma del primer y segundo canales de mezclado descendente ya que no existen operaciones adicionales de transmisión que tengan que llevarse a cabo. Esto es debido al hecho de que ambos canales de mezclado descendente se presentan en el decodificador de tal forma que la suma de estos canales de mezclado descendente puede llevarse a cabo fácilmente en el decodificador sin requerir ningún bit de transmisión adicional.

Preferiblemente, la información lateral de canal que forma la extensión multicanal se introduce en el flujo de bits de datos de salida en una forma compatible de manera que un decodificador de graduación inferior simplemente ignora los datos de extensión multicanal y solo proporciona la representación estéreo de la señal de audio
multicanal.

Sin embargo, un codificador de graduación superior no solo utiliza dos canales de mezclado descendente, sino además emplea la información lateral de canal para reconstruir una representación multicanal completa de la señal de audio original.

Un decodificador inventivo es operativo para decodificar primero ambos canales de mezclado descendente y para leer la información lateral de canal para los canales originales seleccionados. Entonces, la información lateral de canal y los canales de mezclado descendente se utilizan para reconstruir las aproximaciones de los canales originales. Con este fin, preferiblemente no se lleva a cabo ninguna operación para deshacer la combinación matricial. Esto significa que, en esta realización, cada uno de, por ejemplo, los cinco canales de entrada originales se reconstruyen utilizando, por ejemplo, cinco conjuntos de diferentes informaciones laterales del canal. En el decodificador, se lleva a cabo el mismo agrupamiento como en el codificador para calcular la aproximación del canal reconstruido. En un ambiente de suspensión periférica de cinco canales, esto significa que para reconstruir el canal izquierdo original, se utilizan el canal de mezclado descendente izquierdo y la información lateral de canal para el canal izquierdo. Para reconstruir el canal derecho original, se utilizan el canal de mezclado descendente derecho y la información lateral de canal para el canal derecho. Para reconstruir el canal de suspensión periférica izquierdo original, se utilizan el canal de mezclado descendente izquierdo y la información lateral de canal para el canal de suspensión periférica izquierdo. Para reconstruir el canal de suspensión periférica derecho original, se utilizan la información lateral de canal para el canal de suspensión periférica derecho y el canal de mezclado descendente derecho. Para reconstruir el canal central original, se utiliza un canal combinado formado a partir del primer canal de mezclado descendente y el segundo canal de mezclado descendente y la información lateral de canal central.

Naturalmente, también es posible, volver a reproducir el primer y segundo canales de mezclado descendente como los canales izquierdo y derecho de manera que solamente tienen que transmitirse tres conjuntos (de por ejemplo, cinco) de los parámetros de información lateral de canal. Sin embargo, esto solo es aconsejable en situaciones donde existen reglas menos estrictas con respecto a la calidad. Esto se debe al hecho de que normalmente, el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho son diferentes del canal izquierdo original o canal derecho original. Tal procesamiento solamente es ventajoso en situaciones donde no puede permitirse el transmitir la información lateral de canal para cada uno de los canales originales.

Breve descripción de los dibujos

Las realizaciones preferidas de la presente invención se describen a continuación en referencia a las figuras acompañantes en las que:

La figura 1 es un diagrama de bloques de una realización preferida del codificador inventivo;

La figura 2 es un diagrama de bloque de una realización preferida del decodificador inventivo;

La figura 3A es un diagrama de bloque para una implementación preferida del medio para calcular para obtener la información lateral de canal selectivo de frecuencia;

La figura 3B es una realización preferida de un cálculo que implementa el procesamiento estéreo de conjunto tal como una codificación de intensidad o codificación de indicación binaural;

La figura 4 ilustra otra realización preferida del medio para calcular la información lateral de canal, en el que la información lateral de canal son factores de ganancia;

La figura 5 ilustra una realización preferida de una implementación del decodificador, cuando el codificador se implementa como en la figura 4;

La figura 6 ilustra una implementación preferida del medio para proporcionar los canales de mezclado descendente;

La figura 7 ilustra los agrupamientos de los canales originales y de mezclado descendente para calcular la información lateral de canal para los canales originales respectivos;

La figura 8 ilustra otra realización preferida de un codificador inventivo;

La figura 9 ilustra otra implementación de un decodificador inventivo; y

La figura 10 ilustra una técnica anterior del codificador estéreo de conjunto.

Descripción detallada de las realizaciones preferidas

La figura 1 muestra un aparato para procesar una señal 10 multicanal que tiene al menos tres canales originales tales como R, L y C. Preferiblemente, la señal de audio original tiene más de tres canales, tales como cinco canales en el ambiente de suspensión periférica, que se ilustran en la figura 1. Los cinco canales son el canal L izquierdo, el canal R derecho, el canal C central, el canal Ls de suspensión periférica izquierdo y el canal Rs de suspensión periférica derecho. El aparato inventivo incluye el medio 12 para proporcionar un primer canal Lc de mezclado descendente y un segundo canal Rc de mezclado descendente, derivándose el primer y segundo canales de mezclado descendente a partir de los canales originales. Para derivar los canales de mezclado descendente a partir de los canales originales, existen varias posibilidades. Una posibilidad es derivar los canales Lc y Rc de mezclado descendente por medio de la combinación matricial de los canales originales utilizando una operación de combinación matricial tal como se ilustra en la figura 6. Esta operación de combinación matricial se lleva a cabo en el dominio de tiempo.

Los parámetros a, b y t de la combinación matricial se seleccionan de tal forma que son inferiores o iguales a 1. Preferiblemente, a y b son 0.7 ó 0.5. El parámetro t de ponderación total se selecciona preferiblemente de tal forma que se evita el corte del canal. Alternativamente, tal como se indica en la figura 1, los canales Lc y Rc de mezclado descendente también pueden suministrarse de forma externa. Esto puede hacerse, cuando los canales Lc y Rc de mezclado descendente son el resultado de una operación de "mezclado a mano". En este escenario, un ingeniero de sonido mezcla los canales de mezclado descendente por sí mismo en lugar de utilizar una operación de combinación matricial automatizada. El ingeniero de sonido lleva a cabo el mezclado creativo para obtener los canales Lc y Rc de mezclado descendente optimizados que dan la mejor representación estéreo posible de la señal de audio multicanal original.

En el caso de un suministro externo de los canales de mezclado descendente, el medio para proporcionar no lleva a cabo una operación de combinación matricial sino simplemente envía los canales de mezclado descendente suministrados de forma externa a un medio 14 de cálculo posterior.

El medio 14 de cálculo es operativo para calcular la información lateral de canal tal como l_{1}, ls_{i}, r_{i} o rs_{i} para seleccionar los canales originales tales como L, Ls, R o Rs respectivamente. En particular, el medio 14 para calcular es operativo para calcular la información lateral de canal de tal manera que un canal de mezclado descendente, cuando se pondera utilizando la información lateral de canal, da como resultado una aproximación del canal original seleccionado.

Alternativa o adicionalmente, el medio para calcular la información lateral de canal es operativo además para calcular la información lateral de canal para un canal original seleccionado de tal forma que un canal de mezclado descendente combinado que incluye una combinación del primer y segundo canales de mezclado descendente, cuando se pondera utilizando la información lateral de canal calculada da como resultado una aproximación del canal original seleccionado. Para mostrar esta característica en la figura, se muestran un sumador 14a y un calculador 14b de información lateral de canal combinado.

Para el experto en la técnica, está claro que estos elementos no tienen que implementarse como elementos distintos. En su lugar, la funcionalidad completa de los bloques 14, 14a y 14b puede implementarse por medio de un cierto procesador que puede ser un procesador de propósito general o cualquier otro medio para llevar a cabo la funcionalidad requerida.

Adicionalmente, debe notarse aquí que las señales de canal son muestras de sub-banda o valores de dominio de frecuencia que se indican en mayúsculas. La información lateral de canal se indica, a diferencia de los propios canales, mediante minúsculas. La información c_{i} lateral de canal es por lo tanto, la información lateral de canal para el canal central C original.

La información lateral de canal así como los canales Lc y Rc de mezclado descendente o una versión Lc' o Rc' codificada tal como se produce por un codificador 16 de audio, se introducen en un formateador 18 de datos de salida. Generalmente, el formateador 18 de datos de salida actúa como un medio para generar los datos de salida, incluyendo los datos de salida la información lateral de canal para al menos un canal original, el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente (tal como una versión codificada del mismo) y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente (tal como una versión codificada del mismo).

El flujo 20 de datos de salida o de salida puede transmitirse entonces a un decodificador de flujo de bits o puede almacenarse o distribuirse. Preferiblemente, el flujo 20 de bits de salida es un flujo de bits compatible que también puede leerse mediante un decodificador de graduación inferior que no tiene una capacidad de extensión multicanal. Tales codificadores de graduación inferior tales como la mayoría de los decodificadores mp3 normales del estado de la técnica, simplemente ignorará los datos de extensión multicanal, es decir, la información lateral de canal. Solo decodificarán el primer y segundo canales de mezclado descendente para producir una salida estéreo. Los decodificadores de graduación superior, tales como decodificadores posibilitados para multicanal leerán la información lateral de canal y entonces generarán una aproximación de los canales de audio originales de tal forma que se obtiene una impresión de audio multicanal.

La figura 8 muestra una realización preferida de la presente invención en el ambiente de cinco canales de suspensión periférica/mp3. Aquí, se prefiere escribir los datos de mejora de suspensión periférica en el campo de datos auxiliar en la sintáxis de flujo de bits mp3 estandarizada de tal manera que se obtiene un flujo de bits de "suspensión periférica mp3".

La figura 2 muestra una ilustración de un decodificador inventivo que actúa como un aparato para procesar de forma inversa el dato de entrada recibido en un puerto 22 de datos de entrada. El dato recibido en el puerto 22 de datos de entrada es el mismo dato que el emitido a la salida del puerto 20 de datos de salida en la figura 1. Alternativamente, cuando los datos no se transmiten a través del canal alámbrico sino a través del canal inalámbrico, los datos recibidos en el puerto 22 de datos de entrada son datos derivados a partir de los datos originales producidos por el codificador.

Los datos de entrada de codificador entran en un lector 24 de corriente de datos para leer los datos de entrada para finalmente obtener la información 26 lateral de canal y el canal 28 de mezclado descendente izquierdo y el canal 30 de mezclado descendente derecho. En el caso de que los datos de entrada incluyan versiones codificadas de los canales de mezclado descendente, que corresponde al caso en el que está presente el codificador 16 de audio en la figura 1, el lector 24 de corriente de datos también incluye un decodificador de audio, que se adapta al codificador de audio utilizado para codificar los canales de mezclado descendente. En este caso, el decodificador de audio, que es parte del lector 24 de corriente de datos, es operativo para generar el primer canal Lc de mezclado descendente y el segundo canal Rc de mezclado descendente, o se dicho más exactamente, una versión codificada de aquellos canales. Para la facilidad de la descripción, solamente se hace una distinción entre las señales y versiones codificadas de las mismas cuando se dice explícitamente.

La información 26 lateral de canal y los canales 28 y 30 de mezclado descendente izquierdo y derecho que se emiten por el lector 24 de corriente de datos se alimentan en un reconstructor 32 multicanal para proporcionar una versión 34 reconstruida de las señales de audio originales, que pueden reproducirse por medio de un reproductor 36 multicanal. En el caso de que el reconstructor multicanal sea operativo en el dominio de frecuencia, el reproductor 36 multicanal recibirá los datos de entrada de dominio de frecuencia, que tienen que estar codificados en cierta forma, tal como convertirse en el dominio de tiempo antes de reproducirlos. Con este fin, el reproductor 36 multicanal también incluye medios de decodificación.

Debe notarse aquí que un decodificador de graduación inferior solo tendrá el lector 24 de corriente de datos, que solo emite los canales 28 y 30 de mezclado descendente derecho e izquierdo a una salida 38 estéreo. Un decodificador inventivo mejorado sin embargo, extraerá la información 26 lateral de canal y usará esta información lateral y los canales 28 y 30 de mezclado descendente para reconstruir las versiones 34 reconstruidas de los canales originales utilizando el reconstructor 32 multicanal.

La figura 3A muestra una realización del calculador 14 inventivo, que un codificador de audio por un lado y el calculador de información lateral de canal por otro lado accionan sobre la misma representación espectral de la señal multicanal. La figura 1 sin embargo, muestra la otra alternativa, en la cual el codificador de audio por un lado y el calculador de información lateral de canal por otro lado accionan sobre diferentes representaciones espectrales de la señal multicanal. Cuando los recursos de cómputo no son tan importantes como la calidad del audio, se prefiere la alternativa de la figura 1, ya que pueden utilizarse bancos de filtros optimizados individualmente para codificar el audio y calcular la información lateral. Sin embargo, cuando los recursos de cómputo son una cuestión importante, se prefiere la alternativa de la figura 3A, ya que esta alternativa requiere menos potencia de cómputo debido a una utilización compartida de elementos.

El dispositivo mostrado en la figura 3A es operativo para recibir dos canales A y B. El dispositivo mostrado en la figura 3A es operativo para calcular una información lateral para el canal B por lo que utilizando esta información lateral de canal para el canal B original seleccionado, puede calcularse una versión reconstruida del canal B a partir de la señal A del canal. Adicionalmente, el dispositivo mostrado en la figura 3A es operativo para formar la información lateral de canal de dominio de frecuencia, tales como los parámetros para ponderar (mediante multiplicación o procesamiento de tiempo como por ejemplo en la codificación BCC) los valores espectrales o muestras de sub-banda. Con este fin, el calculador inventivo incluye medios 140a de conversión de tiempo/frecuencia y partición en ventanas para obtener una representación de frecuencia del canal A a una salida 140b o una representación de dominio de frecuencia del canal B a una salida 140c.

En la realización preferida, la determinación de la información lateral (por medio de los medios 140f de determinación de información lateral) se lleva a cabo utilizando valores espectrales cuantificados. Entonces, también se encuentra presente un cuantificador 140d que preferiblemente se controla utilizando un modelo psicoacústico que tiene una entrada 140e de control del modelo acústico. Sin embargo, no se requiere un cuantificador cuando el medio 140c de determinación de información lateral utiliza una representación no cuantificada del canal A para determinar la información lateral de canal para el canal B.

En el caso de que la información lateral de canal para el canal B se calcule por medio de una representación de domino de frecuencia del canal A y de la representación de dominio de frecuencia del canal B, el medio 140a de conversión de tiempo/frecuencia y partición en ventanas puede ser el mismo que el que se utiliza en un codificador de audio basado en bancos de filtros. En este caso, cuando se considera ACC (ISO/IEC 13818-3), el medio 140a se implementa como un banco de filtros de MDCT (MDCT = transformada discreta del coseno modificada) con una funcionalidad de solapamiento y agregado del 50%.

En tal caso, el cuantificador 140d es un cuantificador iterativo como el que se utiliza cuando se generan las señales de audio mp3 o ACC codificadas. La representación del dominio de frecuencia del canal A, que preferiblemente ya está cuantificada, puede entonces utilizarse directamente para codificar la entropía utilizando un codificador de entropía 140g, que puede ser un codificador basado en Huffman o un codificador de entropía que implementa la codificación aritmética.

Cuando se compara con la figura 1, la salida del dispositivo en la figura 3A es la información lateral tal como l_{i} para un canal original (correspondiente a la información lateral para B en la salida del dispositivo 140f). El flujo de bits codificada por entropía para el canal A corresponde a por ejemplo el canal Lc' de mezclado descendente izquierdo codificado en la salida del bloque 16 en la figura 1. A partir de la figura 3A está claro que el elemento 14 (figura 1) es decir, el calculador para calcular la información lateral de canal y el codificador 16 de audio (figura 1) puede implementarse como un medio separado o puede implementarse como una versión compartida de manera que ambos dispositivos comparten varios elementos tal como el banco 140a de filtros de MDCT, el cuantificador 140e y el codificador 140g de entropía. Naturalmente, en el caso de que se necesita una transformada diferente, etc. para determinar la información lateral de canal, entonces el codificador 16 y el calculador 14 (figura 1) se implementarán en diferentes dispositivos de manera que ambos elementos no compartan el banco de filtros, etc.

Generalmente, el determinador real para calcular la información lateral (o dicho generalmente el calculador 14) puede implementarse como un módulo estéreo de conjunto tal como se muestra en la figura 3B, que funciona según cualquiera de las técnicas estéreo de conjunto tal como la codificación estéreo de intensidad o la codificación de indicación binaural.

A diferencia de tales codificadores estéreo de intensidad de la técnica anterior, el medio 140f de determinación inventivo no tiene que calcular el canal combinado. El "canal combinado" o canal portador, como puede decirse, ya existe y es el canal Lc de mezclado descendente compatible izquierdo o el canal Rc de mezclado descendente compatible derecho o una versión combinada de estos canales de mezclado descendente tal como Lc + Rc. Por lo tanto, el dispositivo 140f inventivo sólamente tiene que calcular la información de graduación para graduar el canal de mezclado descendente respectivo de manera que se obtiene la envoltura de energía/tiempo del canal original seleccionado respectivo, cuando el canal de mezclado descendente se pesa utilizando la información de graduación o como puede decirse, la información direccional de intensidad.

Por lo tanto, el módulo 140f estéreo de conjunto en la figura 3B se ilustra de manera que recibe, como una entrada, el canal A "combinado" que es el primer o segundo canal de mezclado descendente o una combinación de los canales de mezclado descendente y el canal original seleccionado. Este módulo, naturalmente emite el canal A "combinado" y los parámetros estéreo de conjunto como la información lateral de canal de manera que, utilizando el canal A y los parámetros estéreo de conjunto combinados, puede calcularse una aproximación del canal B original seleccionado.

Alternativamente, el módulo 140f estéreo de conjunto puede implementarse para llevar a cabo la codificación de indicación binaural.

En el caso de BCC, el módulo estéreo de conjunto 140f es operativo para sacar la información lateral de canal de manera que la información lateral de canal son parámetros ICLD o ICTD cuantificados y codificados, en donde el canal original seleccionado sirve como el canal real a procesarse, mientras que el canal de mezclado descendente respectivo se utiliza para calcular la información lateral, de manera que el primer, el segundo o una combinación del primer y segundo canales de mezclado descendente se utiliza como el canal de referencia en el sentido de la técnica de codificación/ decodificación de BCC.

En referencia a la figura 4, se da una implementación simple dirigida a energía del elemento 140f. Este dispositivo incluye un selector 44 de banda de frecuencia que selecciona una banda de frecuencia a partir del canal A y una banda de frecuencia correspondiente del canal B. Entonces, en ambas bandas de frecuencia, se calcula una energía por medio de un calculador 42 de energía para cada rama. La implementación detallada del calculador 42 de energía dependerá de si la señal de salida del bloque 40 es una señal de sub-banda o coeficientes de frecuencia. En otras implementaciones, donde se calculan los factores de graduación para las bandas del factor de graduación, ya pueden utilizarse los factores de graduación del primer y segundo canal A, B como valores E_{A} y E_{B} de energía o al menos como estimaciones de la energía. En un dispositivo 44 de cálculo del factor de ganancia, se determina un factor g_{B} de ganancia para la banda de frecuencia seleccionada en base a una cierta regla tal como la regla de determinación de ganancia ilustrada en el bloque 44 en la figura 4. Aquí, el factor g_{B} de ganancia puede utilizarse directamente para ponderar las muestras de dominio de tiempo o coeficientes de frecuencia tal como se describirá después en la figura 5. Con este fin, el factor g_{B} de ganancia, que es válido para la banda de frecuencia seleccionada, se utiliza como la información lateral de canal para el canal B como el canal original seleccionado. Este canal B original seleccionado no se transmitirá al decodificador sino que se representará mediante la información lateral de canal paramétrica tal como se calculó por el calculador 14 en la figura 1.

Debe notarse aquí que no es necesario transmitir los valores de ganancia como la información lateral de canal. También es suficiente transmitir los valores dependientes de frecuencia relacionados con la energía absoluta del canal original seleccionado. Entonces, el decodificador tiene que calcular la energía real del canal de mezclado descendente y el factor de ganancia en base a la energía del canal de mezclado descendente y la energía transmitida para el canal B.

La figura 5 muestra una implementación posible de un decodificador establecido en conexión con un codificador de audio perceptual basado en la transformada. En comparación con la figura 2, las funcionalidades del decodificador de entropía y el cuantificador 50 inverso (figura 5) se incluirán en el bloque 24 de la figura 2. Sin embargo, la funcionalidad de los elementos 52a, 52b de conversión de frecuencia/tiempo (figura 5), se implementará en el elemento 36 de la figura 2. El elemento 50 en la figura 5 recibe una versión codificada de la primera o segunda señal Lc' o Rc' de mezclado descendente. A la salida del elemento 50, está presente una versión al menos parcialmente codificada del primer y segundo canal de mezclado descendente que se llama subsiguientemente canal A. El canal A se introduce en un selector 54 de banda de frecuencia para seleccionar una cierta banda de frecuencia a partir del canal A. Esta banda de frecuencia seleccionada se pondera utilizando un multiplicador 56. El multiplicador 56 recibe, para multiplicar, un cierto g_{B} factor de ganancia, que se asigna a la banda de frecuencia seleccionada que se selecciona por el selector 54 de banda de frecuencia que corresponde al selector 40 de banda de frecuencia en la figura 4 en el lado de codificador. En la entrada del convertidor 52a de frecuencia/tiempo, existe, junto con otras bandas, una representación de dominio de frecuencia del canal A. A la salida del multiplicador 56 y en particular, a la entrada del medio 52b de conversión de frecuencia/tiempo habrá una representación de dominio de frecuencia reconstruida del canal B. Por lo tanto, en la salida del elemento 52a habrá una representación de dominio de tiempo para el canal A, mientras que en la salida del elemento 52b, habrá una representación de dominio de tiempo del canal B reconstruido.

Debe notarse aquí que, dependiendo de la implementación determinada, el canal Lc o Rc de mezclado descendente decodificado no se reproducirá en una decodificador mejorado multicanal. En tal codificador mejorado multicanal, los canales de mezclado descendente decodificados solo se utilizarán para reconstruir los canales originales. Los canales de mezclado descendente decodificados solo se reproducen de nuevo en decodificadores de solo estéreo de graduación inferior.

Con este fin, se hace referencia a la figura 9, que muestra la implementación preferida de la presente invención en un ambiente de suspensión periférica/mp3. Un flujo de bits de suspensión periférica mejorada de mp3 entra en un decodificador 24 mp3 estándar, que emite las versiones codificadas de los canales de mezclado descendente originales. Estos canales de mezclado descendente pueden reproducirse de nuevo directamente mediante un decodificador de nivel bajo. Alternativamente, estos dos canales entran en el dispositivo 32 de decodificación estéreo de conjunto avanzada que también recibe los datos de extensión multicanal, que preferiblemente entran en el campo de datos auxiliar en un flujo de bits que se ajusta a los requisitos de mp3.

Subsiguientemente, se hace referencia a la figura 7 que muestra el agrupamiento del canal original seleccionado y el canal de mezclado descendente respectivo o el canal de mezclado descendente combinado. En este sentido, la columna derecha de la tabla 7 corresponde al canal A en las figuras 3A, 3B, 4 y 5 mientras que la columna de en medio corresponde al canal B en estas figuras. En la columna izquierda en la figura 7, se expone explícitamente la información lateral de canal respectiva. Según la tabla de la figura 7, la información l_{i} lateral de canal para el canal L izquierdo original se calcula utilizando el canal Lc de mezclado descendente izquierdo. La información ls_{i} lateral de canal de suspensión periférica izquierdo se determina mediante el canal Ls de suspensión periférica izquierdo seleccionado y el canal Lc de mezclado descendente izquierdo es el portador. La información r_{i} lateral de canal derecho para el canal R derecho original se determina utilizando el canal Rc de mezclado descendente derecho. Adicionalmente, la información lateral de canal para el canal Rs de suspensión periférica derecho se determina utilizando el canal Rc de mezclado descendente como el portador. Finalmente, la información c_{i} lateral de canal para el canal C central se determina utilizando el canal de mezclado descendente combinado, que se obtiene por medio de una combinación del primer y segundo canal de mezclado descendente, que puede calcularse fácilmente tanto en un codificador como en un decodificador y que no requiere ningún bit extra para la transmisión.

Naturalmente, puede calcularse la información lateral de canal para el canal izquierdo, por ejemplo, en base a un canal de mezclado descendente combinado o incluso un canal de mezclado descendente, que se obtiene mediante una adición ponderada del primer y segundo canales de mezclado descendente tal como 0.7 Lc y 0.3 Lc, siempre que el decodificador conozca los parámetros de ponderación o se transmitan en consecuencia. Sin embargo, para la mayoría de las aplicaciones, se preferirá que solo se derive la información lateral de canal para el canal central a partir del canal de mezclado descendente combinado, es decir, a partir de una combinación del primer y segundo canales de mezclado descendente.

Para mostrar el potencial de ahorro de bits de la presente invención, se da el siguiente ejemplo típico. En el caso de una señal de audio de cinco canales, un codificador normal necesita una tasa de bits de 64 kbit/s para cada magnitud de canal ascendiendo a una tasa de bits total de 320 kbit/s para la señal de cinco canales. Las señales estéreo izquierda y derecha requieren una tasa de bits de 128 kbit/s. La información lateral de los canales para un canal se encuentra entre 1,5 y 2 kbit/s. Así, incluso en un caso en el que se transmite información lateral de canal para cada uno de los cinco canales, estos datos adicionales solamente ascienden a 7,5 hasta 10 kbit/s. Así, el concepto inventivo permite la transmisión de una señal de audio de cinco canales utilizando una tasa de bits de 138 kbit/s (comparada con 320 (!) kbit/s) con buena calidad, ya que el decodificador no utiliza la operación para deshacer la combinación matricial problemática. Probablemente es incluso más importante el hecho de que el concepto inventivo es completamente compatible hacia atrás, ya que cada uno de los reproductores mp3 existentes es capaz de reproducir de nuevo el primer canal de mezclado descendente y el segundo canal de mezclado descendente para producir una salida estéreo convencional.

Dependiendo del ambiente de aplicación, el método inventivo para el procesamiento o procesamiento inverso puede implementarse en hardware o en software. La implementación puede ser un medio de almacenamiento digital tal como un disco o un CD que tiene señales de control electrónicamente legibles, que pueden cooperar con un sistema informático programable de manera que se lleva a cabo el método inventivo para el procesamiento o procesamiento inverso. Dicho generalmente, la invención también se refiere por tanto a un producto de programa informático que tiene un código de programa almacenado sobre un portador legible por máquina, estando el código del programa adaptado para llevar a cabo el método inventivo cuando el producto de programa informático e ejecuta en un ordenador. En otras palabras, la invención también se refiere por tanto a un programa informático que tiene un código de programa para llevar a cabo el método, cuando el programa informático se ejecuta en un ordenador.

Claims

1. Aparato para procesar una señal de audio multicanal, teniendo la señal de audio multicanal al menos tres canales originales, que comprende:

: un medio (12) para proporcionar un primer canal de mezclado descendente como un canal de mezclado descendente izquierdo y un segundo canal de mezclado descendente como un canal de mezclado descendente derecho, derivándose el primer y segundo canales de mezclado descendentes de los canales originales de manera que los canales de mezclado descendente izquierdo y derecho se forman de manera que el resultado, cuando se reproduce, es una representación estéreo de la señal de audio multicanal;

: un medio (14) medios para calcular la información lateral de canal para un canal original seleccionado de las señales originales, siendo el medio para calcular operativo para calcular la información lateral de canal de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer y segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, dan como resultando una aproximación del canal original seleccionado; y

: un medio (18) para generar datos de salida, incluyendo los datos de salida la información lateral de canal.

2. Aparato según la reivindicación 1, en el que el medio (18) para generar es operativo para generar los datos de salida de manera que los datos de salida incluyen adicionalmente el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente y el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente.

3. Aparato según la reivindicación 1 ó 2, en el que el medio (14) para calcular es operativo para determinar la información lateral de canal como datos paramétricos que no incluyen las muestras de dominio de tiempo o valores espectrales.

4. Aparato según una cualquiera de las reivindicaciones 1 a 3, en el que el medio (14) para calcular es operativo para llevar a cabo la codificación estéreo de conjunto utilizando un canal de mezclado descendente como un canal portador y utilizando, como un canal de entrada, el canal original seleccionado, para generar los parámetros estéreo de conjunto como la información lateral de canal para el canal original seleccionado.

5. Aparato según la reivindicación 3, en el que el medio (14) para calcular es operativo para llevar a cabo la codificación estéreo de intensidad o la codificación de indicación binaural, de manera que la información lateral de canal representa una distribución de energía o parámetros de indicación binaural para el canal original seleccionado, en el que un canal de mezclado descendente o un canal de mezclado descendente combinado es utilizable como un canal portador.

6. Aparato según una cualquiera de las reivindicaciones 1 a 5,

en el que la señal de audio multicanal incluye un canal izquierdo, un canal de suspensión periférica izquierdo, un canal derecho y un canal de suspensión periférica derecho,

en el que el medio (12) para proporcionar es operativo para proporcionar el primer canal de mezclado descendente como un canal de mezclado descendente izquierdo y para proporcionar el segundo canal de mezclado descendente como un canal de mezclado descendente derecho, estando formados los canales de mezclado descendente izquierdo y derecho de manera que el resultado, cuando se reproduce, es una representación estéreo de la señal de audio multicanal, y

en el que el medio (14) para calcular es operativo

para calcular la información lateral de canal para el canal izquierdo como el canal original seleccionado utilizando el canal de mezclado descendente izquierdo,

para calcular la información lateral de canal para el canal derecho como el canal original seleccionado utilizando el canal de mezclado descendente derecho,

para calcular la información lateral de canal para el canal de suspensión periférica izquierdo como el canal original seleccionado utilizando el canal de mezclado descendente izquierdo, y

para calcular la información lateral de canal para el canal de suspensión periférica derecho como el canal original seleccionado utilizando el canal de mezclado descendente derecho.

7. Aparato según una cualquiera de las reivindicaciones 1 a 6,

en el que los canales originales incluyen un canal central,

que incluye además un combinador (14a) para combinar el primer canal de mezclado descendente y el segundo canal de mezclado descendente para obtener el canal de mezclado descendente combinado; y

en el que el medio para calcular la información lateral de canal para el canal central como el canal original seleccionado es operativo para calcular (14b) la información lateral de canal de manera que el canal de mezclado descendente combinado cuando se pondera utilizando la información lateral de canal da como resultado una aproximación del canal central original.

8. Aparato según una cualquiera de las reivindicaciones 1 a 6, en el que el medio (12) para proporcionar es operativo para derivar el primer canal de mezclado descendente y el segundo canal de mezclado descendente a partir de los canales originales utilizando una primera combinación ponderada lineal predeterminada para el primer canal de mezclado descendente y utilizando una segunda combinación ponderada lineal predeterminada para el segundo canal de mezclado descendente.

9. Aparato según la reivindicación 7, en el que la primera combinación ponderada lineal predeterminada se define como sigue:

Lc = t \cdot(L + a \cdot Ls + b \cdot C);

o

en el que la segunda combinación ponderada lineal predeterminada se define como sigue:

Rc = t \cdot(R + a \cdot Rs + b \cdot C),

en el que Lc es el primer canal de mezclado descendente, en el que Rc es el segundo canal de mezclado descendente, en el que t, a y b son factores de ponderación inferiores a 1, en el que L es un canal izquierdo original, en el que C es un canal central original, en el que R es un canal derecho original, en el que Ls es un canal de suspensión periférica izquierdo original y en el que Rs es un canal de suspensión periférica derecho original.

10. Aparato según una cualquiera de las reivindicaciones 1 a 8, en el que el medio (12) para proporcionar es operativo para recibir los canales de mezclado descendente primero y segundo suministrados externamente.

11. Aparato según una cualquiera de las reivindicaciones 1 a 10, en el que el primer canal de mezclado descendente y el segundo canal de mezclado descendente son canales compuestos estando compuestos de los canales originales en varios grados, en el que el medio para calcular es operativo, para utilizar, para calcular la información lateral de canal, el canal de mezclado descendente entre ambos canales de mezclado descendente, que se influye más fuertemente por el canal original seleccionado cuando se compara con el otro canal de mezclado descendente.

12. Aparato según una cualquiera de las reivindicaciones 1 a 11, en el que el medio (18) para generar es operativo para formar los datos de salida de manera que los datos de salida cumplen con una sintáxis de datos de salida para utilizarse por un decodificador de nivel bajo para procesar el primer canal de mezclado descendente o una señal derivada del primer canal de mezclado descendente o el segundo canal de mezclado descendente o una señal derivada del segundo canal de mezclado descendente para obtener una representación estéreo decodificada de la señal de audio multicanal.

13. Aparato según la reivindicación 12, en el que la sintáxis de datos de salida se trama de manera que la misma incluye un campo de datos especial para ignorarse por un decodificador de nivel bajo y en el que el medio para generar es operativo para insertar la información lateral de canal en el campo de datos especial.

14. Aparato según la reivindicación 13, en el que la sintáxis es la sintáxis mp3 y el campo de datos especial es un campo de datos auxiliar.

15. Aparato según una cualquiera de las reivindicaciones 12 a 14, en el que el medio (18) para generar es operativo para insertar la información lateral de canal en los datos de salida de manera que la información lateral de canal solo se utiliza por un decodificador de alto nivel pero se ignora por el decodificador de bajo nivel.

16. Aparato según una cualquiera de las reivindicaciones 2 a 15, que comprende además un codificador (16) para codificar el primer canal de mezclado descendente para obtener la señal derivada del primer canal de mezclado descendente o para codificar el segundo canal de mezclado descendente para obtener la señal derivada del segundo canal de mezclado descendente.

17. Aparato según la reivindicación 16, en el que el codificador (16) es un codificador perceptual que incluye medios para convertir una señal a codificarse en una representación espectral, medios para cuantificar la representación espectral utilizando un modelo psicoacústico y medios para codificar por entropía una representación espectral cuantificada para obtener una representación espectral cuantificada codificada por entropía como la señal derivada del primer canal de mezclado descendente o la señal derivada del segundo canal de mezclado descendente.

18. Aparato según la reivindicación 17, en el que el codificador (16) perceptual es un codificador según la capa III (mp3) de MPEG-1/2 o la codificación de audio avanzada MPEG-2/4 (AAC).

19. Aparato según una cualquiera de las reivindicaciones 1 a 18, en el que el medio (14) para calcular es operativo para calcular los valores de energía de mezclado descendente para el canal de mezclado descendente o el canal de mezclado descendente combinado,

para calcular un valor de energía original para el canal original seleccionado, y

para calcular un factor de ganancia como la información lateral de canal, derivándose el factor de ganancia a partir del valor de energía de mezclado descendente y del valor de energía original.

20. Aparato según una cualquiera de las reivindicaciones 1 a 19, en el que el medio (14) para calcular es operativo para calcular los parámetros de la información lateral de canal dependiente de la frecuencia, de manera que para una pluralidad de bandas de frecuencia, se obtiene una pluralidad de diferentes parámetros de información lateral de canal.

21. Método para procesar una señal de audio multicanal, teniendo la señal de audio multicanal al menos tres canales originales, que comprende:

: proporcionar (12) un primer canal de mezclado descendente como un canal de mezclado descendente izquierdo y un segundo canal de mezclado descendente como un canal de mezclado descendente derecho, derivándose el primer y segundo canales de mezclado descendente de los canales originales de manera que los canales de mezclado descendente izquierdo y derecho, dan como resultado cuando se reproducen una representación estéreo de la señal de audio multicanal;

: calcular (14) la información lateral de canal para un canal original seleccionado de las señales originales de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el primer y segundo canal de mezclado descendente, cuando se ponderan utilizando la información lateral de canal, dan como resultado una aproximación del canal original seleccionado; y

: generar (18) los datos de salida, incluyendo los datos de salida la información lateral de canal.

22. Aparato para el procesamiento inverso de datos de entrada, incluyendo los datos de entrada información lateral de canal, un canal de mezclado descendente izquierdo o una señal derivada del canal de mezclado descendente izquierdo y un canal de mezclado descendente derecho o una señal derivada del canal de mezclado descendente derecho, en el que el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho se derivan de al menos tres canales originales de una señal de audio multicanal y dan como resultado cuando se reproducen una representación estéreo de la señal de audio multicanal y en el que la información lateral de canal se calcula de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado que incluye el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho, cuando se ponderan utilizando la información lateral de canal, dan como resultando una aproximación del canal original seleccionado, comprendiendo el aparato:

: un lector (24) de datos de entrada para leer los datos de entrada para obtener el canal de mezclado descendente izquierdo o una señal derivada del canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho o una señal derivada del canal de mezclado descendente derecho y la información lateral de canal; y

: un reconstructor (32) de canal para reconstruir la aproximación del canal original seleccionado utilizando la información lateral de canal y el canal de mezclado descendente o el canal de mezclado descendente combinado para obtener la aproximación del canal original seleccionado.

23. Aparato según la reivindicación 22, que comprende además un decodificador (24) perceptual para decodificar la señal derivada del canal de mezclado descendente izquierdo para obtener la versión decodificada del canal de mezclado descendente izquierdo y para decodificar la señal derivada del canal de mezclado descendente derecho para obtener una versión decodificada del canal de mezclado descendente derecho.

24. Aparato según la reivindicación 22 ó 23, que comprende además un combinador para combinar el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho para obtener el canal de mezclado descendente combinado.

25. Aparato según una de las reivindicaciones 22 a 24,

en el que la señal de audio original incluye un canal izquierdo, un canal de suspensión periférica izquierdo, un canal derecho, un canal de suspensión periférica derecho y un canal central y

en el que los datos de entrada incluyen la información lateral de canal para al menos tres del canal izquierdo, el canal de suspensión periférica izquierdo, el canal derecho, el canal de suspensión periférica derecho y el canal central,

en el que el reconstructor (32) de canal es operativo

para reconstruir una aproximación del canal izquierdo utilizando la información lateral de canal para el canal izquierdo y el canal de mezclado descendente izquierdo,

para reconstruir una aproximación para el canal de suspensión periférica izquierdo utilizando la información lateral de canal para el canal de suspensión periférica izquierdo y el canal de mezclado descendente izquierdo,

para reconstruir una aproximación para el canal derecho utilizando la información lateral de canal para el canal derecho y el canal de mezclado descendente derecho, y

para reconstruir una aproximación para el canal de suspensión periférica derecho utilizando la información lateral de canal para el canal de suspensión periférica derecho y el canal de mezclado descendente derecho.

26. Aparato según una cualquiera de las reivindicaciones 22 a 25, en el que el reconstructor de canal es operativo para reconstruir una aproximación para el canal central utilizando la información lateral de canal para el canal central y el canal de mezclado descendente combinado.

27. Método de procesamiento inverso de datos de entrada, incluyendo los datos de entrada la información lateral de canal, un canal de mezclado descendente izquierdo o una señal derivada del canal de mezclado descendente izquierdo y un canal de mezclado descendente derecho o una señal derivada del canal de mezclado descendente derecho, en el que el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho se derivan de al menos tres canales originales de una señal de audio multicanal y en el que la información lateral de canal se calcula de manera que un canal de mezclado descendente o un canal de mezclado descendente combinado incluyendo el canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho, cuando se ponderan utilizan la información lateral de canal, dan como resultando una aproximación del canal original seleccionado, comprendiendo el método:

: leer (24) los datos de entrada para obtener el canal de mezclado descendente izquierdo o una señal derivada del canal de mezclado descendente izquierdo y el canal de mezclado descendente derecho o una señal derivada del de mezclado descendente derecho y la información lateral de canal; y

: reconstruir (32) la aproximación del canal original seleccionado utilizando la información lateral de canal y el canal de mezclado descendente o el canal de mezclado descendente combinado para obtener la aproximación del canal original seleccionado.

28. Programa informático que tiene un código de programa para llevar a cabo un método según la reivindicación 21 o la reivindicación 27, cuando se ejecuta en un ordenador.