ES2307160T3

ES2307160T3 - Codificador multicanal.

Info

Publication number: ES2307160T3
Application number: ES05718568T
Authority: ES
Inventors: Dirk J. Breebaart; Erik G. P. Schuijers; Gerard H. Hotho; Machiel W. Van Loon
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-05
Filing date: 2005-03-25
Publication date: 2008-11-16
Anticipated expiration: 2025-03-25
Also published as: JP2012191625A; TW200614150A; JP5032977B2; ATE395686T1; BRPI0509113A; DE602005006777D1; KR20070001208A; JP2007531913A; US20070194952A1; TWI393119B; CN102122509B; BRPI0509113B8; CN102122509A; BRPI0509113B1; RU2006139048A; MXPA06011361A; EP1735774B1; EP1735774A2; RU2390857C2; WO2005098821A2

Abstract

Codificador (10; 600) multicanal dispuesto para procesar señales (300, 310, 320, 330, 340; 300, 310, 610, 620, 330, 340) de entrada transportadas en N canales de entrada para generar señales (480, 490) de salida correspondientes transportadas en M canales de salida junto con datos (450) paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el codificador: (a) un elemento de downmix para realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y (b) un analizador para procesar las señales de entrada o bien durante el downmix o como un proceso independiente, pudiendo operarse dicho analizador para generar dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señal de entrada para permitir sustancialmente la regeneración durante la descodificación de uno o más de los N canales de señal de entrada a partir de los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida para permitir compatibilidad hacia atrás; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por: (Ver fórmula) donde un símbolo * representa un conjugado complejo, donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y epsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.

Description

Codificador multicanal.

Campo de la invención

La presente invención se refiere a codificadores multicanal, por ejemplo codificadores de audio multicanal que utilizan descripciones paramétricas de audio espacial. Además, la invención se refiere también a procedimientos de procesamiento de señales, por ejemplo señales de audio espaciales, en tales codificadores multicanal. Además, la invención se refiere a descodificadores que pueden operarse para descodificar señales generadas por tales codificadores multicanal.

Antecedentes de la invención

La grabación y la reproducción de audio ha progresado en los últimos años desde formato de canal único monoaural a formato estéreo de doble canal y más recientemente a formato multicanal, por ejemplo formato de audio de cinco canales tal como se utiliza frecuentemente en sistemas de cine en casa. La introducción de soportes de datos de disco compacto de super audio (SACD, Super Audio Compact Disk) y disco versátil digital (DVD, Digital Versatile Disc) ha dado como resultado que tal reproducción de audio de cinco canales cobre interés al mismo tiempo. Muchos usuarios actualmente disponen de equipos que pueden proporcionar reproducción de audio de cinco canales en sus hogares; de manera correspondiente, cada vez se dispone más de contenido de programa de audio de cinco canales en soportes de datos adecuados, por ejemplo los tipos de soportes de datos SACD y DVD antes mencionados. Debido al interés creciente en contenido de programa multicanal, una codificación más eficaz de contenido de programa de audio multicanal está convirtiéndose en un tema importante, por ejemplo para proporcionar uno o más de calidad mejorada, tiempo de reproducción más largo o incluso más canales.

Un ejemplo de un codificador multicanal se presenta en Faller. C et al. "Binaural Cue Coding: A Novel and Efficient Representation of Spatial Audio", Audio Engineering Society Convention Paper, Nueva York, NY, EE.UU., 10 de mayo de 2002, páginas 1841-1844, XP001153972.

Se conocen codificadores que pueden representar información de audio espacial tal como para contenido de programa de audio por medio de descriptores paramétricos. Por ejemplo, en una solicitud de patente PCT internacional publicada número PCT/IB2003/002858 (WO 2004/008805), se describe la codificación de una señal de audio multicanal incluyendo al menos una primera componente de señal (IF), una segunda componente de señal (RF) y una tercera componente de señal (DF). Esta codificación utiliza un procedimiento que comprende etapas de:

(a) codificar las componentes de señal primera y segunda utilizando un primer codificador paramétrico para generar una primera señal (I) codificada y un primer conjunto de parámetros (P2) de codificación;

(b) codificar la primera señal (I) codificada y una señal (D) adicional utilizando un segundo codificador paramétrico para generar una segunda señal (T) codificada y un segundo conjunto de parámetros (P1) de codificación en el que la señal (D) adicional se deriva de al menos la tercera componente (DF) de señal; y

(c) representar la señal de audio multicanal al menos mediante una señal (T) codificada resultante derivada de al menos la segunda señal (T) codificada, el primer conjunto de parámetros (P2) de codificación y el segundo conjunto de parámetros (P1) de codificación.

Las descripciones paramétricas de señales de audio han cobrado interés en los últimos años debido a que se ha mostrado que transmitir parámetros cuantificados que describen señales de audio requiere capacidad de transmisión pequeña relativa. Estos parámetros cuantificados pueden recibirse y procesarse en descodificadores para regenerar señales de audio perceptivamente que no difieran significativamente de sus señales de audio originales.

Los codificadores multicanal contemporáneos generan datos codificados de salida a una tasa de bits que se ajusta a escala sustancialmente de manera lineal con un número de canales de audio transportados en los datos codificados de salida. Tal característica hace que la inclusión de canales adicionales sea problemática debido a que la duración de reproducción para una capacidad de almacenamiento de soporte de datos o representación de calidad de audio dadas tendría que sacrificarse en consecuencia para adaptarse a más canales.

Sumario de la invención

Un objeto de la presente invención es prever un codificador multicanal que puede operarse para proporcionar codificación más eficaz de contenido de datos multicanal, por ejemplo contenido de datos de audio multicanal.

Los inventores han observado que, mediante el uso de procedimientos de codificación apropiados, los datos codificados de salida pueden transportar información correspondiente a, por ejemplo, contenido de programa de audio de cinco canales, mientras que se utiliza una tasa de bits requerida convencionalmente para transportar contenido de programa de audio de dos canales, concretamente estéreo.

\global\parskip0.900000\baselineskip

Así, según un primer aspecto de la presente invención, se proporciona un codificador multicanal dispuesto para procesar señales de entrada transportadas en N canales de entrada para generar señales de salida correspondientes transportadas en M canales de salida junto con datos paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el codificador:

(a): un elemento de downmix para realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y

(b): un analizador para procesar las señales de entrada o bien durante el downmix o como un proceso independiente, pudiendo operarse dicho analizador para generar dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señal de entrada para permitir sustancialmente la regeneración durante la descodificación de uno o más de los N canales de señal de entrada desde los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida para permitir compatibilidad hacia atrás; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

1

: donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y \varepsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.

La invención es ventajosa porque el codificador multicanal puede codificar más eficazmente señales de entrada multicanal en un flujo de salida que, por ejemplo, puede hacerse que sea compatible con un aparato de reproducción estéreo de dos canales.

Tal compatibilidad hacia atrás del codificador con los tipos anteriores de descodificador correspondiente se proporciona de tres maneras:

(a) las señales de salida sobre las que se ha realizado downmix procedentes del codificador se generan de tal manera que la reproducción de estas señales, concretamente sin procesamiento ni descodificación adicional, da como resultado una imagen espacial que es una buena aproximación de, por ejemplo, una imagen espacial de 5 canales, dadas las limitaciones de un número limitado correspondiente de altavoces. Esta propiedad garantiza compatibilidad de reproducción hacia atrás;

(b) parámetros espaciales asociados con las señales sobre las que se ha realizado downmix se colocan en la parte de datos auxiliar del flujo de bits. Un descodificador que no puede descodificar la parte de datos auxiliar todavía podrá descodificar la señal transmitida. Esta propiedad garantiza compatibilidad de descodificación hacia atrás; y

(c) parámetros almacenados en la parte auxiliar del flujo de bits y la estructura del decodificador se formulan de modo que un descodificador paramétrico puede regenerar señales de 2, 3 y 4 canales apropiadas. Esta propiedad proporciona flexibilidad en cuanto al sistema de reproducción utilizado, y por tanto proporciona compatibilidad hacia atrás con sistemas de 2, 3 y 4 canales.

Preferiblemente, en el codificador, el analizador incluye medios de procesamiento para convertir las señales de entrada por medio de transformación de un dominio temporal a un dominio de frecuencia y para procesar estas señales de entrada transformadas para generar los datos paramétricos. Procesar las señales de entrada en un dominio de frecuencia es beneficioso para proporcionar una codificación eficaz dentro del codificador. Más preferiblemente, en el codificador, al menos uno del elemento de downmix y el analizador están dispuestos para procesar las señales de entrada como una secuencia de baldosas de tiempo-frecuencia para generar las señales de entrada.

Preferiblemente, en el codificador, las baldosas se obtienen por transformación de ventanas de análisis superpuestas entre sí. Tal superposición permite una mejor continuidad y de ese modo reducir los artefactos de codificación cuando las señales de salida se descodifican posteriormente para regenerar una representación de señales de entrada.

Preferiblemente, el codificador incluye un codificador para procesar las señales de entrada para generar M canales de datos de audio intermedios para su inclusión en las M señales de salida, estando dispuesto el analizador para emitir información de salida en los datos paramétricos referente a al menos uno de:

(a): relaciones de potencia de señal de entrada entre canales o diferencias de nivel logarítmico;

\global\parskip1.000000\baselineskip

(b): coherencia entre canales entre las señales de entrada;

(c): una relación de potencia entre las señales de entrada de uno o más canales y una suma de potencias de las señales de entrada de uno o más canales; y

(d): diferencias de fase o diferencias de tiempo entre pares de señales.

Más preferiblemente, las diferencias de fase en (d) son diferencias de fase promedio.

Preferiblemente, en el codificador, el cálculo de al menos una de estas diferencias de fase, los datos de coherencia y la relación de potencia va seguida de un análisis de componente principal (PCA, Principal Component Analysis) y/o alineamiento de fase entre canales para generar las señales de salida.

Preferiblemente, para proporcionar una semejanza más próxima a las señales de entrada originales cuando los datos de entrada se regeneran, en el codificador, al menos una de las señales de entrada transportadas en los N canales corresponde a un canal de efectos.

Preferiblemente, el codificador está adaptado para generar las señales de salida en una forma adecuada para la reproducción utilizando sistemas de reproducción convencionales.

Según un segundo aspecto de la invención, se proporciona un procedimiento de codificación de señales de entrada transportadas en N canales de entrada en un codificador multicanal para generar señales de salida correspondientes transportadas en M canales de salida junto con datos paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el procedimiento las etapas de:

(a): realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y

(b): procesar en un analizador las señales de entrada o bien cuando esté realizándose un downmix o bien por separado, proporcionando dicho procesamiento dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de datos de entrada para permitir sustancialmente la regeneración de los N canales de señal de entrada desde los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

2

Preferiblemente, el procedimiento está adaptado para codificar señales de entrada correspondientes a 5 canales y generar las señales de salida y datos paramétricos en una forma compatible con uno o más de descodificadores estéreo de 2 canales, descodificadores de 3 canales y descodificadores de 4 canales.

Preferiblemente, en el procedimiento, el procesamiento incluye convertir las señales de entrada por medio de transformación de un dominio temporal a un dominio de frecuencia.

Preferiblemente, en el procedimiento, al menos una de las señales de entrada se procesa como una secuencia de baldosas de tiempo-frecuencia para generar las señales de salida.

Preferiblemente, en el procedimiento, las baldosas corresponden a ventanas de análisis superpuestas entre sí.

Preferiblemente, el procedimiento incluye una etapa de utilizar un codificador para procesar las señales de entrada para generar M canales de datos de audio intermedios para su inclusión en las señales de salida, estando dispuesto el codificador para emitir información en los datos paramétricos referida a al menos uno de:

(b): coherencia entre canales entre las señales de entrada;

(d): diferencias de fase o diferencias de tiempo entre pares de señales.

Preferiblemente, en el procedimiento, el cálculo de al menos una de las diferencias de nivel, los datos de coherencia y las relaciones de potencia viene seguida de un análisis de componente principal y/o alineamiento de fase para generar las N señales de salida.

Preferiblemente, en el procedimiento, al menos una de las señales de entrada transportadas en los N canales corresponde a un canal de efectos.

Según un tercer aspecto de la invención, se proporciona contenido de datos codificados almacenado en un soporte de datos, generándose dicho contenido de datos utilizando el procedimiento según el segundo aspecto de la invención.

Según un cuarto aspecto de la invención, se proporciona un descodificador que puede operarse para descodificar datos de salida codificados generados por un codificador según el primer aspecto de la invención, comprendiendo dichos datos de salida codificados que comprenden M canales y datos paramétricos asociados generados a partir de señales de entrada de N canales de modo que M<N donde M y N son enteros, incluyendo el descodificador un procesador:

(a): para recibir los datos de salida codificados y convertirlos de un dominio de tiempo a un dominio de frecuencia;

(b): para aplicar los datos paramétricos en el dominio de frecuencia para extraer contenido de los M canales para regenerar a partir de los M canales contenido de datos regenerado correspondiente a señales de entrada de uno o más de N canales no incluidos directamente en u omitidos de los datos de salida codificados; y

(c): para procesar el contenido de datos regenerado para emitir una o más de las señales de entrada regeneradas de N canales en una o más salidas del descodificador;

caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

3

donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y \varepsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales. Preferiblemente, en el descodificador, el procesador puede operarse para aplicar un filtro de decorrelación pasa todo para obtener versiones decorrelacionadas de señales para su uso en la regeneración de dichas una o más señales de entrada de N canales en el descodificador.

Preferiblemente, en el descodificador, el procesador puede operarse para aplicar rotación de codificador inversa para señales de los M canales y versiones decorrelacionadas de las mismas en sus componentes constituyentes para regenerar dicha una o más señales de entrada de N canales en el descodificador.

Debe observarse que las características de la invención son susceptibles de combinarse en cualquier combinación sin apartarse del alcance de la invención, que se define en las reivindicaciones.

Descripción de los diagramas

A continuación se describirán realizaciones de la invención, únicamente a modo de ejemplo, con referencia a los siguientes diagramas en los que:

la figura 1 es un diagrama esquemático de un primer codificador multicanal según la invención;

la figura 2 es un diagrama esquemático de un segundo codificador multicanal según la invención que incluye la provisión de efectos, por ejemplo efectos de baja frecuencia, y

la figura 3 es un diagrama esquemático de un descodificador multicanal según la invención, siendo el descodificador complementario a los codificadores de las figuras 1 y 2 y que puede descodificar datos de salida proporcionados desde dichos codificadores.

\vskip1.000000\baselineskip

Descripción de realizaciones de la invención

Para mejorar la codificación ejecutada dentro de un codificador multicanal dotado de N canales de datos de entrada y dispuesto para codificar los datos de entrada para generar un flujo de datos de salida codificados correspondiente, los inventores han previsto que el codificador pueda operarse beneficiosamente:

(a) para realizar downmix sobre los datos de entrada de los N canales en M canales de modo que M<N; y

(b) para generar una cantidad relativamente pequeña de datos de sobrecarga paramétricos para combinarse con datos de los M canales cuando se genera el flujo de datos de salida, estando dispuestos los datos paramétricos para permitir la reconstrucción de datos correspondientes a los N canales en un descodificador posterior al que se suministra el flujo de datos de salida.

Por ejemplo, el codificador multicanal es preferiblemente un codificador de cinco canales, concretamente N=5. El codificador de cinco canales se configura para realizar downmix sobre datos correspondientes a cinco canales de entrada para generar dos canales de datos intermedios, concretamente M=2. Además, el codificador de cinco canales puede operarse para generar datos de sobrecarga paramétricos asociados para combinarse con datos de los dos canales para generar el flujo de datos de salida, siendo suficientes los datos paramétricos para permitir que el descodificador reconstruya una representación de los cinco canales de entrada. El descodificador es beneficioso porque puede ser compatible hacia atrás para soportar situaciones en las que N=2, 3, 4, concretamente compatible hacia atrás con situaciones de salida de 2 canales, 3 canales y 4 canales.

En una realización preferida de la invención, puede operarse un codificador para procesar N canales de datos de entrada. Los N canales de datos de entrada preferiblemente corresponden a un canal de datos de audio central, un canal de datos de audio frontal izquierdo, un canal de datos de audio trasero izquierdo, un canal de datos de audio frontal derecho y un canal de datos de audio trasero derecho; tales cinco canales pueden crear una distribución de sonido tridimensional aparente apropiada para la reproducción de contenido de programa de tipo de cine en casa. Se realiza el downmix sobre los N canales de datos de entrada en dos canales de datos de audio intermedios, por ejemplo codificados utilizando un codificador de audio estéreo contemporáneo. El codificador emplea beneficiosamente un análisis de componente principal y/o alineamiento de fase de los canales de datos frontal izquierdo y trasero izquierdo. El codificador también está dispuesto para emplear un análisis de componente principal independiente y/o alineamiento de fase en los canales de entrada frontal derecho y trasero derecho. Además, el codificador puede operarse para generar datos de sobrecarga paramétricos que incluyen información referente a lo siguiente:

(a) diferencias de nivel entre canales entre los canales de datos frontal izquierdo y trasero izquierdo;

(b) diferencias de nivel entre canales entre los canales de datos frontal derecho y trasero derecho;

(c) datos de coherencia entre canales referentes a los canales frontal izquierdo y trasero izquierdo;

(d) datos de coherencia entre canales referentes a los canales de datos frontal izquierdo y trasero izquierdo; y

(e) una relación de potencia entre el canal de datos central y una suma de potencias de los canales de datos frontal izquierdo, trasero izquierdo, frontal derecho y trasero derecho.

\vskip1.000000\baselineskip

Los dos canales de datos intermedios y los datos de sobrecarga paramétricos se combinan para generar datos de salida codificados a partir del codificador. Opcionalmente, los datos relativos a diferencias de fase entre canales y preferiblemente diferencias de fase globales entre los canales de datos frontal izquierdo y trasero izquierdo por un lado, y canales de datos frontal derecho y trasero derecho por otro lado, se incluyen en los datos de salida codificados del codificador. El análisis paramétrico realizado en (a) a (e) con respecto a esta realización de ejemplo de la invención preferiblemente implica análisis temporal y de frecuencia; más preferiblemente, el análisis se realiza por medio de baldosas de tiempo-frecuencia tal como se aclarará posteriormente.

La operación del codificador en la realización preferida de la invención se describirá a continuación con mayor detalle en términos de sus funciones matemáticas asociadas con referencia a la figura 1 cuyas partes y señales se definen según se proporcionan en la tabla 1.

TABLA 1

4

En la figura 1, se muestra un codificador indicado en general por 10. El codificador 10 comprende canales 20, 30, 40 de entrada primero, segundo y tercero respectivamente. Las señales 380, 400, 440 de salida, concretamente II, IC e ID, de estos tres canales 20, 30, 40 respectivamente se acoplan a una unidad 200 de extracción de parámetros y mezclado. La unidad 200 de extracción comprende señales 460, 470 de presalida derecha e izquierda asociadas, concretamente PD_{sal}, PI_{sal}, que están conectadas a una unidad 210 OLA y transformada inversa para generar señales 480, 490 de salida derecha e izquierda codificadas, concretamente D_{sal}, I_{sal}, respectivamente.

El primer canal 20 incluye una unidad 100 de transformada y segmento para recibir señales 300, 310 de entrada frontal izquierda y trasera izquierda respectivamente, concretamente S_{fi}, S_{ti}. Señales 350, 360 transformadas frontal izquierda y trasera izquierda correspondientes, concretamente TS_{fi}, TS_{ti} se acoplan a una unidad 130 de downmix del canal 20, y también a una unidad 110 de análisis de parámetros del canal 20. Una primera señal 370 de conjunto de parámetros, concretamente PS1, se acopla a una entrada de la unidad 120 de conversión de vector de parámetro a downmix cuya salida correspondiente se acopla a la unidad 130 de downmix.

El segundo canal 30 incluye una unidad 140 de transformada y segmento dispuesta para recibir una señal 320 de entrada central, concretamente S_{c}. La señal 400 intermedia central, concretamente IC, se acopla desde la unidad 140 de transformada a la unidad 200 de extracción de parámetros según se describió anteriormente.

El tercer canal 40 incluye una unidad 150 de transformada y segmento para recibir señales 330, 340 de entrada frontal derecha y trasera derecha respectivamente, concretamente S_{fd}, S_{td}. Señales 410, 420 transformadas frontal derecha y trasera derecha correspondientes, concretamente TS_{fd}, TS_{td} se acoplan a una unidad 180 de downmix del canal 40, y también a una unidad 160 de análisis de parámetros del canal 40. Una señal 430 de segundo conjunto de parámetros, concretamente PS2, se acopla a una entrada de la unidad 170 de conversión de vector de parámetro a downmix cuya salida correspondiente se acopla a la unidad 180 de downmix.

La unidad 200 de extracción de parámetros se dispone para recibir la señal 380, 400, 440 desde los canales 20, 30, 40 para generar la salida 450 de tercer conjunto de parámetros, concretamente PS3, así como las señales 470, 460 de presalida, concretamente PD_{sal}, PI_{sal} para la unidad 210 OLA.

El codificador 10 es susceptible de implementarse en hardware dedicado. Alternativamente, el codificador 10 puede basarse en hardware informático dispuesto para ejecutar software para implementar funciones de procesamiento del codificador 10. Como alternativa adicional, el codificador 10 puede implementarse mediante una combinación de hardware dedicado acoplado a hardware informático que opera bajo el control de software.

A continuación se describirá el funcionamiento del codificador 10 con referencia a la figura 1. Las señales
S_{fi}[n], S_{fi}[n], S_{fd}[n], S_{td}[n], S_{c}[n], describen formas de onda temporales discretas para señales de audio frontal izquierda, trasera izquierda, frontal derecha, trasera derecha y central respectivamente. En los canales 20, 30, 40, estas cinco señales se segmentan utilizando una segmentación común, preferiblemente utilizando ventanas de análisis superpuestas. Posteriormente, cada segmento se convierte de un dominio temporal a un dominio de frecuencia utilizando una transformada compleja, por ejemplo una transformada de Fourier o un tipo equivalente de transformada; alternativamente, pueden emplearse estructuras de banco de filtros complejas, por ejemplo implementadas utilizando al menos uno de hardware o simuladas en software, para obtener baldosas de tiempo/frecuencia. Tal procesamiento de señal da como resultado representaciones segmentadas subbanda de las señales de entrada en el dominio de frecuencia representadas por I_{f}[k], I_{t}[k], D_{f}[k], D_{t}[k], C[k] en las que un parámetro k representa un índice de frecuencia, I representa izquierda, D representa derecha, f representa frontal, t representa trasero y C representa central.

En la unidad 200 de extracción de parámetros, el procesamiento de datos se ejecuta en una primera etapa para estimar parámetros relevantes entre señales frontal izquierda y trasera izquierda. Estos parámetros incluyen una diferencia de nivel IID_{I}, una diferencia de fase IPD_{I} y una coherencia ICC_{I}. Preferiblemente, la diferencia de fase IPD_{I} corresponde a una diferencia de fase promedio. Además, estos parámetros IID_{I}, IPD_{I} e ICC_{I} se calculan según se proporciona en las ecuaciones 1 a 3 (ec. 1 a 3):

6

\vskip1.000000\baselineskip

7

8

Donde un símbolo * representa un conjugado complejo.

El proceso descrito por las ecuaciones 1 a 3 se repite también para las señales frontal derecha y trasera derecha, dando como resultado tal procesamiento parámetros correspondientes IID_{D}, IPD_{D} e ICC_{D} referentes a la diferencia de nivel, diferencia de fase y coherencia respectivamente.

En la unidad 120 de conversión de vector parámetro a downmix, el procesamiento de datos se ejecuta en una segunda etapa para calcular pesos complejos para el downmix sobre las dos señales frontal izquierda I_{f} y trasera izquierda I_{t}. En la realización preferida, el vector de downmix enviado a la unidad 130 de downmix se dispone para maximizar la energía de la señal Y[k] de downmix aplicando una rotación \alpha del espacio de señal de entrada y/o alineamiento de fase complejo.

El downmix se aplica según lo siguiente. Las dos señales I_{f} e I_{t} se rotan para obtener una señal Y[k] dominante y una señal Q[k] residual correspondiente utilizando un ángulo \alpha de rotación que maximiza la energía de la señal Y[k] dominante según se representa mediante la ecuación 4 (Ec. 4):

9

donde un ángulo OFD_{I} representa un ángulo de rotación de fase global, mientras que la diferencia de fase IFD_{I} se calcula para garantizar una alineación de fase máxima de las dos señales I_{f}, I_{t}. El ángulo de rotación puede calcularse a partir de los parámetros extraídos utilizando las ecuaciones 5 y 6 (Ec. 5 y 6):

10

donde

11

La señal Q[k] de la ecuación 4 se descarta posteriormente en la unidad 200 de extracción de parámetro, la señal Y[k] se ajusta a escala mediante un escalar \beta para obtener la señal I[k] de modo que la señal I[k] tiene una potencia similar a la de la señal Q[k] más la potencia de la señal Y[k]; en otras palabras, la señal Q[k] se descarta mientras que una pérdida correspondiente en potencia de señal que surge se compensa ajustando a escala la señal Y[k]. El escalar \beta puede calcularse utilizando las ecuaciones 7 y 8 (Ec. 7 y 8):

\vskip1.000000\baselineskip

12

donde

\vskip1.000000\baselineskip

13

Las etapas primera y segunda también se repiten para los pares de señal frontal derecha y trasera derecha, dando como resultado la generación de la señal D[k] correspondiente. Debe observarse también que el uso de rotación PCA puede sortearse utilizando un valor fijo para el ángulo \alpha de rotación.

Una tercera etapa de procesamiento ejecutada dentro del codificador 10 implica mezclar la señal central C[k] en ambas de las señales I[k] y D[k] dando como resultado la generación de las señales 470, 460 de presalida respectivamente, concretamente PI_{sal}, PD_{sal}. Tal mezclado se ejecuta según la ecuación 9 (Ec.9):

14

donde un parámetro \varepsilon representa un peso que determina la intensidad de la señal C[k] en el mezclado asociado con la ecuación 9, por ejemplo \varepsilon=0,707 normalmente. Preferiblemente, combinaciones respectivas de I, C y D se alinean en términos de fase, de otro modo se produciría cancelación de fase.

Un parámetro IID_{C} que describe la potencia de señal C con respecto a la potencia de señales I y D puede calcularse a partir de la ecuación 10 (Ec. 10):

\vskip1.000000\baselineskip

15

El proceso anterior que comprende las etapas primera, segunda y tercera mencionadas anteriormente se repite en el codificador 10 para cada baldosa de tiempo/frecuencia.

Las señales PI_{sal}[k] y PD_{sal}[k] se transforman posteriormente en el codificador a un dominio temporal y se combinan con segmentos previos utilizando un tipo de suma superposición-adición para generar las señales 490, 480 de salida anteriormente mencionadas respectivamente, en concreto I_{sal}, D_{sal}.

Los datos de salida del codificador 10 son susceptibles de comunicarse por medio de una red de comunicación, por ejemplo a través de Internet u otra red de emisión similar.

Alternativamente, o adicionalmente, los datos de salida pueden transportarse por medio de un soporte de datos, por ejemplo un disco de datos óptico DVD u otro tipo similar de medio de transporte de datos.

Los datos de salida del codificador 10 pueden descodificarse en descodificadores compatibles con el codificador 10, por ejemplo en un descodificador indicado en general por 800 en la figura 3. El descodificador 800 incluye una unidad 810 de procesamiento de datos para someter a las señales 480, 490 de salida y los datos 370, 430, 450, 690 de parámetros asociados recibidos de los codificadores 10, 600 a diversas operaciones matemáticas para generar señales de salida descodificadas correspondientes (DOP, Decoded Output Signal).

Para proporcionar compatibilidad hacia atrás, tales descodificadores pueden ser al menos uno de aparato estéreo, de 3 canales y de 5 canales. En un descodificador de tipo estéreo compatible con el codificador 10, en concreto donde el descodificador 800 incluye sólo dos salidas descodificadas para DOP, el descodificador de tipo estéreo que tiene dos canales de reproducción, las señales D_{sal}, I_{sal} proporcionadas desde el codificador 10 se reproducen en el descodificador de tipo estéreo sobre dos canales de reproducción sin realizarse procesamiento adicional.

En un descodificador de 3 canales compatible con el codificador 10, el descodificador que tiene tres canales de reproducción, en concreto donde el descodificador 800 incluye tres salidas descodificadas para DOP, las dos señales D_{sal}, I_{sal}, por ejemplo leídas de un soporte de datos tal como un disco óptico DVD, se segmentan y a continuación se transforman al dominio de frecuencia anteriormente mencionado. Señales I[k], D[k] y C[k] recreadas correspondientes se derivan entonces utilizando las ecuaciones 11 a 16 (Ec. 11 a 16):

\vskip1.000000\baselineskip

16

donde

17

\vskip1.000000\baselineskip

18

\vskip1.000000\baselineskip

19

\vskip1.000000\baselineskip

20

\vskip1.000000\baselineskip

21

Las señales de audio de tres canales para apreciación del usuario se derivan entonces a partir de señales I[k], D[k] y C[k] de una manera similar a la descrita anteriormente.

En un descodificador de cinco canales compatible con el codificador 10, concretamente el descodificador 800 que proporciona cinco salidas descodificadas, se emplea una reconstrucción de reproducción de tres canales según se describe anteriormente dando como resultado la regeneración de las señales I[k], D[k] y C[k] en el descodificador. En el descodificador de cinco canales, se ejecuta una etapa adicional que implica dividir la señal I[k] en sus componentes constituyentes, concretamente una componente frontal izquierda I_{f}[k] y una componente trasera izquierda I_{t}[k]; de manera similar, la señal D[k] también se divide en sus componentes constituyentes, en concreto una componente frontal derecha D_{f}[k] y una componente trasera derecha D_{t}[k]. Tal división de señal utiliza una operación de rotación de codificador inversa complementaria a la rotación realizada en el codificador 10 tal como se describió anteriormente. La señal Y[k] dominante y la señal Q[k] residual requeridas para la rotación inversa se derivan en el descodificador de cinco vías utilizando las ecuaciones 17 y 18 (ec. 17 y 18):

22

donde

23

para la que el parámetro se define previamente en la ecuación 8 (Ec. 8) anteriormente. En la ecuación 17, H[k] representa un filtro de decorrelación pasa todo para obtener una versión decorrelacionada de la señal I[k]. Posteriormente, las señales I_{f}[k] e I_{t}[k] se generan utilizando una función de rotación de codificador inversa tal como se describe mediante la ecuación 19 (Ec. 19):

24

Un procesamiento similar se aplica también para componentes de canal derechas.

En un descodificador de cuatro canales compatible con el codificador 10, el descodificador de cuatro canales puede operarse para descodificar en primer lugar cinco canales de una manera similar a la empleada en el descodificador de cinco canales anteriormente mencionado para generar cinco señales de audio S_{if}, S_{it}, S_{df}, S_{dt} y S_{c}. A partir de entonces, el mezclado simple se produce según las ecuaciones 20 y 21 (Ec. 20, 21) para generar señales de audio frontal izquierda y frontal derecha S_{if, \ reproducción}, S_{df, \ reproducción} para apreciación del usuario:

25

26

donde un coeficiente q=0,707.

El coeficiente q garantiza para el descodificador de 4 canales que la potencia total de las componentes de señal central es sustancialmente constante, independientemente de reproducir a través de un altavoz único central o como una fuente aparente fantasma de sonido para el usuario creada por los altavoces izquierdo frontal y derecho frontal acoplados al descodificador de cuatro canales.

Se apreciará que las realizaciones de la invención descritas anteriormente son susceptibles de modificarse sin apartarse del alcance de la invención según se define mediante las reivindicaciones adjuntas.

Los inventores han identificado que el codificador 10 no soporta codificación de un canal de efectos (LFE), por ejemplo un canal de efectos de baja frecuencia. Tal canal LFE es beneficioso, por ejemplo, para transportar información de efectos de sonido tales como información de efecto de trueno o información de sonido de explosión que acompaña de manera beneficiosa a información visual presentada simultáneamente a usuarios en, por ejemplo, un sistema de cine en casa. Así, los inventores han observado en una realización de la presente invención que es beneficioso modificar el codificador 10 para mejorar su segundo canal 30 y de ese modo generar un codificador tal como se representa en la figura 2 y se indica en la misma en general por 600. Opcionalmente, el canal LFE tiene un ancho de banda de frecuencia relativamente restringido de sustancialmente 120 Hz aunque anchos de banda relativamente superiores selectivos también pueden adaptarse.

El codificador 600 es en general similar al codificador 10 excepto en que el segundo canal 30 del codificador 600 está dotado de una unidad 630 de análisis de parámetros, una unidad 640 de vector de parámetro a downmix y una unidad 650 de downmix conectadas de una manera similar a componentes correspondientes de los canales 20, 40 primero y tercero respectivamente; el canal 30 del codificador 600 puede operarse para emitir un cuarto conjunto 690 de parámetros, en concreto PS4. Además, el segundo canal 30 del codificador 600 incluye una entrada 610 de efectos de baja frecuencia (lfe) para recibir una señal S_{lfe} de efectos de baja frecuencia, y también una entrada 620 para recibir la señal S_{C} central anteriormente mencionada. Preferiblemente, el procesamiento de la señal S_{lfe} se limita a un ancho de banda de frecuencia de 120 Hz desde frecuencias de subaudio hacia arriba y por tanto potencialmente adecuadas para accionar contemporáneamente altavoces de tipo de graves. Sin embargo, realizaciones de la invención son susceptibles de implementarse con el segundo canal 30 que tiene un ancho de banda muy superior a 120 Hz, por ejemplo para proporcionar información de señal de alta frecuencia correspondiente a sonidos a modo de impulso.

La inclusión de información de efectos de baja frecuencia en la salida del codificador 600 requiere el uso de parámetros adicionales en comparación con el codificador 10. Una señal presentada a la entrada 610 se analiza en el codificador 600 para determinar parámetros representativos correspondientes que se analizan basándose en una baldosa de tiempo/frecuencia de manera similar a otras señales de audio anteriormente mencionadas procesadas a través del codificador 10. Codificadores correspondientes se disponen preferiblemente para incluir características adicionales para descodificar la información de baja frecuencia para regenerar, por ejemplo, una señal adecuada para amplificación para accionar altavoces de graves de audio en sistemas de cine en casa.

En las reivindicaciones adjuntas, números de referencia y otros símbolos incluidos dentro de paréntesis se incluyen para ayudar en la comprensión de las reivindicaciones y no están previstos para limitar el alcance de las reivindicaciones de ningún modo.

Expresiones tales como "comprende", "incluye", "incorpora", "contiene" "es", "está" y "tiene" deben interpretarse de una manera no exclusiva cuando se interpreta la descripción y sus reivindicaciones asociadas, en concreto interpretarse para permitir que otros elementos o componentes que no se definen explícitamente también estén presentes. La referencia al singular también debe interpretarse como una referencia al plural y viceversa.

Claims

1. Codificador (10; 600) multicanal dispuesto para procesar señales (300, 310, 320, 330, 340; 300, 310, 610, 620, 330, 340) de entrada transportadas en N canales de entrada para generar señales (480, 490) de salida correspondientes transportadas en M canales de salida junto con datos (450) paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el codificador:

(a) un elemento de downmix para realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y

(b) un analizador para procesar las señales de entrada o bien durante el downmix o como un proceso independiente, pudiendo operarse dicho analizador para generar dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señal de entrada para permitir sustancialmente la regeneración durante la descodificación de uno o más de los N canales de señal de entrada a partir de los M canales de señal de salida, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales de salida para permitir compatibilidad hacia atrás; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

27

donde un símbolo * representa un conjugado complejo,

donde C[k] representa la muestra k de la señal C de canal central; D[k] representa la muestra k de la señal D derecha, I[k] representa la muestra k de la señal I izquierda y \varepsilon representa un peso que determina una intensidad de la señal central en el downmix de dos canales.

2. Codificador según la reivindicación 1, en el que el codificador es un codificador de 5 canales dispuesto para generar las señales de salida y datos paramétricos en una forma compatible con al menos uno de descodificadores estéreo de 2 canales, descodificadores de 3 canales y descodificadores de 4 canales correspondientes.

3. Codificador según la reivindicación 1, en el que el analizador incluye medios de procesamiento para convertir las señales de entrada por medio de transformación de un dominio temporal a un dominio de frecuencia y para procesar estas señales de entrada transformadas para generar los datos paramétricos.

4. Codificador según la reivindicación 3, en el que al menos uno del elemento de downmix y el analizador están dispuestos para procesar las señales de entrada como una secuencia de baldosas de tiempo-frecuencia para generar las señales de entrada.

5. Codificador según la reivindicación 4, en el que las baldosas se obtienen por transformación de ventanas de análisis superpuestas entre sí.

6. Codificador según la reivindicación 1, que incluye un codificador para procesar las señales de entrada para generar M canales de datos de audio intermedios para su inclusión en las M señales de salida, estando dispuesto el analizador para emitir información en los datos paramétricos referida a al menos uno de:

(a) relaciones de potencia de señal de entrada entre canales o diferencias de nivel logarítmico;

(b) coherencia entre canales entre las señales de entrada;

(c) una relación de potencia entre las señales de entrada de uno o más canales y una suma de potencias de las señales de entrada de uno o más canales; y

(d) diferencias de fase o diferencias de tiempo entre pares de señales.

7. Codificador según la reivindicación 6, en el que en dicha fase (d) las diferencias son diferencias de fase promedio.

8. Codificador según la reivindicación 6, en el que el cálculo de al menos uno de las diferencias de fase, datos de coherencia y las relaciones de potencia viene seguida de un análisis de componente principal (PCA) y/o alineamiento de fase entre canales para generar las N señales de salida.

9. Codificador según la reivindicación 1, en el que al menos una de las señales de entrada transportadas en los N canales corresponde a un canal de efectos.

10. Codificador según la reivindicación 1, adaptado para generar las señales de salida en una forma adecuada para reproducción utilizando sistemas de reproducción convencionales.

11. Procedimiento de codificación de señales de entrada transportadas en N canales de entrada en un codificador multicanal para generar señales de salida correspondientes transportadas en M canales de salida junto con datos paramétricos de modo que M y N son enteros y N es mayor que M, incluyendo el procedimiento las etapas de:

(a) realizar downmix sobre las señales de entrada para generar señales de salida correspondientes; y

(b) procesar en un analizador las señales de entrada cuando está realizándose downmix sobre ellas o por separado, proporcionando dicho procesamiento dichos datos paramétricos complementarios a las señales de salida, describiendo dichos datos paramétricos diferencias mutuas entre los N canales de señales de entrada para permitir sustancialmente la regeneración de los N canales de señal de entrada a partir de los M canales de señal de salida durante la descodificación, estando dichas señales de salida en una forma compatible para la reproducción en descodificadores que prevén N o menos de N canales; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

\vskip1.000000\baselineskip

28

\vskip1.000000\baselineskip

donde un símbolo * representa un conjugado complejo,

12. Procedimiento según la reivindicación 11, adaptado para codificar señales de entrada correspondientes a 5 canales y generar las señales de salida y datos paramétricos en una forma compatible con uno o más de descodificadores estéreo de 2 canales, descodificadores de 3 canales y descodificadores de 4 canales correspondientes.

13. Procedimiento según la reivindicación 11, en el que dicho procesamiento incluye convertir las señales de entrada por medio de transformación de un dominio temporal a un dominio de frecuencia.

14. Procedimiento según la reivindicación 13, en el que al menos una de las señales de entrada se procesa para como una secuencia de baldosas de tiempo-frecuencia para generar las señales de salida.

15. Procedimiento según la reivindicación 14, en el que las baldosas corresponden a ventanas de análisis superpuestas entre sí.

16. Procedimiento según la reivindicación 11, incluyendo el procedimiento una etapa de utilizar un codificador para procesar las señales de entrada para generar M canales de datos de audio intermedios para su inclusión en las señales de salida, estando dispuesto el codificador para emitir información en los datos paramétricos referida a al menos uno de:

(b) coherencia entre canales entre las señales de entrada;

(d) diferencias de fase o diferencias de tiempo entre pares de señales.

17. Procedimiento según la reivindicación 16, en el que las diferencias de potencia son diferencias de potencia promedio.

18. Procedimiento según la reivindicación 16, en el que el cálculo de al menos uno de la diferencia de fase, los datos de coherencia y la relación de potencia viene seguido de un análisis de componente principal (PCA) y/o alineamiento de fase entre canales para generar las señales de salida.

19. Procedimiento según la reivindicación 11, en el que al menos una de las señales de entrada transportadas en los N canales corresponde a un canal de efectos.

20. Contenido de datos codificados que se genera utilizando el procedimiento según la reivindicación 11.

21. Soporte de datos en el que se almacenan datos codificados según la reivindicación 20.

22. Descodificador (800) que puede operarse para descodificar datos (370, 430, 450, 480, 490, 690) de salida generados por un codificador (10; 600) según la reivindicación 1, comprendiendo dichos datos (370, 430, 450, 480, 490, 690) de salida codificados M canales (480, 490) y datos (370, 430, 450, 690) paramétricos asociados generados a partir de señales de entrada de N canales de modo que M<N donde M y N son enteros, incluyendo el descodificador (800) un procesador (810):

(a) para recibir los datos (370, 430, 450, 460, 490, 690) de salida codificados y convertirlos de un dominio de tiempo a un dominio de frecuencia;

(b) para aplicar los datos paramétricos en el dominio de frecuencia para extraer contenido de los M canales para regenerar a partir de los M canales contenido de datos regenerado correspondiente a señales de entrada de uno o más de N canales no directamente incluidos en u omitidos de los datos de salida codificados; y

(c) para procesar el contenido de datos regenerado para emitir una o más de las señales de entrada regeneradas de N canales en una o más salidas del descodificador; caracterizado por los datos paramétricos que comprenden al menos un parámetro que describe una potencia de una señal de canal central con respecto a una potencia de una señal de canal derecho y una señal de canal izquierdo para un downmix de dos canales de la señal de canal central, la señal de canal derecho y la señal de canal izquierdo; viniendo dado el al menos un parámetro por:

29

donde un símbolo * representa un conjugado complejo,

23. Descodificador (800) según la reivindicación 22, en el que dicho procesador (810) puede operarse para aplicar un filtro de decorrelación pasa todo para obtener versiones decorrelacionadas de señales para su uso en la regeneración de dicha una o más señales de entrada de N canales en el descodificador.

24. Descodificador (800) según la reivindicación 23, en el que el procesador puede operarse para aplicar rotación de codificador inversa para dividir señales de los M canales y versiones decorrelacionadas de las mismas en sus componentes constituyentes para regenerar dicha una o más señales de entrada de N canales en el descodificador.

25. Descodificador (800) según la reivindicación 24, en el que dicho descodificador (800) puede operarse para generar su una o más salidas (1300 a 1340) de descodificador únicamente a partir de dichos datos (450, 480, 490) de salida codificados recibidos en el descodificador (800).