ES2292147T3 - Reconstruccion multicanal basada en multiparametrizacion. - Google Patents

Reconstruccion multicanal basada en multiparametrizacion. Download PDF

Info

Publication number
ES2292147T3
ES2292147T3 ES05797620T ES05797620T ES2292147T3 ES 2292147 T3 ES2292147 T3 ES 2292147T3 ES 05797620 T ES05797620 T ES 05797620T ES 05797620 T ES05797620 T ES 05797620T ES 2292147 T3 ES2292147 T3 ES 2292147T3
Authority
ES
Spain
Prior art keywords
upmix
energy
signal
multichannel
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05797620T
Other languages
English (en)
Inventor
Lars Villemoes
Kristofer Kjorling
Heiko Purnhagen
Jonas Roden
Jeroen Breebaart
Gerard Hotho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Coding Technologies Sweden AB
Original Assignee
Koninklijke Philips Electronics NV
Coding Technologies Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV, Coding Technologies Sweden AB filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2292147T3 publication Critical patent/ES2292147T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Transmitters (AREA)
  • Fats And Perfumes (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Amplifiers (AREA)
  • Electroluminescent Light Sources (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Manufacturing Of Micro-Capsules (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

Sintetizador multicanal para generar al menos tres canales (1100) de salida de audio utilizando una señal de entrada que presenta al menos un canal (1102) base, derivándose el canal base a partir de la señal (101, 102, 103) multicanal original, incluyendo además la señal de entrada al menos dos parámetros (1108) de realización de upmix diferentes, y una indicación (1005) de modo del elemento de upmix que indica, en un primer estado que ha de realizarse una primera regla de upmix, y que indica, en un segundo estado, que ha de realizarse una segunda regla de upmix diferente, que comprende: un elemento (1104) de upmix para realizar el upmix sobre el al menos un canal base utilizando los al menos dos parámetros (1108) de realización de upmix diferentes basándose en la primera o en la segunda regla de upmix en respuesta a la indicación (1005) de modo del elemento de upmix de tal modo que se obtienen los al menos tres canales de salida, caracterizado porque la primera regla de upmix esuna regla (109) de realización de upmix predictivo y la segunda regla de upmix es una regla de upmix que tiene parámetros (1003) de realización de upmix dependientes de la energía.

Description

Reconstrucción multicanal basada en multiparametrización.
Campo técnico
La presente invención se refiere a la reconstrucción multicanal de señales de audio basándose en una señal estéreo disponible y datos de control adicionales.
Antecedentes de la invención
El desarrollo reciente en la codificación de audio ha puesto a disposición la capacidad para recrear una representación multicanal de una señal de audio basándose en una señal estéreo (o mono) y datos de control correspondientes. Estos métodos difieren sustancialmente de la antigua solución basada en matrices tal como Dolby Prologic, puesto que se transmiten datos de control adicionales para controlar la recreación, también denominada como upmix (conversión de señal mono o estéreo en señal envolvente), de los canales envolventes basándose en los canales mono o estéreo transmitidos.
Por tanto, los descodificadores de audio multicanal paramétricos reconstruyen N canales basándose en M canales transmitidos, donde N > M, y los datos de control adicionales. Los datos de control adicionales representan una tasa de transmisión de datos significativa inferior a transmitir los N-M canales adicionales, haciendo la codificación muy eficaz mientras que al mismo tiempo se garantiza la compatibilidad tanto con dispositivos de M canales como con dispositivos de N canales.
Estos métodos de codificación envolvente paramétrica comprenden normalmente una parametrización de la señal envolvente basándose en IID (Diferencia de Intensidad entre Canales, Inter channel Intensity Difference) e ICC (Coherencia entre Canales, Inter Channel Coherence). Estos parámetros describen la correlación y relaciones de potencia entre pares de canales en el proceso de upmix. Parámetros adicionales utilizados también en la técnica anterior comprenden parámetros de predicción utilizados para predecir canales intermedios o de salida durante el procedimiento de upmix.
Uno de los usos más atractivos del método basado en la predicción según se describe en la técnica anterior es para un sistema que recrea el canal 5.1 a partir de dos canales transmitidos. En esta configuración está disponible una transmisión estéreo en el lado del descodificador, que es un downmix (conversión de señal envolvente a señal mono o estéreo) de la señal multicanal 5.1 original. En este contexto es particularmente interesante poder extraer de la manera más precisa posible el canal central de la señal estéreo, puesto que sobre el canal central se realiza normalmente un downmix tanto con el canal de downmix izquierdo como derecho. Esto se realiza mediante la estimación de dos coeficientes de predicción que describen la cantidad de cada uno de los dos canales transmitidos utilizados para construir el canal central. Estos parámetros se estiman para diferentes regiones de frecuencia de manera similar a los parámetros IID e ICC anteriores.
Sin embargo, puesto que los parámetros de predicción no describen una relación de potencia de dos señales, pero se basan en hacer coincidir la forma de onda en un sentido de error cuadrático mínimo, el método se vuelve sensible de manera inherente a cualquier modificación de la forma de onda estéreo después del cálculo de los parámetros de predicción.
Los desarrollos adicionales en codificación de audio a lo largo de los últimos años han introducido métodos de reconstrucción de altas frecuencias como una herramienta muy útil en códecs de audio a bajas tasas de transmisión de bits. Un ejemplo es SBR (Replicación de Banda Espectral, Spectral Band Replication) [WO 98/57436], que se utiliza en códec estandarizados MPEG tales como AAC de alta eficacia MPEG-4. Es común para estos métodos que recrean las altas frecuencias en el lado del descodificador a partir de una señal de banda estrecha codificada por el códec núcleo subyacente y una pequeña cantidad de información de guía adicional. Similar al caso de la reconstrucción paramétrica de señales multicanal basándose en uno o dos canales, la cantidad de datos de control requerida para recrear las componentes de señal desconocidas (en el caso de SBR, las altas frecuencias), es significativamente más pequeña que la cantidad de datos que se requerirían para codificar toda la señal con un códec de forma de
onda.
Sin embargo, debería entenderse que la señal de banda alta recreada es en su percepción igual a la señal de banda alta original, mientras que la forma de onda real difiere de manera significativa. Además, para codificadores de forma de onda que codifican señales estéreo a baja tasa de transmisión de bits se utiliza normalmente preprocesamiento estéreo, lo que significa que se realiza una limitación sobre la señal lateral de la representación media/lateral de la señal estéreo.
Cuando se desea una representación multicanal basándose en una señal de códec estéreo utilizando AAC de alta eficacia MPEG-4 o cualquier otro códec que utiliza técnicas de reconstrucción de alta frecuencia, deben considerarse estos y otros aspectos del códec utilizado para codificar la señal estéreo sobre la que se ha realizado
downmix.
El artículo "Compatibility matrixing of multicanal bit-rate-reduced audio signals" (Ten Kate W R Th, Revista de la Sociedad de Ingeniería de Audio, Nueva York, Estados Unidos, vol. 44, nº 12, diciembre de 1996, páginas 1104 a 1119) da a conocer un matrizado variable: en cada trama de tiempo se determina la matriz óptima para los bits mínimos necesarios.
Todavía adicionalmente, es común que para una grabación disponible como una señal de audio multicanal haya una mezcla estéreo dedicada disponible, que no es una versión de downmix automatizado de la señal multicanal. Esto se denomina comúnmente como "downmix artístico". Este downmix no puede expresarse como una combinación lineal de las señales multicanal.
Sumario de la invención
Es un objetivo de la presente invención proporcionar un concepto de downmix/codificador o upmix/descodificador multicanal, que da como resultado una mejor calidad de la salida multicanal reconstruida.
Este objetivo se consigue mediante un sintetizador multicanal según la reivindicación 1, un codificador para procesar una señal de entrada multicanal según la reivindicación 18, un método de generación de al menos tres canales de salida según la reivindicación 31, un método de procesamiento según la reivindicación 32 o una señal multicanal codificada según la reivindicación 33.
La presente invención se basa en el hallazgo de que representaciones paramétricas diferentes para diferente frecuencia o porciones de tiempo de una señal son útiles para obtener una situación de codificación o descodificación que se adapta a diferentes situaciones. Estas situaciones pueden resultar a partir de eventos del codificador tales como realizar un cálculo de información SBR o un cálculo de medida de energía utilizado para la compensación de pérdida de energía o cualquier otro evento. Otras situaciones que pueden dar como resultado diferentes representaciones paramétricas pueden incluir la calidad de upmix, la tasa de transmisión de bits de downmix, la eficacia computacional en el lado del codificador o en el lado del descodificador o, por ejemplo, el consumo de energía de por ejemplo dispositivos alimentados por batería, de modo que, para una cierta subbanda o trama, la primera parametrización es mejor que la segunda parametrización. Naturalmente, la función objetivo también puede ser una combinación de diferentes objetivos/eventos individuales tal como se comentó anteriormente.
Preferiblemente, una representación paramétrica incluye parámetros para un upmix predictivo basándose en la modificación de la forma de onda de la señal multicanal sobre la que se ha realizado downmix. Esto incluye cuando la señal sobre la que se ha realizado downmix se codifica mediante un códec que realiza un preprocesamiento estéreo, una reconstrucción de altas frecuencias y otros esquemas de codificación que modifican de manera significativa la forma de onda. Además, la invención trata el problema que surge cuando se utilizan técnicas de upmix predictivo para un downmix artístico, es decir, una señal de downmix que no se deriva automáticamente a partir de la señal
multicanal.
Preferiblemente, la presente invención comprende las siguientes características:
- estimación de los parámetros de predicción basándose en la forma de onda modificada en lugar de en la forma de onda sobre la que se ha realizado downmix;
- utilización de métodos basados en predicción sólo en los intervalos de frecuencia en los que es ventajoso;
- corrección de la pérdida de energía y correlación no precisa entre canales introducidas en el procedimiento de upmix basado en predicción.
Breve descripción de los dibujos
A continuación se describirá la presente invención a modo de ejemplos ilustrativos, que no limitan el alcance de la invención, con referencia a los dibujos adjuntos, en los que:
la figura 1 ilustra una reconstrucción basada en predicción de tres canales a partir de dos canales;
la figura 2 ilustra un upmix predictivo con compensación de energía;
la figura 3 ilustra una compensación de energía en el upmix predictivo;
la figura 4 ilustra un estimador de parámetros de predicción en el lado del codificador con compensación de energía de la señal de downmix;
la figura 5 ilustra un upmix predictivo con reconstrucción de correlación;
la figura 6 ilustra un módulo de mezcla para mezclar la señal descorrelacionada con la señal sobre la que se ha realizado upmix en el upmix con reconstrucción de correlación;
la figura 7 ilustra un módulo de mezcla alternativo para mezclar la señal descorrelacionada con la señal sobre la que se ha realizado upmix en el upmix con reconstrucción de correlación;
la figura 8 ilustra una estimación de parámetros de predicción en el lado del codificador;
la figura 9 ilustra una estimación de parámetros de predicción en el lado del codificador;
la figura 10 ilustra un escenario multiparámetro inventivo;
la figura 11 ilustra un dispositivo de upmix;
la figura 12 ilustra un gráfico de energía que muestra el resultado de un upmix que introduce pérdida de energía y la compensación preferida;
la figura 13 es una tabla de métodos de compensación de energía;
la figura 14a muestra un diagrama esquemático de un codificador multicanal preferido;
la figura 14b muestra un diagrama de flujo del método realizado por el dispositivo de la figura 14a;
la figura 15a muestra un codificador multicanal que presenta una funcionalidad de replicación de banda espectral para generar una parametrización diferente comparado con el dispositivo de la figura 14a;
la figura 15b muestra una ilustración en forma de tabla de generación y transmisión selectiva en frecuencia de datos paramétricos; y
la figura 16a muestra un descodificador que ilustra el cálculo de coeficientes de matriz de upmix;
la figura 16b muestra una descripción detallada de un cálculo de parámetros para el upmix predictivo;
la figura 17 muestra un transmisor y un receptor de un sistema de transmisión; y
la figura 18 muestra un recodificador de audio que presenta un codificador y un reproductor de audio que presenta un descodificador.
Descripción de las realizaciones preferidas
Las realizaciones descritas a continuación son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por lo tanto, el propósito es estar limitada sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Se recalca que la aplicación, realización de upmix, realización de downmix, el cálculo de parámetros y cualquier otra acción posterior pueden realizarse en una base selectiva para banda de frecuencia, es decir, para subbandas en un banco de filtros.
Con el fin de explicar las ventajas de la presente invención se da en primer lugar una descripción más detallada de un upmix predictivo tal como se conoce por la técnica anterior. Supóngase un upmix de tres canales basándose en dos canales de downmix, tal como se representa en la figura 1, en la que 101 representa el canal original izquierdo, 102 representa el canal original central, 103 representa el canal original derecho, 104 representa el módulo de extracción de parámetros y downmix en el lado del codificador, 105 y 106 representan parámetros de predicción, 107 representa el canal sobre el que se ha realizado downmix izquierdo, 108 representa el canal sobre el que se ha realizado downmix derecho, 109 representa el módulo de upmix predictivo, y 110, 111 y 112 representan, respectivamente, el canal izquierdo, central y derecho reconstruidos.
Supóngase las siguientes definiciones donde X es una matriz 3 x L que contiene los tres segmentos l(k), r(k), c(k) de señal, k=0,...,L-1 como filas.
Asimismo, las dos señales l_{0}(k), r_{0}(k) sobre las que se ha realizado downmix forman las filas de X_{0}. El proceso de downmix se describe por
\vskip1.000000\baselineskip
100
\newpage
donde la matriz de downmix se define por
101
Una elección preferida de matriz de downmix es
102
lo que significa que la señal l_{0}(k) de downmix izquierdo contendrá sólo l(k) y \alphac(k), y r_{0}(k) contendrá sólo r(k) y
\alphac(k). Esta matriz de downmix se prefiere puesto que asigna una cantidad igual del canal central al downmix izquierdo y derecho, y puesto que no asigna ninguno del canal derecho original al downmix izquierdo o viceversa.
El upmix se define por
103
donde C es una matriz 3 x 2 de upmix.
El upmix predictivo tal como se conoce de la técnica anterior se basa en la idea de resolver el sistema sobredeterminado
104
para C en el sentido de mínimos cuadrados. Esto lleva a las ecuaciones normales
105
Multiplicar (6) a la izquierda por D da DCX_{0}X*_{0}=X_{0}X*_{0}, lo que, en el caso genérico en el que X_{0}X_{0}* = DXX*D* es no singular, implica
106
donde I_{n} denota la matriz de identidad n. Esta relación reduce el espacio C de parámetros a la dimensión dos.
Dado lo anterior, la matriz 107 de upmix puede definirse completamente en el lado del descodificador si se conoce la matriz D de downmix, y se transmiten dos elementos de la matriz C, por ejemplo c_{11} y c_{22}.
Las señales residuales (error de predicción) vienen dadas por
108
Multiplicar a la izquierda por D lleva a
109
debido a (7). De esto se deduce que hay una señal x_{r} de vector de fila 1 x L de tal manera que
110
\newpage
donde v es un vector unitario 3 x 1 que abarca el núcleo (espacio nulo) de D. Por ejemplo, en el caso de downmix (3), puede utilizarse
111
En general, cuando 112 esto simplemente significa que, hasta un factor de ponderación, la señal residual es común para los tres canales.
113
Debido al principio de ortogonalidad, el x_{r}(k) residual es ortogonal a las tres señales \hat{l}(k), \hat{r}(k), \hat{c}(k) predichas.
Problemas resueltos y mejoras obtenidas mediante las realizaciones preferidas de la presente invención
Obviamente surgen los siguientes problemas cuando se utiliza upmix basado en la predicción según la técnica anterior tal como se explicó anteriormente:
\bullet El método se basa en hacer coincidir la forma de onda en un sentido de los errores cuadráticos medios mínimos, lo que no funciona para sistemas en los que no se mantiene la forma de onda de las señales sobre las que se ha realizado downmix.
\bullet El método no proporciona la estructura de correlación correcta entre los canales reconstruidos (tal como se comentará posteriormente).
\bullet El método no reconstruye la cantidad correcta de energía en los canales reconstruidos.
Compensación de energía
Tal como se mencionó anteriormente, uno de los problemas con la reconstrucción multicanal basada en la predicción es que el error de predicción corresponde a una pérdida de energía de los tres canales reconstruidos. Posteriormente se comentará la teoría para esta pérdida de energía y una solución tal como se enseña mediante las realizaciones preferidas. En primer lugar, se realiza el análisis teórico, y posteriormente se da una realización preferida de la presente invención según la teoría comentada posteriormente.
Sean E, \hat{E}, y E_{r} la suma de las energías de las señales originales en X, las señales predichas en \hat{X} y las señales de error de predicción en X_{r}, respectivamente. A partir de la ortogonalidad, se deduce que
114
La ganancia de predicción total puede definirse como \rho = \frac{E}{E_{r}} pero en lo sucesivo será más conveniente considerar el parámetro
115
Por tanto, \rho^{2} \in[0,1] mide la energía relativa total del upmix predictivo.
Dada esta \rho, es posible reajustar cada canal aplicando una ganancia de compensación, \hat{z}_{g}(k) = g_{z}\hat{z}(k), de tal manera que ||\hat{z}_{g}||^{2} = ||z||^{2} para z = l, r, c. Específicamente, la energía objetivo viene dada por (12),
116
por lo que se necesita resolver
117
\vskip1.000000\baselineskip
En este caso, puesto que v es un vector unitario,
118
\vskip1.000000\baselineskip
y a partir de la definición (14) de \rho y (13) se deduce que
119
\vskip1.000000\baselineskip
Juntando todo esto, se llega a la ganancia
\vskip1.000000\baselineskip
120
\vskip1.000000\baselineskip
Es evidente que con este método, además de transmitir \rho, la distribución de energía de los canales descodificados tiene que calcularse en el descodificador. Además sólo las energías se reconstruyen correctamente, mientras que se ignora la estructura de correlación fuera de la diagonal.
Es posible derivar un valor de ganancia que garantice que se conserva la energía total, mientras que no se garantiza que la energía de los canales individuales sea correcta. Una ganancia común para todos los canales g_{z} = g que garantiza que se conserva la energía total se deriva a través de la ecuación de definición g^{2}\hat{E} = E. Es decir,
121
Por linealidad, esta ganancia puede aplicarse en el codificador a las señales sobre las que se ha realizado downmix, de modo que no tiene que transmitirse ningún parámetro adicional.
La figura 2 representa una realización preferida de la presente invención que recrea los tres canales mientras que mantiene la energía correcta de los canales de salida. Las señales l_{0} y r_{0} sobre las que se ha realizado downmix se introducen en el módulo 201 de upmix, junto con los parámetros c_{1} y c_{2} de predicción. El módulo de upmix recrea la matriz C de upmix basándose en el conocimiento sobre la matriz D de downmix y los parámetros de predicción recibidos. Los tres canales de salida de 201 se introducen en 202 junto con el parámetro \rho de ajuste. Los tres canales están ajustados en ganancia como una función del parámetro \rho transmitido y se emiten los canales corregidos en energía.
En la figura 3 se muestra una realización más detallada del módulo 202 de ajuste. Los tres canales sobre los que se ha realizado upmix se introducen en el módulo 304 de ajuste, así como en el módulo 301, 302 y 303 respectivamente. Los módulos 301 a 303 de estimación de energía estiman la energía de las tres señales sobre las que se ha realizado upmix e introducen la energía medida en el módulo 304 de ajuste. La señal \rho de control (que representa la ganancia de predicción) recibida del codificador también se introduce en 304. El módulo de ajuste implementa la ecuación (19) tal como se comentó anteriormente.
En una implementación alternativa de la presente invención la corrección de energía puede realizarse en el lado del codificador. La figura 4 ilustra una implementación del codificador en el que las señales l_{0} 107 y r_{0} 108 sobre las que se ha realizado downmix se ajustan en ganancia mediante 401 y 402 según un valor de ganancia calculado por 403. El valor de ganancia se deriva según la ecuación (20) anterior. Tal como se comentó anteriormente esto es una ventaja de esta realización de la presente invención, puesto que no es necesario calcular la energía de los tres canales recreados a partir del upmix predictivo. Sin embargo, esto sólo garantiza que la energía total de los tres canales recreados es correcta. No garantiza que la energía de los canales individuales sea correcta.
Un ejemplo preferido para una matriz de downmix correspondiente a la ecuación (3) está indicado por debajo del elemento de downmix en la figura 4. Sin embargo, el elemento de downmix puede aplicar cualquier matriz de downmix general tal como se comentó en la ecuación (2).
Tal como se comentará posteriormente, para el presente caso de un elemento de downmix que presenta, como entrada, tres canales, y, que presenta, como salida, dos canales, se requieren al menos dos parámetros c_{1}, c_{2} de upmix adicionales. Cuando una matriz D de downmix es variable o no completamente conocida para un descodificador, también tiene que transmitirse información adicional sobre el downmix utilizado desde el lado del codificador a un lado del descodificador, además de los parámetros 105 y 106.
\vskip1.000000\baselineskip
Estructura de correlación
Uno de los problemas con el procedimiento de upmix descrito por la técnica anterior es que no reconstruye la correlación correcta entre los canales recreados. Por lo tanto, tal como se comentó anteriormente, el canal central se predice como una combinación lineal del canal de downmix izquierdo y el canal de downmix derecho, y los canales izquierdo y derecho se reconstruyen restando el canal central predicho de los canales de downmix izquierdo y derecho. Es evidente que el error de predicción dará como resultado restos del canal central original en el canal izquierdo y derecho predicho. Esto implica que las correlaciones entre los tres canales no son las mismas para los canales reconstruidos que las que eran para los tres canales originales.
Una realización preferida enseña que los tres canales predichos deberían combinarse con señales descorrelacionadas según el error de predicción medido.
La teoría básica para conseguir la estructura de correlación correcta se comenta a continuación. La estructura especial del resto puede utilizarse para reconstruir la estructura XX* de correlación 3 x 3 completa sustituyendo una señal x_{d} descorrelacionada por el resto en el descodificador.
\vskip1.000000\baselineskip
Primero, obsérvese que las ecuaciones (6) normales llevan a X_{r}X*_{0} = 0 por lo que
122
\vskip1.000000\baselineskip
Por tanto, como X = \hat{X} + X_{r},
123
donde (10) y (17) se aplicaron para la última igualdad.
\vskip1.000000\baselineskip
Sea x_{d} una señal descorrelacionada de todas las señales \hat{l}, \hat{r}, \hat{c} descodificadas de tal manera que \hat{X}x*_{r} = 0. La señal mejorada
124
entonces tiene la matriz de correlación
125
\vskip1.000000\baselineskip
Con el fin de reproducir completamente la matriz (22) de correlación original, es suficiente que
126
Si se obtiene x_{d} descorrelacionando la señal sobre la que se ha realizado 127 downmix, digamos seguido por una ganancia \gamma entonces debería considerarse que
\vskip1.000000\baselineskip
128
Esta ganancia puede calcularse en el codificador. Sin embargo, si ha de utilizarse el parámetro \rho2 \in [0,1] mejor definido a partir (14), la estimación de \hat{E} y 129 tiene que realizarse en el descodificador. En vista de esto, una alternativa más atractiva es generar x_{d} utilizando tres descorreladores
130
\vskip1.000000\baselineskip
puesto que entonces ||x_{d}||^{2} = \gamma^{2} \hat{E}, por lo que (25) se satisface mediante la elección
131
\vskip1.000000\baselineskip
La figura 5 ilustra una realización de la presente invención para upmix predictivo de tres canales a partir de dos canales de downmix, mientras se mantiene la estructura de correlación correcta entre los canales. En la figura 5 los módulos 109, 110, 111 y 112 son los mismos que en la figura 1 y no se explicarán adicionalmente en este momento. Las tres señales sobre las que se ha realizado upmix que son la salida de 109 se introducen en los módulos 501, 502 y 503 de descorrelación. Estos generan señales mutuamente descorrelacionadas. Las señales descorrelacionadas se suman y se introducen a los módulos 504, 505 y 506 de mezcla, donde se mezclan con la salida de 109. La mezcla de las señales sobre las que se ha realizado upmix predictivo con las versiones descorrelacionadas de las mismas es una característica esencial de la presente invención. En la figura 6 se muestra una realización de los módulos 504, 505 y 506 de mezcla. En esta realización de la invención el nivel de la señal descorrelacionada se ajusta por 601 basándose en la señal \gamma de control. La señal descorrelacionada se añade posteriormente a la señal sobre la que se ha realizado upmix predictivo en 602.
Una tercera realización preferida utiliza descorreladores 501, 502, 503 para los canales sobre los que se ha realizado upmix. También puede generarse una señal descorrelacionada mediante un descorrelador 501', que recibe, como señal de entrada, el canal de downmix o incluso todos los canales de downmix. Además, en caso de más de un canal de downmix, tal como se muestra en la figura 5, la señal de descorrelación también puede generarse mediante descorreladores separados para el canal 1_{0} base izquierdo y el canal r_{0} base derecho y combinando la salida de estos descorreladores separados. Esta posibilidad es sustancialmente la misma que la posibilidad mostrada en la figura 5, pero presenta una diferencia respecto a la posibilidad mostrada en la figura 5 en que se utilizan los canales base antes de realizar upmix.
Además, se comenta en conexión con la figura 5 que los módulos 504, 505 y 506 de mezcla no sólo reciben el factor \gamma, que es igual para los tres canales, puesto que este factor sólo depende de la medida \rho de energía, sino que también reciben el factor v1, vc y vr específico de canal, que se determina tal como se comentó en conexión con las ecuaciones (10) y (11). Sin embargo, este parámetro no tiene que transmitirse desde un codificador a un descodificador cuando el descodificador conoce el down-mix utilizado en el codificador. En su lugar, estos parámetros en la matriz v tal como se muestra en las ecuaciones (10) y (11) se preprograman preferiblemente en los módulos 504, 505, y 506 de mezcla de tal modo que no tienen que transmitirse estos factores de ponderación específicos de canal (pero por supuesto pueden transmitirse cuando se requiera).
En la figura 6, se muestra que el dispositivo 601 de ponderación ajusta la energía de la señal descorrelacionada utilizando el producto de \gamma y el parámetro vz dependiente del downmix específico de canal, en el que z significa 1, r o c. En este contexto, se observa que la ecuación (26a) garantiza que la energía de x_{d} es igual a la energía suma de los canales izquierdo, derecho y central sobre los que se ha realizado el upmix de manera predictiva. Por lo tanto, el dispositivo 601 puede implementarse simplemente como un elemento de ajuste a escala utilizando el factor GI de ajuste a escala. Sin embargo, cuando la señal descorrelacionada se genera de manera alternativa, el módulo 504, 505, 506 de mezcla tiene que realizar un ajuste de energía absoluta de la señal descorrelacionada añadida mediante el dispositivo 602 de adición de tal modo que la energía de la señal añadida en el sumador 602 es igual a la energía de la señal residual, por ejemplo, la energía que se pierde por el upmix predictivo que no conserva la
energía.
Con respecto al parámetro vz dependiente del downmix específico de canal, también se aplican las mismas observaciones tal como se comentó anteriormente con respecto a la figura 6 para la realización de la figura 7.
Además, en este momento ha de observarse que la realización de la figura 6 y la figura 7 se basan en el reconocimiento de que al menos una parte de la pérdida de energía en el upmix predictivo se añade utilizando una señal de descorrelación. Con el fin de tener energías de señal correctas y partes correctas de la señal de componente de señal seca (no correlacionada) señal y la componente de señal "húmeda" (descorrelacionada), se ha de garantizar que la entrada de señal "seca" al módulo 504 de mezcla no se ha ajustado a escala previamente. Cuando, por ejemplo, los canales base se han corregido previamente en el lado del descodificador (tal como se muestra en la figura 4) entonces esta corrección previa de la figura 4 tiene que compensarse multiplicando el canal por la medida \rho de energía (relativa) antes de introducir el canal en la caja 504, 505 ó 506 mezcladora. Adicionalmente, tiene que realizarse el mismo procedimiento cuando se ha realizado una corrección de energía de este tipo en un lado del descodificador antes de introducir los canales de downmix en el elemento 109 de upmix tal como se muestra en la figura 5.
Cuando sólo una parte de la energía residual va a cubrirse por una señal descorrelacionada, la corrección previa sólo tiene que eliminarse parcialmente ajustando previamente a escala la entrada de señal en la caja 504, 505, 506 de mezcla por un factor dependiente de \rho, que, sin embargo, es más próximo a uno que el propio factor \rho. Naturalmente, este factor de ajuste previo a escala que compensa parcialmente dependerá de la entrada de señal \kappa generada por el codificador en 605 en la figura 7. Cuando tiene que realizarse un ajuste previo a escala parcial de este tipo, entonces el factor de ponderación aplicado en G_{2} no es necesario. En su lugar, entonces la rama desde la entrada 604 al sumador 602 será la misma que en la figura 6.
Controlar el grado de descorrelación
Una realización preferida de la invención enseña que la cantidad de descorrelación añadida a las señales sobre las que se ha realizado upmix predichas puede controlarse desde el codificador, mientras que se mantiene todavía la energía de salida correcta. Esto es porque en un ejemplo de "entrevista" típica de voz seca en el ambiente y canal central en los canales izquierdo y derecho, la sustitución de la señal descorrelacionada para error de predicción en el canal central puede ser indeseable.
Según una realización preferida de la presente invención puede utilizarse un procedimiento de mezcla alternativo al representado en la figura 5. Posteriormente se mostrará cómo según la presente invención pueden separarse las cuestiones de conservación de energía total y reproducción de correlación real y la cantidad de descorrelación puede controlarse mediante el parámetro K.
Se supondrá que se ha realizado una compensación (20) de ganancia que conserva la energía total sobre la señal sobre la que se ha realizado downmix, de tal modo que primero se obtiene la señal \hat{X}/\rho descodificada. A partir de esta, se produce una señal d descorrelacionada con la misma energía total ||d||^{2} = \hat{E}/\rho^{2}, por ejemplo mediante el uso de tres descorreladores tal como en la sección anterior. El upmix total se define entonces según
132
donde \kappa \in [\rho,1] es un parámetro transmitido. La elección \kappa = 1 corresponde a la conservación de la energía total sin adición de señal descorrelacionada y \kappa=\rho corresponde a la reproducción de estructura de correlación 3 x 3 completa. Se tiene
133
por lo que la energía total se conserva para todo \kappa \in [\rho,1], tal como puede verse calculando las trazas (suma de los valores diagonales) de las matrices en (30). Sin embargo, la energía individual correcta sólo se obtiene para \kappa = \rho.
La figura 7 ilustra una realización de los módulos 504, 505 y 506 de mezcla de la figura 5 según la teoría comentada anteriormente. En esta alternativa de los módulos de mezcla el parámetro \gamma de control se introduce en 702 y 701. El factor de ganancia utilizado para 702 corresponde a \kappa según la ecuación (29) anterior, y el factor de ganancia utilizado para 701 corresponde a \sqrt{1 - \kappa^{2}} según la ecuación (29) anterior.
La realización descrita anteriormente de la presente invención permite al sistema emplear un mecanismo de detección en el lado del codificador, que estima la cantidad de descorrelación que ha de añadirse en el upmix basado en predicción. La implementación descrita en la figura 7 añadirá la cantidad indicada de señal descorrelacionada, y aplicará la corrección de energía de tal modo que la energía total de los tres canales sea correcta, mientras aún puede sustituirse una cantidad arbitraria del error de predicción por señal descorrelacionada.
Esto significa que para un ejemplo con tres señales ambientales, por ejemplo una pieza de música clásica, con mucho sonido ambiental, el codificador puede detectar la falta de un canal central "seco", y permitir al descodificador sustituir el error de predicción completo por señal descorrelacionada, recreando así el ambiente del sonido de los tres canales de una manera que no sería posible con solamente los métodos basados en predicción de la técnica anterior. Además, para una señal con un canal central seco, por ejemplo voz en el canal central y sonidos ambientales en los canales izquierdo y derecho, el codificador detecta que sustituir el error de predicción por señal descorrelacionada no es correcto psicoacústicamente y en su lugar permite al descodificador ajustar los niveles de los tres canales reconstruidos de tal modo que la energía de los tres canales es correcta. Obviamente los ejemplos extremos anteriores representan dos posibles consecuencias de la invención. No está limitada a cubrir sólo los casos extremos comentados en los ejemplos anteriores.
Adaptar los coeficientes de predicción a formas de onda modificadas
Tal como se comentó anteriormente los parámetros de predicción se estiman minimizando el error cuadrático medio dados los tres canales X originales y una matriz D de downmix. Sin embargo, en muchas situaciones no puede confiarse en que la señal sobre la que se ha realizado downmix pueda describirse como una matriz D de downmix multiplicada por una matriz X que describe la señal multicanal original.
Un ejemplo obvio para esto es cuando se utiliza un denominado "downmix artístico", es decir, el downmix de dos canales no puede describirse como una combinación lineal de la señal multicanal. Otro ejemplo es cuando la señal sobre la que se ha realizado downmix se codifica mediante un códec de audio de percepción que utiliza preprocesamiento estéreo u otras herramientas para eficacia de codificación mejorada. Es comúnmente conocido en la técnica anterior que muchos códecs de audio de percepción se basan en codificación estéreo medio/lateral, en la que la señal lateral se atenúa bajo condición limitada de tasa de transmisión de bits, produciendo una salida que presenta una imagen estéreo más estrecha que la de la señal utilizada para la codificación.
La figura 8 muestra una realización preferida de la presente invención en la que la extracción de parámetros en el lado del codificador aparte de la señal multicanal también tiene acceso a la señal de downmix modificado. El downmix modificado se genera en este caso por 801. Si sólo se transmiten dos parámetros de la matriz C, se necesita un conocimiento de la matriz D en el lado del descodificador con el fin de poder realizar el upmix, y conseguir el error cuadrático medio mínimo para todos los canales sobre los que se ha realizado upmix. Sin embargo, la presente realización enseña que pueden sustituirse las señales l_{0} y r_{0} sobre las que se ha realizado downmix en el lado del codificador por las señales l'_{0} y r'_{0} sobre las que se ha realizado downmix que se obtienen utilizando una matriz D de downmix que no es necesariamente la misma que se supuso en el descodificador. Utilizando downmix alternativo para estimación de parámetros en el lado del codificador sólo garantiza una reproducción de canal central correcta en el lado del descodificador. Transmitiendo información adicional desde el codificador al descodificador puede obtenerse un upmix más preciso de los tres canales. En un caso extremo pueden transmitirse los seis elementos de la matriz C. Sin embargo, la presente realización enseña que puede transmitirse un subconjunto de la matriz C si se acompaña de información 802 sobre la matriz D de downmix utilizada.
Tal como se mencionó anteriormente los códecs de audio de percepción emplean codificación medio/lateral para codificación estéreo en tasas de transmisión de bits bajas. Además, comúnmente se emplea preprocesamiento estéreo con el fin de reducir la energía de la señal lateral bajo condiciones limitadas de tasa de transmisión de bits. Esto se realiza basándose en la sensación psicoacústica de que una reducción de señal estéreo del ancho de la señal estéreo es un artefacto de codificación preferido sobre distorsión de cuantificación audible y limitación de ancho de
banda.
Por tanto, si se utiliza preprocesamiento estéreo, la ecuación (3) de downmix puede expresarse como
\vskip1.000000\baselineskip
134
\vskip1.000000\baselineskip
donde \gamma es la atenuación de la señal lateral. Tal como se comentó anteriormente necesita conocerse la matriz D en el lado del descodificador con el fin de poder reconstruir correctamente los tres canales. Por tanto, la presente realización enseña que el factor de atenuación debería enviarse al descodificador.
La figura 9 muestra otra realización de la presente invención en la que la salida de señal l_{0} y r_{0} de downmix desde 104 se introduce en un dispositivo 901 de preprocesamiento estéreo que limita la señal (l_{0} - r_{0}) lateral de la representación medio/lateral de la señal downmix por un factor \gamma. Este parámetro se transmite al descodificador.
Parametrización para señales de códec HFR
Si el upmix basado en predicción se utiliza con métodos de reconstrucción de altas frecuencias tales como SBR[W0 98/57436], los parámetros de predicción estimados en el lado del codificador no coincidirán con la señal de banda alta recreada en el lado del descodificador. La presente realización enseña el uso de una estructura de upmix alternativa no basada en la forma de onda para la recreación de tres canales a partir de dos. El procedimiento de upmix propuesto se diseña para recrear la energía correcta de todos los canales sobre los que se ha realizado upmix en el caso de señales de ruido no correlacionadas.
Supóngase que se utiliza la matriz D_{\alpha} de downmix tal como se define en (3). Y que a continuación se definirá la matriz C de upmix. Entonces el upmix se define por
135
Esforzándose en sólo recrear la energía correcta de la señal l(k), r(k) y c(k) sobre la que se ha realizado upmix, en las que las energías son L, R y C, se elige la matriz de upmix de tal modo que los elementos diagonales de \hat{X}\hat{X}* y XX* son los mismos, según:
136
La expresión correspondiente para la matriz de downmix será
137
\vskip1.000000\baselineskip
138
Fijar el elemento diagonal de \hat{X}\hat{X}* igual al elemento de diagonal de XX* lleva a tres ecuaciones que definen la relación entre los elementos en C y L, R y C
139
Basándose en lo anterior puede definirse una matriz C de upmix. Es preferible definir una matriz de upmix que no añada el canal sobre el que se ha realizado downmix derecho al canal sobre el que se ha realizado upmix izquierdo y viceversa. Por tanto, un matriz de upmix adecuada puede ser
140
Esto da una matriz C según:
141
Puede mostrarse que los elementos de la matriz C pueden recrearse en el lado del descodificador a partir de los dos parámetros transmitidos 142
La figura 10 representa una realización preferida de la presente invención. En este caso 101 a 112 son los mismos que en la figura 1 y no se explicarán adicionalmente en este momento. Las tres señales 101 a 103 originales se introducen en el módulo 1001 de estimación. Este módulo estima dos parámetros, por ejemplo 143 a partir de los que puede derivarse la matriz C en el lado del descodificador. Estos parámetros junto con los parámetros emitidos desde 104 se introducen al módulo 1002 de selección. En una realización preferida, el módulo 1002 de selección emite los parámetros desde 104 si los parámetros corresponden a un intervalo de frecuencia que se codifica mediante un códec de forma de onda, y emite los parámetros desde 1001 si los parámetros corresponden a un intervalo de frecuencia reconstruido mediante HFR. El módulo 1002 de selección también emite información 1005 sobre qué parametrización se utiliza para los diferentes intervalos de frecuencia de la señal.
En el lado del descodificador, el módulo 1004 toma los parámetros transmitidos y los dirige al upmix 109 predictivo o al upmix 1003 basado en la energía según lo anterior, dependiendo de la indicación dada por el parámetro 1005. El upmix 1003 basado en energía implementa la matriz C de upmix según la ecuación (40).
La matriz C de upmix tal como se representa en la ecuación (40) tiene pesos (\delta) iguales para obtener la señal c(k) (de descodificador) estimada a partir de las dos señales l_{0}(k), r_{0}(k) sobre las que se ha realizado downmix. Basándose en la observación de que la cantidad relativa de la señal c(k) puede diferir en las dos señales l_{0}(k), r_{0}(k) sobre las que se ha realizado downmix (es decir, C/L no igual a C/R), también podría considerarse la siguiente matriz de upmix genérica:
144
Con el fin de estimar c(k), esta realización también requiere la transmisión de dos parámetros c1 y c2 de control, que son por ejemplo iguales a c_{1} = \alpha^{2}C/(L+\alpha^{2}X) y c_{2} = \alpha^{2}X/(R+\alpha^{2}C). Una posible implementación de las funciones f_{i} de la matriz de upmix viene dada por
145
La señalización de la diferente parametrización para el intervalo SBR según la presente invención no está limitada a SBR. La parametrización comentada anteriormente puede utilizarse en cualquier intervalo de frecuencia en el que el error de predicción del upmix basado en predicción se considera demasiado grande. Por tanto, el módulo 1002 puede emitir los parámetros desde 1001 ó 104 dependiendo de una multitud de criterios, tales como método de codificación de las señales transmitidas, error de predicción, etc.
Un método preferido para reconstrucción multicanal basada en predicción mejorada incluye, en el lado del codificador, extraer diferentes parametrizaciones multicanal para diferentes intervalos de frecuencia y, en el lado del descodificador, aplicar estas parametrizaciones a los intervalos de frecuencia con el fin de reconstruir los multi-
canales.
Un realización preferida adicional de la presente invención incluye un método para reconstrucción multicanal basada en predicción mejorada que incluye, en el lado del codificador, extraer información sobre el proceso de downmix utilizado y posteriormente enviar esta información a un descodificador y, en el lado del descodificador, aplicar un upmix basándose en parámetros de predicción extraídos y la información sobre el downmix con el fin de reconstruir los multicanales.
Una realización preferida adicional de la presente invención incluye un método para reconstrucción multicanal basada en predicción mejorada, en el que, en el lado del codificador, la energía de la señal de downmix se ajusta según un error de predicción obtenido para los parámetros de upmix predictivo extraídos.
Una realización preferida adicional de la presente invención se refiere a un método para reconstrucción multicanal basada en predicción mejorada, en el que, en el lado del descodificador, se compensa una pérdida de energía debida al error de predicción aplicando una ganancia a los canales sobre los que se ha realizado upmix.
Una realización adicional de la presente invención se refiere a un método para reconstrucción multicanal basada en predicción mejorada, en el que, en el lado del descodificador la pérdida de energía debida a un error de predicción se sustituye por una señal descorrelacionada.
Una realización preferida adicional de la presente invención se refiere a un método para reconstrucción multicanal basada en predicción mejorada, en el que, en el lado del descodificador, una parte de la pérdida de energía debida a un error de predicción se sustituye por una señal descorrelacionada, y una parte de la pérdida de energía se sustituye aplicando una ganancia a los canales sobre los que se ha realizado upmix. Esta parte de la pérdida de energía se señaliza preferiblemente desde un codificador.
Una realización preferida adicional de la presente invención es un aparato para reconstrucción multicanal basada en predicción mejorada que comprende medios para ajustar la energía de la señal de downmix según el error de predicción obtenido para los parámetros de upmix predictivo extraídos.
Una realización preferida adicional de la presente invención es un aparato para reconstrucción multicanal basada en predicción mejorada que comprende medios para compensar la pérdida de energía debida al error de predicción aplicando una ganancia a los canales sobre los que se ha realizado upmix.
Una realización preferida adicional de la presente invención es un aparato para reconstrucción multicanal basada en predicción mejorada que comprende medios para sustituir la pérdida de energía debida al error de predicción por una señal descorrelacionada.
Una realización preferida adicional de la presente invención es un aparato para reconstrucción multicanal basada en predicción mejorada que comprende medios para sustituir parte de la pérdida de energía debida al error de predicción por una señal descorrelacionada, y parte de la pérdida de energía aplicando una ganancia a los canales sobre los que se ha realizado upmix.
Una realización preferida adicional de la presente invención es un codificador para reconstrucción multicanal basada en predicción mejorada que incluye ajustar la energía de la señal de downmix según el error de predicción obtenido para los parámetros de upmix predictivo extraídos.
Una realización preferida adicional de la presente invención es un descodificador para reconstrucción multicanal basada en predicción mejorada que incluye compensar una pérdida de energía debida al error de predicción aplicando una ganancia a los canales sobre los que se ha realizado upmix.
Una realización preferida adicional de la presente invención se refiere a un descodificador para reconstrucción multicanal basada en predicción mejorada que incluye sustituir la pérdida de energía debida al error de predicción por una señal descorrelacionada.
Una realización preferida adicional de la presente invención es un descodificador para reconstrucción multicanal basada en predicción mejorada que incluye sustituir una parte de la pérdida de energía debida al error de predicción por una señal descorrelacionada, y una parte de la pérdida de energía aplicando una ganancia a los canales sobre los que se ha realizado downmix.
La figura 11 muestra un sintetizador multicanal para generar al menos tres canales 1100 de salida utilizando una señal de entrada que presenta al menos un canal 1102 base, derivándose el al menos un canal base a partir de una señal multicanal original. El sintetizador multicanal tal como se muestra en la figura 11 incluye un dispositivo 1104 de upmix, que puede implementarse tal como se muestra en cualquiera de las figuras 2 a 10. Generalmente, el dispositivo 1104 de upmix funciona para realizar upmix sobre el al menos un canal base utilizando una regla de upmix de tal manera que se obtienen los al menos tres canales de salida. El elemento 1104 de upmix funciona para generar los al menos tres canales de salida en repuesta a una medida 1106 de energía y al menos dos parámetros 1108 de upmix diferentes utilizando una regla de upmix que introduce pérdida de energía de tal modo que los al menos tres canales de salida tienen una energía que es mayor que una energía de señales que resultan de solamente la regla de upmix que introduce pérdida de energía. Por tanto, independientemente de un error de energía que depende de la regla de upmix que introduce pérdida de energía, la invención da como resultado un resultado compensado en energía, en el que la compensación de energía puede realizarse ajustando a escala y/o mediante la adición de una señal descorrelacionada. Los al menos dos parámetros 1108 de upmix diferentes y la medida 1106 de energía están incluidos en la señal de entrada.
Preferiblemente, la medida de energía es cualquier medida relacionada con una pérdida de energía introducida por la regla de upmix. Puede ser una medida absoluta del error de energía introducido por el upmix o la energía de la señal de upmix (que normalmente es inferior en energía que la señal original), o puede ser una medida relativa tal como una relación entre la energía de la señal original y la energía de la señal de upmix o una relación entre el error de energía y la energía de la señal original o incluso una relación entre el error de energía y la energía de la señal de upmix. Una medida de energía relativa puede utilizarse como un factor de corrección, pero no obstante es una medida de energía puesto que depende del error de energía introducido en la señal de upmix generada por una regla de upmix que introduce pérdida de energía o, expresado en otras palabras, una regla de upmix que no conserva la energía.
Una regla de upmix a modo de ejemplo que introduce pérdida de energía (regla de upmix que no conserva la energía) es un upmix que utiliza coeficientes de predicción transmitidos. En caso de una predicción no perfecta de una trama o subbanda de una trama, la señal de salida de upmix se ve afectada por un error de predicción, correspondiente a una pérdida de energía. Naturalmente, el error de predicción varía de trama a trama, puesto que en el caso de una predicción casi perfecta (un bajo error de predicción) sólo tiene que realizarse una pequeña compensación (mediante ajuste a escala o añadiendo una señal descorrelacionada) mientras que el en caso de un error de predicción más grande (una predicción no perfecta) tiene que realizarse más compensación. Por lo tanto, la medida de energía de la invención también varía entre un valor que indica ninguna o sólo una pequeña compensación y un valor que indica una gran compensación.
Cuando la medida de energía se considera como un valor de coherencia entre canales (ICC), cuya consideración es natural, cuando la compensación se realiza añadiendo una señal descorrelacionada ajustada a escala dependiendo de la medida de energía, la medida (p) de energía relativa utilizada preferiblemente varía normalmente entre 0,8 y 1,0, indicando 1,0 que las señales sobre las que se ha realizado upmix están descorrelacionadas según se requiera o que no tiene que añadirse ninguna señal descorrelacionada o que la energía del resultado de upmix predictivo es igual a la energía de la señal original o que el error de predicción es cero.
Sin embargo, la presente invención también es útil en conexión con otras reglas de upmix que introduce pérdida de energía, es decir, reglas que no se basan en la coincidencia de la forma de onda sino que se basan en otras técnicas, tales como el uso de libros de código, coincidencia de espectro, o cualquier otra regla de upmix que no se ocupa de la conservación de energía.
Generalmente, la compensación de energía puede realizarse antes o después de aplicar la regla de upmix que introduce pérdida de energía. Como alternativa, la compensación de la pérdida de energía puede incluirse incluso en la regla de upmix, por ejemplo alterando los coeficientes de la matriz original utilizando la medida de energía de tal modo que se genera y utiliza una nueva regla de upmix por el elemento de upmix. Esta nueva regla de upmix se basa en la regla de upmix que introduce pérdida de energía y en la medida de energía. Expresado de otro modo, esta realización se refiere a una situación en la que la compensación de energía se "mezcla" en regla de upmix "mejorada" de tal modo que la compensación de energía y/o la adición de una señal descorrelacionada se realizan aplicando una o más matrices de upmix a un vector de entrada (el uno o más canales base) para obtener (después de la una o más operaciones de matrices) el vector de salida (la señal multicanal reconstruida que presenta al menos tres canales).
Preferiblemente, el dispositivo de upmix recibe dos canales l_{0}, r_{0} base y emite tres canales 1, r y c reconstruidos.
Posteriormente se hace referencia a la figura 12 para mostrar una situación de energía ejemplo en diferentes posiciones en una trayectoria de codificador a descodificador. El bloque 1200 muestra una energía de una señal de audio multicanal tal como una señal que presenta al menos un canal izquierdo, un canal derecho y un canal central, tal como se muestra en la figura 1. Para la realización en la figura 12, se supone que los canales 101, 102, 103 de entrada en la figura 1 están completamente no correlacionados, y que el elemento de downmix conserva la energía. En este caso, la energía 1202 del uno o más canales base indicada por el bloque 1202 es idéntica a la energía 1200 de la señal multicanal original. Cuando las señales multicanal originales están correlacionadas entre sí, la energía 1202 de canal base puede ser inferior a la energía de la señal multicanal original, cuando, por ejemplo, la izquierda y la derecha se cancelan (parcialmente) entre sí.
Para la posterior discusión, sin embargo, se supone que la energía 1202 de los canales base es la misma que la energía 1200 de la señal multicanal original.
Con 1204 se ilustra la energía de las señales de upmix, cuando las señales de upmix (por ejemplo, 110, 111, 112 de la figura 1) se generan utilizando un upmix que no conserva la energía o un upmix predictivo, tal como se comentó en conexión con la figura 1. Puesto que, tal como se expondrá posteriormente con respecto a las figuras 14a y 14b, un upmix predictivo de este tipo introduce un error E_{r} de energía, la energía 1204 del resultado del upmix será inferior a la energía 1202 de los canales base.
El elemento 1104 de upmix funciona para emitir canales de salida, que presentan una energía que es superior a la energía 1204. Preferiblemente, el dispositivo 1104 de upmix realiza una compensación completa de tal modo que el resultado 1100 del upmix en la figura 11 presenta una energía tal como se muestra en 1206.
Preferiblemente, el resultado del upmix, cuya energía se muestra en 1204, no se ajusta simplemente a escala de manera ascendente tal como se muestra en la figura 2, o se ajusta a escala de manera ascendente individualmente tal como se muestra en la figura 3 o se ajusta a escala de manera ascendente en el lado del codificador tal como se muestra en la figura 4. En lugar de ello, la energía E_{r} restante, que corresponde al error debido al upmix predictivo, se "rellena" utilizando una señal descorrelacionada. En otra realización preferida, este error E_{r} de energía sólo se cubre parcialmente por una señal descorrelacionada, mientras que el resto del error de energía se suple ajustando a escala de manera ascendente el resultado del upmix. La cobertura completa del error de energía por una señal descorrelacionada se muestra en la figura 5 y en la figura 6, mientras que la solución "en parte" se ilustra por la figura 7.
La figura 13 muestra una pluralidad de métodos de compensación de energía, por ejemplo, métodos que tienen en común la característica de que, basándose en una medida de energía que depende del error de energía, la energía de los canales de salida es superior al resultado puro del upmix predictivo, es decir, el resultado de la regla de upmix (no corregida) que introduce pérdida de energía.
El número 1 de la tabla en la figura 13 se refiere a la compensación de energía en el lado del descodificador, que se realiza posteriormente al upmix. Esta opción se muestra en la figura 2 y, adicionalmente, se explica más en conexión con la figura 3, que muestra los factores g_{z} de ajuste a escala de manera ascendente específicos del canal, que no sólo dependen de la medida \rho de energía, sino que, adicionalmente, dependen de los factores v_{z} de downmix dependientes del canal, siendo z 1, r o c.
El número 2 de la figura 13 incluye el método de compensación de energía en el lado del codificador, que se realiza posteriormente al downmix, que se ilustra en la figura 4. Esta realización es preferible porque la medida \rho de energía no tiene que transmitirse desde el codificador al descodificador.
El número 3 de la tabla en la figura 13 se refiere a la compensación de energía en el lado del descodificador, que se realiza antes del upmix. Cuando se considera la figura 2, la corrección 202 de energía, que se realiza después del upmix en la figura 2, se realizaría antes del bloque 201 de upmix en la figura 2. Esta realización da como resultado, comparado con la figura 2, una implementación más fácil, puesto que no se requieren factores de corrección específicos del canal tal como se muestra en la figura 3, aunque podrían producirse pérdidas de calidad.
El número 4 de la figura 13 se refiere a una realización adicional, en la que se realiza una corrección en el lado del codificador antes de realizar el downmix. Cuando se considera la figura 1, los canales 101, 102, 103 se ajustarían a escala ascendentemente por un factor de compensación correspondiente de tal modo que la salida del elemento de downmix se aumenta después de realizar el downmix tal como se muestra en 1208 en la figura 12. Por tanto, la realización número cuatro en la figura 13 tiene la misma consecuencia para la salida de los canales base mediante un codificador que la realización número dos de la presente invención.
El número 5 de la tabla de la figura 13 se refiere a la realización en la figura 5, cuando señal descorrelacionada se deriva a partir de los canales generados por la regla 109 de upmix que no conserva la energía en la figura 5.
La realización número 6 en la tabla en la figura 13 se refiere a la realización en la que sólo parte de la energía residual se cubre por la señal descorrelacionada. Esta realización se ilustra en la figura 7.
La realización número 8 de la figura 13 es similar a la realización número 5 ó 6, pero la señal descorrelacionada se deriva a partir de los canales base antes de realizarse el downmix, tal como se expuso mediante el cuadro 501' en la figura 5.
A continuación se describe en detalle una realización preferida del codificador. La figura 14a ilustra un codificador para procesar una señal 1400 de entrada multicanal que presenta al menos dos canales y, preferiblemente, que presenta al menos tres canales l, c, r.
El codificador incluye un calculador 1402 de medida de energía para calcular una medida de error que depende de una diferencia de energía entre una energía de la señal 1400 de entrada multicanal o al menos un canal 1404 base y una señal 1406 sobre la que se ha realizado upmix generada mediante una operación 1407 de upmix que no conserva la energía.
Además, el codificador incluye una interfaz 1408 de salida para emitir el al menos un canal base después de haberse ajustado (401, 402) a escala por un factor 403 de ajuste a escala que depende de la medida de energía o para emitir la propia medida de energía.
En una realización preferida, el codificador incluye un elemento 1410 de downmix para generar el al menos un canal 1404 base a partir de los multicanales 1400 originales. Para generar los parámetros de upmix, también están presentes un calculador 1414 de diferencia y un optimizador 1416 de parámetros. Estos elementos funcionan para encontrar los mejores parámetros 1412 de upmix de coincidencia. Al menos dos de este conjunto de mejores parámetros de upmix de ajuste se emiten a través de la interfaz de salida como la salida de parámetros en una realización preferida. El calculador de diferencia funciona preferiblemente para realizar un cálculo de error cuadrático medio mínimo entre la señal 1400 multicanal original y la señal de upmix generada por el elemento de upmix para la entrada de parámetros en la línea 1412 de parámetros. Este procedimiento de optimización de parámetros puede realizarse mediante varios procedimientos de optimización diferentes, que se guían todos por la meta de obtener un mejor resultado 1406 de upmix de coincidencia mediante una cierta matriz de upmix incluida en el elemento 1407 de upmix.
La funcionalidad del codificador de la figura 14a se muestra en la figura 14b. Después de una etapa 1440 de downmix realizada por el elemento 1410 de downmix, el canal base o la pluralidad de canales base puede emitirse tal como se ilustra por 1442. Entonces, se realiza una etapa 144 de optimización de parámetros de upmix que, dependiendo de una cierta estrategia de optimización, puede ser un procedimiento iterativo o no iterativo. Sin embargo, se prefieren procedimientos iterativos. Generalmente, el procedimiento de optimización de parámetros de upmix puede implementarse de tal manera que la diferencia entre el resultado del upmix y la señal original sea lo más pequeña posible. Dependiendo de la implementación, esta diferencia puede ser una diferencia individual relacionada con el canal o una diferencia combinada. Generalmente, la etapa 1444 de optimización de parámetros de upmix funciona para minimizar cualquier función de coste, que puede derivarse a partir de canales individuales o a partir canales combinados de tal manera que, para un canal, se acepta una diferencia (error) más grande, cuando se consigue, por ejemplo, una coincidencia mucho mejor para los otros dos canales.
Entonces, cuando se ha encontrado el mejor conjunto de parámetros de ajuste, por ejemplo, la mejor matriz de upmix de ajuste, se emiten al menos dos parámetros de upmix del conjunto de parámetros generados por la etapa 1444 a la interfaz de salida tal como se indica por la etapa 1446.
Además, después de haberse completado la etapa 1444 de optimización de parámetros de upmix, la medida de energía puede calcularse y emitirse según se indica por la etapa 1448. Generalmente, la medida de energía dependerá del error 1210 de energía. En una realización preferida, la medida de energía es el factor \rho que depende de la relación de la energía del resultado 1406 del upmix y la energía de la señal 1400 original tal como se muestra en la figura 2. Como alternativa, la medida de energía calculada y emitida puede ser un valor absoluto para el error 1210 de energía o puede ser la energía absoluta del resultado 1406 del upmix que, por supuesto, depende del error de energía. En este contexto, ha de observarse que la medida de energía tal como se emite mediante la interfaz 1408 de salida preferiblemente se cuantifica y, de nuevo, preferiblemente se codifica por entropía utilizando cualquier codificador de entropía ampliamente conocido tal como un codificador aritmético, un codificador de Huffman o un codificador de segmentos en blanco, que es especialmente útil cuando hay muchas medidas de energía idénticas posteriores. Como alternativa o adicionalmente, las medidas de energía para porciones de tiempo o tramas posteriores pueden codificarse diferencialmente, realizándose esta codificación diferencial preferiblemente antes de la codificación de entropía.
A continuación se hace referencia a la figura 15a, que muestra una realización de elemento de downmix alternativa, que, según una realización preferida de la presente invención, se combina con el codificador de la figura 14a. La realización de la figura 15a cubre una implementación SBR, aunque esta realización también puede utilizarse en casos en los que no se realiza replicación de banda espectral, sino en los que se transmite el ancho de banda completo de los canales base. El codificador de la figura 15a incluye un elemento 1500 de downmix para realizar downmix sobre la señal 1500 original para obtener al menos una canal 1504 base. En una realización no SBR, el al menos un canal 1504 base se introduce en un codificador 1506 de núcleo, que puede ser un codificador AAC para señales mono en el caso de un único canal base, o que puede ser cualquier codificador estéreo en el caso de por ejemplo dos canales base estéreo. Sobre la salida del codificador 1506 de núcleo se emite un flujo de bits que incluye un canal base codificado o que incluye una pluralidad de canales base codificados (1508).
Cuando la realización de la figura 15a presenta una funcionalidad SBR, el al menos un canal 1504 base se filtra 1510 paso bajo antes de introducirse en el codificador de núcleo. Naturalmente, las funcionalidades de los bloques 1510 y 1506 pueden implementarse mediante un único dispositivo codificador, que realiza filtrado paso bajo y codificación de núcleo dentro de un único algoritmo de codificación.
Los canales base codificados en la salida 1508 sólo incluyen una banda baja de los canales 1504 base en forma codificada. Se calcula información sobre la banda alta mediante un calculador 1512 de envolvente espectral SBR, que está conectado a un codificador 1514 de información SBR para generar y emitir información del lado de SBR codificada en una salida 1516.
La señal 1502 original se introduce en un calculador 1520 de energía, que genera energías de canal (para un cierto periodo de tiempo de los canales l, c, r originales, indicándose las energías de canal por L, C, R, emitidas por el bloque 1520). Las energías L, C, R de canal se introducen en un bloque 1522 calculador de parámetros. El calculador 1522 de parámetros emite dos parámetros c1, c2 de upmix que pueden, por ejemplo, ser los parámetros c_{1}, c_{2}, indicados en la figura 15a. Naturalmente, pueden generarse otras combinaciones de energía (por ejemplo lineales) que implican las energías de todos los canales de entrada mediante el calculador 1522 de parámetros, para su transmisión a un descodificador. Naturalmente, diferentes parámetros de upmix transmitidos darán como resultado una manera diferente de calcular los elementos restantes de la matriz de upmix. Tal como se indicó en conexión con la ecuación (40) o las ecuaciones (41 a 44), la matriz de upmix para la realización de la figura 15 dirigida a la energía presenta al menos cuatro elementos que no son cero, siendo los elementos en la tercera fila iguales entre sí. Por tanto, el calculador 1522 de parámetros puede utilizar cualquier combinación de energías L, C, R, por ejemplo, a partir de las que pueden derivarse los cuatro elementos en la matriz de upmix tal como la indicación (40) o (41) de la matriz de upmix.
La realización de la figura 15a ilustra un codificador que funciona para realizar el upmix que conserva la energía o, expresado en general, derivado de energía para todo el ancho de banda de una señal. Esto significa que, en el lado del codificador, que se ilustra en la figura 15a, la representación paramétrica emitida por el calculador 1522 de parámetros se genera para toda la señal. Esto significa que, para cada subbanda del canal base codificado, se calcula y emite un conjunto correspondiente de parámetros. Cuando, por ejemplo, se considera el canal base codificado, que es, por ejemplo, una señal de ancho de banda completo que presenta diez subbandas, el calculador de parámetros podría emitir diez parámetros c_{1} y c_{2} para cada subbanda del canal base codificado. Cuando, sin embargo, el canal base codificado fuese una señal de banda baja en un entorno SBR, por ejemplo cubriendo sólo las tres subbandas inferiores, entonces el calculador 1522 de parámetros emitiría un conjunto de parámetros para cada una de las cinco subbandas inferiores y, adicionalmente, para cada una de las cinco subbandas superiores, aunque la señal en la salida 1508 no incluya una subbanda correspondiente. Esto se debe al hecho de que una subbanda de este tipo se recrearía en el lado del descodificador, tal como se describirá posteriormente en conexión con la figura 16a.
Preferiblemente, sin embargo, y tal como se describe en conexión con la figura 10, el calculador 1520 de energía y el calculador 1522 de parámetros sólo funcionan para la parte de banda alta de la señal original, mientras que los parámetros para la parte de banda baja de la señal original se calculan mediante el calculador 104 de parámetros predictivos en la figura 10, que correspondería al elemento 109 de upmix predictivo en la figura 10.
La figura 15b muestra una representación esquemática de una representación paramétrica emitida por el módulo 1002 de selección en la figura 10. Por tanto, una representación paramétrica según la presente invención incluye (con o sin el(los) canal(es) base codificado(s) y, opcionalmente, incluso sin la medida de energía) un conjunto de parámetros predictivos para la banda baja, por ejemplo, para las subbandas 1 a i y parámetros por subbanda para la banda alta, por ejemplo, para las subbandas i+1 a N. Como alternativa, los parámetros predictivos y los parámetros de tipo energía pueden estar mezclados, por ejemplo, una subbanda que presenta parámetros de tipo energía puede estar situada entre subbandas que presentan parámetros predictivos.
Además, una trama que presenta sólo parámetros predictivos puede seguir a una trama que presenta sólo parámetros de tipo energía. Por lo tanto, expresado de manera general, la presente invención tal como se comentó en conexión con la figura 10, se refiere a diferentes parametrizaciones, que pueden ser diferentes en la dirección de frecuencia tal como se muestra en la figura 15b o que pueden ser diferentes en la dirección del tiempo, cuando una trama que presenta sólo parámetros predictivos va seguida por una trama que presenta sólo parámetros de tipo energía. Naturalmente, la distribución o parametrización de subbandas puede cambiar de trama a trama, de tal modo que, por ejemplo, la subbanda i presenta un primer conjunto de parámetros (por ejemplo predictivos) tal como se muestra en la figura 15b en la primera trama, y presenta un segundo conjunto de parámetros (por ejemplo de tipo energía) en otra
trama.
Además, la presente invención también es útil cuando se utilizan parametrizaciones diferentes a la parametrización predictiva, tal como se muestra en la figura 14a, o a la parametrización de tipo energía tal como se muestra en la figura 15a. También pueden utilizarse ejemplos adicionales para la parametrización aparte de la predictiva o la de tipo energía tan pronto como cualquier parámetro objetivo o evento objetivo indique que la calidad de upmix, la tasa de transmisión de bits de downmix, la eficacia computacional en el lado del codificador o en el lado del descodificador o, por ejemplo, el consumo de energía de, por ejemplo, dispositivos alimentados por batería, etc. supóngase, para una cierta subbanda o trama, para la primera parametrización es mejor que para la segunda parametrización. Naturalmente, la función objetivo también puede ser una combinación de diferentes objetivos/eventos individuales diferentes tal como se comentó anteriormente. Un evento a modo de ejemplo sería una banda alta reconstruida por SBR,
etc.
Además, ha de observarse que el cálculo selectivo de frecuencia o en el tiempo y la transmisión de parámetros pueden señalizarse explícitamente tal como se muestra en 1005 en la figura 10. Como alternativa, la señalización también puede realizarse implícitamente tal como se comentó en conexión con la figura 16a. En este caso, se utilizan reglas predefinidas para el descodificador, por ejemplo que el descodificador suponga automáticamente que los parámetros transmitidos son parámetros de tipo energía para subbandas pertenecientes a la banda alta en la figura 15b, por ejemplo, para subbandas que se han reconstruido mediante una técnica de replicación de banda espectral o de regeneración de altas frecuencias.
Además, ha de observarse que el cálculo en el lado del codificador de la invención de una, dos o incluso más parametrizaciones diferentes y la selección en el lado del codificador, parametrización que se transmite basándose en una decisión que utiliza cualquier información disponible en el lado del codificador (la información puede ser una función objetivo realmente utilizada o información de señalización utilizada por otras razones tales como el procesamiento y señalización SBR), puede realizarse con o sin transmitir la medida de energía. Incluso cuando no se realiza en absoluto la corrección energía preferida, por ejemplo, cuando el resultado del upmix que no conserva la energía (upmix predictivo) no se corrige en energía, o cuando no se realiza compensación previa correspondiente en el lado del codificador, la conmutación de la invención entre diferentes parametrizaciones es útil para obtener una mejor calidad de salida multicanal y/o tasa de transmisión de bits inferior.
Particularmente, la conmutación de la invención entre diferentes parametrizaciones dependiendo de la información disponible en el lado del codificador puede utilizarse con o sin la adición de una señal descorrelacionada completamente o que cubre al menos parcialmente el error de energía realizado por el upmix predictivo tal como se muestra en conexión con las figuras 5 a 7. En este contexto, la adición de una señal descorrelacionada tal como se describe en conexión con la figura 5 sólo se realiza para las subbandas/tramas, para las que se transmiten parámetros del upmix predictivo, mientras que se utilizan diferentes medidas para la descorrelación para aquellas subbandas o tramas en las que se han transmitido parámetros de tipo energía. Tales medidas son, por ejemplo, ajustar a escala de manera descendente la señal húmeda y generar una señal descorrelacionada y ajustar a escala la señal descorrelacionada de tal modo que se obtiene una cantidad requerida de descorrelación según se requiera, por ejemplo, por una medida de correlación entre canales transmitida tal como ICC, cuando las señales descorrelacionadas ajustadas a escala apropiadamente se añaden a la señal seca.
A continuación se comenta la figura 16a para ilustrar una implementación en el lado del descodificador del bloque 201 de upmix de la invención y la corrección de energía correspondiente en 202. Tal como se comentó en conexión con la figura 11, se extraen parámetros 1108 de upmix transmitidos de una señal de entrada recibida. Estos parámetros de upmix transmitidos se introducen preferiblemente en un calculador 1600 para calcular los parámetros de upmix restantes, cuando la matriz 1602 de upmix que incluye compensación de energía es para realizar un upmix predictivo y una corrección de energía anterior o posterior. El procedimiento para calcular los parámetros de upmix restantes se comenta a continuación en conexión con la figura 16b.
El cálculo de los parámetros de upmix se basa en la ecuación en la figura 16b, que también se repite como ecuación (7). En la realización de tres señales de entrada/dos señales de salida, la matriz D de downmix presenta seis variables. Adicionalmente, la matriz C de upmix presenta también seis variables. Sin embargo, en el lado derecho de la ecuación (7), sólo hay cuatro valores. Por lo tanto, en el caso de un downmix no conocido y un upmix no conocido, se tendrían doce variables no conocidas de las matrices D y C y sólo cuatro ecuaciones para determinar estas doce variables. Sin embargo, el downmix se conoce, de tal modo que el número de variables que no se conocen se reduce a los coeficientes de la matriz C de upmix, que presenta seis variables, aunque hay todavía cuatro ecuaciones para determinar estas seis variables. Por lo tanto, el método de optimización tal como se comentó en conexión con la etapa 1444 en la figura 14b y tal como se ilustra en la figura 14a se utiliza para determinar al menos dos variables de la matriz de upmix, que son, preferiblemente, c_{11} y c_{22}. Ahora, puesto que existen cuatro no conocidas, por ejemplo, c_{12}, c_{21}, c_{31} y c_{32} y puesto que existen cuatro ecuaciones, por ejemplo, una ecuación para cada elemento en la matriz I identidad en el lado derecho de la ecuación en la figura 16b, las variables no conocidas restantes de la matriz de upmix pueden calcularse de un forma directa. Este cálculo se realiza en el calculador 1600 para calcular los parámetros de upmix restantes.
La matriz de upmix en el dispositivo 1602 se fija según los dos parámetros de upmix transmitidos según se reenvían mediante la línea 1604 discontinua y mediante los cuatro parámetros de upmix restantes calculados por el bloque 1600. Esta matriz de upmix se aplica entonces a la entrada de canales base a través de la línea 1102. Dependiendo de la implementación, se reenvía una medida de energía para una corrección de banda baja a través de la línea 1106 de tal modo que puede generarse y emitirse un upmix corregido. Cuando el upmix predictivo sólo se realiza para la banda baja como se señala, por ejemplo, implícitamente a través de la línea 1606, y cuando existen parámetros de upmix de tipo energía en la línea 1108 para la banda alta, este hecho se señaliza, para una subbanda correspondiente, al calculador 1600 y al dispositivo 1602 de matriz de upmix. En el caso de tipo energía se prefiere calcular los elementos de matriz de upmix de la matriz (40) o (41) de upmix. Con este fin, se utilizan los parámetros transmitidos tal como se indica debajo de la ecuación (40) o los parámetros correspondientes tal como se indica debajo de la ecuación (41). En esta realización, los parámetros c_{1}, c_{2} de upmix transmitidos no pueden utilizarse directamente para un coeficiente de upmix, sino que los coeficientes de upmix de la matriz de upmix, tal como se muestra en ecuación (40) o (41), tienen que calcularse utilizando los parámetros c_{1} y c_{2} de upmix transmitidos.
Para la banda alta, una matriz de upmix tal como se determina para los parámetros de upmix basados en energía se utiliza para realizar upmix sobre la parte de banda alta de las señales de salida multicanal. Posteriormente, la parte de banda baja y la parte de banda alta se combinan en un combinador 1608 alta/baja para emitir los canales 1, r, c de salida reconstruidos de ancho de banda completo. Tal como se ilustra en la figura 16a, la banda alta de los canales base se genera utilizando un descodificador para descodificar los canales base de banda baja transmitidos, siendo este descodificador un descodificador mono para un canal base mono, y un descodificador estéreo para dos canales base estéreo. Este (estos) canal(es) base de banda baja descodificado(s) se introduce(n) en un dispositivo 1614 SBR, que recibe adicionalmente información de envolvente tal como se calcula por el dispositivo 1512 en la figura 15a. Basándose en la parte de banda baja y en la información de envolvente de banda alta, se genera la banda alta de los canales base para obtener canales base de ancho de banda completo en la línea 1102, que se reenvían hacia el dispositivo 1602 de matriz de upmix.
Los métodos o dispositivos o programas informáticos inventivos pueden implementarse o incluirse en varios dispositivos. La figura 17 muestra un sistema de transmisión que presenta un transmisor que incluye un codificador inventivo y que presenta un receptor que incluye un descodificador inventivo. El canal de transmisión puede ser un canal inalámbrico o cableado. Además, tal como se muestra en la figura 18, el codificador puede incluirse en un grabador de audio o el descodificador puede incluirse en un reproductor de audio. Las grabaciones de audio desde el grabador de audio pueden distribuirse al reproductor de audio a través de Internet o a través de un medio de almacenamiento distribuido utilizando recursos de correo o mensajería u otras posibilidades para distribuir medios de almacenamiento tales como tarjetas de memoria, CD o DVD.
Dependiendo de ciertos requisitos de implementación de los métodos inventivos, los métodos inventivos pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, un particular un disco o un CD que presenta señales de control legibles electrónicamente almacenadas sobre el mismo, que puede actuar conjuntamente con un sistema informático programable de tal manera que se realizan los métodos inventivos. Dicho de otro modo, los métodos inventivos son, por lo tanto, un programa informático que presenta un código de programa para realizar los métodos inventivos, cuando el programa informático se ejecuta en un ordenador.

Claims (41)

1. Sintetizador multicanal para generar al menos tres canales (1100) de salida de audio utilizando una señal de entrada que presenta al menos un canal (1102) base, derivándose el canal base a partir de la señal (101, 102, 103) multicanal original, incluyendo además la señal de entrada al menos dos parámetros (1108) de realización de upmix diferentes, y una indicación (1005) de modo del elemento de upmix que indica, en un primer estado que ha de realizarse una primera regla de upmix, y que indica, en un segundo estado, que ha de realizarse una segunda regla de upmix diferente, que comprende:
un elemento (1104) de upmix para realizar el upmix sobre el al menos un canal base utilizando los al menos dos parámetros (1108) de realización de upmix diferentes basándose en la primera o en la segunda regla de upmix en respuesta a la indicación (1005) de modo del elemento de upmix de tal modo que se obtienen los al menos tres canales de salida,
caracterizado porque la primera regla de upmix es una regla (109) de realización de upmix predictivo y la segunda regla de upmix es una regla de upmix que tiene parámetros (1003) de realización de upmix dependientes de la
energía.
2. Sintetizador multicanal según la reivindicación 1, en el que el elemento (1104) de upmix está operativo cuando realiza upmix para calcular, dependiendo de la indicación (1005) de modo del elemento de upmix, parámetros para la primera o la segunda regla de upmix utilizando los al menos dos parámetros (1108) de realización de upmix diferentes dependiendo de la indicación (1005) de modo del elemento de upmix.
3. Sintetizador multicanal según la reivindicación 1 ó 2, en el que la indicación (1005) de modo del elemento de upmix indica una señalización selectiva de frecuencia o por subbanda o selectiva en el tiempo o por trama de un modo del elemento de upmix, y
en el que el elemento de upmix está operativo para realizar upmix sobre el al menos un canal base utilizando reglas de realización de upmix diferentes para diferentes bandas de frecuencia o porciones de tiempo según se indica mediante la indicación (1005) de modo del elemento de upmix.
4. Sintetizador multicanal según la reivindicación 1, en el que la segunda regla de upmix se define según sigue:
146
en la que L es un valor de energía de un canal de entrada izquierdo,
en la que C es un valor de energía de un canal de entrada central,
en la que R es un valor de energía de un canal de entrada derecho, y en el que \alpha es un parámetro determinado por downmix.
5. Sintetizador multicanal según una de las reivindicaciones 1 a 4, en el que la segunda regla de upmix es tal que no se añade un canal de downmix derecho a un canal sobre el que se ha realizado upmix izquierdo y viceversa.
6. Sintetizador multicanal según una de las reivindicaciones 1 a 5, en el que la primera regla de upmix se determina por una coincidencia de forma de onda entre formas de onda de la señal multicanal original y formas de onda de señales generadas por la primera regla de upmix.
7. Sintetizador multicanal según una de las reivindicaciones 1 a 6, en el que una de la primera o segunda reglas de realización de upmix se determina según sigue:
147
en la que la función f_{1}, f_{2}, f_{3} indica funciones de los dos parámetros c_{1}, c_{2} de realización de upmix diferentes transmitidos y, en la que las funciones se determinan según sigue:
148
en la que \alpha es un parámetro de valor real.
8. Sintetizador multicanal según una de las reivindicaciones 1 a 7, que comprende además una unidad (1614) SBR para regenerar una banda del al menos un canal base no incluido en el canal base transmitido utilizando una parte del al menos un canal base incluido en la señal de entrada, y en el que el sintetizador multicanal está operativo para aplicar la segunda regla de upmix en una banda regenerada del al menos un canal base, y para aplicar la primera regla de upmix en un banda del canal base, que está incluida en la señal de entrada.
9. Sintetizador multicanal según la reivindicación 8, en el que la indicación (1005) de modo del elemento de upmix es una señalización (1606) SBR incluida en la señal de entrada.
10. Sintetizador multicanal según una de las reivindicaciones anteriores, en el que la señal de entrada incluye una medida (1106) de energía que indica información sobre un error de energía dependiendo de una regla de upmix que introduce pérdida de energía, y en el que el elemento de upmix está operativo para utilizar la regla de upmix que introduce pérdida de energía como una de la primera o segunda regla de upmix y para generar los al menos tres canales de salida de tal manera que el error de energía se compensa al menos parcialmente basándose en la medida de energía.
11. Sintetizador multicanal según una de las reivindicaciones anteriores, en el que el elemento de upmix está operativo para extraer la medida (1106) de energía de la señal de entrada y para utilizar la medida de energía como la indicación (1005) de modo del elemento de upmix de modo que el elemento de upmix está operativo para aplicar la regla de upmix que introduce pérdida de energía en respuesta a una presencia de la medida (1106) de energía en la señal de entrada.
12. Sintetizador multicanal según la reivindicación 11, en el que la medida de energía indica una indicación de una relación de una energía de un resultado de upmix utilizando la regla de upmix que introduce pérdida de energía con una energía de la señal multicanal original, o una indicación de una relación de la diferencia de energía con una energía o la señal multicanal original o una indicación del error de energía en términos absolutos.
13. Sintetizador multicanal según una de las reivindicaciones anteriores, en el que el elemento de upmix incluye un calculador (1600) para derivar, en respuesta a la indicación (1005) de modo del elemento de upmix, una matriz de upmix basándose en los al menos dos parámetros de realización de upmix e información sobre una regla de downmix utilizada para generar el al menos un canal base a partir de la señal multicanal original.
14. Sintetizador multicanal según una de las reivindicaciones 10 a 13, en el que el elemento (1104) de upmix comprende además un descorrelador (501, 502, 503, 501', 503') para generar una señal descorrelacionada a partir del al menos un canal base o de las señales de salida de la regla de upmix que introduce pérdida de energía, y
en el que el elemento de upmix está operativo para utilizar la señal descorrelacionada de tal manera que una cantidad de energía de la señal descorrelacionada en un canal de salida es más pequeña que o igual a una cantidad del error de energía según puede derivarse por la medida de energía.
15. Sintetizador multicanal según la reivindicación 14, en el que, cuando la energía de la señal descorrelacionada es más pequeña que el error de energía, el elemento de upmix está operativo para ajustar a escala de manera ascendente una señal generada mediante la regla de upmix de tal manera que la energía combinada de la señal ajustada a escala de manera ascendente y la señal descorrelacionada añadida es igual a una energía de la señal original.
16. Sintetizador multicanal según la reivindicación 14 ó 15, en el que la energía de la señal descorrelacionada añadida se determina mediante un factor de descorrelación, en el que un factor de descorrelación alto próximo a 1 indica que ha de añadirse una señal descorrelacionada de nivel más pequeño, mientras que un factor de descorrelación más pequeño próximo a 0 indica que ha de añadirse una señal de descorrelación de nivel más alto, y
en el que la medida de descorrelación se extrae de la señal de entrada.
17. Sintetizador multicanal según una de las reivindicaciones anteriores, en el que la señal de entrada incluye, además de los dos parámetros de realización de upmix diferentes, información sobre un downmix subyacente al al menos un canal base,
en el que el elemento de upmix está operativo para utilizar la información de realización de downmix adicional para generar una matriz (802) de realización de upmix.
18. Codificador para procesar una señal de entrada de audio multicanal, que comprende:
un generador (104, 1001, 1520, 1522, 1414, 1416) de parámetros para generar una representación paramétrica específica entre una pluralidad de diferentes representaciones paramétricas basándose en información disponible en el codificador, siendo útil la representación paramétrica cuando se realiza upmix sobre uno o más canales base para reconstruir una señal de salida multicanal; y
una interfaz (1408) de salida para emitir la representación paramétrica generada e información que indica implícita o explícitamente la representación paramétrica específica entre la pluralidad de diferentes representaciones paramétricas,
caracterizado porque la pluralidad de diferentes representaciones paramétricas incluye una primera representación paramétrica para un esquema (104) de realización de upmix predictivo basado en la forma de onda, y una segunda representación paramétrica para una regla de upmix no basada en la forma de onda que presenta parámetros (1001) de realización de upmix dependientes de la energía.
19. Codificador según la reivindicación 18, en el que la regla de upmix no basada en la forma de onda es una regla de upmix que conserva la energía.
20. Codificador según una de las reivindicaciones 18 a 19, en el que una primera representación paramétrica es una representación paramétrica, cuyos parámetros se determinan utilizando un procedimiento de optimización, y
en el que una segunda representación paramétrica se determina calculando (1520) las energías de los canales originales y calculando parámetros (1522) basándose en combinaciones de energías.
21. Codificador según una de las reivindicaciones 18 a 20, que comprende además un módulo (1512, 1514) de replicación de banda espectral para generar información del lado de replicación de banda espectral para al menos una banda de la señal de entrada original, que no se incluye en una salida de canal base por el codificador, indicando implícitamente la información del lado de replicación de banda espectral una representación paramétrica específica.
22. Codificador según una de las reivindicaciones 18 a 21, que comprende además: un calculador (1402) de medida de energía para calcular una medida (\rho) de energía que depende de una diferencia de energía entre una señal de entrada multicanal o al menos un canal base derivado a partir de la señal de entrada multicanal y una señal sobre la que se ha realizado upmix generada mediante una operación de realización de upmix que introduce pérdida de energía; y
en el que la interfaz (1408) de salida está operativa para emitir el al menos un canal base después de haberse ajustado a escala (401, 402) mediante un factor (403) de ajuste a escala dependiente de la medida de energía o para emitir la medida de energía.
23. Codificador según la reivindicación 22, en el que la medida (\rho) de energía emitida por la interfaz de salida se utiliza para señalar implícitamente una representación paramétrica específica.
24. Codificador según una de las reivindicaciones 18 a 23, que comprende además un controlador de representación paramétrica para controlar el generador de parámetros o la interfaz de salida representación paramétrica que ha de generarse o emitirse entre la pluralidad de diferentes representaciones paramétricas.
25. Codificador según una de las reivindicaciones 18 a 24, en el que el controlador de representación paramétrica está operativo para determinar un evento en el codificador o para calcular una función objetivo.
26. Codificador según la reivindicación 25, en el que el evento en el codificador es un cálculo de información de replicación de banda espectral de modo que el controlador está operativo para controlar la interfaz de salida para emitir una segunda representación paramétrica para una banda no incluida en un canal base, y para emitir una primera representación paramétrica para una banda incluida en el canal base.
27. Codificador según una de las reivindicaciones 18 a 25, en el que el controlador de representación paramétrica está operativo para utilizar, en la función objetivo un valor o una combinación de valores derivados a partir de una calidad de upmix, una tasa de transmisión de bits de downmix, una eficacia computacional en el lado del codificador o en un lado del descodificador o un consumo de energía de un dispositivo alimentado por batería, indicando la función objetivo que, para una cierta subbanda o trama, la primera parametrización es mejor que la segunda
parametrización.
28. Codificador según una cualquiera de las reivindicaciones, en el que la interfaz de salida está operativa para emitir diferentes representaciones paramétricas para diferentes bandas de frecuencia o periodos de tiempo.
29. Codificador según una cualquiera de las reivindicaciones 18 a 28, que comprende además un calculador de medida de energía para calcular una medida de energía basándose en una relación de una energía de la señal sobre la que se ha realizado upmix generada por realización de upmix sobre el al menos un canal base utilizando una regla de upmix que introduce pérdida de energía, y una energía de la señal multicanal original.
30. Codificador según una de las reivindicaciones 18 a 29, que comprende además un dispositivo (1410) de downmix para calcular al menos un canal base, y
en el que la interfaz (1408) de salida está operativa para emitir el al menos un canal base.
31. Método de generación de al menos tres canales (1100) de salida de audio utilizando una señal de entrada que presenta al menos un canal (1102) base, derivándose el canal base a partir de la señal (101, 102, 103) multicanal original, incluyendo además la señal de entrada al menos dos parámetros (1108) de realización de upmix diferentes, y una indicación (1005) de modo del elemento de upmix que indica, en un primer estado que ha de realizarse una primera regla de upmix, y, que indica, en un segundo estado, que ha de realizarse una segunda regla de upmix diferente, que comprende:
realizar (1104) upmix sobre el al menos un canal base utilizando los al menos dos parámetros (1108) de realización de upmix diferentes basándose en la primera o la segunda regla de upmix en respuesta a la indicación (1005) de modo del elemento de upmix de modo que se obtienen los al menos tres canales de salida,
caracterizado porque la primera regla de upmix es una regla (109) de realización de upmix predictivo y la segunda regla de upmix es una regla de upmix que presenta parámetros (1003) de realización de upmix dependientes de la energía.
32. Método de procesamiento de una señal de entrada de audio multicanal, que comprende:
generar (104, 1001, 1520, 1522, 1414, 1416) una representación paramétrica específica entre una pluralidad de diferentes representaciones paramétricas basándose en información disponible en el codificador, siendo útil la representación paramétrica cuando se realiza upmix sobre uno o más canales base para reconstruir una señal de salida multicanal; y
emitir (1408) la representación paramétrica generada e información que indica implícita o explícitamente la representación paramétrica específica entre la pluralidad de diferentes representaciones paramétricas,
caracterizado porque la pluralidad de diferentes representaciones paramétricas incluye una primera representación paramétrica para un esquema (104) de realización de upmix predictivo basado en la forma de onda, y una segunda representación paramétrica para una regla de upmix no basada en la forma de onda que presenta parámetros (1001) de realización de upmix dependientes de la energía.
33. Señal de información de audio multicanal codificada que presenta una representación paramétrica específica entre una pluralidad de diferentes representaciones paramétricas, siendo útil la representación paramétrica cuando se realiza upmix sobre uno o más canales base para reconstruir una señal de salida multicanal, e información que indica implícita o explícitamente la representación paramétrica específica entre la pluralidad de diferentes representaciones paramétricas, caracterizado porque la pluralidad de diferentes representaciones paramétricas incluye una primera representación paramétrica para un esquema (104) de realización de upmix predictivo basado en la forma de onda, y una segunda representación paramétrica para una regla de upmix no basada en la forma de onda que presenta parámetros (1001) de realización de upmix dependientes de la energía.
34. Medio legible por ordenador que tiene almacenado sobre el mismo una señal de información multicanal codificada según la reivindicación 33.
35. Transmisor o grabador de audio que presenta un codificador según una cualquiera de las reivindicaciones 18 a 30.
36. Receptor o reproductor de audio que presenta un sintetizador según una cualquiera de las reivindicaciones 1 a 17.
37. Sistema de transmisión que presenta un transmisor según la reivindicación 35 y un receptor según la reivindicación 36.
38. Método transmisión o grabación de audio, presentando el método un método de procesamiento según la reivindicación 32.
\newpage
39. Método de recepción o reproducción de audio, incluyendo el método un método de generación según la reivindicación 31.
40. Método de recepción según la reivindicación 39 y de transmisión según la reivindicación 38.
41. Programa informático que comprende medios de código de programa informático que realiza, cuando se ejecuta en un ordenador, todas las etapas de un método según uno cualquiera de los métodos de las reivindicaciones 31, 32, 38, 39 ó 40.
ES05797620T 2004-11-02 2005-10-28 Reconstruccion multicanal basada en multiparametrizacion. Active ES2292147T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE0402652A SE0402652D0 (sv) 2004-11-02 2004-11-02 Methods for improved performance of prediction based multi- channel reconstruction
SE0402652 2004-11-02

Publications (1)

Publication Number Publication Date
ES2292147T3 true ES2292147T3 (es) 2008-03-01

Family

ID=33488133

Family Applications (2)

Application Number Title Priority Date Filing Date
ES05797620T Active ES2292147T3 (es) 2004-11-02 2005-10-28 Reconstruccion multicanal basada en multiparametrizacion.
ES05811028T Active ES2294738T3 (es) 2004-11-02 2005-10-28 Compensacion de perdida de energia de audio multicanal.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES05811028T Active ES2294738T3 (es) 2004-11-02 2005-10-28 Compensacion de perdida de energia de audio multicanal.

Country Status (14)

Country Link
US (2) US8515083B2 (es)
EP (2) EP1730726B1 (es)
JP (2) JP4527781B2 (es)
KR (2) KR100885192B1 (es)
CN (2) CN1969317B (es)
AT (2) ATE371925T1 (es)
DE (2) DE602005002833T2 (es)
ES (2) ES2292147T3 (es)
HK (2) HK1097336A1 (es)
PL (2) PL1738353T3 (es)
RU (2) RU2369917C2 (es)
SE (1) SE0402652D0 (es)
TW (2) TWI328405B (es)
WO (2) WO2006048204A1 (es)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7929708B2 (en) * 2004-01-12 2011-04-19 Dts, Inc. Audio spatial environment engine
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE602005016931D1 (de) * 2004-07-14 2009-11-12 Dolby Sweden Ab Tonkanalkonvertierung
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
PL1810280T3 (pl) * 2004-10-28 2018-01-31 Dts Inc Silnik przestrzennego środowiska dźwiękowego
US7853022B2 (en) 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
CN101151658B (zh) * 2005-03-30 2011-07-06 皇家飞利浦电子股份有限公司 多声道音频编码和解码方法、编码器和解码器
JP2009500656A (ja) * 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
EP1946294A2 (en) * 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
MX2008012324A (es) * 2006-03-28 2008-10-10 Fraunhofer Ges Zur Foeerderung Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal.
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
RU2454825C2 (ru) * 2006-09-14 2012-06-27 Конинклейке Филипс Электроникс Н.В. Манипулирование зоной наилучшего восприятия для многоканального сигнала
US7987096B2 (en) 2006-09-29 2011-07-26 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8364497B2 (en) 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CN103400583B (zh) * 2006-10-16 2016-01-20 杜比国际公司 多声道下混对象编码的增强编码和参数表示
BRPI0715312B1 (pt) 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP2095364B1 (en) * 2006-11-24 2012-06-27 LG Electronics Inc. Method and apparatus for encoding object-based audio signal
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2595148A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
JP5232795B2 (ja) 2007-02-14 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8155971B2 (en) * 2007-10-17 2012-04-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoding of multi-audio-object signal using upmixing
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
CN101842832B (zh) * 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
KR101221918B1 (ko) * 2007-11-21 2013-01-15 엘지전자 주식회사 신호 처리 방법 및 장치
EP2232486B1 (en) 2008-01-01 2013-07-17 LG Electronics Inc. A method and an apparatus for processing an audio signal
CA2710741A1 (en) 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing a signal
JP5243553B2 (ja) * 2008-01-01 2013-07-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
CA2716926C (en) * 2008-03-04 2014-08-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for mixing a plurality of input data streams
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN101630509B (zh) * 2008-07-14 2012-04-18 华为技术有限公司 一种编解码方法、装置及系统
KR101335975B1 (ko) * 2008-08-14 2013-12-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 복수의 오디오 입력 신호를 리포맷팅하는 방법
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
TWI413109B (zh) 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
CN101740030B (zh) * 2008-11-04 2012-07-18 北京中星微电子有限公司 语音信号的发送及接收方法、及其装置
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
US9172572B2 (en) 2009-01-30 2015-10-27 Samsung Electronics Co., Ltd. Digital video broadcasting-cable system and method for processing reserved tone
US20120072207A1 (en) * 2009-06-02 2012-03-22 Panasonic Corporation Down-mixing device, encoder, and method therefor
CN102667920B (zh) * 2009-12-16 2014-03-12 杜比国际公司 Sbr比特流参数缩混
AU2013242852B2 (en) * 2009-12-16 2015-11-12 Dolby International Ab Sbr bitstream parameter downmix
US8872911B1 (en) * 2010-01-05 2014-10-28 Cognex Corporation Line scan calibration method and apparatus
CN104618065B (zh) 2010-01-13 2018-02-23 太阳专利托管公司 发送装置、发送方法、接收装置、接收方法
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
JP5604933B2 (ja) 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
BR122019013299B1 (pt) * 2010-04-09 2021-01-05 Dolby International Ab aparelho e método para emitir um sinal de áudio esterofônico possuindo um canal esquerdo e um canal direito e meio legível por computador não transitório
EP2586025A4 (en) 2010-07-20 2015-03-11 Huawei Tech Co Ltd A tone signal
KR101678610B1 (ko) 2010-07-27 2016-11-23 삼성전자주식회사 롱텀 채널 정보를 기반으로 다중 노드 간 서브밴드 별 협력 통신을 수행하는 방법 및 장치
CN103380455B (zh) * 2011-02-09 2015-06-10 瑞典爱立信有限公司 对音频信号的高效编码/解码
KR101572034B1 (ko) 2011-05-19 2015-11-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 오디오 코딩 방식들의 포렌식 검출
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
JP6096789B2 (ja) * 2011-11-01 2017-03-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオオブジェクトのエンコーディング及びデコーディング
JP6106983B2 (ja) 2011-11-30 2017-04-05 株式会社リコー 画像表示装置、画像表示システム、方法及びプログラム
JP5799824B2 (ja) 2012-01-18 2015-10-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
JP6051621B2 (ja) 2012-06-29 2016-12-27 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、及びオーディオ復号装置
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
JP6065452B2 (ja) 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
KR101689766B1 (ko) * 2012-11-15 2016-12-26 가부시키가이샤 엔.티.티.도코모 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법
CN105229738B (zh) 2013-01-29 2019-07-26 弗劳恩霍夫应用研究促进协会 用于使用能量限制操作产生频率增强信号的装置及方法
CA2899134C (en) * 2013-01-29 2019-07-30 Frederik Nagel Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6146069B2 (ja) 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
KR102170665B1 (ko) 2013-04-05 2020-10-29 돌비 인터네셔널 에이비 인터리브된 파형 코딩을 위한 오디오 인코더 및 디코더
KR20140123015A (ko) 2013-04-10 2014-10-21 한국전자통신연구원 다채널 신호를 위한 인코더 및 인코딩 방법, 다채널 신호를 위한 디코더 및 디코딩 방법
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
AU2014295207B2 (en) * 2013-07-22 2017-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN104376857A (zh) * 2013-08-16 2015-02-25 联想(北京)有限公司 信息处理的方法及电子设备
JP6001814B1 (ja) 2013-08-28 2016-10-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドの波形符号化およびパラメトリック符号化発話向上
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
CN105531761B (zh) * 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
US9848272B2 (en) 2013-10-21 2017-12-19 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals
BR112016008817B1 (pt) * 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
WO2016050854A1 (en) * 2014-10-02 2016-04-07 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム
GB2554065B (en) * 2016-09-08 2022-02-23 V Nova Int Ltd Data processing apparatuses, methods, computer programs and computer-readable media
CN109859766B (zh) * 2017-11-30 2021-08-20 华为技术有限公司 音频编解码方法和相关产品
DE102018127071B3 (de) 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
TWI772930B (zh) * 2020-10-21 2022-08-01 美商音美得股份有限公司 適合即時應用之分析濾波器組及其運算程序、基於分析濾波器組之信號處理系統及程序
US11837244B2 (en) 2021-03-29 2023-12-05 Invictumtech Inc. Analysis filter bank and computing procedure thereof, analysis filter bank based signal processing system and procedure suitable for real-time applications
CN113438595B (zh) * 2021-06-24 2022-03-18 深圳市叡扬声学设计研发有限公司 音频处理系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4744044A (en) * 1986-06-20 1988-05-10 Electronic Teacher's Aids, Inc. Hand-held calculator for dimensional calculations
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6590983B1 (en) 1998-10-13 2003-07-08 Srs Labs, Inc. Apparatus and method for synthesizing pseudo-stereophonic outputs from a monophonic input
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
KR20040080003A (ko) 2002-02-18 2004-09-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 오디오 코딩
TWI242992B (en) 2002-04-25 2005-11-01 Raytheon Co Dynamic wireless resource utilization
JP4296753B2 (ja) * 2002-05-20 2009-07-15 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
GB0228163D0 (en) * 2002-12-03 2003-01-08 Qinetiq Ltd Decorrelation of signals
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine

Also Published As

Publication number Publication date
JP4527781B2 (ja) 2010-08-18
US20060165237A1 (en) 2006-07-27
RU2006146947A (ru) 2008-07-10
HK1097082A1 (en) 2007-06-15
KR100885192B1 (ko) 2009-02-24
JP2008517337A (ja) 2008-05-22
EP1738353B1 (en) 2007-08-29
RU2369918C2 (ru) 2009-10-10
EP1730726B1 (en) 2007-10-10
ATE375590T1 (de) 2007-10-15
ES2294738T3 (es) 2008-04-01
EP1738353A1 (en) 2007-01-03
DE602005002256D1 (de) 2007-10-11
US8515083B2 (en) 2013-08-20
JP4527782B2 (ja) 2010-08-18
TWI338281B (en) 2011-03-01
HK1097336A1 (en) 2007-07-27
US20060140412A1 (en) 2006-06-29
KR20070038043A (ko) 2007-04-09
KR20070049627A (ko) 2007-05-11
TW200629961A (en) 2006-08-16
RU2369917C2 (ru) 2009-10-10
DE602005002833T2 (de) 2008-03-13
SE0402652D0 (sv) 2004-11-02
EP1730726A1 (en) 2006-12-13
CN1998046A (zh) 2007-07-11
WO2006048203A1 (en) 2006-05-11
WO2006048204A1 (en) 2006-05-11
CN1969317A (zh) 2007-05-23
PL1730726T3 (pl) 2008-03-31
TWI328405B (en) 2010-08-01
KR100905067B1 (ko) 2009-06-30
TW200627380A (en) 2006-08-01
RU2006146948A (ru) 2008-07-10
DE602005002256T2 (de) 2008-05-29
US7668722B2 (en) 2010-02-23
ATE371925T1 (de) 2007-09-15
CN1969317B (zh) 2010-12-29
PL1738353T3 (pl) 2008-01-31
DE602005002833D1 (de) 2007-11-22
JP2008517338A (ja) 2008-05-22
CN1998046B (zh) 2012-01-18

Similar Documents

Publication Publication Date Title
ES2292147T3 (es) Reconstruccion multicanal basada en multiparametrizacion.
ES2278348T3 (es) Codificacion/decodificacion multicanal compatible.
ES2770146T3 (es) Conformación temporal y espacial de señales de audio multicanal
ES2398573T3 (es) Número reducido de decodificación de canales
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
EP3468074B1 (en) Method and apparatus for decoding an ambisonics representation of a 2- or 3-dimensional sound field
US7916873B2 (en) Stereo compatible multi-channel audio coding
ES2323294T3 (es) Dispositivo de decodificacion con una unidad de decorrelacion.
ES2306076T3 (es) Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix.
ES2649194T3 (es) Decodificador de audio, codificador de audio, procedimiento para proporcionar al menos cuatro señales de canales de audio sobre la base de una representación codificada, procedimiento para proporcionar una representación codificada sobre la base de al menos cuatro señales de canales de audio y programa informático que utiliza una extensión de ancho de banda
ES2609449T3 (es) Decodificación de audio
MX2012009785A (es) Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora.
ES2709117T3 (es) Codificador y decodificador de audio
ES2624668T3 (es) Codificación y descodificación de objetos de audio
TWI390993B (zh) 用於將多頻道音訊信號編碼與解碼之方法及其裝置