ES2307188T3 - Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. - Google Patents

Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. Download PDF

Info

Publication number
ES2307188T3
ES2307188T3 ES05757240T ES05757240T ES2307188T3 ES 2307188 T3 ES2307188 T3 ES 2307188T3 ES 05757240 T ES05757240 T ES 05757240T ES 05757240 T ES05757240 T ES 05757240T ES 2307188 T3 ES2307188 T3 ES 2307188T3
Authority
ES
Spain
Prior art keywords
reconstruction
parameter
postprocessed
quantified
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05757240T
Other languages
English (en)
Inventor
Juergen Herre
Sascha Disch
Johannes Hilpert
Christian Ertel
Andreas Hoelzer
Claus-Christian Spenger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2307188T3 publication Critical patent/ES2307188T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Radio Relay Systems (AREA)
  • Channel Selection Circuits, Automatic Tuning Circuits (AREA)
  • Stereophonic System (AREA)

Abstract

Sintetizador multicanal para generar una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende: un postprocesador (10) para determinar un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, en el que el postprocesador (10) está operativo para determinar el parámetro de reconstrucción postprocesado o la cantidad postprocesada de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y un reconstructor (12) multicanal para reconstruir una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o el valor postprocesado.

Description

Sintetizador multicanal y procedimiento para generar una señal de salida multicanal.
Campo de la invención
La presente invención se refiere al procesamiento de audio multicanal y, en particular, a la reconstrucción de audio multicanal utilizando un canal base e información lateral paramétrica para reconstruir una señal de salida que tiene una pluralidad de canales.
Antecedentes de la invención y técnica anterior
En los últimos tiempos, la técnica de reproducción de audio multicanal se está haciendo cada vez más importante. Esto puede deberse al hecho de que las técnicas de compresión/codificación de audio tales como la ampliamente conocida técnica mp3 han hecho posible distribuir grabaciones de audio a través de Internet u otros canales de transmisión que tienen un ancho de banda limitado. La técnica de codificación mp3 se ha hecho tan famosa debido al hecho de que permite la distribución de todas las grabaciones en un formato estéreo, es decir, una representación digital de la grabación de audio incluyendo un canal estéreo primero o izquierdo y un canal estéreo segundo o derecho.
No obstante, hay inconvenientes básicos de los sistemas de sonido de dos canales convencionales. Por lo tanto, se ha desarrollado la técnica envolvente. Una representación envolvente multicanal recomendada incluye, además de los dos canales estéreo L y R, un canal central C adicional y dos canales envolventes Ls, Rs. Este formato de sonido de referencia también se denomina como estéreo tres/dos, lo que significa tres canales frontales y dos canales envolventes. En general, se requieren cinco canales de transmisión. En un entorno de reproducción, se necesitan al menos cinco altavoces en las respectivas cinco ubicaciones diferentes para obtener un punto bueno óptimo a una cierta distancia desde los cinco altavoces debidamente colocados.
Se conocen varias técnicas en la técnica para reducir la cantidad de datos necesarios para la transmisión de una señal de audio multicanal. Tales técnicas se denominan técnicas de estéreo conjunto (joint estéreo). Con este fin se hace referencia a la figura 10, que muestra un dispositivo 60 de estéreo conjunto. Este dispositivo puede ser un dispositivo que implementa por ejemplo estéreo intensivo (IS, Intensity Stereo) o codificación de indicación binaural (BCC, Binaural Cue Coding). Un dispositivo de este tipo generalmente recibe, como entrada, al menos dos canales (CH1, CH2, ... CHn), y emite un canal de portadora único y datos paramétricos. Los datos paramétricos están definidos de tal manera que, en un descodificador, puede calcularse una aproximación de un canal original (CH1, CH2, ... CHn).
Normalmente, el canal de portadora incluirá muestras de subbanda, coeficientes espectrales, muestras en el dominio del tiempo etc., que proporcionan una representación comparativamente precisa de la señal subyacente, mientras que los datos paramétricos no incluyen tales muestras de coeficientes espectrales aunque incluyen parámetros de control para controlar un cierto algoritmo de reconstrucción tal como ponderación mediante multiplicación, desplazamiento en el tiempo, desplazamiento en frecuencia, desplazamiento de fase, ... Los datos paramétricos, por lo tanto, incluyen sólo una representación comparativamente basta de la señal o el canal asociado. Expresado en números, la cantidad de datos necesarios por un canal de portadora estará en el intervalo de 60 a 70 kbit/s, mientras que la cantidad de datos necesarios por la información lateral paramétrica para un canal estará en el intervalo de 1,5 a 2,5 kbit/s. Un ejemplo de datos paramétricos son los ampliamente conocidos factores de escala, información de estéreo intensivo o parámetros de indicación binaural tal como se describirán más adelante.
La codificación de estéreo intensivo se describe en AES preprint 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, febrero de 1994, Amsterdam. En general, el concepto de estéreo intensivo se basa en una transformada de eje principal que ha de aplicarse a los datos de ambos canales de audio estereofónicos. Si la mayoría de puntos de datos están concentrados alrededor del primer eje principal, puede lograrse una ganancia de codificación girando ambas señales un cierto ángulo antes de la codificación. Sin embargo, esto no siempre es cierto para las técnicas de producción estereofónicas actuales. Por lo tanto, esta técnica se modifica excluyendo la segunda componente ortogonal de la transmisión en el flujo de bits. Por tanto, las señales reconstruidas para los canales izquierdo y derecho consisten en versiones ponderadas o ajustadas a escala de manera diferente de la misma señal transmitida. No obstante, las señales reconstruidas difieren en su amplitud pero son idénticas con respecto a su información de fase. Las envolventes energía-tiempo de ambos canales de audio originales, sin embargo, se conservan mediante la operación de ajuste a escala selectiva, que normalmente opera de una manera selectiva en frecuencia. Esto se adapta a la percepción humana del sonido a altas frecuencias, donde las indicaciones espaciales dominantes se determinan por las envolventes de energía.
Adicionalmente, en implementaciones prácticas, la señal transmitida, es decir el canal de portadora se genera a partir de la señal de suma del canal izquierdo y el canal derecho en lugar de girando ambas componentes. Además, este procesamiento, es decir, generar parámetros de estéreo intensivo para realizar la operación de ajuste a escala, se realiza de manera selectiva en frecuencia, es decir, independientemente para cada banda de factor de escala, es decir, división en frecuencia del codificador. Preferiblemente, ambos canales se combinan para formar un canal combinado o de "portadora", y, además del canal combinado, se determina la información de estéreo intensivo que depende de la energía del primer canal, la energía del segundo canal o la energía del canal o combinado.
La técnica BCC se describe en AES convention paper 5574, "Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, mayo de 2002, Munich. En la codificación BCC, un número de canales de entrada de audio se convierten en una representación espectral utilizando una transformada basada en DFT con ventanas solapadas. El espectro uniforme resultante se divide en divisiones no solapadas cada una con un índice. Cada división tiene un ancho de banda proporcional al ancho de banda rectangular equivalente (ERB, Equivalent Rectangular Bandwdith). Las diferencias de nivel entre canales (ICLD, Inter-Channel Level Differences) y las diferencias de tiempo entre canales (ICTD, Inter-Channel Time Differences) se estiman para cada división para cada trama k. Las ICLD e ICTD se cuantifican y codifican dando como resultado un flujo de bits BCC. Las diferencias de nivel entre canales y las diferencias de tiempo entre canales vienen dadas para cada canal con respecto a un canal de referencia. Entonces, los parámetros se calculan según fórmulas prescritas, que dependen de ciertas divisiones de la señal que ha de procesarse.
En un lado del descodificador, el descodificador recibe una señal mono y el flujo de bits BCC. La señal mono se transforma al dominio de la frecuencia y se introduce en un bloque de síntesis espacial, que también recibe valores ICLD e ICTD descodificados. En el bloque de síntesis espacial, los valores de los parámetros BCC (ICLD e ICTD) se utilizan para realizar una operación de ponderación de la señal mono para sintetizar las señales multicanal, que, tras una conversión de frecuencia/tiempo, representan una reconstrucción de la señal de audio multicanal original.
En el caso de la BCC, el módulo 60 de estéreo conjunto está operativo para emitir la información lateral de canal de manera que los datos de canal paramétricos son parámetros ICLD o ICTD cuantificados y codificados, en el que uno de los canales originales se usa como el canal de referencia para codificar la información lateral de canal.
Normalmente, el canal de portadora está formado por la suma de los canales originales participantes.
Naturalmente, las técnicas anteriores sólo proporcionan una representación mono para un descodificador, que sólo puede procesar el canal de portadora, pero que no puede procesar los datos paramétricos para generar una o más aproximaciones de más de un canal de entrada.
La técnica de codificación de audio conocida como codificación de indicación binaural (BCC) también se describe adecuadamente en las publicaciones de solicitud de patente estadounidense US 2003, 0219130 A1, 2003/0026441 A1 y 2003/0035553 A1. Se hace referencia adicional también a "Binaural Cue Coding. Part II: Schemes and Applications", C. Faller y F. Baumgarte, IEEE Trans. On Audio and Speech Proc., volumen 11, número 6, noviembre de 1993.
A continuación se elabora un esquema BCC típico genérico para codificación de audio multicanal más detalladamente con referencia a las figuras 11 a 13. La figura 11 muestra este esquema de codificación de indicación binaural genérico para la codificación/transmisión de señales de audio multicanal. La señal de entrada de audio multicanal en una entrada 110 de un codificador 112 BCC se somete a downmix (mezcla) en un bloque 114 downmix. En el presente ejemplo, la señal multicanal original en la entrada 110 es una señal envolvente de 5 canales que tiene un canal frontal izquierdo, un canal frontal derecho, un canal envolvente izquierdo, un canal envolvente derecho y un canal central. En una realización preferida de la presente invención, el bloque 114 downmix produce una señal de suma mediante una sencilla suma de estos cinco canales en una señal mono. Se conocen en la técnica otros esquemas de downmix tales que, utilizando una señal de entrada multicanal, puede obtenerse una señal downmix con un único canal. Este único canal se emite en una línea 115 de señal de suma. Una información lateral obtenida por un bloque 116 de análisis BCC se emite en una línea 117 de información lateral. En el bloque de análisis BCC, las diferencias de nivel entre canales (ICLD), y las diferencias de tiempo entre canales (ICTD) se calculan tal como se ha expuesto anteriormente. Recientemente, el bloque 116 de análisis BCC se ha mejorado para calcular también valores de correlación entre canales (valores ICC, Inter-Channel Correlation). La señal de suma y la información lateral se transmiten, preferiblemente en una forma cuantificada y codificada, a un descodificador 120 BCC. El descodificador BCC decompone la señal de suma transmitida en un número de subbandas y aplica ajuste a escala, retardos y otros procesamientos para generar las subbandas de las señales de audio multicanal de salida. Este procesamiento se realiza de tal manera que los parámetros ICLD, ICTD e ICC (indicaciones) de una señal multicanal reconstruida en una salida 121 son similares a las indicaciones respectivas para la señal multicanal original en la entrada 110 en el codificador 112 BCC. Con este fin, el descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un bloque 123 de procesamiento de información lateral.
A continuación, la construcción interna del bloque 122 de síntesis BCC se explica con referencia a la figura 12. La señal de suma en la línea 115 se introduce en una unidad de conversión de tiempo/frecuencia o banco 125 de filtros FB (Filter Bank). En la salida del bloque 125, hay un número N de señales de subbanda o, en un caso extremo, un bloque de coeficientes espectrales, cuando el banco 125 de filtros de audio realiza una transformada 1:1, es decir, una transformada que produce N coeficientes espectrales a partir de las N muestras en el dominio del tiempo.
El bloque 122 de síntesis BCC comprende además una fase 126 de retardo, una fase 127 de modificación de nivel, una fase 128 de procesamiento de correlación y una fase 129 de banco de filtros inverso IFB (Inverse Filter Bank). En la salida de la fase 129, la señal de audio multicanal reconstruida que tiene por ejemplo cinco canales en el caso de un sistema envolvente de 5 canales, puede emitirse a un conjunto de altavoces 124 tal como se ilustra en la figura 11.
Tal como se ilustra en la figura 12, la señal de entrada s(n) se convierte al dominio de la frecuencia o al dominio del banco de filtros mediante el elemento 125. La señal emitida por el elemento 125 se multiplica de manera que se obtienen varias versiones de la misma señal tal como se ilustra por el nodo 130 de multiplicación. El número de versiones de la señal original es igual al número de canales de salida en la señal de salida que ha de reconstruirse. Cuando, en general, cada versión de la señal original en el nodo 130 se somete a un cierto retardo d_{1}, d_{2}, ..., d_{i}, ..., d_{N}. Los parámetros de retardo se calculan mediante el bloque 123 de procesamiento de información lateral en la figura 11 y se derivan de las diferencias de tiempo entre canales determinadas por el bloque 116 de análisis BCC.
Lo mismo es válido para los parámetros a_{1}, a_{2}, ..., a_{i}, ..., a_{N} de multiplicación, que también se calculan por el bloque 123 de procesamiento de información lateral basándose en las diferencias de nivel entre canales calculadas por el bloque 116 de análisis BCC.
Los parámetros ICC calculados por el bloque 116 de análisis BCC se utilizan para controlar la funcionalidad del bloque 128 de manera que se obtienen ciertas correlaciones entre las señales retardadas y manipuladas en su nivel en las salidas del bloque 128. Ha de observarse aquí que el orden de las fases 126, 127, 128 puede ser diferente del caso mostrado en la figura 12.
Ha de observarse aquí que, en un procesamiento por tramas de una señal de audio, el análisis BCC se realiza por tramas, es decir con variación en el tiempo, y también por frecuencia. Esto significa que los parámetros BCC se obtienen para cada banda espectral. Esto significa que, en caso de que el banco 125 de filtros de audio decomponga la señal de entrada en por ejemplo 32 señales pasa banda, el bloque de análisis BCC obtiene un conjunto de parámetros BCC para cada una de las 32 bandas. Naturalmente el bloque 122 de síntesis BCC de la figura 11, que se muestra detalladamente en la figura 12, realiza una reconstrucción que también se basa en las 32 bandas en el ejemplo.
A continuación se hace referencia a la figura 13 que muestra una configuración para determinar ciertos parámetros BCC. Normalmente, los parámetros ICLD, ICTD e ICC pueden definirse entre pares de canales. Sin embargo, se prefiere determinar los parámetros ICLD e ICTD entre un canal de referencia y cada uno de los demás canales. Esto se ilustra en la figura 13A.
Pueden definirse parámetros ICC de diferentes maneras. De la forma más general, podrían estimarse parámetros ICC en el codificador entre todos los posibles pares de canales tal como se indica en la figura 13B. En este caso, un descodificador sintetizaría ICC de manera que sea aproximadamente igual que en la señal multicanal original entre todos los posibles pares de canales. Sin embargo se propuso estimar sólo los parámetros ICC entre los dos canales más intensos en cada momento. Este esquema se ilustra en la figura 13C, en la que se muestra un ejemplo, en el que en un momento de tiempo, se estima un parámetro ICC entre los canales 1 y 2, y, en otro momento de tiempo, se calcula un parámetro ICC entre los canales 1 y 5. El descodificador sintetiza entonces la correlación entre canales entre los canales más intensos en el descodificador y aplica alguna regla heurística para calcular y sintetizar la coherencia entre canales para el resto de pares de canales.
En cuanto al cálculo de, por ejemplo, los parámetros a_{1}, a_{N} de multiplicación basándose en parámetros ICLD transmitidos, se hace referencia a AES convention paper 5574 anteriormente mencionado. Los parámetros ICLD representan una distribución de energía en una señal multicanal original. Sin pérdida de generalidad, se muestra en la figura 13A que hay cuatro parámetros ICLD que muestran la diferencia de energía entre todos los otros canales y el canal frontal izquierdo. En el bloque 123 de procesamiento de información lateral, los parámetros de multiplicación
a_{1}, ..., a_{N} se derivan de los parámetros ICLD de tal manera que la energía total de todos los canales de salida reconstruidos es igual que (o proporcional a) la energía de la señal de suma transmitida. Una manera sencilla de determinar estos parámetros es un proceso de 2 fases, en el que, en una primera fase, el factor multiplicación para el canal frontal izquierdo se ajusta a la unidad, mientras que los factores de multiplicación para los otros canales en la figura 13A se ajustan a los valores ICLD transmitidos. Entonces, en una segunda fase, la energía de todos los cinco canales se calcula y se compara con la energía de la señal de suma transmitida. Entonces, todos los canales se ajustan a escala de manera descendente utilizando un factor de ajuste a escala descendente que es igual para todos los canales, en el que el factor de ajuste a escala descendente se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos es, tras el ajuste a escala descendente, igual a la energía total de la señal de suma transmitida.
Naturalmente, hay otros métodos para calcular los factores de multiplicación, que no se basan en el proceso de dos fases sino que sólo necesitan un proceso de una fase.
En cuanto a los parámetros de retardo, ha de observarse que los parámetros de retardo ICTD, que se transmiten desde un codificador BCC pueden usarse directamente, cuando el parámetro d_{1} de retardo para el canal frontal izquierdo se ajusta a cero. No tiene que hacerse un reajuste a escala en este caso, ya que un retardo no altera la energía de la señal.
En cuanto a la medición de coherencia entre canales ICC transmitida desde el codificador BCC al descodificador BCC, ha de observarse aquí que puede realizarse una manipulación de coherencia modificando los factores a_{1}, ..., a_{n} de multiplicación por ejemplo multiplicando los factores de ponderación de todas las subbandas con números aleatorios con valores entre 20log10(-6) y 20log10(6). La secuencia pseudoaleatoria se escoge preferiblemente de tal manera que la varianza sea aproximadamente constante para todas las bandas críticas, y la media sea cero dentro de cada banda crítica. La misma secuencia se aplica a los coeficientes espectrales para cada trama diferente. Por tanto, la anchura de imagen auditiva se controla modificando la varianza de la secuencia pseudoaleatoria. Una varianza más grande crea una anchura de imagen mayor. La modificación de varianza puede realizarse en bandas individuales que tienen una anchura de banda crítica. Esto permite la existencia simultánea de múltiples objetos en una escena auditiva, teniendo cada objeto una anchura de imagen diferente. Una distribución de amplitud adecuada para la secuencia pseudoaleatoria es una distribución uniforme a una escala logarítmica tal como se indica en la publicación de solicitud de patente estadounidense 2003/0219130 A1. No obstante, todo el procesamiento de síntesis BCC se refiere a un único canal de entrada transmitido como la señal de suma desde el codificador BCC al descodificador BCC tal como se ilustra en la figura 11.
Una técnica relacionada, también conocida como estéreo paramétrico, se describe en J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bit Rates", AES 116th Convention, Berlín, Preprint 6072, mayo de 2004, y E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlín, Preprint 6073, mayo de 2004.
Tal como se ha expuesto anteriormente con respecto a la figura 13, la información lateral paramétrica, es decir, las diferencias de nivel entre canales (ICLD), las diferencias de tiempo entre canales (ICTD) o el parámetro de coherencia entre canales (ICC) pueden calcularse y transmitirse para cada uno de los cinco canales. Esto significa que uno, normalmente, transmite cinco conjuntos de diferencias de nivel entre canales para una señal de cinco canales. Lo mismo es válido par alas diferencias de tiempo entre canales. Con respecto a al parámetro de coherencia entre canales, también puede ser suficiente transmitir sólo, por ejemplo, dos conjuntos de estos parámetros.
Tal como se ha expuesto anteriormente con respecto a la figura 12, no hay un único parámetro de diferencia de nivel, parámetro de diferencia de tiempo o parámetro de coherencia para una trama o parte de tiempo de una señal. En lugar de ello, estos parámetros se determinan para varias bandas de frecuencia diferentes de manera que se obtiene una parametrización en función de la frecuencia. Puesto que se prefiere utilizar por ejemplo 32 canales de frecuencia, es decir, un banco de filtros que tiene 32 bandas de frecuencia para el análisis BCC y la síntesis BCC, los parámetros pueden ocupar bastante cantidad de datos. Aunque, en comparación con otras transmisiones multicanal, la representación paramétrica da como resultado una tasa de datos bastante baja, hay una necesidad continuada de una mayor reducción de la tasa de datos necesaria para representar una señal multicanal tal como una señal que tiene dos canales (señal estéreo) o una señal que tiene más de dos canales tal como una señal envolvente multicanal.
Con este fin, los parámetros de reconstrucción calculados en el lado del codificador se cuantifican según una determinada regla de cuantificación. Esto significa que los parámetros de reconstrucción no cuantificados se mapean con un conjunto limitado de niveles de cuantificación o índices de cuantificación tal como se conoce en la técnica y se describe detalladamente en C. Faller y F. Baumgarte, "Binaural cue coding applied to audio compression with flexible rendering", AES 113th Convention, Los Ángeles, Preprint 5686, octubre de 2002.
La cuantificación tiene el efecto de que todos los valores de parámetros que son inferiores al tamaño de paso de cuantificación se cuantifican a cero. Adicionalmente, al mapear un gran conjunto de valores no cuantificados con un pequeño conjunto de valores cuantificados se obtiene un ahorro de datos per se. Estos ahorros de tasa de datos se mejoran adicionalmente codificando por entropía los parámetros de reconstrucción cuantificados en el lado del codificador. Métodos de codificación por entropía preferidos son los métodos Huffman basados en tablas de código predefinidas o basados en una determinación real de estadísticas de señal y construcción adaptativa a la señal de libros de código. Alternativamente, pueden utilizarse otras herramientas de codificación por entropía tales como la codificación aritmética.
Generalmente, se tiene la regla de que la tasa de datos necesaria para los parámetros de reconstrucción disminuye a medida que aumenta el tamaño de paso de cuantificador. Dicho de otro modo, una cuantificación más basta da como resultado una tasa de datos más baja, y una cuantificación más precisa da como resultado una tasa de datos superior.
Puesto que las representaciones de señal paramétricas son necesarias normalmente para entornos de tasa de datos baja, se intenta cuantificar los parámetros de reconstrucción de la manera más basta posible para obtener una representación de señal que tenga una cierta cantidad de datos en el canal base, y que tenga también una pequeña cantidad razonable de datos para la información lateral que incluye los parámetros de reconstrucción cuantificados y codificados por entropía.
Los métodos de la técnica anterior, por lo tanto, derivan los parámetros de reconstrucción que han de transmitirse directamente de la señal multicanal que ha de codificarse. Una cuantificación basta tal como se ha comentado anteriormente da como resultado una distorsión de los parámetros de reconstrucción, lo que da como resultado grandes errores de redondeo, cuando el parámetro de reconstrucción cuantificado se cuantifica inversamente en un descodificador y se usa para síntesis multicanal. Naturalmente, el error de redondeo aumenta con el tamaño de paso de cuantificador, es decir, con la "bastedad del cuantificador" seleccionada. Tales errores de redondeo pueden dar como resultado un cambio de nivel de cuantificación, es decir, un cambio de un primer nivel de cuantificación en un primer instante de tiempo a un segundo nivel de cuantificación en un instante de tiempo posterior, en el que la diferencia entre un nivel de cuantificador y otro nivel de cuantificador se define por el tamaño de paso del cuantificador bastante grande, lo que es preferible para una cuantificación basta. Desafortunadamente, tal cambio de nivel de cuantificador que implica el tamaño de paso de cuantificador grande puede desencadenarse por únicamente un pequeño cambio de parámetro, cuando el parámetro no cuantificado está en medio entre dos niveles de cuantificación. Está claro que la aparición de tales cambios de índice de cuantificador en la información lateral da como resultado los mismos cambios fuertes en la fase de síntesis de la señal. Cuando, a modo de ejemplo, se considera la diferencia de nivel entre canales, queda claro que un cambio fuerte da como resultado una disminución brusca de la intensidad del sonido de una cierta señal de altavoz y una aumento brusco acompañante de la intensidad del sonido de una señal para otro altavoz. Esta situación, que sólo se desencadena por un cambio de nivel de cuantificación y una cuantificación basta puede percibirse como una reubicación inmediata de una fuente de sonido desde una primera ubicación (virtual) a una segunda ubicación (virtual). Tal reubicación inmediata de un instante de tiempo a otro instante de tiempo suena poco natural, es decir, se percibe como un efecto de modulación, puesto que las fuentes de sonido de, en particular, señales tonales no cambian su ubicación muy rápido.
Generalmente, los errores de transmisión también pueden dar como resultado cambios bruscos de los índices de cuantificador, lo que inmediatamente da como resultado cambios bruscos en la señal de salida multicanal, lo que es incluso más cierto para situaciones en las que se ha adoptado un cuantificador basto por motivos de tasa de datos.
Técnicas para mejorar la calidad y/o la tasa de bits de datos de audio multicanal se conocen a partir de los siguientes documentos.
El documento US2004044527 trata de una codificación e audio multicanal y propone varios métodos para hacer el proceso de codificación más flexible o para mejorar las técnicas de cuantificación utilizadas en la codificación. Más en particular, entre las mejoras propuestas se consideran los tres métodos siguientes:
(1) uso de un paso de cuantificación diferente por canal,
(2) uso de un paso de cuantificación flexible para cambiar la resolución de los elementos de las matrices de cuantificación,
(3) uso de predicción temporal en compresión de matrices de cuantificación para reducir la tasa de bits.
En el lado de descodificación, se realizan las etapas inversas apropiadas. Además, se sugiere también usar ciertas técnicas de postprocesamiento multicanal tales como crear efectos especiales o downmix durante la etapa de descodificación
El documento US5307441 utiliza codificación de filtro de espectro para codificar una señal de voz. Para cada trama de voz, se extraen frecuencias de espectro lineal para describir la trama. Estas frecuencias se utilizan entonces para calcular los coeficientes del predictor adecuados para el filtro de espectro de codificación. Se da a conocer un método para suavizar cambios repentinos de los parámetros del filtro de espectro entre tramas vecinas de la señal de voz. Este método realiza una interpolación entre las frecuencias de espectro lineal cuantificadas en el último tercio de una trama y las del primer tercio de la siguiente trama. Basándose en esta interpolación se actualizan los valores de parámetros del filtro de espectro.
En el documento US5675701 una señal de voz se representa por un conjunto de parámetros que se cuantifican antes de la transmisión. Para realizar cambios en las características de la señal de la señal de voz reconstruida más suave, se minimiza la distancia entre valores de parámetros descodificados sucesivos con la condición de que los valores de parámetros descodificados resultantes entren dentro de las regiones de Voronoi correspondientes, es decir la región de valores en la que debe haberse ubicado el valor original no cuantificado.
Finalmente, en el documento US6611797 se utiliza codificación de impulsos para una señal de voz. Para mejorar la calidad del sonido, los impulsos se ajustan durante la etapa de codificación en posiciones de números enteros, correspondientes a posiciones de muestreo de una señal de excitación usada en la codificación de impulsos, así como en posiciones de números no enteros, que están entre las posiciones de muestreo de la señal de excitación. El descodificador realiza entonces las etapas inversas correspondientes.
Sumario de la invención
El objeto de la presente invención es proporcionar un concepto de síntesis de señal mejorado que permita una tasa de datos baja por un lado y una buena calidad subjetiva por otro lado.
Según el primer aspecto de la presente invención, este objeto se consigue mediante un sintetizador multicanal para generar una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende: un postprocesador para determinar un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, en el que el postprocesador está operativo para determinar el parámetro de reconstrucción postprocesado de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y un reconstructor multicanal para reconstruir una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o la cantidad postprocesada.
Según un segundo aspecto de la invención, este objeto se consigue mediante un método de generación de una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende: determinar un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y reconstruir una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o la cantidad postprocesada.
Según un tercer aspecto de la presente invención, este objeto se consigue mediante un programa informático que implementa el método anterior, cuando se ejecuta en un ordenador.
La presente invención se basa en el hallazgo de que un postprocesamiento para parámetros de reconstrucción cuantificados utilizados un sintetizador multicanal está operativo para reducir o incluso eliminar problemas asociados con la cuantificación basta por un lado y los cambios de nivel de cuantificación por otro lado. Mientras que, en sistemas de la técnica anterior, un pequeño cambio de parámetro en un codificador da como resultado un fuerte cambio de parámetro en el descodificador, puesto que una recuantificación en el sintetizador sólo es admisible para el conjunto limitado de valores cuantificados, el dispositivo de la invención realiza un postprocesamiento de parámetros de reconstrucción de modo que el parámetro de reconstrucción postprocesado para una parte de tiempo que ha de procesarse de la señal de entrada no se determina por la cuadrícula de cuantificación adoptada por el codificador, sino que da como resultado un valor del parámetro de reconstrucción, que es diferente de un valor que puede obtenerse por la cuantificación según la regla de cuantificación.
Mientras que, en un caso de cuantificador lineal, el método de la técnica anterior sólo permite valores cuantificados inversamente que sean múltiplos enteros del tamaño de paso del cuantificador, el postprocesamiento de la invención permite valores cuantificados inversamente que sean múltiplos no enteros del tamaño de paso del cuantificador. Esto significa que el postprocesamiento de la invención elimina la limitación del tamaño de paso del cuantificador, puesto que también pueden obtenerse parámetros de reconstrucción postprocesados situados entre dos niveles de cuantificador adyacentes mediante el postprocesamiento y utilizados por el reconstructor multicanal de la invención, que hace uso del parámetro de reconstrucción postprocesado.
Este postprocesamiento puede realizarse antes o después de la recuantificación en un sintetizador multicanal. Cuando el postprocesamiento se realiza con los parámetros cuantificados, es decir, con los índices de cuantificador, se necesita un cuantificador inverso, que pueda cuantificar inversamente no sólo múltiplos del paso del cuantificador, sino que también pueda cuantificar inversamente para dar valores cuantificados inversamente entre múltiplos del tamaño de paso del cuantificador.
En caso de que el postprocesamiento se realice utilizando parámetros de reconstrucción cuantificados inversamente, puede utilizarse un cuantificador inverso sencillo, y se realiza una interpolación/filtrado/suavizado con los valores cuantificados inversamente.
En el caso de una regla de cuantificación no lineal, tal como una regla de cuantificación logarítmica, se prefiere un postprocesamiento de los parámetros de reconstrucción cuantificados antes de la recuantificación, ya que la cuantificación logarítmica es similar a la percepción del sonido por el oído humano, que es más precisa para sonidos de nivel bajo y menos precisa para sonidos de nivel alto, es decir, realiza una especie de compresión logarítmica.
Ha de observarse a este respecto que el mérito de la invención no se obtiene únicamente por la modificación del propio parámetro de reconstrucción que se incluye en el flujo de bits como el parámetro cuantificado. Las ventajas también pueden obtenerse derivando una cantidad postprocesada del parámetro de reconstrucción. Esto es especialmente útil, cuando el parámetro de reconstrucción es un parámetro de diferencia y se realiza una manipulación tal como un suavizado sobre un parámetro absoluto derivado del parámetro de diferencia.
En una realización preferida de la presente invención, el postprocesamiento para los parámetros de reconstrucción se controla mediante un analizador de señal, que analiza la parte de señal asociada con un parámetro de reconstrucción para encontrar qué característica de la señal está presente. En una realización preferida, el postprocesamiento de la invención se activa sólo para partes tonales de la señal (con respecto a frecuencia y/o tiempo), mientras que el postprocesamiento se desactiva para partes no tonales, es decir, partes transitorias de la señal de entrada. Esto garantiza que toda la dinámica de los cambios de parámetros de reconstrucción se transmite para secciones transitorias de la señal de audio, mientras que este no es el caso para partes tonales de la señal.
Preferiblemente, el postprocesador realiza una modificación en la forma de un suavizado de los parámetros de reconstrucción, cuando esto sea lógico desde un punto de vista psicoacústico, sin afectar a indicaciones de detección espacial importantes, que son especialmente importantes para partes de la señal no tonales, es decir, transitorias.
\newpage
La presente invención da como resultado una tasa de datos baja, puesto que una cuantificación de parámetros de reconstrucción en el lado del codificador puede ser una cuantificación basta, ya que el diseñador de sistema no tiene que temer fuertes cambios en el descodificador debidos a un cambio de un parámetro de reconstrucción de un nivel cuantificado inversamente a otro nivel cuantificado inversamente, cambio que se reduce mediante el procesamiento de la invención mediante el mapeo con un valor entre dos niveles de recuantificación.
Otra ventaja de la presente invención es que la calidad del sistema se mejora, puesto que los artefactos audibles provocados por un cambio de un nivel de recuantificación al siguiente nivel de recuantificación permitido se reducen mediante el postprocesamiento de la invención, que está operativo para el mapeo con un valor entre dos niveles de recuantificación permitidos.
Naturalmente, el postprocesamiento de parámetros de reconstrucción cuantificados de la invención representa una pérdida de información adicional, además de la pérdida de información obtenida por la parametrización en el codificador y la posterior cuantificación del parámetro de reconstrucción. Sin embargo, esto no es tan malo como parece, ya que el postprocesador de la invención preferiblemente utiliza los parámetros de reconstrucción cuantificados actuales o precedentes para determinar un parámetro de reconstrucción postprocesado que ha de usarse para la reconstrucción de la parte de tiempo actual de la señal de entrada, es decir, el canal base. Se ha demostrado que esto da como resultado una calidad subjetiva mejorada, ya que los errores inducidos por el codificador pueden compensarse hasta cierto grado. Incluso aunque los errores inducidos en el lado del codificador no se compensaran por el postprocesamiento de los parámetros de reconstrucción, se reducen los fuertes cambios de la percepción espacial en la señal de audio multicanal reconstruida, preferiblemente sólo para partes tonales de la señal, de modo que se mejora la calidad subjetiva de escucha en cualquier caso, independientemente del hecho de si esto da como resultado una pérdida de información adicional o no.
Breve descripción de los dibujos
A continuación se describen realizaciones preferidas de la presente invención en referencia a los dibujos adjuntos, en los que:
la figura 1 es un diagrama de bloques de una realización preferida del sintetizador multicanal de la invención;
la figura 2 es un diagrama de bloques de una realización preferida de un sistema codificador/descodificador, en el que se incluye el sintetizador multicanal de la figura 1;
la figura 3 es un diagrama de bloques de una combinación postprocesador/analizador de señal para su uso en el sintetizador multicanal de la invención de la figura 1;
la figura 4 es una representación esquemática de partes de tiempo de la señal de entrada y de parámetros de reconstrucción cuantificados asociados para partes de señal pasadas, partes de señal actuales que han de procesarse y partes de señal futuras;
la figura 5 es una realización del postprocesador de la figura 1;
la figura 6a es otra realización del postprocesador mostrado de la figura 1;
la figura 6b es otra realización preferida del postprocesador;
la figura 7a es otra realización del postprocesador mostrado en la figura 1;
la figura 7b es una indicación esquemática de los parámetros que han de postprocesarse según la invención mostrando que también puede suavizarse una cantidad derivada del parámetro de reconstrucción;
la figura 8 es una representación esquemática de un cuantificador/cuantificador inverso que realiza un mapeo sencillo o un mapeo mejorado;
la figura 9a es una línea de tiempo a modo de ejemplo de los parámetros de reconstrucción cuantificados asociados con partes de señal de entrada posteriores;
la figura 9b es una línea de tiempo de parámetros de reconstrucción postprocesados, que se han postprocesado mediante el postprocesador implementando una función de suavizado (paso bajo);
la figura 10 ilustra un codificador de estéreo conjunto de la técnica anterior;
la figura 11 es una representación en diagrama de bloques de una cadena de codificador/descodificador BCC de la técnica anterior;
la figura 12 es un diagrama de bloques de una implementación de la técnica anterior de un bloque de síntesis BCC de la figura 11; y
la figura 13 es una representación de un esquema ampliamente conocido para determinar los parámetros ICLD, ICTD e ICC.
La figura 1 muestra un diagrama de bloques de un sintetizador multicanal de la invención para generar una señal de salida a partir de una señal de entrada. Tal como se mostrará más adelante con referencia a la figura 4, la señal de entrada tiene al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación. Cada parámetro de reconstrucción está asociado con una parte de tiempo del canal de entrada de modo que una secuencia de partes de tiempo tiene asociada a la misma una secuencia de parámetros de reconstrucción cuantificados. Adicionalmente, ha de indicarse que la señal de salida, que se genera por el sintetizador multicanal de la figura 1 tiene un número de canales de salida sintetizados, que en cualquier caso es superior al número de canales de entrada en la señal de entrada. Cuando el número de canales de entrada es 1, es decir, cuando hay un único canal de entrada, el número de canales de salida será de 2 o más. Sin embargo, cuando el número de canales de entrada es 2 ó 3, el número de canales de salida será de al menos 3 o al menos 4.
En el caso BCC anteriormente descrito, el número de canales de entrada será 1 o generalmente no superior a 2, mientras que el número de canales de salida será de 5 (envolvente izquierdo, izquierdo, central, derecho, envolvente derecho) o 6 (5 canales envolventes más 1 canal de graves "subwoofer") o incluso más en el caso de formatos multicanal 7.1 o 9.1.
Tal como se ilustra en la figura 1, el sintetizador multicanal de la invención incluye, como rasgos esenciales, un postprocesador 10 de parámetros de reconstrucción y un reconstructor 12 multicanal. El postprocesador 10 de parámetros de reconstrucción está operativo para recibir parámetros de reconstrucción cuantificados y preferiblemente codificados para partes de tiempo posteriores del canal de entrada. El postprocesador 10 de parámetros de reconstrucción está operativo para determinar un parámetro de reconstrucción postprocesado en una salida del mismo para una parte de tiempo que ha de procesarse de la señal de entrada. El postprocesador de parámetros de reconstrucción opera según una regla de postprocesamiento, que en ciertas realizaciones preferidas es una regla de filtrado paso bajo, una regla de suavizado o algo similar. En particular, el postprocesador 10 está operativo para determinar el parámetro de reconstrucción postprocesado de manera que un valor del parámetro de reconstrucción postprocesado sea diferente de un valor que puede obtenerse mediante una recuantificación de cualquier parámetro de reconstrucción cuantificado según la regla de cuantificación.
El reconstructor 12 multicanal se utiliza para reconstruir una parte de tiempo de cada uno del número de canales de salida de síntesis utilizando la parte de tiempo que ha de procesarse del canal de entrada y el parámetro de reconstrucción postprocesado.
En realizaciones preferidas de la presente invención, los parámetros de reconstrucción cuantificados son parámetros BCC cuantificados tales como diferencias de nivel entre canales, diferencias de tiempo entre canales o parámetros de coherencia entre canales. Naturalmente, también pueden procesarse todos los demás parámetros de reconstrucción tales como parámetros estéreo para estéreo intensivo o estéreo paramétrico según la presente invención.
En resumen, el sistema de la invención tiene una primera entrada 14a para los parámetros de reconstrucción cuantificados y preferiblemente codificados asociados con partes de tiempo posteriores de la señal de entrada. Las partes de tiempo posteriores de la señal de entrada se introducen en una segunda entrada 14b, que está conectada al reconstructor 12 multicanal y preferiblemente a un analizador 16 de señal de entrada, que se describirá posteriormente. En el lado de entrada, el sintetizador multicanal de la invención de la figura 1 tiene una salida 18 de señal de salida multicanal, que incluye varios canales de salida, cuyo número es superior a un número de canales de entrada, en el que el número de canales de entrada puede ser un único canal de entrada o dos o más canales de entrada. En cualquier caso, hay más canales de salida que canales de entrada, puesto que los canales de salida sintetizados se forman utilizando la señal de entrada por un lado y la información lateral en forma de los parámetros de reconstrucción por otro lado.
A continuación se hará referencia a la figura 4, que muestra un ejemplo de un flujo de bits. El flujo de bits incluye varias tramas 20a, 20b, 20c, ... Cada trama incluye una parte de tiempo de la señal de entrada indicada por el rectángulo superior de una trama en la figura 4. Adicionalmente, cada trama incluye un conjunto de parámetros de reconstrucción cuantificados que están asociados con la parte de tiempo, y que se ilustran en la figura 4 por el rectángulo inferior de cada trama 20a, 20b, 20c. A modo de ejemplo, la trama 20b se considera como la parte de la señal de entrada que ha de procesarse, teniendo esta trama partes de la señal de entrada precedentes, es decir, que forman el "pasado" de la parte de la señal de entrada que ha de procesarse. Adicionalmente, hay partes de la señal de entrada siguientes, que forman el "futuro" de la parte de la señal de entrada que ha de procesarse (la parte de entrada que ha de procesarse también se denomina la parte de la señal de entrada "actual"), mientras que las partes de la señal de entrada en el "pasado" se denominan partes de la señal de entrada anteriores, mientras que las partes de la señal en el futuro se denominan partes de la señal de entrada posteriores.
A continuación se hace referencia a la figura 2 con respecto a una configuración completa de codificador/descodifi-
cador, en la que puede situarse el sintetizador multicanal de la invención.
La figura 2 muestra un lado 21 del codificador y un lado 22 del descodificador. En el codificador, se introducen N canales de entrada originales en una fase 23 de dispositivo downmix. La fase de dispositivo downmix está operativa para reducir el número de canales a por ejemplo un único canal mono o, posiblemente, a dos canales estéreo. La representación de la señal sometida a downmix en la salida del dispositivo 23 downmix se introduce, entonces, en un codificador 24 fuente, estando implementado el codificador fuente por ejemplo como un descodificador de mp3 o como un codificador AAC que produce un flujo de bits de salida. El lado 21 del codificador comprende además un extractor 25 de parámetros, que, según la presente invención, realiza el análisis BCC (bloque 116 en la figura 11) y emite las diferencias de nivel entre canales (ICLD) cuantificadas y preferiblemente sometidas a codificación Huffman. El flujo de bits en la salida del codificador 24 fuente así como los parámetros de reconstrucción cuantificados emitidos por el extractor 25 de parámetros pueden transmitirse a un descodificador 22 o pueden almacenarse para una transmisión posterior a un descodificador, etc.
El descodificador 22 incluye un descodificador 26 fuente, que está operativo para reconstruir una señal desde el flujo de bits recibido (que se origina desde el codificador 24 fuente). Con este fin, el descodificador 26 fuente suministra, en su salida, partes de tiempo posteriores de la señal de entrada a un dispositivo 12 upmix, que realiza la misma funcionalidad que el reconstructor 12 multicanal en la figura 1. Preferiblemente, esta funcionalidad es una síntesis BCC tal como la implementada por el bloque 122 en la figura 11.
Al contrario que en la figura 11, el sintetizador multicanal de la invención comprende además el postprocesador 10, que se denomina "suavizador de diferencia de nivel entre canales (ICLD)", que se controla por el analizador 16 de señales de entrada, que preferiblemente realiza un análisis de tonalidad de la señal de entrada.
Puede observarse en la figura 2 que hay parámetros de reconstrucción tales como las diferencias de nivel entre canales (ICLD), que se introducen en el suavizador ICLD, mientras que hay una conexión adicional entre el extractor 25 de parámetros y el dispositivo 12 upmix. A través de esta conexión de desviación, otros parámetros para la reconstrucción, que no tienen que postprocesarse, pueden suministrarse desde el extractor 25 de parámetros al dispositivo
12 upmix.
La figura 3 muestra una realización preferida del procesamiento de parámetros de reconstrucción adaptativo a la señal mediante el analizador 16 de señal y el suavizador 10 ICLD.
El analizador 16 de señal está formado por una unidad 16a de determinación de la tonalidad y un dispositivo 16b de umbralización posterior. Adicionalmente, el postprocesador 10 de parámetros de reconstrucción de la figura 2 incluye un filtro 10a de suavizado y un conmutador 10b del postprocesador. El conmutador 10b del postprocesador está operativo para controlarse por el dispositivo 16b de umbralización de manera que el conmutador se activa, cuando el dispositivo 16b de umbralización determina que una determinada característica de la señal de la señal de entrada tal como la característica de tonalidad está en una relación predeterminada con respecto a un determinado umbral especificado. En el presente caso, la situación es tal que el conmutador se activa para situarse en la posición superior (tal como se ilustra en la figura 3), cuando la tonalidad de una parte de señal de la señal de entrada, y, en particular, una determinada banda de frecuencia de una determinada parte de tiempo de la señal de entrada tiene una tonalidad superior a un umbral de tonalidad. En este caso, el conmutador 10b se activa para conectar la salida del filtro 10a de suavizado a la entrada del reconstructor 12 multicanal de modo que las diferencias entre canales postprocesadas, pero todavía no cuantificadas inversamente se suministran al descodificador/reconstructor multicanal/dispositivo 12 upmix.
Sin embargo, cuando los medios de determinación de la tonalidad determinan que una determinada banda de frecuencia de una parte de tiempo actual de la señal de entrada, es decir, una determinada banda de frecuencia de una parte de la señal de entrada que ha de procesarse tiene una tonalidad inferior al umbral especificado, es decir, es transitoria, el conmutador se activa de manera que se evita el filtro 10a de suavizado.
En este ultimo caso, el postprocesamiento adaptativo a la señal por el filtro 10a de suavizado garantiza que el parámetro de reconstrucción cambia para señales transitorias pasa por la fase de postprocesamiento sin modificarse y da como resultado cambios rápidos en la señal de salida reconstruida con respecto a la imagen espacial, que corresponde a situaciones reales con un alto grado de probabilidad para señales transitorias.
Ha de indicarse aquí que la realización de la figura 3, es decir, activar el postprocesamiento por un lado y desactivar totalmente el postprocesamiento por otro lado, es decir, una decisión binaria de postprocesamiento o no sólo es una realización preferida debido a su estructura simple y eficaz. No obstante, ha de indicarse que, en particular con respecto a la tonalidad, esta característica de la señal no sólo es un parámetro cualitativo sino también un parámetro cuantitativo, que puede situarse normalmente entre 0 y 1. Según el parámetro determinado cuantitativamente, el grado de suavizado de un filtro de suavizado o, por ejemplo, la frecuencia de corte de un filtro paso bajo puede ajustarse de manera que, para señales fuertemente tonales, se active un suavizado fuerte, mientras que para señales que no son tan tonales, se inicia el suavizado con un grado de suavizado inferior.
Naturalmente, también podrían detectarse partes transitorias y exagerar los cambios en los parámetros con respecto a valores entre valores cuantificados predefinidos o índices de cuantificación de modo que, para señales fuertemente transitorias, el postprocesamiento para los parámetros de reconstrucción da como resultado un cambio incluso más exagerado de la imagen espacial de una señal multicanal. En este caso, un tamaño de paso de cuantificación de 1 según las instrucciones de parámetros de reconstrucción posteriores para partes de tiempo posteriores puede mejorarse por ejemplo a 1,5, 1,4, 1,3 etc., lo que da como resultado una imagen espacial que cambia de manera incluso más espectacular de la señal multicanal reconstruida.
Ha de indicarse aquí que una característica tonal de la señal, una característica transitoria de la señal u otras características de la señal son sólo ejemplos de características de la señal, sobre la base de las cuales puede realizarse un análisis de señal para controlar un postprocesador de parámetros de reconstrucción. En respuesta a este control, el postprocesador de parámetros de reconstrucción determina un parámetro de reconstrucción postprocesado que tiene un valor que es diferente de cualquier valor para los índices de cuantificación por un lado o valores de recuantificación por otro lado, determinados por una regla de cuantificación predeterminada.
Ha de indicarse aquí que el postprocesamiento de parámetros de reconstrucción en función de una característica de la señal, es decir, un postprocesamiento de parámetros adaptativo a la señal sólo es opcional. Un postprocesamiento independiente de la señal también proporciona ventajas para numerosas señales. Una determinada función de postprocesamiento podría seleccionarse, por ejemplo, por el usuario de modo que el usuario obtenga cambios mejorados (en caso de una función de exageración) o cambios amortiguados (en caso de una función de suavizado). Alternativamente, un postprocesamiento independiente de cualquier selección de usuario e independiente de las características de la señal también puede proporcionar ciertas ventajas con respecto a robustez de errores. Queda claro que, especialmente en el caso de un tamaño de paso del cuantificador grande, un error de transmisión en un índice del cuantificador puede dar como resultado artefactos fuertemente audibles. Con este fin, se realizaría una corrección de errores hacia delante o algo similar, cuando la señal ha de transmitirse sobre canales con tendencia a errores. Según la presente invención, el postprocesamiento puede obviar la necesidad de cualquier código de corrección de errores ineficaces en bits, ya que el postprocesamiento de los parámetros de reconstrucción basándose en parámetros de reconstrucción en el pasado dará como resultado una detección de parámetros de reconstrucción cuantificados transmitidos de manera errónea y dará como resultado contramedidas adecuadas frente a tales errores. Adicionalmente, cuando la función de postprocesamiento es una función de suavizado, los parámetros de reconstrucción cuantificados que difieren fuertemente de los parámetros de reconstrucción anteriores o posteriores se manipularán automáticamente tal como se expondrá más adelante.
La figura 5 muestra una realización preferida del postprocesador 10 de parámetros de reconstrucción de la figura 1. En particular, se considera la situación en la que los parámetros de reconstrucción cuantificados están codificados. En este caso, los parámetros de reconstrucción cuantificados codificados se introducen en un descodificador 10c de entropía, que emite la secuencia de parámetros de reconstrucción cuantificados descodificados. Los parámetros de reconstrucción en la salida del descodificador de entropía están cuantificados, lo que significa que no tienen un cierto valor "útil" pero que significa que indican ciertos índices de cuantificador o niveles del cuantificador de una determinada regla de cuantificación implementada por un cuantificador inverso posterior. El manipulador 10d puede ser, por ejemplo, un filtro digital tal como un filtro IIR (preferiblemente) o FIR que tiene cualquier característica de filtro determinada por la función de postprocesamiento requerida. Se prefiere una función de postprocesamiento de suavizado o filtrado paso bajo. En la salida del manipulador 10d, se obtiene una secuencia de parámetros de reconstrucción cuantificados manipulados, que no sólo son números enteros sino que son cualquier número real situado dentro del intervalo determinado por la regla de cuantificación. Tal parámetro de reconstrucción cuantificado manipulado podría tener valores de 1,1, 0,1, 0,5, ..., en comparación con valores 1, 0, 1 antes de la fase 10d. La secuencia de valores en la salida del bloque 10d se introducen entonces en un cuantificador 10e inverso mejorado para obtener parámetros de reconstrucción postprocesados, que pueden utilizarse para una reconstrucción multicanal (por ejemplo síntesis BCC) en el bloque 12 de la figura 1.
Ha de observarse que el cuantificador 10e mejorado es diferente de un cuantificador inverso normal ya que un cuantificador inverso normal sólo mapea cada entrada de cuantificación de un número limitado de índices de cuantificación en un valor de salida especificado cuantificado inversamente. Los cuantificadores inversos normales no pueden mapear índices de cuantificador que no sean números enteros. El cuantificador 10e inverso mejorado se implementa por lo tanto para utilizar preferiblemente la misma regla de cuantificación tal como una ley de cuantificación lineal o logarítmica, pero puede aceptar entradas que no sean números enteros para proporcionar valores de salida que sean diferentes de los valores que pueden obtenerse utilizando sólo entradas que sean números enteros.
Con respecto a la presente invención, básicamente no hay diferencia alguna entre si la manipulación se realiza antes de la recuantificación (véase la figura 5) o después de la recuantificación (véase la figura 6a, la figura 6b). En este último caso, el cuantificador inverso sólo tiene que ser un cuantificador inverso normal sencillo, que es diferente del cuantificador 10e inverso mejorado de la figura 5 tal como se ha expuesto anteriormente. Naturalmente, la selección entre la figura 5 y la figura 6a será una elección en función de la implementación determinada. Para la presente implementación BCC, se prefiere la realización de la figura 5, ya que es más compatible con los algoritmos BCC existentes. No obstante, esto puede ser diferente para otras aplicaciones.
La figura 6b muestra una realización en la que el cuantificador 10e inverso mejorado en la figura 6a se sustituye por un cuantificador inverso sencillo y un mapeador 10g para el mapeo según una curva lineal o preferiblemente no lineal. Este mapeador puede implementarse en hardware o en software tal como un circuito para realizar una operación matemática o como una tabla de consulta. La manipulación de datos utilizando, por ejemplo, el suavizador 10g puede realizarse antes del mapeador 10g o después del mapeador 10g o en ambos sitios en combinación. Se prefiere esta realización cuando el postprocesamiento se realiza en el dominio del cuantificador inverso, ya que todos los elementos 10f, 10h, 10g pueden implementarse utilizando componentes sencillos tales como circuitos de rutinas de software.
Generalmente, el postprocesador 10 se implementa como un postprocesador, tal como se indica en la figura 7a, que recibe todos o una selección de parámetros de reconstrucción cuantificados actuales, parámetros de reconstrucción futuros o parámetros de reconstrucción cuantificados pasados. En el caso en el que el postprocesador sólo recibe al menos un parámetro de reconstrucción pasado y el parámetro de reconstrucción actual, el postprocesador actuará como un filtro paso bajo. Cuando el postprocesador 10, sin embargo, recibe un parámetro de reconstrucción cuantificado futuro, que no es posible en aplicaciones en tiempo real, pero que es posible en todas las demás aplicaciones, el postprocesador puede realizar una interpolación entre el parámetro de reconstrucción cuantificado futuro y el presente o uno pasado para por ejemplo suavizar una línea de tiempo de un parámetro de reconstrucción, por ejemplo para una determinada banda de frecuencia.
Tal como se ha expuesto anteriormente, la manipulación de datos para superar artefactos debidos a los tamaños de paso de cuantificación en un entorno de cuantificación basta también puede realizarse sobre una cantidad derivada del parámetro de reconstrucción asociado al canal base en la señal multicanal codificada paramétricamente. Cuando, por ejemplo, el parámetro de reconstrucción cuantificado es un parámetro de diferencia (ICLD), este parámetro puede cuantificarse inversamente sin ninguna modificación. Entonces puede derivarse un valor de nivel absoluto para un canal de salida y la manipulación de datos de la invención se realiza sobre el valor absoluto. Este procedimiento también da como resultado la reducción de artefactos de la invención, siempre que la manipulación de datos en el recorrido de procesamiento entre el parámetro de reconstrucción cuantificado y la reconstrucción actual se realice de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada sea diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación, es decir sin manipulación para superar la "limitación del tamaño de paso".
Son concebibles y se utilizan en la técnica numerosas funciones de mapeo para derivar la cantidad finalmente manipulada a partir del parámetro de reconstrucción cuantificado, incluyendo estas funciones de mapeo funciones para mapear unívocamente un valor de entrada con un valor de salida según una regla de mapeo para obtener una cantidad no postprocesada, que se postprocesa entonces para obtener la cantidad postprocesada utilizada en el algoritmo de (síntesis) reconstrucción multicanal.
A continuación se hará referencia a la figura 8 para ilustrar diferencias entre un cuantificador 10e inverso mejorado de la figura 5 y un cuantificador 10f inverso sencillo de la figura 6a. Con este fin, la ilustración de la figura 8 muestra, como eje horizontal, un eje de valores de entrada para valores no cuantificados. El eje vertical ilustra los niveles del cuantificador o índices del cuantificador, que son preferiblemente números enteros que tienen un valor de 0, 1, 2, 3. Ha de indicarse aquí que el cuantificador de la figura 8 no dará como resultado ningún valor entre 0 y 1 ó 1 y 2. El mapeo con estos niveles del cuantificador se controla mediante la función en forma escalonada de manera que los valores entre -10 y 10 por ejemplo se mapean con 0, mientras que los valores entre 10 y 20 se cuantifican a 1, etc.
Una posible función del cuantificador inverso es mapear un nivel del cuantificador de 0 con un valor cuantificado inversamente de 0. Un nivel del cuantificador de 1 se mapearía con un valor cuantificado inversamente de 10. De manera análoga, un nivel del cuantificador de 2 se mapearía con un valor cuantificado inversamente de 20 por ejemplo. La recuantificación se controla, por lo tanto, mediante una función del cuantificador inverso indicada por el número de referencia 31. Ha de observarse que, para un cuantificador inverso sencillo, sólo son posibles los puntos de cruce de la línea 30 y la línea 31. Esto significa que, para un cuantificador inverso sencillo que tenga una regla del cuantificador inverso de la figura 8 sólo pueden obtenerse los valores de 0, 10, 20, 30 mediante una recuantificación.
Esto es diferente en el cuantificador 10e inverso mejorado, ya que el cuantificador inverso mejorado recibe, como entrada, valores entre 0 y 1 ó 1 y 2 tales como el valor 0,5. La recuantificación avanzada del valor 0,5 obtenido por el manipulador 10d dará como resultado un valor de salida cuantificado inversamente de 5, es decir, en un parámetro de reconstrucción postprocesado que tiene un valor que es diferente de un valor que puede obtenerse mediante una recuantificación según la regla de cuantificación. Mientras que la regla de cuantificación normal sólo permite valores de 0 ó 10, el cuantificador inverso de la invención que trabaja según la función 31 del cuantificador inverso da como resultado un valor diferente, es decir, el valor de 5 tal como se indica en la figura 8.
Mientras que el cuantificador inverso sencillo mapea niveles del cuantificador de números enteros con sólo niveles cuantificados, el cuantificador inverso mejorado recibe "niveles" del cuantificador que no son números enteros para mapear estos valores con "valores cuantificados inversamente" entre los valores determinados por la regla del cuantificador inverso.
La figura 9 muestra el impacto del postprocesamiento de la invención para la realización de la figura 5. La figura 9a muestra una secuencia de parámetros de reconstrucción cuantificados que varía entre 0 y 3. La figura 9b muestra una secuencia de parámetros de reconstrucción postprocesados, que también se denominan "índices del cuantificador modificados", cuando la forma de onda de la figura 9a se introduce en un filtro paso bajo (suavizado). Ha de indicarse aquí que los aumentos/disminuciones en el momento de tiempo 1, 4, 6, 8, 9, y 10 se reducen en la realización de la figura 9b. Ha de observarse con énfasis que el pico entre el instante de tiempo 8 y el instante de tiempo 9, que podría ser un artefacto se amortigua en un paso de cuantificación completo. La amortiguación de tales valores extremos puede controlarse, sin embargo, mediante un grado de postprocesamiento según un valor de tonalidad cuantitativo tal como se ha expuesto anteriormente.
La presente invención es ventajosa porque el postprocesamiento de la invención suaviza fluctuaciones o suaviza valores extremos breves. La situación surge especialmente en el caso de que partes de señal de varios canales de entrada que tienen una energía similar se superponen en una banda de frecuencia de una señal, es decir, el canal base o canal de la señal de entrada. Esta banda de frecuencia se mezcla entonces, por cada parte de tiempo y en función de la situación en ese instante, para dar los respectivos canales de salida de una manera altamente fluctuante. Desde un punto de vista psicoacústico, sería mejor, sin embargo, suavizar estas fluctuaciones, ya que estas fluctuaciones no contribuyen sustancialmente a una detección de una fuente de una fuente, pero afectan a la impresión de escucha subjetiva de una manera negativa.
Según una realización preferida de la presente invención, tales artefactos audibles se reducen o incluso eliminan sin incurrir en pérdidas de calidad en una ubicación diferente en el sistema o sin requerir una mayor resolución/cuantificación (y, por tanto, una tasa de datos superior) de los parámetros de reconstrucción transmitidos. La presente invención logra su objeto realizando una modificación (suavizado) adaptiva a la señal de los parámetros sin influir sustancialmente en indicaciones de detección de localización espaciales importantes.
Los cambios que suceden repentinamente en la característica de la señal de salida reconstruida dan como resultado artefactos audibles en particular para señales de audio que tienen una característica estacionaria altamente constante. Este es el caso de las señales tonales. Por lo tanto, es importante proporcionar una transición "más suave" entre parámetros de reconstrucción cuantificados para tales señales. Esto puede obtenerse por ejemplo mediante suavizado, interpolación, etc.
Adicionalmente, tal modificación de valores de parámetros puede introducir distorsiones audibles para otros tipos de señales de audio. Este es el caso de señales que incluyen rápidas fluctuaciones en su característica. Una característica de este tipo puede encontrarse en la parte transitoria o de ataque de un instrumento de percusión. En este caso, la presente invención proporciona una desactivación del suavizado de parámetros.
Esto se obtiene mediante el postprocesamiento de los parámetros de reconstrucción cuantificados transmitidos de una forma adaptativa a la señal.
La adaptabilidad puede ser lineal o no lineal. Cuando la adaptabilidad es no linear, se realiza un procedimiento de umbralización tal como se describe en la figura 3.
Otro criterio para controlar la adaptabilidad es una determinación de la estacionalidad de una característica de la señal. Una determinada forma para determinar la estacionalidad de una característica de la señal es la evaluación de la envolvente de la señal o, en particular, la tonalidad de la señal. Ha de indicarse aquí que la tonalidad puede determinarse para el intervalo de frecuencia completo o, preferiblemente, individualmente para diferentes bandas de frecuencia de una señal de audio.
La presente invención da como resultado una reducción o incluso eliminación de artefactos, que eran, hasta ahora, inevitables, sin incurrir en un aumento de la tasa de datos necesaria para transmitir los valores de parámetros.
Tal como se ha expuesto anteriormente con respecto a las figuras 2 y 3, la realización preferida de la presente invención realiza un suavizado de las diferencias de nivel entre canales, cuando la parte de la señal en cuestión tiene una característica tonal. Las diferencias de nivel entre canales, que se calculan en un codificador y se cuantifican en un codificador se envían a un descodificador para someterse a una operación de suavizado adaptativo a la señal. La componente adaptiva es una determinación de la tonalidad en conexión con una determinación de umbral, que enciende el filtrado de las diferencias de nivel entre canales para componentes tonales espectrales, y que apaga este postprocesamiento para componentes espectrales transitorias y de tipo ruido. En esta realización, no se necesita información lateral adicional de un codificador para realizar los algoritmos de suavizado adaptativo.
Ha de indicarse aquí que el postprocesamiento de la invención también puede usarse para otros conceptos de codificación paramétrica de señales multicanal tales como para MP3/AAC estéreo paramétrico, envolvente MP3, y métodos similares.

Claims (26)

1. Sintetizador multicanal para generar una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende:
un postprocesador (10) para determinar un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, en el que el postprocesador (10) está operativo para determinar el parámetro de reconstrucción postprocesado o la cantidad postprocesada de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y
un reconstructor (12) multicanal para reconstruir una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o el valor postprocesado.
2. Sintetizador multicanal según la reivindicación 1, que comprende además:
un analizador (16) de señal de entrada para analizar la señal de entrada para determinar una característica de la señal de la parte de tiempo de la señal de entrada que ha de procesarse; y
en el que el postprocesador (10) está operativo para determinar el parámetro de reconstrucción postprocesado dependiendo de la característica de la señal.
3. Sintetizador multicanal según la reivindicación 2, en el que el postprocesador (10) está operativo para determinar el parámetro de reconstrucción postprocesado, cuando se determina una característica de la señal predeterminada por el analizador (16) de señal de entrada, y para evitar el postprocesador (10), cuando la característica de la señal predeterminada no se determina por el analizador de señal de entrada para una parte de tiempo de la señal de entrada.
4. Sintetizador multicanal según la reivindicación 3, en el que el analizador (16) de señal de entrada está operativo para determinar la característica de la señal como la característica de la señal predeterminada, cuando un valor de la característica de la señal se encuentra en una relación especificada con respecto a un umbral.
5. Sintetizador multicanal según la reivindicación 2, 3 ó 4, en el que la característica de la señal es una característica de tonalidad o una característica transitoria de la parte de la señal de entrada que ha de procesarse.
6. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 5, en el que el postprocesador (10) está operativo para realizar una función de suavizado de modo que una secuencia de parámetros de reconstrucción postprocesados sea más suave en el tiempo en comparación con una secuencia de parámetros de reconstrucción cuantificados inversamente no postprocesados.
7. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 6, en el que el postprocesador (10) está operativo para realizar una función de suavizado, y en el que el postprocesador (10) incluye un filtro digital que tiene una característica de paso bajo, recibiendo el filtro como una entrada al menos un parámetro de reconstrucción asociado con una parte de tiempo precedente de la señal de entrada.
8. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 7, en el que el postprocesador (10) está operativo para realizar una función de interpolación utilizando un parámetro de reconstrucción asociado con al menos una parte de tiempo precedente o utilizando un parámetro de reconstrucción asociado con al menos una parte de tiempo posterior.
9. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 8, en el que el postprocesador (10) está operativo
para determinar un parámetro de reconstrucción manipulado como no coincidente con ningún nivel de cuantificación definido por la regla de cuantificación, y
para cuantificar inversamente el parámetro de reconstrucción manipulado utilizando un cuantificador inverso que puede operarse para mapear el parámetro de reconstrucción manipulado con un parámetro de reconstrucción manipulado cuantificado inversamente no coincidente con un valor cuantificado inversamente definido por el mapeo de cualquier nivel de cuantificación por el cuantificador inverso.
10. Sintetizador multicanal según la reivindicación 9, en el que la regla de cuantificación es una regla de cuantificación logarítmica.
11. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 10, en el que el postprocesador (10) está operativo
para cuantificar inversamente parámetros de reconstrucción cuantificados según la regla de cuantificación,
para manipular parámetros de reconstrucción cuantificados inversamente obtenidos, y
para mapear parámetros manipulados según una función lineal o no lineal.
12. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 11, en el que el postprocesador (10) está operativo
para cuantificar inversamente parámetros de reconstrucción cuantificados según la regla de cuantificación,
para mapear parámetros cuantificados inversamente obtenidos según un función lineal o no lineal; y
para manipular parámetros de reconstrucción mapeados obtenidos.
13. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 12, en el que el postprocesador (10) está operativo para determinar un parámetro de reconstrucción cuantificado inversamente asociado con la parte de tiempo posterior de la señal de entrada según la regla de cuantificación, y
en el que el postprocesador (10) está operativo además para determinar un parámetro de reconstrucción postprocesado basándose en al menos un parámetro de reconstrucción cuantificado inversamente para al menos una parte de tiempo precedente de la señal de entrada.
14. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 13, en el que una parte de tiempo de la señal de entrada tiene asociados a la misma una pluralidad de parámetros de reconstrucción cuantificados para diferentes bandas de frecuencia de la señal de entrada, y
en el que el postprocesador (10) está operativo para determinar parámetros de reconstrucción postprocesados para las diferentes bandas de frecuencia de la señal de entrada.
15. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 14,
en el que la señal de entrada es un espectro de suma obtenido combinando al menos dos canales originales de una señal de audio multicanal, y
en el que el parámetro de reconstrucción cuantificado es un parámetro diferencia de nivel entre canales, un parámetro de diferencia de tiempo entre canales, un parámetro de diferencia de fase entre canales o un parámetro de coherencia entre canales.
16. Sintetizador multicanal según cualquiera de las reivindicaciones 2 a 15, en el que el analizador (16) de canal de entrada está operativo para determinar un grado que indica cuantitativamente en qué medida tiene la señal de entrada la característica de la señal, y
en el que el postprocesador (10) está operativo para realizar un postprocesamiento con una intensidad en función del grado.
17. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 16, en el que el postprocesador (10) está operativo para utilizar el parámetro de reconstrucción cuantificado asociado con la parte de tiempo que ha de procesarse, cuando se determina el parámetro de reconstrucción postprocesado para la parte de tiempo que ha de procesarse.
18. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 17, en el que la regla de cuantificación es tal que una diferencia entre dos niveles de cuantificación adyacentes es superior a una diferencia entre dos números determinados por una precisión de procesador de un procesador para realizar cálculos numéricos.
19. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 18, en el que los parámetros de reconstrucción cuantificados se codifican por entropía y se asocian con la parte de tiempo en una forma codificada por entropía, y
en el que el postprocesador (10) está operativo para descodificar por entropía el parámetro de reconstrucción cuantificado codificado por entropía utilizado para determinar los parámetros de reconstrucción postprocesados.
20. Sintetizador multicanal según la vindicación 7, en el que el filtro (10a) digital es un filtro IIR.
\newpage
21. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 20, en el que el postprocesador (10) está operativo para implementar una regla de postprocesamiento de manera que una diferencia entre parámetros de reconstrucción postprocesados para partes de tiempo posteriores es inferior a una diferencia entre parámetros de reconstrucción no postprocesados derivada de los parámetros de reconstrucción cuantificados asociados con partes de tiempo posteriores mediante recuantificación.
22. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 21, en el que la cantidad postprocesada se deriva del parámetro de reconstrucción cuantificado utilizando sólo una función de mapeo que mapea únicamente un valor de entrada con un valor de salida según una regla de mapeo para obtener una cantidad no postprocesada, y en el que el postprocesador está operativo para postprocesar la cantidad no postprocesada para obtener la cantidad postprocesada.
23. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 22, en el que el parámetro de reconstrucción cuantificado es un parámetro de diferencia que indica una diferencia parametrizada entre dos cantidades absolutas asociadas con los canales de entrada, y en el que la cantidad postprocesada es un valor absoluto utilizado para reconstruir un canal de salida correspondiente a uno de los canales de entrada.
24. Sintetizador multicanal según cualquiera de las reivindicaciones 1 a 23, en el que el parámetro de reconstrucción cuantificado es una diferencia de nivel entre canales, y en el que la cantidad postprocesada indica un nivel absoluto de un canal de salida, o en el que el parámetro de reconstrucción cuantificado es una diferencia de tiempo entre canales, y en el que la cantidad postprocesada indica una referencia de tiempo absoluto de un canal de salida, o
en el que el parámetro de reconstrucción cuantificado es una medida de coherencia entre canales, y en el que la cantidad postprocesada indica un nivel de coherencia absoluto de un canal de salida, o
en el que el parámetro de reconstrucción cuantificado es una diferencia de fase entre canales, y en el que la cantidad postprocesada indica un valor de fase absoluto de un canal de salida.
25. Método de generación de una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende:
determinar (10) un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y
reconstruir (12) una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o el valor postprocesado.
26. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un método según la reivindicación 25.
ES05757240T 2004-06-30 2005-06-13 Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. Active ES2307188T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/883,538 US8843378B2 (en) 2004-06-30 2004-06-30 Multi-channel synthesizer and method for generating a multi-channel output signal
US883538 2004-06-30

Publications (1)

Publication Number Publication Date
ES2307188T3 true ES2307188T3 (es) 2008-11-16

Family

ID=34971777

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05757240T Active ES2307188T3 (es) 2004-06-30 2005-06-13 Sintetizador multicanal y procedimiento para generar una señal de salida multicanal.

Country Status (18)

Country Link
US (1) US8843378B2 (es)
EP (1) EP1649723B1 (es)
JP (1) JP4712799B2 (es)
KR (1) KR100913987B1 (es)
CN (1) CN1954642B (es)
AT (1) ATE394901T1 (es)
AU (1) AU2005259618B2 (es)
BR (1) BRPI0511362B1 (es)
CA (1) CA2569666C (es)
DE (1) DE602005006495D1 (es)
ES (1) ES2307188T3 (es)
HK (1) HK1090504A1 (es)
IL (1) IL178670A (es)
MX (1) MXPA06014968A (es)
NO (1) NO338980B1 (es)
PT (1) PT1649723E (es)
RU (1) RU2345506C2 (es)
WO (1) WO2006002748A1 (es)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4612787B2 (ja) * 2003-03-07 2011-01-12 キヤノン株式会社 画像データの暗号化装置の制御方法及び画像データ変換装置の制御方法、及び、それらの装置、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
PL2175671T3 (pl) * 2004-07-14 2012-10-31 Koninl Philips Electronics Nv Sposób, urządzenie, urządzenie kodujące, urządzenie dekodujące i system audio
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
WO2006091139A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
CN101147191B (zh) * 2005-03-25 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006126844A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
TWI329462B (en) * 2006-01-19 2010-08-21 Lg Electronics Inc Method and apparatus for processing a media signal
US8560303B2 (en) * 2006-02-03 2013-10-15 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
JP5054035B2 (ja) * 2006-02-07 2012-10-24 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
EP1870880B1 (en) * 2006-06-19 2010-04-07 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
DE102006030276A1 (de) 2006-06-30 2008-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines gefilterten Aktivitätsmusters, Quellentrenner, Verfahren zum Erzeugen eines bereinigten Audiosignals und Computerprogramm
KR100763919B1 (ko) * 2006-08-03 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
US20080235006A1 (en) * 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
JP4769673B2 (ja) 2006-09-20 2011-09-07 富士通株式会社 オーディオ信号補間方法及びオーディオ信号補間装置
EP2084901B1 (en) 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101062353B1 (ko) 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
JP5450085B2 (ja) 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
CN101627425A (zh) * 2007-02-13 2010-01-13 Lg电子株式会社 用于处理音频信号的装置和方法
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
KR101230479B1 (ko) 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
US20110137661A1 (en) * 2008-08-08 2011-06-09 Panasonic Corporation Quantizing device, encoding device, quantizing method, and encoding method
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
WO2010036059A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2169664A3 (en) * 2008-09-25 2010-04-07 LG Electronics Inc. A method and an apparatus for processing a signal
EP2169665B1 (en) * 2008-09-25 2018-05-02 LG Electronics Inc. A method and an apparatus for processing a signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
AU2010303039B9 (en) 2009-09-29 2014-10-23 Dolby International Ab Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
AU2010310041B2 (en) 2009-10-21 2013-08-15 Dolby International Ab Apparatus and method for generating a high frequency audio signal using adaptive oversampling
AU2010321013B2 (en) * 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CA3097372C (en) 2010-04-09 2021-11-30 Dolby International Ab Mdct-based complex prediction stereo coding
EP2464146A1 (en) 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
PL2671222T3 (pl) * 2011-02-02 2016-08-31 Ericsson Telefon Ab L M Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
US9299355B2 (en) 2011-08-04 2016-03-29 Dolby International Ab FM stereo radio receiver by using parametric stereo
EP2834814B1 (en) 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
JP5977434B2 (ja) * 2012-04-05 2016-08-24 ホアウェイ・テクノロジーズ・カンパニー・リミテッド パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器
EP2862166B1 (en) * 2012-06-14 2018-03-07 Dolby International AB Error concealment strategy in a decoding system
US9319790B2 (en) * 2012-12-26 2016-04-19 Dts Llc Systems and methods of frequency response correction for consumer electronic devices
CN103533123B (zh) * 2013-09-23 2018-04-06 陕西烽火电子股份有限公司 一种飞机用多接收通道通话静噪方法
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US20190096410A1 (en) * 2016-03-03 2019-03-28 Nokia Technologies Oy Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding
WO2017158105A1 (en) * 2016-03-18 2017-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding by reconstructing phase information using a structure tensor on audio spectrograms
CN107452387B (zh) * 2016-05-31 2019-11-12 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5675701A (en) 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
JP3266178B2 (ja) * 1996-12-18 2002-03-18 日本電気株式会社 音声符号化装置
US6307941B1 (en) * 1997-07-15 2001-10-23 Desper Products, Inc. System and method for localization of virtual sound
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP4008607B2 (ja) 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20030220801A1 (en) * 2002-05-22 2003-11-27 Spurrier Thomas E. Audio compression method and apparatus
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
KR101049751B1 (ko) * 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
US20060171542A1 (en) * 2003-03-24 2006-08-03 Den Brinker Albertus C Coding of main and side signal representing a multichannel signal
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal

Also Published As

Publication number Publication date
HK1090504A1 (en) 2006-12-22
PT1649723E (pt) 2008-07-28
EP1649723A1 (en) 2006-04-26
MXPA06014968A (es) 2007-02-08
US20060004583A1 (en) 2006-01-05
RU2007103341A (ru) 2008-08-10
JP2008504578A (ja) 2008-02-14
CN1954642A (zh) 2007-04-25
BRPI0511362A (pt) 2007-12-04
BRPI0511362B1 (pt) 2018-12-26
ATE394901T1 (de) 2008-05-15
IL178670A0 (en) 2007-02-11
NO338980B1 (no) 2016-11-07
IL178670A (en) 2011-10-31
AU2005259618A1 (en) 2006-01-12
DE602005006495D1 (de) 2008-06-19
CN1954642B (zh) 2010-05-12
JP4712799B2 (ja) 2011-06-29
AU2005259618B2 (en) 2008-05-22
CA2569666C (en) 2013-07-16
KR20070028481A (ko) 2007-03-12
EP1649723B1 (en) 2008-05-07
KR100913987B1 (ko) 2009-08-25
US8843378B2 (en) 2014-09-23
NO20070560L (no) 2007-03-30
WO2006002748A1 (en) 2006-01-12
CA2569666A1 (en) 2006-01-12
RU2345506C2 (ru) 2009-01-27

Similar Documents

Publication Publication Date Title
ES2307188T3 (es) Sintetizador multicanal y procedimiento para generar una señal de salida multicanal.
ES2399058T3 (es) Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales
JP7379602B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
ES2312025T3 (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
ES2899286T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
ES2662671T3 (es) Procesamiento avanzado basado en un banco de filtros modulado exponencialmente complejo y procedimientos de señalización de tiempos adaptativos
ES2340796T3 (es) Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio.
JP4664431B2 (ja) アンビエンス信号を生成するための装置および方法
ES2700246T3 (es) Mejora paramétrica de la voz
JP2024059683A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器