ES2307188T3 - Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. - Google Patents
Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. Download PDFInfo
- Publication number
- ES2307188T3 ES2307188T3 ES05757240T ES05757240T ES2307188T3 ES 2307188 T3 ES2307188 T3 ES 2307188T3 ES 05757240 T ES05757240 T ES 05757240T ES 05757240 T ES05757240 T ES 05757240T ES 2307188 T3 ES2307188 T3 ES 2307188T3
- Authority
- ES
- Spain
- Prior art keywords
- reconstruction
- parameter
- postprocessed
- quantified
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000012805 post-processing Methods 0.000 claims abstract description 43
- 238000011002 quantification Methods 0.000 claims description 80
- 238000009499 grossing Methods 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000001052 transient effect Effects 0.000 claims description 12
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 abstract description 6
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000013707 sensory perception of sound Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Radio Relay Systems (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Stereophonic System (AREA)
Abstract
Sintetizador multicanal para generar una señal de salida a partir de una señal de entrada, teniendo la señal de entrada al menos un canal de entrada y una secuencia de parámetros de reconstrucción cuantificados, estando cuantificados los parámetros de reconstrucción cuantificados según una regla de cuantificación, y estando asociados con partes de tiempo posteriores del canal de entrada, teniendo la señal de salida un número de canales de salida sintetizados, y siendo el número de canales de salida sintetizados superior a 1 o superior a un número de canales de entrada, que comprende: un postprocesador (10) para determinar un parámetro de reconstrucción postprocesado o una cantidad postprocesada derivada del parámetro de reconstrucción para una parte de tiempo de la señal de entrada que ha de procesarse, en el que el postprocesador (10) está operativo para determinar el parámetro de reconstrucción postprocesado o la cantidad postprocesada de manera que un valor del parámetro de reconstrucción postprocesado o la cantidad postprocesada es diferente de un valor que puede obtenerse utilizando una recuantificación según la regla de cuantificación; y un reconstructor (12) multicanal para reconstruir una parte de tiempo del número de canales de salida sintetizados utilizando la parte de tiempo del canal de entrada y el parámetro de reconstrucción postprocesado o el valor postprocesado.
Description
Sintetizador multicanal y procedimiento para
generar una señal de salida multicanal.
La presente invención se refiere al
procesamiento de audio multicanal y, en particular, a la
reconstrucción de audio multicanal utilizando un canal base e
información lateral paramétrica para reconstruir una señal de salida
que tiene una pluralidad de canales.
En los últimos tiempos, la técnica de
reproducción de audio multicanal se está haciendo cada vez más
importante. Esto puede deberse al hecho de que las técnicas de
compresión/codificación de audio tales como la ampliamente conocida
técnica mp3 han hecho posible distribuir grabaciones de audio a
través de Internet u otros canales de transmisión que tienen un
ancho de banda limitado. La técnica de codificación mp3 se ha hecho
tan famosa debido al hecho de que permite la distribución de todas
las grabaciones en un formato estéreo, es decir, una representación
digital de la grabación de audio incluyendo un canal estéreo primero
o izquierdo y un canal estéreo segundo o derecho.
No obstante, hay inconvenientes básicos de los
sistemas de sonido de dos canales convencionales. Por lo tanto, se
ha desarrollado la técnica envolvente. Una representación envolvente
multicanal recomendada incluye, además de los dos canales estéreo L
y R, un canal central C adicional y dos canales envolventes Ls, Rs.
Este formato de sonido de referencia también se denomina como
estéreo tres/dos, lo que significa tres canales frontales y dos
canales envolventes. En general, se requieren cinco canales de
transmisión. En un entorno de reproducción, se necesitan al menos
cinco altavoces en las respectivas cinco ubicaciones diferentes para
obtener un punto bueno óptimo a una cierta distancia desde los
cinco altavoces debidamente colocados.
Se conocen varias técnicas en la técnica para
reducir la cantidad de datos necesarios para la transmisión de una
señal de audio multicanal. Tales técnicas se denominan técnicas de
estéreo conjunto (joint estéreo). Con este fin se hace
referencia a la figura 10, que muestra un dispositivo 60 de estéreo
conjunto. Este dispositivo puede ser un dispositivo que implementa
por ejemplo estéreo intensivo (IS, Intensity Stereo) o
codificación de indicación binaural (BCC, Binaural Cue
Coding). Un dispositivo de este tipo generalmente recibe, como
entrada, al menos dos canales (CH1, CH2, ... CHn), y emite un canal
de portadora único y datos paramétricos. Los datos paramétricos
están definidos de tal manera que, en un descodificador, puede
calcularse una aproximación de un canal original (CH1, CH2, ...
CHn).
Normalmente, el canal de portadora incluirá
muestras de subbanda, coeficientes espectrales, muestras en el
dominio del tiempo etc., que proporcionan una representación
comparativamente precisa de la señal subyacente, mientras que los
datos paramétricos no incluyen tales muestras de coeficientes
espectrales aunque incluyen parámetros de control para controlar un
cierto algoritmo de reconstrucción tal como ponderación mediante
multiplicación, desplazamiento en el tiempo, desplazamiento en
frecuencia, desplazamiento de fase, ... Los datos paramétricos, por
lo tanto, incluyen sólo una representación comparativamente basta de
la señal o el canal asociado. Expresado en números, la cantidad de
datos necesarios por un canal de portadora estará en el intervalo de
60 a 70 kbit/s, mientras que la cantidad de datos necesarios por la
información lateral paramétrica para un canal estará en el
intervalo de 1,5 a 2,5 kbit/s. Un ejemplo de datos paramétricos son
los ampliamente conocidos factores de escala, información de
estéreo intensivo o parámetros de indicación binaural tal como se
describirán más adelante.
La codificación de estéreo intensivo se describe
en AES preprint 3799, "Intensity Stereo Coding", J.
Herre, K. H. Brandenburg, D. Lederer, febrero de 1994, Amsterdam.
En general, el concepto de estéreo intensivo se basa en una
transformada de eje principal que ha de aplicarse a los datos de
ambos canales de audio estereofónicos. Si la mayoría de puntos de
datos están concentrados alrededor del primer eje principal, puede
lograrse una ganancia de codificación girando ambas señales un
cierto ángulo antes de la codificación. Sin embargo, esto no
siempre es cierto para las técnicas de producción estereofónicas
actuales. Por lo tanto, esta técnica se modifica excluyendo la
segunda componente ortogonal de la transmisión en el flujo de bits.
Por tanto, las señales reconstruidas para los canales izquierdo y
derecho consisten en versiones ponderadas o ajustadas a escala de
manera diferente de la misma señal transmitida. No obstante, las
señales reconstruidas difieren en su amplitud pero son idénticas
con respecto a su información de fase. Las envolventes
energía-tiempo de ambos canales de audio
originales, sin embargo, se conservan mediante la operación de
ajuste a escala selectiva, que normalmente opera de una manera
selectiva en frecuencia. Esto se adapta a la percepción humana del
sonido a altas frecuencias, donde las indicaciones espaciales
dominantes se determinan por las envolventes de energía.
Adicionalmente, en implementaciones prácticas,
la señal transmitida, es decir el canal de portadora se genera a
partir de la señal de suma del canal izquierdo y el canal derecho en
lugar de girando ambas componentes. Además, este procesamiento, es
decir, generar parámetros de estéreo intensivo para realizar la
operación de ajuste a escala, se realiza de manera selectiva en
frecuencia, es decir, independientemente para cada banda de factor
de escala, es decir, división en frecuencia del codificador.
Preferiblemente, ambos canales se combinan para formar un canal
combinado o de "portadora", y, además del canal combinado, se
determina la información de estéreo intensivo que depende de la
energía del primer canal, la energía del segundo canal o la energía
del canal o combinado.
La técnica BCC se describe en AES convention
paper 5574, "Binaural cue coding applied to stereo and
multi-channel audio compression", C. Faller,
F. Baumgarte, mayo de 2002, Munich. En la codificación BCC, un
número de canales de entrada de audio se convierten en una
representación espectral utilizando una transformada basada en DFT
con ventanas solapadas. El espectro uniforme resultante se divide en
divisiones no solapadas cada una con un índice. Cada división tiene
un ancho de banda proporcional al ancho de banda rectangular
equivalente (ERB, Equivalent Rectangular Bandwdith). Las
diferencias de nivel entre canales (ICLD,
Inter-Channel Level Differences) y las
diferencias de tiempo entre canales (ICTD,
Inter-Channel Time Differences) se estiman
para cada división para cada trama k. Las ICLD e ICTD se cuantifican
y codifican dando como resultado un flujo de bits BCC. Las
diferencias de nivel entre canales y las diferencias de tiempo entre
canales vienen dadas para cada canal con respecto a un canal de
referencia. Entonces, los parámetros se calculan según fórmulas
prescritas, que dependen de ciertas divisiones de la señal que ha de
procesarse.
En un lado del descodificador, el descodificador
recibe una señal mono y el flujo de bits BCC. La señal mono se
transforma al dominio de la frecuencia y se introduce en un bloque
de síntesis espacial, que también recibe valores ICLD e ICTD
descodificados. En el bloque de síntesis espacial, los valores de
los parámetros BCC (ICLD e ICTD) se utilizan para realizar una
operación de ponderación de la señal mono para sintetizar las
señales multicanal, que, tras una conversión de frecuencia/tiempo,
representan una reconstrucción de la señal de audio multicanal
original.
En el caso de la BCC, el módulo 60 de estéreo
conjunto está operativo para emitir la información lateral de canal
de manera que los datos de canal paramétricos son parámetros ICLD o
ICTD cuantificados y codificados, en el que uno de los canales
originales se usa como el canal de referencia para codificar la
información lateral de canal.
Normalmente, el canal de portadora está formado
por la suma de los canales originales participantes.
Naturalmente, las técnicas anteriores sólo
proporcionan una representación mono para un descodificador, que
sólo puede procesar el canal de portadora, pero que no puede
procesar los datos paramétricos para generar una o más
aproximaciones de más de un canal de entrada.
La técnica de codificación de audio conocida
como codificación de indicación binaural (BCC) también se describe
adecuadamente en las publicaciones de solicitud de patente
estadounidense US 2003, 0219130 A1, 2003/0026441 A1 y 2003/0035553
A1. Se hace referencia adicional también a "Binaural Cue
Coding. Part II: Schemes and Applications", C. Faller y F.
Baumgarte, IEEE Trans. On Audio and Speech Proc., volumen 11, número
6, noviembre de 1993.
A continuación se elabora un esquema BCC típico
genérico para codificación de audio multicanal más detalladamente
con referencia a las figuras 11 a 13. La figura 11 muestra este
esquema de codificación de indicación binaural genérico para la
codificación/transmisión de señales de audio multicanal. La señal de
entrada de audio multicanal en una entrada 110 de un codificador
112 BCC se somete a downmix (mezcla) en un bloque 114
downmix. En el presente ejemplo, la señal multicanal
original en la entrada 110 es una señal envolvente de 5 canales que
tiene un canal frontal izquierdo, un canal frontal derecho, un canal
envolvente izquierdo, un canal envolvente derecho y un canal
central. En una realización preferida de la presente invención, el
bloque 114 downmix produce una señal de suma mediante una
sencilla suma de estos cinco canales en una señal mono. Se conocen
en la técnica otros esquemas de downmix tales que, utilizando
una señal de entrada multicanal, puede obtenerse una señal
downmix con un único canal. Este único canal se emite en una
línea 115 de señal de suma. Una información lateral obtenida por un
bloque 116 de análisis BCC se emite en una línea 117 de información
lateral. En el bloque de análisis BCC, las diferencias de nivel
entre canales (ICLD), y las diferencias de tiempo entre canales
(ICTD) se calculan tal como se ha expuesto anteriormente.
Recientemente, el bloque 116 de análisis BCC se ha mejorado para
calcular también valores de correlación entre canales (valores ICC,
Inter-Channel Correlation). La señal de suma
y la información lateral se transmiten, preferiblemente en una forma
cuantificada y codificada, a un descodificador 120 BCC. El
descodificador BCC decompone la señal de suma transmitida en un
número de subbandas y aplica ajuste a escala, retardos y otros
procesamientos para generar las subbandas de las señales de audio
multicanal de salida. Este procesamiento se realiza de tal manera
que los parámetros ICLD, ICTD e ICC (indicaciones) de una señal
multicanal reconstruida en una salida 121 son similares a las
indicaciones respectivas para la señal multicanal original en la
entrada 110 en el codificador 112 BCC. Con este fin, el
descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un
bloque 123 de procesamiento de información lateral.
A continuación, la construcción interna del
bloque 122 de síntesis BCC se explica con referencia a la figura
12. La señal de suma en la línea 115 se introduce en una unidad de
conversión de tiempo/frecuencia o banco 125 de filtros FB
(Filter Bank). En la salida del bloque 125, hay un número N
de señales de subbanda o, en un caso extremo, un bloque de
coeficientes espectrales, cuando el banco 125 de filtros de audio
realiza una transformada 1:1, es decir, una transformada que
produce N coeficientes espectrales a partir de las N muestras en el
dominio del tiempo.
El bloque 122 de síntesis BCC comprende además
una fase 126 de retardo, una fase 127 de modificación de nivel, una
fase 128 de procesamiento de correlación y una fase 129 de banco de
filtros inverso IFB (Inverse Filter Bank). En la salida de
la fase 129, la señal de audio multicanal reconstruida que tiene por
ejemplo cinco canales en el caso de un sistema envolvente de 5
canales, puede emitirse a un conjunto de altavoces 124 tal como se
ilustra en la figura 11.
Tal como se ilustra en la figura 12, la señal de
entrada s(n) se convierte al dominio de la frecuencia o al
dominio del banco de filtros mediante el elemento 125. La señal
emitida por el elemento 125 se multiplica de manera que se obtienen
varias versiones de la misma señal tal como se ilustra por el nodo
130 de multiplicación. El número de versiones de la señal original
es igual al número de canales de salida en la señal de salida que
ha de reconstruirse. Cuando, en general, cada versión de la señal
original en el nodo 130 se somete a un cierto retardo d_{1},
d_{2}, ..., d_{i}, ..., d_{N}. Los parámetros de retardo se
calculan mediante el bloque 123 de procesamiento de información
lateral en la figura 11 y se derivan de las diferencias de tiempo
entre canales determinadas por el bloque 116 de análisis BCC.
Lo mismo es válido para los parámetros a_{1},
a_{2}, ..., a_{i}, ..., a_{N} de multiplicación, que también
se calculan por el bloque 123 de procesamiento de información
lateral basándose en las diferencias de nivel entre canales
calculadas por el bloque 116 de análisis BCC.
Los parámetros ICC calculados por el bloque 116
de análisis BCC se utilizan para controlar la funcionalidad del
bloque 128 de manera que se obtienen ciertas correlaciones entre las
señales retardadas y manipuladas en su nivel en las salidas del
bloque 128. Ha de observarse aquí que el orden de las fases 126,
127, 128 puede ser diferente del caso mostrado en la figura 12.
Ha de observarse aquí que, en un procesamiento
por tramas de una señal de audio, el análisis BCC se realiza por
tramas, es decir con variación en el tiempo, y también por
frecuencia. Esto significa que los parámetros BCC se obtienen para
cada banda espectral. Esto significa que, en caso de que el banco
125 de filtros de audio decomponga la señal de entrada en por
ejemplo 32 señales pasa banda, el bloque de análisis BCC obtiene un
conjunto de parámetros BCC para cada una de las 32 bandas.
Naturalmente el bloque 122 de síntesis BCC de la figura 11, que se
muestra detalladamente en la figura 12, realiza una reconstrucción
que también se basa en las 32 bandas en el ejemplo.
A continuación se hace referencia a la figura 13
que muestra una configuración para determinar ciertos parámetros
BCC. Normalmente, los parámetros ICLD, ICTD e ICC pueden definirse
entre pares de canales. Sin embargo, se prefiere determinar los
parámetros ICLD e ICTD entre un canal de referencia y cada uno de
los demás canales. Esto se ilustra en la figura 13A.
Pueden definirse parámetros ICC de diferentes
maneras. De la forma más general, podrían estimarse parámetros ICC
en el codificador entre todos los posibles pares de canales tal como
se indica en la figura 13B. En este caso, un descodificador
sintetizaría ICC de manera que sea aproximadamente igual que en la
señal multicanal original entre todos los posibles pares de
canales. Sin embargo se propuso estimar sólo los parámetros ICC
entre los dos canales más intensos en cada momento. Este esquema se
ilustra en la figura 13C, en la que se muestra un ejemplo, en el
que en un momento de tiempo, se estima un parámetro ICC entre los
canales 1 y 2, y, en otro momento de tiempo, se calcula un
parámetro ICC entre los canales 1 y 5. El descodificador sintetiza
entonces la correlación entre canales entre los canales más intensos
en el descodificador y aplica alguna regla heurística para calcular
y sintetizar la coherencia entre canales para el resto de pares de
canales.
En cuanto al cálculo de, por ejemplo, los
parámetros a_{1}, a_{N} de multiplicación basándose en
parámetros ICLD transmitidos, se hace referencia a AES convention
paper 5574 anteriormente mencionado. Los parámetros ICLD
representan una distribución de energía en una señal multicanal
original. Sin pérdida de generalidad, se muestra en la figura 13A
que hay cuatro parámetros ICLD que muestran la diferencia de energía
entre todos los otros canales y el canal frontal izquierdo. En el
bloque 123 de procesamiento de información lateral, los parámetros
de multiplicación
a_{1}, ..., a_{N} se derivan de los parámetros ICLD de tal manera que la energía total de todos los canales de salida reconstruidos es igual que (o proporcional a) la energía de la señal de suma transmitida. Una manera sencilla de determinar estos parámetros es un proceso de 2 fases, en el que, en una primera fase, el factor multiplicación para el canal frontal izquierdo se ajusta a la unidad, mientras que los factores de multiplicación para los otros canales en la figura 13A se ajustan a los valores ICLD transmitidos. Entonces, en una segunda fase, la energía de todos los cinco canales se calcula y se compara con la energía de la señal de suma transmitida. Entonces, todos los canales se ajustan a escala de manera descendente utilizando un factor de ajuste a escala descendente que es igual para todos los canales, en el que el factor de ajuste a escala descendente se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos es, tras el ajuste a escala descendente, igual a la energía total de la señal de suma transmitida.
a_{1}, ..., a_{N} se derivan de los parámetros ICLD de tal manera que la energía total de todos los canales de salida reconstruidos es igual que (o proporcional a) la energía de la señal de suma transmitida. Una manera sencilla de determinar estos parámetros es un proceso de 2 fases, en el que, en una primera fase, el factor multiplicación para el canal frontal izquierdo se ajusta a la unidad, mientras que los factores de multiplicación para los otros canales en la figura 13A se ajustan a los valores ICLD transmitidos. Entonces, en una segunda fase, la energía de todos los cinco canales se calcula y se compara con la energía de la señal de suma transmitida. Entonces, todos los canales se ajustan a escala de manera descendente utilizando un factor de ajuste a escala descendente que es igual para todos los canales, en el que el factor de ajuste a escala descendente se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos es, tras el ajuste a escala descendente, igual a la energía total de la señal de suma transmitida.
Naturalmente, hay otros métodos para calcular
los factores de multiplicación, que no se basan en el proceso de
dos fases sino que sólo necesitan un proceso de una fase.
En cuanto a los parámetros de retardo, ha de
observarse que los parámetros de retardo ICTD, que se transmiten
desde un codificador BCC pueden usarse directamente, cuando el
parámetro d_{1} de retardo para el canal frontal izquierdo se
ajusta a cero. No tiene que hacerse un reajuste a escala en este
caso, ya que un retardo no altera la energía de la señal.
En cuanto a la medición de coherencia entre
canales ICC transmitida desde el codificador BCC al descodificador
BCC, ha de observarse aquí que puede realizarse una manipulación de
coherencia modificando los factores a_{1}, ..., a_{n} de
multiplicación por ejemplo multiplicando los factores de ponderación
de todas las subbandas con números aleatorios con valores entre
20log10(-6) y 20log10(6). La secuencia pseudoaleatoria se
escoge preferiblemente de tal manera que la varianza sea
aproximadamente constante para todas las bandas críticas, y la
media sea cero dentro de cada banda crítica. La misma secuencia se
aplica a los coeficientes espectrales para cada trama diferente.
Por tanto, la anchura de imagen auditiva se controla modificando la
varianza de la secuencia pseudoaleatoria. Una varianza más grande
crea una anchura de imagen mayor. La modificación de varianza puede
realizarse en bandas individuales que tienen una anchura de banda
crítica. Esto permite la existencia simultánea de múltiples objetos
en una escena auditiva, teniendo cada objeto una anchura de imagen
diferente. Una distribución de amplitud adecuada para la secuencia
pseudoaleatoria es una distribución uniforme a una escala
logarítmica tal como se indica en la publicación de solicitud de
patente estadounidense 2003/0219130 A1. No obstante, todo el
procesamiento de síntesis BCC se refiere a un único canal de entrada
transmitido como la señal de suma desde el codificador BCC al
descodificador BCC tal como se ilustra en la figura 11.
Una técnica relacionada, también conocida como
estéreo paramétrico, se describe en J. Breebaart, S. van de Par, A.
Kohlrausch, E. Schuijers, "High-Quality
Parametric Spatial Audio Coding at Low Bit Rates", AES 116th
Convention, Berlín, Preprint 6072, mayo de 2004, y E. Schuijers, J.
Breebaart, H. Purnhagen, J. Engdegard, "Low Complexity
Parametric Stereo Coding", AES 116th Convention, Berlín,
Preprint 6073, mayo de 2004.
Tal como se ha expuesto anteriormente con
respecto a la figura 13, la información lateral paramétrica, es
decir, las diferencias de nivel entre canales (ICLD), las
diferencias de tiempo entre canales (ICTD) o el parámetro de
coherencia entre canales (ICC) pueden calcularse y transmitirse para
cada uno de los cinco canales. Esto significa que uno, normalmente,
transmite cinco conjuntos de diferencias de nivel entre canales para
una señal de cinco canales. Lo mismo es válido par alas diferencias
de tiempo entre canales. Con respecto a al parámetro de coherencia
entre canales, también puede ser suficiente transmitir sólo, por
ejemplo, dos conjuntos de estos parámetros.
Tal como se ha expuesto anteriormente con
respecto a la figura 12, no hay un único parámetro de diferencia de
nivel, parámetro de diferencia de tiempo o parámetro de coherencia
para una trama o parte de tiempo de una señal. En lugar de ello,
estos parámetros se determinan para varias bandas de frecuencia
diferentes de manera que se obtiene una parametrización en función
de la frecuencia. Puesto que se prefiere utilizar por ejemplo 32
canales de frecuencia, es decir, un banco de filtros que tiene 32
bandas de frecuencia para el análisis BCC y la síntesis BCC, los
parámetros pueden ocupar bastante cantidad de datos. Aunque, en
comparación con otras transmisiones multicanal, la representación
paramétrica da como resultado una tasa de datos bastante baja, hay
una necesidad continuada de una mayor reducción de la tasa de datos
necesaria para representar una señal multicanal tal como una señal
que tiene dos canales (señal estéreo) o una señal que tiene más de
dos canales tal como una señal envolvente multicanal.
Con este fin, los parámetros de reconstrucción
calculados en el lado del codificador se cuantifican según una
determinada regla de cuantificación. Esto significa que los
parámetros de reconstrucción no cuantificados se mapean con un
conjunto limitado de niveles de cuantificación o índices de
cuantificación tal como se conoce en la técnica y se describe
detalladamente en C. Faller y F. Baumgarte, "Binaural cue
coding applied to audio compression with flexible
rendering", AES 113th Convention, Los Ángeles, Preprint 5686,
octubre de 2002.
La cuantificación tiene el efecto de que todos
los valores de parámetros que son inferiores al tamaño de paso de
cuantificación se cuantifican a cero. Adicionalmente, al mapear un
gran conjunto de valores no cuantificados con un pequeño conjunto
de valores cuantificados se obtiene un ahorro de datos per
se. Estos ahorros de tasa de datos se mejoran adicionalmente
codificando por entropía los parámetros de reconstrucción
cuantificados en el lado del codificador. Métodos de codificación
por entropía preferidos son los métodos Huffman basados en tablas
de código predefinidas o basados en una determinación real de
estadísticas de señal y construcción adaptativa a la señal de
libros de código. Alternativamente, pueden utilizarse otras
herramientas de codificación por entropía tales como la codificación
aritmética.
Generalmente, se tiene la regla de que la tasa
de datos necesaria para los parámetros de reconstrucción disminuye
a medida que aumenta el tamaño de paso de cuantificador. Dicho de
otro modo, una cuantificación más basta da como resultado una tasa
de datos más baja, y una cuantificación más precisa da como
resultado una tasa de datos superior.
Puesto que las representaciones de señal
paramétricas son necesarias normalmente para entornos de tasa de
datos baja, se intenta cuantificar los parámetros de reconstrucción
de la manera más basta posible para obtener una representación de
señal que tenga una cierta cantidad de datos en el canal base, y que
tenga también una pequeña cantidad razonable de datos para la
información lateral que incluye los parámetros de reconstrucción
cuantificados y codificados por entropía.
Los métodos de la técnica anterior, por lo
tanto, derivan los parámetros de reconstrucción que han de
transmitirse directamente de la señal multicanal que ha de
codificarse. Una cuantificación basta tal como se ha comentado
anteriormente da como resultado una distorsión de los parámetros de
reconstrucción, lo que da como resultado grandes errores de
redondeo, cuando el parámetro de reconstrucción cuantificado se
cuantifica inversamente en un descodificador y se usa para síntesis
multicanal. Naturalmente, el error de redondeo aumenta con el
tamaño de paso de cuantificador, es decir, con la "bastedad del
cuantificador" seleccionada. Tales errores de redondeo pueden
dar como resultado un cambio de nivel de cuantificación, es decir,
un cambio de un primer nivel de cuantificación en un primer
instante de tiempo a un segundo nivel de cuantificación en un
instante de tiempo posterior, en el que la diferencia entre un
nivel de cuantificador y otro nivel de cuantificador se define por
el tamaño de paso del cuantificador bastante grande, lo que es
preferible para una cuantificación basta. Desafortunadamente, tal
cambio de nivel de cuantificador que implica el tamaño de paso de
cuantificador grande puede desencadenarse por únicamente un pequeño
cambio de parámetro, cuando el parámetro no cuantificado está en
medio entre dos niveles de cuantificación. Está claro que la
aparición de tales cambios de índice de cuantificador en la
información lateral da como resultado los mismos cambios fuertes en
la fase de síntesis de la señal. Cuando, a modo de ejemplo, se
considera la diferencia de nivel entre canales, queda claro que un
cambio fuerte da como resultado una disminución brusca de la
intensidad del sonido de una cierta señal de altavoz y una aumento
brusco acompañante de la intensidad del sonido de una señal para
otro altavoz. Esta situación, que sólo se desencadena por un cambio
de nivel de cuantificación y una cuantificación basta puede
percibirse como una reubicación inmediata de una fuente de sonido
desde una primera ubicación (virtual) a una segunda ubicación
(virtual). Tal reubicación inmediata de un instante de tiempo a otro
instante de tiempo suena poco natural, es decir, se percibe como un
efecto de modulación, puesto que las fuentes de sonido de, en
particular, señales tonales no cambian su ubicación muy rápido.
Generalmente, los errores de transmisión también
pueden dar como resultado cambios bruscos de los índices de
cuantificador, lo que inmediatamente da como resultado cambios
bruscos en la señal de salida multicanal, lo que es incluso más
cierto para situaciones en las que se ha adoptado un cuantificador
basto por motivos de tasa de datos.
Técnicas para mejorar la calidad y/o la tasa de
bits de datos de audio multicanal se conocen a partir de los
siguientes documentos.
El documento US2004044527 trata de una
codificación e audio multicanal y propone varios métodos para hacer
el proceso de codificación más flexible o para mejorar las técnicas
de cuantificación utilizadas en la codificación. Más en particular,
entre las mejoras propuestas se consideran los tres métodos
siguientes:
(1) uso de un paso de cuantificación diferente
por canal,
(2) uso de un paso de cuantificación flexible
para cambiar la resolución de los elementos de las matrices de
cuantificación,
(3) uso de predicción temporal en compresión de
matrices de cuantificación para reducir la tasa de bits.
En el lado de descodificación, se realizan las
etapas inversas apropiadas. Además, se sugiere también usar ciertas
técnicas de postprocesamiento multicanal tales como crear efectos
especiales o downmix durante la etapa de descodificación
El documento US5307441 utiliza codificación de
filtro de espectro para codificar una señal de voz. Para cada trama
de voz, se extraen frecuencias de espectro lineal para describir la
trama. Estas frecuencias se utilizan entonces para calcular los
coeficientes del predictor adecuados para el filtro de espectro de
codificación. Se da a conocer un método para suavizar cambios
repentinos de los parámetros del filtro de espectro entre tramas
vecinas de la señal de voz. Este método realiza una interpolación
entre las frecuencias de espectro lineal cuantificadas en el último
tercio de una trama y las del primer tercio de la siguiente trama.
Basándose en esta interpolación se actualizan los valores de
parámetros del filtro de espectro.
En el documento US5675701 una señal de voz se
representa por un conjunto de parámetros que se cuantifican antes
de la transmisión. Para realizar cambios en las características de
la señal de la señal de voz reconstruida más suave, se minimiza la
distancia entre valores de parámetros descodificados sucesivos con
la condición de que los valores de parámetros descodificados
resultantes entren dentro de las regiones de Voronoi
correspondientes, es decir la región de valores en la que debe
haberse ubicado el valor original no cuantificado.
Finalmente, en el documento US6611797 se utiliza
codificación de impulsos para una señal de voz. Para mejorar la
calidad del sonido, los impulsos se ajustan durante la etapa de
codificación en posiciones de números enteros, correspondientes a
posiciones de muestreo de una señal de excitación usada en la
codificación de impulsos, así como en posiciones de números no
enteros, que están entre las posiciones de muestreo de la señal de
excitación. El descodificador realiza entonces las etapas inversas
correspondientes.
El objeto de la presente invención es
proporcionar un concepto de síntesis de señal mejorado que permita
una tasa de datos baja por un lado y una buena calidad subjetiva
por otro lado.
Según el primer aspecto de la presente
invención, este objeto se consigue mediante un sintetizador
multicanal para generar una señal de salida a partir de una señal
de entrada, teniendo la señal de entrada al menos un canal de
entrada y una secuencia de parámetros de reconstrucción
cuantificados, estando cuantificados los parámetros de
reconstrucción cuantificados según una regla de cuantificación, y
estando asociados con partes de tiempo posteriores del canal de
entrada, teniendo la señal de salida un número de canales de salida
sintetizados, y siendo el número de canales de salida sintetizados
superior a 1 o superior a un número de canales de entrada, que
comprende: un postprocesador para determinar un parámetro de
reconstrucción postprocesado o una cantidad postprocesada derivada
del parámetro de reconstrucción para una parte de tiempo de la señal
de entrada que ha de procesarse, en el que el postprocesador está
operativo para determinar el parámetro de reconstrucción
postprocesado de manera que un valor del parámetro de reconstrucción
postprocesado o la cantidad postprocesada es diferente de un valor
que puede obtenerse utilizando una recuantificación según la regla
de cuantificación; y un reconstructor multicanal para reconstruir
una parte de tiempo del número de canales de salida sintetizados
utilizando la parte de tiempo del canal de entrada y el parámetro de
reconstrucción postprocesado o la cantidad postprocesada.
Según un segundo aspecto de la invención, este
objeto se consigue mediante un método de generación de una señal de
salida a partir de una señal de entrada, teniendo la señal de
entrada al menos un canal de entrada y una secuencia de parámetros
de reconstrucción cuantificados, estando cuantificados los
parámetros de reconstrucción cuantificados según una regla de
cuantificación, y estando asociados con partes de tiempo posteriores
del canal de entrada, teniendo la señal de salida un número de
canales de salida sintetizados, y siendo el número de canales de
salida sintetizados superior a 1 o superior a un número de canales
de entrada, que comprende: determinar un parámetro de
reconstrucción postprocesado o una cantidad postprocesada derivada
del parámetro de reconstrucción para una parte de tiempo de la
señal de entrada que ha de procesarse, de manera que un valor del
parámetro de reconstrucción postprocesado o la cantidad
postprocesada es diferente de un valor que puede obtenerse
utilizando una recuantificación según la regla de cuantificación; y
reconstruir una parte de tiempo del número de canales de salida
sintetizados utilizando la parte de tiempo del canal de entrada y el
parámetro de reconstrucción postprocesado o la cantidad
postprocesada.
Según un tercer aspecto de la presente
invención, este objeto se consigue mediante un programa informático
que implementa el método anterior, cuando se ejecuta en un
ordenador.
La presente invención se basa en el hallazgo de
que un postprocesamiento para parámetros de reconstrucción
cuantificados utilizados un sintetizador multicanal está operativo
para reducir o incluso eliminar problemas asociados con la
cuantificación basta por un lado y los cambios de nivel de
cuantificación por otro lado. Mientras que, en sistemas de la
técnica anterior, un pequeño cambio de parámetro en un codificador
da como resultado un fuerte cambio de parámetro en el
descodificador, puesto que una recuantificación en el sintetizador
sólo es admisible para el conjunto limitado de valores
cuantificados, el dispositivo de la invención realiza un
postprocesamiento de parámetros de reconstrucción de modo que el
parámetro de reconstrucción postprocesado para una parte de tiempo
que ha de procesarse de la señal de entrada no se determina por la
cuadrícula de cuantificación adoptada por el codificador, sino que
da como resultado un valor del parámetro de reconstrucción, que es
diferente de un valor que puede obtenerse por la cuantificación
según la regla de cuantificación.
Mientras que, en un caso de cuantificador
lineal, el método de la técnica anterior sólo permite valores
cuantificados inversamente que sean múltiplos enteros del tamaño de
paso del cuantificador, el postprocesamiento de la invención
permite valores cuantificados inversamente que sean múltiplos no
enteros del tamaño de paso del cuantificador. Esto significa que el
postprocesamiento de la invención elimina la limitación del tamaño
de paso del cuantificador, puesto que también pueden obtenerse
parámetros de reconstrucción postprocesados situados entre dos
niveles de cuantificador adyacentes mediante el postprocesamiento y
utilizados por el reconstructor multicanal de la invención, que
hace uso del parámetro de reconstrucción postprocesado.
Este postprocesamiento puede realizarse antes o
después de la recuantificación en un sintetizador multicanal.
Cuando el postprocesamiento se realiza con los parámetros
cuantificados, es decir, con los índices de cuantificador, se
necesita un cuantificador inverso, que pueda cuantificar
inversamente no sólo múltiplos del paso del cuantificador, sino que
también pueda cuantificar inversamente para dar valores
cuantificados inversamente entre múltiplos del tamaño de paso del
cuantificador.
En caso de que el postprocesamiento se realice
utilizando parámetros de reconstrucción cuantificados inversamente,
puede utilizarse un cuantificador inverso sencillo, y se realiza una
interpolación/filtrado/suavizado con los valores cuantificados
inversamente.
En el caso de una regla de cuantificación no
lineal, tal como una regla de cuantificación logarítmica, se
prefiere un postprocesamiento de los parámetros de reconstrucción
cuantificados antes de la recuantificación, ya que la
cuantificación logarítmica es similar a la percepción del sonido por
el oído humano, que es más precisa para sonidos de nivel bajo y
menos precisa para sonidos de nivel alto, es decir, realiza una
especie de compresión logarítmica.
Ha de observarse a este respecto que el mérito
de la invención no se obtiene únicamente por la modificación del
propio parámetro de reconstrucción que se incluye en el flujo de
bits como el parámetro cuantificado. Las ventajas también pueden
obtenerse derivando una cantidad postprocesada del parámetro de
reconstrucción. Esto es especialmente útil, cuando el parámetro de
reconstrucción es un parámetro de diferencia y se realiza una
manipulación tal como un suavizado sobre un parámetro absoluto
derivado del parámetro de diferencia.
En una realización preferida de la presente
invención, el postprocesamiento para los parámetros de
reconstrucción se controla mediante un analizador de señal, que
analiza la parte de señal asociada con un parámetro de
reconstrucción para encontrar qué característica de la señal está
presente. En una realización preferida, el postprocesamiento de la
invención se activa sólo para partes tonales de la señal (con
respecto a frecuencia y/o tiempo), mientras que el
postprocesamiento se desactiva para partes no tonales, es decir,
partes transitorias de la señal de entrada. Esto garantiza que toda
la dinámica de los cambios de parámetros de reconstrucción se
transmite para secciones transitorias de la señal de audio,
mientras que este no es el caso para partes tonales de la señal.
Preferiblemente, el postprocesador realiza una
modificación en la forma de un suavizado de los parámetros de
reconstrucción, cuando esto sea lógico desde un punto de vista
psicoacústico, sin afectar a indicaciones de detección espacial
importantes, que son especialmente importantes para partes de la
señal no tonales, es decir, transitorias.
\newpage
La presente invención da como resultado una tasa
de datos baja, puesto que una cuantificación de parámetros de
reconstrucción en el lado del codificador puede ser una
cuantificación basta, ya que el diseñador de sistema no tiene que
temer fuertes cambios en el descodificador debidos a un cambio de un
parámetro de reconstrucción de un nivel cuantificado inversamente a
otro nivel cuantificado inversamente, cambio que se reduce mediante
el procesamiento de la invención mediante el mapeo con un valor
entre dos niveles de recuantificación.
Otra ventaja de la presente invención es que la
calidad del sistema se mejora, puesto que los artefactos audibles
provocados por un cambio de un nivel de recuantificación al
siguiente nivel de recuantificación permitido se reducen mediante
el postprocesamiento de la invención, que está operativo para el
mapeo con un valor entre dos niveles de recuantificación
permitidos.
Naturalmente, el postprocesamiento de parámetros
de reconstrucción cuantificados de la invención representa una
pérdida de información adicional, además de la pérdida de
información obtenida por la parametrización en el codificador y la
posterior cuantificación del parámetro de reconstrucción. Sin
embargo, esto no es tan malo como parece, ya que el postprocesador
de la invención preferiblemente utiliza los parámetros de
reconstrucción cuantificados actuales o precedentes para determinar
un parámetro de reconstrucción postprocesado que ha de usarse para
la reconstrucción de la parte de tiempo actual de la señal de
entrada, es decir, el canal base. Se ha demostrado que esto da como
resultado una calidad subjetiva mejorada, ya que los errores
inducidos por el codificador pueden compensarse hasta cierto grado.
Incluso aunque los errores inducidos en el lado del codificador no
se compensaran por el postprocesamiento de los parámetros de
reconstrucción, se reducen los fuertes cambios de la percepción
espacial en la señal de audio multicanal reconstruida,
preferiblemente sólo para partes tonales de la señal, de modo que
se mejora la calidad subjetiva de escucha en cualquier caso,
independientemente del hecho de si esto da como resultado una
pérdida de información adicional o no.
A continuación se describen realizaciones
preferidas de la presente invención en referencia a los dibujos
adjuntos, en los que:
la figura 1 es un diagrama de bloques de una
realización preferida del sintetizador multicanal de la
invención;
la figura 2 es un diagrama de bloques de una
realización preferida de un sistema codificador/descodificador, en
el que se incluye el sintetizador multicanal de la figura 1;
la figura 3 es un diagrama de bloques de una
combinación postprocesador/analizador de señal para su uso en el
sintetizador multicanal de la invención de la figura 1;
la figura 4 es una representación esquemática de
partes de tiempo de la señal de entrada y de parámetros de
reconstrucción cuantificados asociados para partes de señal pasadas,
partes de señal actuales que han de procesarse y partes de señal
futuras;
la figura 5 es una realización del
postprocesador de la figura 1;
la figura 6a es otra realización del
postprocesador mostrado de la figura 1;
la figura 6b es otra realización preferida del
postprocesador;
la figura 7a es otra realización del
postprocesador mostrado en la figura 1;
la figura 7b es una indicación esquemática de
los parámetros que han de postprocesarse según la invención
mostrando que también puede suavizarse una cantidad derivada del
parámetro de reconstrucción;
la figura 8 es una representación esquemática de
un cuantificador/cuantificador inverso que realiza un mapeo
sencillo o un mapeo mejorado;
la figura 9a es una línea de tiempo a modo de
ejemplo de los parámetros de reconstrucción cuantificados asociados
con partes de señal de entrada posteriores;
la figura 9b es una línea de tiempo de
parámetros de reconstrucción postprocesados, que se han
postprocesado mediante el postprocesador implementando una función
de suavizado (paso bajo);
la figura 10 ilustra un codificador de estéreo
conjunto de la técnica anterior;
la figura 11 es una representación en diagrama
de bloques de una cadena de codificador/descodificador BCC de la
técnica anterior;
la figura 12 es un diagrama de bloques de una
implementación de la técnica anterior de un bloque de síntesis BCC
de la figura 11; y
la figura 13 es una representación de un esquema
ampliamente conocido para determinar los parámetros ICLD, ICTD e
ICC.
La figura 1 muestra un diagrama de bloques de un
sintetizador multicanal de la invención para generar una señal de
salida a partir de una señal de entrada. Tal como se mostrará más
adelante con referencia a la figura 4, la señal de entrada tiene al
menos un canal de entrada y una secuencia de parámetros de
reconstrucción cuantificados, estando cuantificados los parámetros
de reconstrucción cuantificados según una regla de cuantificación.
Cada parámetro de reconstrucción está asociado con una parte de
tiempo del canal de entrada de modo que una secuencia de partes de
tiempo tiene asociada a la misma una secuencia de parámetros de
reconstrucción cuantificados. Adicionalmente, ha de indicarse que
la señal de salida, que se genera por el sintetizador multicanal de
la figura 1 tiene un número de canales de salida sintetizados, que
en cualquier caso es superior al número de canales de entrada en la
señal de entrada. Cuando el número de canales de entrada es 1, es
decir, cuando hay un único canal de entrada, el número de canales
de salida será de 2 o más. Sin embargo, cuando el número de canales
de entrada es 2 ó 3, el número de canales de salida será de al menos
3 o al menos 4.
En el caso BCC anteriormente descrito, el número
de canales de entrada será 1 o generalmente no superior a 2,
mientras que el número de canales de salida será de 5 (envolvente
izquierdo, izquierdo, central, derecho, envolvente derecho) o 6 (5
canales envolventes más 1 canal de graves "subwoofer") o
incluso más en el caso de formatos multicanal 7.1 o 9.1.
Tal como se ilustra en la figura 1, el
sintetizador multicanal de la invención incluye, como rasgos
esenciales, un postprocesador 10 de parámetros de reconstrucción y
un reconstructor 12 multicanal. El postprocesador 10 de parámetros
de reconstrucción está operativo para recibir parámetros de
reconstrucción cuantificados y preferiblemente codificados para
partes de tiempo posteriores del canal de entrada. El postprocesador
10 de parámetros de reconstrucción está operativo para determinar
un parámetro de reconstrucción postprocesado en una salida del
mismo para una parte de tiempo que ha de procesarse de la señal de
entrada. El postprocesador de parámetros de reconstrucción opera
según una regla de postprocesamiento, que en ciertas realizaciones
preferidas es una regla de filtrado paso bajo, una regla de
suavizado o algo similar. En particular, el postprocesador 10 está
operativo para determinar el parámetro de reconstrucción
postprocesado de manera que un valor del parámetro de
reconstrucción postprocesado sea diferente de un valor que puede
obtenerse mediante una recuantificación de cualquier parámetro de
reconstrucción cuantificado según la regla de cuantificación.
El reconstructor 12 multicanal se utiliza para
reconstruir una parte de tiempo de cada uno del número de canales
de salida de síntesis utilizando la parte de tiempo que ha de
procesarse del canal de entrada y el parámetro de reconstrucción
postprocesado.
En realizaciones preferidas de la presente
invención, los parámetros de reconstrucción cuantificados son
parámetros BCC cuantificados tales como diferencias de nivel entre
canales, diferencias de tiempo entre canales o parámetros de
coherencia entre canales. Naturalmente, también pueden procesarse
todos los demás parámetros de reconstrucción tales como parámetros
estéreo para estéreo intensivo o estéreo paramétrico según la
presente invención.
En resumen, el sistema de la invención tiene una
primera entrada 14a para los parámetros de reconstrucción
cuantificados y preferiblemente codificados asociados con partes de
tiempo posteriores de la señal de entrada. Las partes de tiempo
posteriores de la señal de entrada se introducen en una segunda
entrada 14b, que está conectada al reconstructor 12 multicanal y
preferiblemente a un analizador 16 de señal de entrada, que se
describirá posteriormente. En el lado de entrada, el sintetizador
multicanal de la invención de la figura 1 tiene una salida 18 de
señal de salida multicanal, que incluye varios canales de salida,
cuyo número es superior a un número de canales de entrada, en el
que el número de canales de entrada puede ser un único canal de
entrada o dos o más canales de entrada. En cualquier caso, hay más
canales de salida que canales de entrada, puesto que los canales de
salida sintetizados se forman utilizando la señal de entrada por un
lado y la información lateral en forma de los parámetros de
reconstrucción por otro lado.
A continuación se hará referencia a la figura 4,
que muestra un ejemplo de un flujo de bits. El flujo de bits
incluye varias tramas 20a, 20b, 20c, ... Cada trama incluye una
parte de tiempo de la señal de entrada indicada por el rectángulo
superior de una trama en la figura 4. Adicionalmente, cada trama
incluye un conjunto de parámetros de reconstrucción cuantificados
que están asociados con la parte de tiempo, y que se ilustran en la
figura 4 por el rectángulo inferior de cada trama 20a, 20b, 20c. A
modo de ejemplo, la trama 20b se considera como la parte de la
señal de entrada que ha de procesarse, teniendo esta trama partes de
la señal de entrada precedentes, es decir, que forman el
"pasado" de la parte de la señal de entrada que ha de
procesarse. Adicionalmente, hay partes de la señal de entrada
siguientes, que forman el "futuro" de la parte de la señal de
entrada que ha de procesarse (la parte de entrada que ha de
procesarse también se denomina la parte de la señal de entrada
"actual"), mientras que las partes de la señal de entrada en el
"pasado" se denominan partes de la señal de entrada
anteriores, mientras que las partes de la señal en el futuro se
denominan partes de la señal de entrada posteriores.
A continuación se hace referencia a la figura 2
con respecto a una configuración completa de
codificador/descodifi-
cador, en la que puede situarse el sintetizador multicanal de la invención.
cador, en la que puede situarse el sintetizador multicanal de la invención.
La figura 2 muestra un lado 21 del codificador y
un lado 22 del descodificador. En el codificador, se introducen N
canales de entrada originales en una fase 23 de dispositivo
downmix. La fase de dispositivo downmix está
operativa para reducir el número de canales a por ejemplo un único
canal mono o, posiblemente, a dos canales estéreo. La
representación de la señal sometida a downmix en la salida
del dispositivo 23 downmix se introduce, entonces, en un
codificador 24 fuente, estando implementado el codificador fuente
por ejemplo como un descodificador de mp3 o como un codificador AAC
que produce un flujo de bits de salida. El lado 21 del codificador
comprende además un extractor 25 de parámetros, que, según la
presente invención, realiza el análisis BCC (bloque 116 en la
figura 11) y emite las diferencias de nivel entre canales (ICLD)
cuantificadas y preferiblemente sometidas a codificación Huffman.
El flujo de bits en la salida del codificador 24 fuente así como
los parámetros de reconstrucción cuantificados emitidos por el
extractor 25 de parámetros pueden transmitirse a un descodificador
22 o pueden almacenarse para una transmisión posterior a un
descodificador, etc.
El descodificador 22 incluye un descodificador
26 fuente, que está operativo para reconstruir una señal desde el
flujo de bits recibido (que se origina desde el codificador 24
fuente). Con este fin, el descodificador 26 fuente suministra, en
su salida, partes de tiempo posteriores de la señal de entrada a un
dispositivo 12 upmix, que realiza la misma funcionalidad que
el reconstructor 12 multicanal en la figura 1. Preferiblemente,
esta funcionalidad es una síntesis BCC tal como la implementada por
el bloque 122 en la figura 11.
Al contrario que en la figura 11, el
sintetizador multicanal de la invención comprende además el
postprocesador 10, que se denomina "suavizador de diferencia de
nivel entre canales (ICLD)", que se controla por el analizador
16 de señales de entrada, que preferiblemente realiza un análisis de
tonalidad de la señal de entrada.
Puede observarse en la figura 2 que hay
parámetros de reconstrucción tales como las diferencias de nivel
entre canales (ICLD), que se introducen en el suavizador ICLD,
mientras que hay una conexión adicional entre el extractor 25 de
parámetros y el dispositivo 12 upmix. A través de esta
conexión de desviación, otros parámetros para la reconstrucción,
que no tienen que postprocesarse, pueden suministrarse desde el
extractor 25 de parámetros al dispositivo
12 upmix.
12 upmix.
La figura 3 muestra una realización preferida
del procesamiento de parámetros de reconstrucción adaptativo a la
señal mediante el analizador 16 de señal y el suavizador 10
ICLD.
El analizador 16 de señal está formado por una
unidad 16a de determinación de la tonalidad y un dispositivo 16b de
umbralización posterior. Adicionalmente, el postprocesador 10 de
parámetros de reconstrucción de la figura 2 incluye un filtro 10a
de suavizado y un conmutador 10b del postprocesador. El conmutador
10b del postprocesador está operativo para controlarse por el
dispositivo 16b de umbralización de manera que el conmutador se
activa, cuando el dispositivo 16b de umbralización determina que una
determinada característica de la señal de la señal de entrada tal
como la característica de tonalidad está en una relación
predeterminada con respecto a un determinado umbral especificado.
En el presente caso, la situación es tal que el conmutador se activa
para situarse en la posición superior (tal como se ilustra en la
figura 3), cuando la tonalidad de una parte de señal de la señal de
entrada, y, en particular, una determinada banda de frecuencia de
una determinada parte de tiempo de la señal de entrada tiene una
tonalidad superior a un umbral de tonalidad. En este caso, el
conmutador 10b se activa para conectar la salida del filtro 10a de
suavizado a la entrada del reconstructor 12 multicanal de modo que
las diferencias entre canales postprocesadas, pero todavía no
cuantificadas inversamente se suministran al
descodificador/reconstructor multicanal/dispositivo 12
upmix.
Sin embargo, cuando los medios de determinación
de la tonalidad determinan que una determinada banda de frecuencia
de una parte de tiempo actual de la señal de entrada, es decir, una
determinada banda de frecuencia de una parte de la señal de entrada
que ha de procesarse tiene una tonalidad inferior al umbral
especificado, es decir, es transitoria, el conmutador se activa de
manera que se evita el filtro 10a de suavizado.
En este ultimo caso, el postprocesamiento
adaptativo a la señal por el filtro 10a de suavizado garantiza que
el parámetro de reconstrucción cambia para señales transitorias pasa
por la fase de postprocesamiento sin modificarse y da como
resultado cambios rápidos en la señal de salida reconstruida con
respecto a la imagen espacial, que corresponde a situaciones reales
con un alto grado de probabilidad para señales transitorias.
Ha de indicarse aquí que la realización de la
figura 3, es decir, activar el postprocesamiento por un lado y
desactivar totalmente el postprocesamiento por otro lado, es decir,
una decisión binaria de postprocesamiento o no sólo es una
realización preferida debido a su estructura simple y eficaz. No
obstante, ha de indicarse que, en particular con respecto a la
tonalidad, esta característica de la señal no sólo es un parámetro
cualitativo sino también un parámetro cuantitativo, que puede
situarse normalmente entre 0 y 1. Según el parámetro determinado
cuantitativamente, el grado de suavizado de un filtro de suavizado
o, por ejemplo, la frecuencia de corte de un filtro paso bajo puede
ajustarse de manera que, para señales fuertemente tonales, se active
un suavizado fuerte, mientras que para señales que no son tan
tonales, se inicia el suavizado con un grado de suavizado
inferior.
Naturalmente, también podrían detectarse partes
transitorias y exagerar los cambios en los parámetros con respecto
a valores entre valores cuantificados predefinidos o índices de
cuantificación de modo que, para señales fuertemente transitorias,
el postprocesamiento para los parámetros de reconstrucción da como
resultado un cambio incluso más exagerado de la imagen espacial de
una señal multicanal. En este caso, un tamaño de paso de
cuantificación de 1 según las instrucciones de parámetros de
reconstrucción posteriores para partes de tiempo posteriores puede
mejorarse por ejemplo a 1,5, 1,4, 1,3 etc., lo que da como resultado
una imagen espacial que cambia de manera incluso más espectacular
de la señal multicanal reconstruida.
Ha de indicarse aquí que una característica
tonal de la señal, una característica transitoria de la señal u
otras características de la señal son sólo ejemplos de
características de la señal, sobre la base de las cuales puede
realizarse un análisis de señal para controlar un postprocesador de
parámetros de reconstrucción. En respuesta a este control, el
postprocesador de parámetros de reconstrucción determina un
parámetro de reconstrucción postprocesado que tiene un valor que es
diferente de cualquier valor para los índices de cuantificación por
un lado o valores de recuantificación por otro lado, determinados
por una regla de cuantificación predeterminada.
Ha de indicarse aquí que el postprocesamiento de
parámetros de reconstrucción en función de una característica de la
señal, es decir, un postprocesamiento de parámetros adaptativo a la
señal sólo es opcional. Un postprocesamiento independiente de la
señal también proporciona ventajas para numerosas señales. Una
determinada función de postprocesamiento podría seleccionarse, por
ejemplo, por el usuario de modo que el usuario obtenga cambios
mejorados (en caso de una función de exageración) o cambios
amortiguados (en caso de una función de suavizado).
Alternativamente, un postprocesamiento independiente de cualquier
selección de usuario e independiente de las características de la
señal también puede proporcionar ciertas ventajas con respecto a
robustez de errores. Queda claro que, especialmente en el caso de
un tamaño de paso del cuantificador grande, un error de transmisión
en un índice del cuantificador puede dar como resultado artefactos
fuertemente audibles. Con este fin, se realizaría una corrección de
errores hacia delante o algo similar, cuando la señal ha de
transmitirse sobre canales con tendencia a errores. Según la
presente invención, el postprocesamiento puede obviar la necesidad
de cualquier código de corrección de errores ineficaces en bits, ya
que el postprocesamiento de los parámetros de reconstrucción
basándose en parámetros de reconstrucción en el pasado dará como
resultado una detección de parámetros de reconstrucción
cuantificados transmitidos de manera errónea y dará como resultado
contramedidas adecuadas frente a tales errores. Adicionalmente,
cuando la función de postprocesamiento es una función de suavizado,
los parámetros de reconstrucción cuantificados que difieren
fuertemente de los parámetros de reconstrucción anteriores o
posteriores se manipularán automáticamente tal como se expondrá más
adelante.
La figura 5 muestra una realización preferida
del postprocesador 10 de parámetros de reconstrucción de la figura
1. En particular, se considera la situación en la que los parámetros
de reconstrucción cuantificados están codificados. En este caso,
los parámetros de reconstrucción cuantificados codificados se
introducen en un descodificador 10c de entropía, que emite la
secuencia de parámetros de reconstrucción cuantificados
descodificados. Los parámetros de reconstrucción en la salida del
descodificador de entropía están cuantificados, lo que significa
que no tienen un cierto valor "útil" pero que significa que
indican ciertos índices de cuantificador o niveles del
cuantificador de una determinada regla de cuantificación
implementada por un cuantificador inverso posterior. El manipulador
10d puede ser, por ejemplo, un filtro digital tal como un filtro IIR
(preferiblemente) o FIR que tiene cualquier característica de
filtro determinada por la función de postprocesamiento requerida.
Se prefiere una función de postprocesamiento de suavizado o filtrado
paso bajo. En la salida del manipulador 10d, se obtiene una
secuencia de parámetros de reconstrucción cuantificados manipulados,
que no sólo son números enteros sino que son cualquier número real
situado dentro del intervalo determinado por la regla de
cuantificación. Tal parámetro de reconstrucción cuantificado
manipulado podría tener valores de 1,1, 0,1, 0,5, ..., en
comparación con valores 1, 0, 1 antes de la fase 10d. La secuencia
de valores en la salida del bloque 10d se introducen entonces en un
cuantificador 10e inverso mejorado para obtener parámetros de
reconstrucción postprocesados, que pueden utilizarse para una
reconstrucción multicanal (por ejemplo síntesis BCC) en el bloque 12
de la figura 1.
Ha de observarse que el cuantificador 10e
mejorado es diferente de un cuantificador inverso normal ya que un
cuantificador inverso normal sólo mapea cada entrada de
cuantificación de un número limitado de índices de cuantificación
en un valor de salida especificado cuantificado inversamente. Los
cuantificadores inversos normales no pueden mapear índices de
cuantificador que no sean números enteros. El cuantificador 10e
inverso mejorado se implementa por lo tanto para utilizar
preferiblemente la misma regla de cuantificación tal como una ley
de cuantificación lineal o logarítmica, pero puede aceptar entradas
que no sean números enteros para proporcionar valores de salida que
sean diferentes de los valores que pueden obtenerse utilizando sólo
entradas que sean números enteros.
Con respecto a la presente invención,
básicamente no hay diferencia alguna entre si la manipulación se
realiza antes de la recuantificación (véase la figura 5) o después
de la recuantificación (véase la figura 6a, la figura 6b). En este
último caso, el cuantificador inverso sólo tiene que ser un
cuantificador inverso normal sencillo, que es diferente del
cuantificador 10e inverso mejorado de la figura 5 tal como se ha
expuesto anteriormente. Naturalmente, la selección entre la figura
5 y la figura 6a será una elección en función de la implementación
determinada. Para la presente implementación BCC, se prefiere la
realización de la figura 5, ya que es más compatible con los
algoritmos BCC existentes. No obstante, esto puede ser diferente
para otras aplicaciones.
La figura 6b muestra una realización en la que
el cuantificador 10e inverso mejorado en la figura 6a se sustituye
por un cuantificador inverso sencillo y un mapeador 10g para el
mapeo según una curva lineal o preferiblemente no lineal. Este
mapeador puede implementarse en hardware o en software tal como un
circuito para realizar una operación matemática o como una tabla de
consulta. La manipulación de datos utilizando, por ejemplo, el
suavizador 10g puede realizarse antes del mapeador 10g o después del
mapeador 10g o en ambos sitios en combinación. Se prefiere esta
realización cuando el postprocesamiento se realiza en el dominio del
cuantificador inverso, ya que todos los elementos 10f, 10h, 10g
pueden implementarse utilizando componentes sencillos tales como
circuitos de rutinas de software.
Generalmente, el postprocesador 10 se implementa
como un postprocesador, tal como se indica en la figura 7a, que
recibe todos o una selección de parámetros de reconstrucción
cuantificados actuales, parámetros de reconstrucción futuros o
parámetros de reconstrucción cuantificados pasados. En el caso en el
que el postprocesador sólo recibe al menos un parámetro de
reconstrucción pasado y el parámetro de reconstrucción actual, el
postprocesador actuará como un filtro paso bajo. Cuando el
postprocesador 10, sin embargo, recibe un parámetro de
reconstrucción cuantificado futuro, que no es posible en
aplicaciones en tiempo real, pero que es posible en todas las demás
aplicaciones, el postprocesador puede realizar una interpolación
entre el parámetro de reconstrucción cuantificado futuro y el
presente o uno pasado para por ejemplo suavizar una línea de tiempo
de un parámetro de reconstrucción, por ejemplo para una determinada
banda de frecuencia.
Tal como se ha expuesto anteriormente, la
manipulación de datos para superar artefactos debidos a los tamaños
de paso de cuantificación en un entorno de cuantificación basta
también puede realizarse sobre una cantidad derivada del parámetro
de reconstrucción asociado al canal base en la señal multicanal
codificada paramétricamente. Cuando, por ejemplo, el parámetro de
reconstrucción cuantificado es un parámetro de diferencia (ICLD),
este parámetro puede cuantificarse inversamente sin ninguna
modificación. Entonces puede derivarse un valor de nivel absoluto
para un canal de salida y la manipulación de datos de la invención
se realiza sobre el valor absoluto. Este procedimiento también da
como resultado la reducción de artefactos de la invención, siempre
que la manipulación de datos en el recorrido de procesamiento entre
el parámetro de reconstrucción cuantificado y la reconstrucción
actual se realice de manera que un valor del parámetro de
reconstrucción postprocesado o la cantidad postprocesada sea
diferente de un valor que puede obtenerse utilizando una
recuantificación según la regla de cuantificación, es decir sin
manipulación para superar la "limitación del tamaño de
paso".
Son concebibles y se utilizan en la técnica
numerosas funciones de mapeo para derivar la cantidad finalmente
manipulada a partir del parámetro de reconstrucción cuantificado,
incluyendo estas funciones de mapeo funciones para mapear
unívocamente un valor de entrada con un valor de salida según una
regla de mapeo para obtener una cantidad no postprocesada, que se
postprocesa entonces para obtener la cantidad postprocesada
utilizada en el algoritmo de (síntesis) reconstrucción
multicanal.
A continuación se hará referencia a la figura 8
para ilustrar diferencias entre un cuantificador 10e inverso
mejorado de la figura 5 y un cuantificador 10f inverso sencillo de
la figura 6a. Con este fin, la ilustración de la figura 8 muestra,
como eje horizontal, un eje de valores de entrada para valores no
cuantificados. El eje vertical ilustra los niveles del
cuantificador o índices del cuantificador, que son preferiblemente
números enteros que tienen un valor de 0, 1, 2, 3. Ha de indicarse
aquí que el cuantificador de la figura 8 no dará como resultado
ningún valor entre 0 y 1 ó 1 y 2. El mapeo con estos niveles del
cuantificador se controla mediante la función en forma escalonada
de manera que los valores entre -10 y 10 por ejemplo se mapean con
0, mientras que los valores entre 10 y 20 se cuantifican a 1,
etc.
Una posible función del cuantificador inverso es
mapear un nivel del cuantificador de 0 con un valor cuantificado
inversamente de 0. Un nivel del cuantificador de 1 se mapearía con
un valor cuantificado inversamente de 10. De manera análoga, un
nivel del cuantificador de 2 se mapearía con un valor cuantificado
inversamente de 20 por ejemplo. La recuantificación se controla,
por lo tanto, mediante una función del cuantificador inverso
indicada por el número de referencia 31. Ha de observarse que, para
un cuantificador inverso sencillo, sólo son posibles los puntos de
cruce de la línea 30 y la línea 31. Esto significa que, para un
cuantificador inverso sencillo que tenga una regla del
cuantificador inverso de la figura 8 sólo pueden obtenerse los
valores de 0, 10, 20, 30 mediante una recuantificación.
Esto es diferente en el cuantificador 10e
inverso mejorado, ya que el cuantificador inverso mejorado recibe,
como entrada, valores entre 0 y 1 ó 1 y 2 tales como el valor 0,5.
La recuantificación avanzada del valor 0,5 obtenido por el
manipulador 10d dará como resultado un valor de salida cuantificado
inversamente de 5, es decir, en un parámetro de reconstrucción
postprocesado que tiene un valor que es diferente de un valor que
puede obtenerse mediante una recuantificación según la regla de
cuantificación. Mientras que la regla de cuantificación normal sólo
permite valores de 0 ó 10, el cuantificador inverso de la invención
que trabaja según la función 31 del cuantificador inverso da como
resultado un valor diferente, es decir, el valor de 5 tal como se
indica en la figura 8.
Mientras que el cuantificador inverso sencillo
mapea niveles del cuantificador de números enteros con sólo niveles
cuantificados, el cuantificador inverso mejorado recibe
"niveles" del cuantificador que no son números enteros para
mapear estos valores con "valores cuantificados inversamente"
entre los valores determinados por la regla del cuantificador
inverso.
La figura 9 muestra el impacto del
postprocesamiento de la invención para la realización de la figura
5. La figura 9a muestra una secuencia de parámetros de
reconstrucción cuantificados que varía entre 0 y 3. La figura 9b
muestra una secuencia de parámetros de reconstrucción
postprocesados, que también se denominan "índices del
cuantificador modificados", cuando la forma de onda de la figura
9a se introduce en un filtro paso bajo (suavizado). Ha de indicarse
aquí que los aumentos/disminuciones en el momento de tiempo 1, 4, 6,
8, 9, y 10 se reducen en la realización de la figura 9b. Ha de
observarse con énfasis que el pico entre el instante de tiempo 8 y
el instante de tiempo 9, que podría ser un artefacto se amortigua en
un paso de cuantificación completo. La amortiguación de tales
valores extremos puede controlarse, sin embargo, mediante un grado
de postprocesamiento según un valor de tonalidad cuantitativo tal
como se ha expuesto anteriormente.
La presente invención es ventajosa porque el
postprocesamiento de la invención suaviza fluctuaciones o suaviza
valores extremos breves. La situación surge especialmente en el caso
de que partes de señal de varios canales de entrada que tienen una
energía similar se superponen en una banda de frecuencia de una
señal, es decir, el canal base o canal de la señal de entrada. Esta
banda de frecuencia se mezcla entonces, por cada parte de tiempo y
en función de la situación en ese instante, para dar los respectivos
canales de salida de una manera altamente fluctuante. Desde un
punto de vista psicoacústico, sería mejor, sin embargo, suavizar
estas fluctuaciones, ya que estas fluctuaciones no contribuyen
sustancialmente a una detección de una fuente de una fuente, pero
afectan a la impresión de escucha subjetiva de una manera
negativa.
Según una realización preferida de la presente
invención, tales artefactos audibles se reducen o incluso eliminan
sin incurrir en pérdidas de calidad en una ubicación diferente en el
sistema o sin requerir una mayor resolución/cuantificación (y, por
tanto, una tasa de datos superior) de los parámetros de
reconstrucción transmitidos. La presente invención logra su objeto
realizando una modificación (suavizado) adaptiva a la señal de los
parámetros sin influir sustancialmente en indicaciones de detección
de localización espaciales importantes.
Los cambios que suceden repentinamente en la
característica de la señal de salida reconstruida dan como resultado
artefactos audibles en particular para señales de audio que tienen
una característica estacionaria altamente constante. Este es el
caso de las señales tonales. Por lo tanto, es importante
proporcionar una transición "más suave" entre parámetros de
reconstrucción cuantificados para tales señales. Esto puede
obtenerse por ejemplo mediante suavizado, interpolación, etc.
Adicionalmente, tal modificación de valores de
parámetros puede introducir distorsiones audibles para otros tipos
de señales de audio. Este es el caso de señales que incluyen rápidas
fluctuaciones en su característica. Una característica de este tipo
puede encontrarse en la parte transitoria o de ataque de un
instrumento de percusión. En este caso, la presente invención
proporciona una desactivación del suavizado de parámetros.
Esto se obtiene mediante el postprocesamiento de
los parámetros de reconstrucción cuantificados transmitidos de una
forma adaptativa a la señal.
La adaptabilidad puede ser lineal o no lineal.
Cuando la adaptabilidad es no linear, se realiza un procedimiento
de umbralización tal como se describe en la figura 3.
Otro criterio para controlar la adaptabilidad es
una determinación de la estacionalidad de una característica de la
señal. Una determinada forma para determinar la estacionalidad de
una característica de la señal es la evaluación de la envolvente de
la señal o, en particular, la tonalidad de la señal. Ha de indicarse
aquí que la tonalidad puede determinarse para el intervalo de
frecuencia completo o, preferiblemente, individualmente para
diferentes bandas de frecuencia de una señal de audio.
La presente invención da como resultado una
reducción o incluso eliminación de artefactos, que eran, hasta
ahora, inevitables, sin incurrir en un aumento de la tasa de datos
necesaria para transmitir los valores de parámetros.
Tal como se ha expuesto anteriormente con
respecto a las figuras 2 y 3, la realización preferida de la
presente invención realiza un suavizado de las diferencias de nivel
entre canales, cuando la parte de la señal en cuestión tiene una
característica tonal. Las diferencias de nivel entre canales, que se
calculan en un codificador y se cuantifican en un codificador se
envían a un descodificador para someterse a una operación de
suavizado adaptativo a la señal. La componente adaptiva es una
determinación de la tonalidad en conexión con una determinación de
umbral, que enciende el filtrado de las diferencias de nivel entre
canales para componentes tonales espectrales, y que apaga este
postprocesamiento para componentes espectrales transitorias y de
tipo ruido. En esta realización, no se necesita información lateral
adicional de un codificador para realizar los algoritmos de
suavizado adaptativo.
Ha de indicarse aquí que el postprocesamiento de
la invención también puede usarse para otros conceptos de
codificación paramétrica de señales multicanal tales como para
MP3/AAC estéreo paramétrico, envolvente MP3, y métodos
similares.
Claims (26)
1. Sintetizador multicanal para generar una
señal de salida a partir de una señal de entrada, teniendo la señal
de entrada al menos un canal de entrada y una secuencia de
parámetros de reconstrucción cuantificados, estando cuantificados
los parámetros de reconstrucción cuantificados según una regla de
cuantificación, y estando asociados con partes de tiempo
posteriores del canal de entrada, teniendo la señal de salida un
número de canales de salida sintetizados, y siendo el número de
canales de salida sintetizados superior a 1 o superior a un número
de canales de entrada, que comprende:
un postprocesador (10) para determinar un
parámetro de reconstrucción postprocesado o una cantidad
postprocesada derivada del parámetro de reconstrucción para una
parte de tiempo de la señal de entrada que ha de procesarse, en el
que el postprocesador (10) está operativo para determinar el
parámetro de reconstrucción postprocesado o la cantidad
postprocesada de manera que un valor del parámetro de reconstrucción
postprocesado o la cantidad postprocesada es diferente de un valor
que puede obtenerse utilizando una recuantificación según la regla
de cuantificación; y
un reconstructor (12) multicanal para
reconstruir una parte de tiempo del número de canales de salida
sintetizados utilizando la parte de tiempo del canal de entrada y
el parámetro de reconstrucción postprocesado o el valor
postprocesado.
2. Sintetizador multicanal según la
reivindicación 1, que comprende además:
un analizador (16) de señal de entrada para
analizar la señal de entrada para determinar una característica de
la señal de la parte de tiempo de la señal de entrada que ha de
procesarse; y
en el que el postprocesador (10) está operativo
para determinar el parámetro de reconstrucción postprocesado
dependiendo de la característica de la señal.
3. Sintetizador multicanal según la
reivindicación 2, en el que el postprocesador (10) está operativo
para determinar el parámetro de reconstrucción postprocesado,
cuando se determina una característica de la señal predeterminada
por el analizador (16) de señal de entrada, y para evitar el
postprocesador (10), cuando la característica de la señal
predeterminada no se determina por el analizador de señal de entrada
para una parte de tiempo de la señal de entrada.
4. Sintetizador multicanal según la
reivindicación 3, en el que el analizador (16) de señal de entrada
está operativo para determinar la característica de la señal como
la característica de la señal predeterminada, cuando un valor de la
característica de la señal se encuentra en una relación especificada
con respecto a un umbral.
5. Sintetizador multicanal según la
reivindicación 2, 3 ó 4, en el que la característica de la señal es
una característica de tonalidad o una característica transitoria de
la parte de la señal de entrada que ha de procesarse.
6. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 5, en el que el postprocesador (10) está
operativo para realizar una función de suavizado de modo que una
secuencia de parámetros de reconstrucción postprocesados sea más
suave en el tiempo en comparación con una secuencia de parámetros de
reconstrucción cuantificados inversamente no postprocesados.
7. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 6, en el que el postprocesador (10) está
operativo para realizar una función de suavizado, y en el que el
postprocesador (10) incluye un filtro digital que tiene una
característica de paso bajo, recibiendo el filtro como una entrada
al menos un parámetro de reconstrucción asociado con una parte de
tiempo precedente de la señal de entrada.
8. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 7, en el que el postprocesador (10) está
operativo para realizar una función de interpolación utilizando un
parámetro de reconstrucción asociado con al menos una parte de
tiempo precedente o utilizando un parámetro de reconstrucción
asociado con al menos una parte de tiempo posterior.
9. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 8, en el que el postprocesador (10) está
operativo
para determinar un parámetro de reconstrucción
manipulado como no coincidente con ningún nivel de cuantificación
definido por la regla de cuantificación, y
para cuantificar inversamente el parámetro de
reconstrucción manipulado utilizando un cuantificador inverso que
puede operarse para mapear el parámetro de reconstrucción manipulado
con un parámetro de reconstrucción manipulado cuantificado
inversamente no coincidente con un valor cuantificado inversamente
definido por el mapeo de cualquier nivel de cuantificación por el
cuantificador inverso.
10. Sintetizador multicanal según la
reivindicación 9, en el que la regla de cuantificación es una regla
de cuantificación logarítmica.
11. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 10, en el que el postprocesador (10) está
operativo
para cuantificar inversamente parámetros de
reconstrucción cuantificados según la regla de cuantificación,
para manipular parámetros de reconstrucción
cuantificados inversamente obtenidos, y
para mapear parámetros manipulados según una
función lineal o no lineal.
12. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 11, en el que el postprocesador (10) está
operativo
para cuantificar inversamente parámetros de
reconstrucción cuantificados según la regla de cuantificación,
para mapear parámetros cuantificados
inversamente obtenidos según un función lineal o no lineal; y
para manipular parámetros de reconstrucción
mapeados obtenidos.
13. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 12, en el que el postprocesador (10) está
operativo para determinar un parámetro de reconstrucción
cuantificado inversamente asociado con la parte de tiempo posterior
de la señal de entrada según la regla de cuantificación, y
en el que el postprocesador (10) está operativo
además para determinar un parámetro de reconstrucción postprocesado
basándose en al menos un parámetro de reconstrucción cuantificado
inversamente para al menos una parte de tiempo precedente de la
señal de entrada.
14. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 13, en el que una parte de tiempo de la
señal de entrada tiene asociados a la misma una pluralidad de
parámetros de reconstrucción cuantificados para diferentes bandas
de frecuencia de la señal de entrada, y
en el que el postprocesador (10) está operativo
para determinar parámetros de reconstrucción postprocesados para
las diferentes bandas de frecuencia de la señal de entrada.
15. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 14,
en el que la señal de entrada es un espectro de
suma obtenido combinando al menos dos canales originales de una
señal de audio multicanal, y
en el que el parámetro de reconstrucción
cuantificado es un parámetro diferencia de nivel entre canales, un
parámetro de diferencia de tiempo entre canales, un parámetro de
diferencia de fase entre canales o un parámetro de coherencia entre
canales.
16. Sintetizador multicanal según cualquiera de
las reivindicaciones 2 a 15, en el que el analizador (16) de canal
de entrada está operativo para determinar un grado que indica
cuantitativamente en qué medida tiene la señal de entrada la
característica de la señal, y
en el que el postprocesador (10) está operativo
para realizar un postprocesamiento con una intensidad en función
del grado.
17. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 16, en el que el postprocesador (10) está
operativo para utilizar el parámetro de reconstrucción cuantificado
asociado con la parte de tiempo que ha de procesarse, cuando se
determina el parámetro de reconstrucción postprocesado para la parte
de tiempo que ha de procesarse.
18. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 17, en el que la regla de cuantificación
es tal que una diferencia entre dos niveles de cuantificación
adyacentes es superior a una diferencia entre dos números
determinados por una precisión de procesador de un procesador para
realizar cálculos numéricos.
19. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 18, en el que los parámetros de
reconstrucción cuantificados se codifican por entropía y se asocian
con la parte de tiempo en una forma codificada por entropía, y
en el que el postprocesador (10) está operativo
para descodificar por entropía el parámetro de reconstrucción
cuantificado codificado por entropía utilizado para determinar los
parámetros de reconstrucción postprocesados.
20. Sintetizador multicanal según la vindicación
7, en el que el filtro (10a) digital es un filtro IIR.
\newpage
21. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 20, en el que el postprocesador (10) está
operativo para implementar una regla de postprocesamiento de manera
que una diferencia entre parámetros de reconstrucción
postprocesados para partes de tiempo posteriores es inferior a una
diferencia entre parámetros de reconstrucción no postprocesados
derivada de los parámetros de reconstrucción cuantificados asociados
con partes de tiempo posteriores mediante recuantificación.
22. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 21, en el que la cantidad postprocesada se
deriva del parámetro de reconstrucción cuantificado utilizando sólo
una función de mapeo que mapea únicamente un valor de entrada con
un valor de salida según una regla de mapeo para obtener una
cantidad no postprocesada, y en el que el postprocesador está
operativo para postprocesar la cantidad no postprocesada para
obtener la cantidad postprocesada.
23. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 22, en el que el parámetro de
reconstrucción cuantificado es un parámetro de diferencia que
indica una diferencia parametrizada entre dos cantidades absolutas
asociadas con los canales de entrada, y en el que la cantidad
postprocesada es un valor absoluto utilizado para reconstruir un
canal de salida correspondiente a uno de los canales de entrada.
24. Sintetizador multicanal según cualquiera de
las reivindicaciones 1 a 23, en el que el parámetro de
reconstrucción cuantificado es una diferencia de nivel entre
canales, y en el que la cantidad postprocesada indica un nivel
absoluto de un canal de salida, o en el que el parámetro de
reconstrucción cuantificado es una diferencia de tiempo entre
canales, y en el que la cantidad postprocesada indica una referencia
de tiempo absoluto de un canal de salida, o
en el que el parámetro de reconstrucción
cuantificado es una medida de coherencia entre canales, y en el que
la cantidad postprocesada indica un nivel de coherencia absoluto de
un canal de salida, o
en el que el parámetro de reconstrucción
cuantificado es una diferencia de fase entre canales, y en el que
la cantidad postprocesada indica un valor de fase absoluto de un
canal de salida.
25. Método de generación de una señal de salida
a partir de una señal de entrada, teniendo la señal de entrada al
menos un canal de entrada y una secuencia de parámetros de
reconstrucción cuantificados, estando cuantificados los parámetros
de reconstrucción cuantificados según una regla de cuantificación, y
estando asociados con partes de tiempo posteriores del canal de
entrada, teniendo la señal de salida un número de canales de salida
sintetizados, y siendo el número de canales de salida sintetizados
superior a 1 o superior a un número de canales de entrada, que
comprende:
determinar (10) un parámetro de reconstrucción
postprocesado o una cantidad postprocesada derivada del parámetro
de reconstrucción para una parte de tiempo de la señal de entrada
que ha de procesarse, de manera que un valor del parámetro de
reconstrucción postprocesado o la cantidad postprocesada es
diferente de un valor que puede obtenerse utilizando una
recuantificación según la regla de cuantificación; y
reconstruir (12) una parte de tiempo del número
de canales de salida sintetizados utilizando la parte de tiempo del
canal de entrada y el parámetro de reconstrucción postprocesado o el
valor postprocesado.
26. Programa informático que tiene un código de
programa para realizar, cuando se ejecuta en un ordenador, un método
según la reivindicación 25.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/883,538 US8843378B2 (en) | 2004-06-30 | 2004-06-30 | Multi-channel synthesizer and method for generating a multi-channel output signal |
US883538 | 2004-06-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2307188T3 true ES2307188T3 (es) | 2008-11-16 |
Family
ID=34971777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05757240T Active ES2307188T3 (es) | 2004-06-30 | 2005-06-13 | Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. |
Country Status (18)
Country | Link |
---|---|
US (1) | US8843378B2 (es) |
EP (1) | EP1649723B1 (es) |
JP (1) | JP4712799B2 (es) |
KR (1) | KR100913987B1 (es) |
CN (1) | CN1954642B (es) |
AT (1) | ATE394901T1 (es) |
AU (1) | AU2005259618B2 (es) |
BR (1) | BRPI0511362B1 (es) |
CA (1) | CA2569666C (es) |
DE (1) | DE602005006495D1 (es) |
ES (1) | ES2307188T3 (es) |
HK (1) | HK1090504A1 (es) |
IL (1) | IL178670A (es) |
MX (1) | MXPA06014968A (es) |
NO (1) | NO338980B1 (es) |
PT (1) | PT1649723E (es) |
RU (1) | RU2345506C2 (es) |
WO (1) | WO2006002748A1 (es) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4612787B2 (ja) * | 2003-03-07 | 2011-01-12 | キヤノン株式会社 | 画像データの暗号化装置の制御方法及び画像データ変換装置の制御方法、及び、それらの装置、並びにコンピュータプログラム及びコンピュータ可読記憶媒体 |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
PL2175671T3 (pl) * | 2004-07-14 | 2012-10-31 | Koninl Philips Electronics Nv | Sposób, urządzenie, urządzenie kodujące, urządzenie dekodujące i system audio |
JP4892184B2 (ja) * | 2004-10-14 | 2012-03-07 | パナソニック株式会社 | 音響信号符号化装置及び音響信号復号装置 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
WO2006091139A1 (en) * | 2005-02-23 | 2006-08-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
CN101147191B (zh) * | 2005-03-25 | 2011-07-13 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
WO2006126844A2 (en) * | 2005-05-26 | 2006-11-30 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
WO2007037613A1 (en) * | 2005-09-27 | 2007-04-05 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
TWI329462B (en) * | 2006-01-19 | 2010-08-21 | Lg Electronics Inc | Method and apparatus for processing a media signal |
US8560303B2 (en) * | 2006-02-03 | 2013-10-15 | Electronics And Telecommunications Research Institute | Apparatus and method for visualization of multichannel audio signals |
JP5054035B2 (ja) * | 2006-02-07 | 2012-10-24 | エルジー エレクトロニクス インコーポレイティド | 符号化/復号化装置及び方法 |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
EP1870880B1 (en) * | 2006-06-19 | 2010-04-07 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
DE102006030276A1 (de) | 2006-06-30 | 2008-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines gefilterten Aktivitätsmusters, Quellentrenner, Verfahren zum Erzeugen eines bereinigten Audiosignals und Computerprogramm |
KR100763919B1 (ko) * | 2006-08-03 | 2007-10-05 | 삼성전자주식회사 | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치 |
US20080235006A1 (en) * | 2006-08-18 | 2008-09-25 | Lg Electronics, Inc. | Method and Apparatus for Decoding an Audio Signal |
JP4769673B2 (ja) | 2006-09-20 | 2011-09-07 | 富士通株式会社 | オーディオ信号補間方法及びオーディオ信号補間装置 |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
JP5450085B2 (ja) | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US9015051B2 (en) * | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8908873B2 (en) * | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US8290167B2 (en) * | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
KR101505831B1 (ko) * | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
KR101230479B1 (ko) | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
US20110137661A1 (en) * | 2008-08-08 | 2011-06-09 | Panasonic Corporation | Quantizing device, encoding device, quantizing method, and encoding method |
EP2154910A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for merging spatial audio streams |
WO2010036059A2 (en) * | 2008-09-25 | 2010-04-01 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2169664A3 (en) * | 2008-09-25 | 2010-04-07 | LG Electronics Inc. | A method and an apparatus for processing a signal |
EP2169665B1 (en) * | 2008-09-25 | 2018-05-02 | LG Electronics Inc. | A method and an apparatus for processing a signal |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
AU2010303039B9 (en) | 2009-09-29 | 2014-10-23 | Dolby International Ab | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
AU2010310041B2 (en) | 2009-10-21 | 2013-08-15 | Dolby International Ab | Apparatus and method for generating a high frequency audio signal using adaptive oversampling |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
EP2464146A1 (en) | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
PL2671222T3 (pl) * | 2011-02-02 | 2016-08-31 | Ericsson Telefon Ab L M | Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio |
US9299355B2 (en) | 2011-08-04 | 2016-03-29 | Dolby International Ab | FM stereo radio receiver by using parametric stereo |
EP2834814B1 (en) | 2012-04-05 | 2016-03-02 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
JP5977434B2 (ja) * | 2012-04-05 | 2016-08-24 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器 |
EP2862166B1 (en) * | 2012-06-14 | 2018-03-07 | Dolby International AB | Error concealment strategy in a decoding system |
US9319790B2 (en) * | 2012-12-26 | 2016-04-19 | Dts Llc | Systems and methods of frequency response correction for consumer electronic devices |
CN103533123B (zh) * | 2013-09-23 | 2018-04-06 | 陕西烽火电子股份有限公司 | 一种飞机用多接收通道通话静噪方法 |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US9774974B2 (en) | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
US20190096410A1 (en) * | 2016-03-03 | 2019-03-28 | Nokia Technologies Oy | Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding |
WO2017158105A1 (en) * | 2016-03-18 | 2017-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding by reconstructing phase information using a structure tensor on audio spectrograms |
CN107452387B (zh) * | 2016-05-31 | 2019-11-12 | 华为技术有限公司 | 一种声道间相位差参数的提取方法及装置 |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
US5675701A (en) | 1995-04-28 | 1997-10-07 | Lucent Technologies Inc. | Speech coding parameter smoothing method |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
JP3266178B2 (ja) * | 1996-12-18 | 2002-03-18 | 日本電気株式会社 | 音声符号化装置 |
US6307941B1 (en) * | 1997-07-15 | 2001-10-23 | Desper Products, Inc. | System and method for localization of virtual sound |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP4008607B2 (ja) | 1999-01-22 | 2007-11-14 | 株式会社東芝 | 音声符号化/復号化方法 |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
US20030220801A1 (en) * | 2002-05-22 | 2003-11-27 | Spurrier Thomas E. | Audio compression method and apparatus |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
KR101049751B1 (ko) * | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
US20060171542A1 (en) * | 2003-03-24 | 2006-08-03 | Den Brinker Albertus C | Coding of main and side signal representing a multichannel signal |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7394903B2 (en) * | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
-
2004
- 2004-06-30 US US10/883,538 patent/US8843378B2/en active Active
-
2005
- 2005-06-13 WO PCT/EP2005/006315 patent/WO2006002748A1/en active IP Right Grant
- 2005-06-13 DE DE602005006495T patent/DE602005006495D1/de active Active
- 2005-06-13 CN CN2005800152836A patent/CN1954642B/zh active Active
- 2005-06-13 MX MXPA06014968A patent/MXPA06014968A/es active IP Right Grant
- 2005-06-13 CA CA2569666A patent/CA2569666C/en active Active
- 2005-06-13 KR KR1020067027932A patent/KR100913987B1/ko active IP Right Grant
- 2005-06-13 AT AT05757240T patent/ATE394901T1/de active
- 2005-06-13 AU AU2005259618A patent/AU2005259618B2/en active Active
- 2005-06-13 EP EP05757240A patent/EP1649723B1/en active Active
- 2005-06-13 PT PT05757240T patent/PT1649723E/pt unknown
- 2005-06-13 JP JP2007518481A patent/JP4712799B2/ja active Active
- 2005-06-13 ES ES05757240T patent/ES2307188T3/es active Active
- 2005-06-13 RU RU2007103341/09A patent/RU2345506C2/ru active
- 2005-06-13 BR BRPI0511362A patent/BRPI0511362B1/pt active IP Right Grant
-
2006
- 2006-09-28 HK HK06110779A patent/HK1090504A1/xx unknown
- 2006-10-17 IL IL178670A patent/IL178670A/en active IP Right Grant
-
2007
- 2007-01-30 NO NO20070560A patent/NO338980B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
HK1090504A1 (en) | 2006-12-22 |
PT1649723E (pt) | 2008-07-28 |
EP1649723A1 (en) | 2006-04-26 |
MXPA06014968A (es) | 2007-02-08 |
US20060004583A1 (en) | 2006-01-05 |
RU2007103341A (ru) | 2008-08-10 |
JP2008504578A (ja) | 2008-02-14 |
CN1954642A (zh) | 2007-04-25 |
BRPI0511362A (pt) | 2007-12-04 |
BRPI0511362B1 (pt) | 2018-12-26 |
ATE394901T1 (de) | 2008-05-15 |
IL178670A0 (en) | 2007-02-11 |
NO338980B1 (no) | 2016-11-07 |
IL178670A (en) | 2011-10-31 |
AU2005259618A1 (en) | 2006-01-12 |
DE602005006495D1 (de) | 2008-06-19 |
CN1954642B (zh) | 2010-05-12 |
JP4712799B2 (ja) | 2011-06-29 |
AU2005259618B2 (en) | 2008-05-22 |
CA2569666C (en) | 2013-07-16 |
KR20070028481A (ko) | 2007-03-12 |
EP1649723B1 (en) | 2008-05-07 |
KR100913987B1 (ko) | 2009-08-25 |
US8843378B2 (en) | 2014-09-23 |
NO20070560L (no) | 2007-03-30 |
WO2006002748A1 (en) | 2006-01-12 |
CA2569666A1 (en) | 2006-01-12 |
RU2345506C2 (ru) | 2009-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2307188T3 (es) | Sintetizador multicanal y procedimiento para generar una señal de salida multicanal. | |
ES2399058T3 (es) | Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales | |
JP7379602B2 (ja) | マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ | |
ES2312025T3 (es) | Esquema de codificador/descodificador de multicanal casi transparente o transparente. | |
ES2899286T3 (es) | Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia | |
ES2555579T3 (es) | Codificador de audio multicanal y método para codificar una señal de audio multicanal | |
ES2662671T3 (es) | Procesamiento avanzado basado en un banco de filtros modulado exponencialmente complejo y procedimientos de señalización de tiempos adaptativos | |
ES2340796T3 (es) | Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. | |
JP4664431B2 (ja) | アンビエンス信号を生成するための装置および方法 | |
ES2700246T3 (es) | Mejora paramétrica de la voz | |
JP2024059683A (ja) | マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器 |