ES2314706T3 - Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros. - Google Patents
Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros. Download PDFInfo
- Publication number
- ES2314706T3 ES2314706T3 ES05782843T ES05782843T ES2314706T3 ES 2314706 T3 ES2314706 T3 ES 2314706T3 ES 05782843 T ES05782843 T ES 05782843T ES 05782843 T ES05782843 T ES 05782843T ES 2314706 T3 ES2314706 T3 ES 2314706T3
- Authority
- ES
- Spain
- Prior art keywords
- data
- configuration
- parameter
- indication
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
Abstract
Dispositivo para generar una señal multicanal utilizando datos de entrada que incluyen datos de canal de transmisión que representan M canales de transmisión y datos de parámetros para obtener K canales de salida, en el que los M canales de transmisión y los datos de parámetros representan juntos N canales originales, donde M es menor que N y mayor o igual a 1 y donde K es mayor que M, en el que los datos de entrada comprenden una indicación (41) de configuración de parámetros, que comprende: medios (24) de reconstrucción multicanal diseñados para generar los K canales de salida a partir de los datos de canal de transmisión y los datos de parámetros; y medios (26) de configuración para configurar los medios de reconstrucción multicanal, en el que los medios de configuración están diseñados para leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros, cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración de los medios de reconstrucción multicanal, y cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, configurar (34) los medios de reconstrucción multicanal utilizando información sobre un algoritmo (23) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos de tal manera que el ajuste de configuración de los medios de reconstrucción multicanal es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.
Description
Método y dispositivo para generar señal
multicanal o conjunto de datos de parámetros.
La presente invención se refiere a técnicas de
procesamiento multicanal paramétricas y en particular, a
codificadores/descodificadores para generar y/o leer una sintaxis
de datos flexible y para asociar datos de parámetros con los datos
del downmix y/o canales de transmisión.
Además de los dos canales estéreo, una
representación envolvente multicanal recomendada incluye un canal
central C y dos canales envolventes, esto es, el canal envolvente
izquierdo Ls y el canal envolvente derecho Rs, y adicionalmente, si
es aplicable, un canal de altavoz de graves (subwoofer)
también denominado como canal LFE (LFE = Low Frequency
Enhancement, mejora de bajas frecuencias). Este formato de
sonido de referencia es también denominado como estéreo 3/2 (más
LFE) y recientemente también como multicanal 5.1, lo que significa
que hay tres canales delanteros y dos canales envolventes. En
general, se requieren 5 o 6 canales de transmisión. En un entorno
de reproducción, se requieren al menos cinco altavoces en las cinco
posiciones diferentes respectivas para obtener un óptimo denominado
punto de sonido óptimo a una distancia determinada de los cinco
altavoces colocados correctamente. Sin embargo, con respecto a su
colocación, el altavoz de graves puede utilizarse de manera
relativamente libre.
Hay varias técnicas para reducir la cantidad de
datos requeridos para transmitir una señal de audio multicanal.
Tales técnicas también se denominan técnicas de estéreo conjunto.
Para este propósito, se hace referencia a la figura 5. La figura 5
muestra un dispositivo 60 de estéreo conjunto. Este dispositivo
puede ser un dispositivo que implementa, por ejemplo, la técnica de
intensidad estéreo (técnica IS, Intensity Stereo) o la
técnica de codificación de indicación binaural (técnica BCC,
Binaural Cue Coding). Tal dispositivo recibe en general al
menos dos canales (CH1, CH2, ... CHn) como señales de entrada y
emite al menos un único canal de de portadora (downmix) y datos
paramétricos, es decir uno o más conjuntos de parámetros. Los datos
paramétricos se definen de tal manera que puede calcularse una
aproximación de cada canal original (CH1, CH2, ... CHn) en un
descodificador.
Normalmente, el canal de portadora incluirá
muestras de subbanda, coeficientes espectrales o muestras de dominio
del tiempo, etc., que proporcionan una representación
comparativamente precisa de la señal subyacente, mientras que los
datos paramétricos y/o conjuntos de parámetros no incluyen ninguna
muestra o coeficiente espectral de este tipo. En su lugar, los
datos paramétricos incluyen parámetros de control para controlar un
algoritmo de reconstrucción determinado, tal como ponderación
mediante multiplicación, desplazamiento en tiempo, desplazamiento
en frecuencia, ... Así, los datos paramétricos incluyen sólo una
representación comparativamente basta de la señal o el canal
asociado. Expresado en números, la cantidad de datos requeridos por
un canal de portadora (que se comprimen, es decir se codifican por
medio de AAC, por ejemplo) está en el intervalo de 60 a 70 kbit/s,
mientras que la cantidad de datos requeridos por la información
lateral paramétrica es del orden de 1,5 kbit/s para un canal. Un
ejemplo para datos paramétricos son los factores de escala
conocidos, información de intensidad estéreo o parámetros de
indicación binaural, tal como se describirá posteriormente.
La técnica de codificación de intensidad estéreo
se describe en el documento preliminar AES 3799 titulado
"Intensity stereo coding" J. Herre, K. H. Brandenburgo,
D. Lederer, febrero de 1994, Amsterdam. En general, el concepto de
intensidad estéreo se basa en una transformada de eje principal que
va a aplicarse a datos de los dos canales de audio estereofónicos.
Si la mayoría de los puntos de datos están colocados alrededor del
primer eje principal, puede conseguirse una ganancia de codificación
rotando ambas señales un ángulo determinado antes de la
codificación. Sin embargo, esto no siempre se aplica a las técnicas
de reproducción estereofónica reales. Las señales reconstruidas
para los canales izquierdo y derecho consisten en versiones
ponderadas o ajustadas a escala de manera diferente de la misma
señal transmitida. No obstante, las señales reconstruidas difieren
en amplitud, pero son idénticas con respecto a su información de
fase. Las envolventes de tiempo energía de ambos canales de audio
originales, sin embargo, se mantienen por medio de operación de
ajuste a escala selectiva que opera normalmente de manera selectiva
en frecuencia. Esto corresponde a la percepción de sonido humana a
altas frecuencias donde se determinan las indicaciones espaciales
dominantes por las envolventes de energía.
Además, en implementaciones prácticas, la señal
transmitida, es decir, el canal de portadora, está formada por la
señal de suma del canal izquierdo y el canal derecho en lugar de
rotar ambos componentes. Además, este procesamiento, es decir, la
generación de los parámetros de intensidad estéreo para realizar la
operación de ajuste a escala, se realiza de manera selectiva en
frecuencia, es decir, independientemente entre sí para cada banda
de factor de escala, es decir, para cada división de frecuencia de
codificador. Preferiblemente, se combinan ambos canales para formar
un canal combinado o "de portadora". Además del canal
combinado, la información de intensidad estéreo se determina que
depende de la energía del primer canal, la energía del segundo
canal y la energía del canal combinado o de suma.
La técnica BCC se describe en el artículo de la
convención de AES 5574 titulado "Binaural cue coding applied
to stereo and multi-channel audio
compression", C. Faller, F. Baumgarte, mayo de 2002, Munich.
En la codificación BCC, se convierten varios canales de entrada de
audio a una representación espectral utilizando una transformada
basada en DFT con ventanas solapantes. El espectro resultante se
divide en divisiones no solapantes. Cada división tiene un ancho de
banda proporcional a un ancho de banda en ángulo recto equivalente
(ERB, Equivalent Right-Angled Bandwidth). SE
calculan las denominadas diferencias de nivel entre canales (ICLD,
Inter-Channel Level Difference) así como las
denominadas diferencias de tiempo entre canales (ICTD,
Inter-Channel Time Difference) para cada
división, es decir, para cada banda y para cada trama k, es decir,
un bloque de muestras de tiempo. Los parámetros ICLD e ICDT se
cuantifican y codifican para obtener un flujo de bits BCC. Las
diferencias de nivel entre canales y las diferencias de tiempo
entre canales se dan para cada canal con respecto a un canal de
referencia. En particular, los parámetros se calculan según fórmulas
predeterminadas dependiendo de las divisiones particulares de la
señal que va a procesarse.
En el lado del descodificador, el descodificador
recibe una señal mono y el flujo de bits BCC, es decir, un primer
conjunto de parámetros para las diferencias de tiempo entre canales
y un segundo conjunto de parámetros para las diferencias de nivel
entre canales por trama. La señal mono se transforma al dominio de
la frecuencia y se introduce en un bloque de síntesis que también
recibe valores ICLD e ICTD descodificados. En el bloque de síntesis
o bloque de reconstrucción, los parámetros BCC (ICLD e ICTD) se
utilizan para realizar una operación de ponderación de la señal
mono para reconstruir la señal multicanal, que entonces, después de
una conversión de frecuencia/tiempo, representa una reconstrucción
de la señal de audio multicanal original.
En el caso de BCC, el módulo 60 de estéreo
conjunto opera para emitir la información lateral de canal, de tal
manera que los datos de canal paramétricos son parámetros ICDL e
ICTD cuantificados y codificados, donde uno de los canales
originales puede utilizarse como canal de referencia para la
codificación de información lateral de canal. Normalmente, el canal
de portadora se forma por la suma de los canales originales
participantes.
Por supuesto, la técnica anterior sólo
proporciona una representación mono para un descodificador que sólo
puede descodificar el canal de portadora, pero que no puede generar
los datos de parámetros para generar una o más aproximaciones de
más de un canal de entrada.
La técnica de codificación de audio denominada
como técnica BCC se describe adicionalmente en las solicitudes de
patente estadounidense US 2003/0219130 A1, 2003/0026441 A1 y
2003/0035553 A1 y se emplea en la solicitud de patente europea EP 1
414 273 A1. Además, véase adicionalmente "Binaural Cue Coding.
Part. II: Schemes and Applications", C. Faller y F.
Baumgarte, IEEE: Transactions on Audio and Speech Proc., volumen 11,
número 6, noviembre de 1993. Además, véase también C. Faller y F.
Baumgarte "Binaural Cue Coding applied to Stereo and
Multi-Channel Audio compression", documento
preliminar, 112th Convention of the Audio Engineering Society
(AES), mayo de 2002, y J. Herre, C. Faller, C. Ertel, J. Hilpert, A.
Hoelzer, C. Spenger, "MP3 Surround: Efficient and Compatible
Coding of Multi-Channel Audio", 116th AES
Convention, Berlín, 2004, documento preliminar 6049. A
continuación, se representará un esquema BCC general típico para la
codificación de audio multicanal en más detalle con respecto a las
figuras 6 a 8. La figura 6 muestra un esquema de codificación BCC
general para la codificación/transmisión de señales de audio
multicanal. La señal de entrada de audio multicanal se introduce en
una entrada 110 de un codificador 112 BCC y se realiza sobre al
misma "downmix" en un denominado bloque 114 de downmix, es
decir, se convierte a un único canal de suma. En el presente
ejemplo, la señal en la entrada 110 es una señal envolvente de 5
canales que tiene un canal izquierdo delantero y un canal derecho
delantero, un canal envolvente izquierdo y un canal envolvente
derecho y un canal central. Normalmente, el bloque de downmix
genera una señal de suma mediante la simple adición de estos cinco
canales en una señal mono. En la técnica se conocen otros esquemas
de downmix, dando todos como resultado la generación, utilizando
una señal de entrada multicanal, de una señal de downmix que tiene
un único canal o que tiene un número de canales de downmix que, en
cualquier caso, es menor que el número de canales de entrada
originales. En el presente ejemplo, ya se conseguiría una operación
de downmix si se generasen cuatro canales de portadora a partir de
los cinco canales de entrada. El único canal de salida y/o el número
de canales de salida se emite sobre una línea 115 de señal de
suma.
La información lateral obtenida mediante un
bloque 116 de análisis BCC se emite sobre una línea 117 de
información lateral. En el bloque de análisis BCC, pueden ser
calculadas diferencias de nivel entre canales (ICDL), diferencias
de tiempo entre canales (ICTD) o valores de correlación entre
canales (valores ICC, Inter-Channel
Correlation). Así, hay tres conjuntos de parámetros diferentes,
a saber, las diferencias de nivel entre canales (ICLD), las
diferencias de tiempo entre canales (ICTD) y los valores de
correlación entre canales (ICC), para la reconstrucción en el
bloque 122 de síntesis BCC.
La señal de suma y la información lateral con
los conjuntos de parámetros se transmiten normalmente a un
descodificador 120 BCC en un formato cuantificado y codificado. El
descodificador BCC divide la señal de suma transmitida (y
descodificada, en el caso de una transmisión codificada) en un
número de subbandas y realiza ajustes a escala, retardos y
procesamiento adicional para generar las subbandas de los varios
canales que han de reconstruirse. Este procesamiento se realiza de
tal manera que los parámetros ICLD, ICTD e ICC (indicaciones) de una
señal multicanal reconstruida en la salida 121 son similares a las
indicaciones respectivas para la señal multicanal original en la
entrada 110 al codificador 112 BCC. Para este propósito, el
descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un
bloque 123 de procesamiento de información lateral.
Lo siguiente ilustrará la estructura interna del
bloque 122 de síntesis BCC con respecto a la figura 7. La señal de
suma sobre la línea 115 se introduce en un bloque de conversión de
tiempo/frecuencia implementado normalmente como un banco 125 de
filtros FB. En la salida del bloque 125, hay un número N de señales
de subbanda o, en un caso extremo, un bloque de coeficientes
espectrales, si el banco 125 de filtros de audio realiza una
transformada que genera N coeficientes espectrales a partir de N
muestras de dominio del tiempo.
El bloque 122 de síntesis BCC incluye además una
fase 126 de retardo, una fase 127 de modificación de nivel, una
fase 128 de procesamiento de correlación y una fase 129 IFB que
representa un banco de filtros inverso. En la salida de la fase
129, la señal de audio multicanal reconstruida que tiene, por
ejemplo, cinco canales en el caso de sistema envolvente de 5
canales puede emitirse en un conjunto de altavoces 124, tal como se
ilustra en la figura 6.
La figura 7 ilustra además que la señal de
entrada s(n) se convierte al dominio de la frecuencia o
dominio de banco de filtros por medio del elemento 125. La señal
emitida por el elemento 125 se multiplica, de tal manera que se
obtienen varias versiones de la misma señal, como se indica por el
nodo 130. El número de versiones de la señal original es igual al
número de canales de salida en la señal de salida que va a
reconstruirse. Si cada versión de la señal original se somete a un
retardo determinado, d_{1}, d_{2}, ... d_{i}, d_{N} en el
nodo 130, el resultado es la situación en la salida de los bloques
126, que incluye las versiones de la misma señal, pero con
diferentes retardos. Los parámetros de retardo se calculan por el
bloque 123 de procesamiento de información lateral en la figura 6 y
se deriven a partir de las diferencias de tiempo entre canales como
fueron determinadas por el bloque 116 de análisis BCC.
Lo mismo se aplica a los parámetros de
multiplicación a_{1}, a_{2}, ... a_{i}, a_{N}, que también
se calculan por el bloque 123 de procesamiento de información
lateral basándose en las diferencias de nivel entre canales
determinadas por el bloque 116 de análisis BCC.
Los parámetros ICC se calculan por el bloque 116
de análisis BCC y se utilizan para controlar la funcionalidad del
bloque 128, de tal manera que se obtienen valores de correlación
determinados entre las señales retardadas y manipuladas en nivel en
la salida del bloque 128. Ha de observarse que el orden de las fases
126, 127, 128 puede ser diferente del representado en la figura
7.
Ha de observarse además que, en un procesamiento
por bloques de la señal de audio, el análisis BCC también se
realiza por bloques. Además, el análisis BCC también se realiza por
frecuencia, es decir, de manera selectiva en frecuencia. Esto
significa que, para cada banda espectral, hay un parámetro ICLD, un
parámetro ICTD y un parámetro ICC para cada bloque. Los parámetros
ICTD para al menos un bloque para al menos un canal a través de
todas las bandas representan por tanto el conjunto de parámetros
ICTD. Lo mismo se aplica al conjunto de parámetros ICLD que
representa todos los parámetros ICLD para al menos un bloque para
todas las bandas de frecuencia para la reconstrucción de al menos
un canal de salida. Lo mismo se aplica, a su vez, al conjunto de
parámetros ICC que de nuevo incluye varios parámetros ICC
individuales para al menos un bloque para diversas bandas para la
reconstrucción de al menos un canal de salida basándose en el canal
de entrada o canal de suma.
A continuación, se hace referencia a la figura 8
que muestra una situación a partir de la cual puede verse la
determinación de los parámetros BCC. Normalmente, los parámetros
ICLD, ICTD e ICC pueden definirse entre cualquier par de canales.
Normalmente, se realiza una determinación de los parámetros ICLD e
ICTD entre un canal de referencia y cada uno de los demás canales
de entrada, de tal manera que hay un conjunto de parámetros
distinto para cada uno de los canales de entrada excepto el canal de
referencia. Esto se ilustra también en la figura 8A.
Sin embargo, los parámetros ICC pueden definirse
de diferente manera En general, los parámetros ICC pueden generarse
en el codificador entre cualquier par de canales, como también se
ilustra esquemáticamente en la figura 8B. En este caso, un
descodificador realizaría una síntesis ICC, de tal manera que se
obtiene aproximadamente el mismo resultado que estaba presente en
la señal original entre cualquier par de canales. Sin embargo, ha
habido la sugerencia de calcular solamente parámetros ICC entre los
dos canales más intensos en cualquier momento, es decir, para cada
trama de tiempo. Este esquema se representa en la figura 8C, que
muestra un ejemplo en el que, en un momento, se calcula y transmite
un parámetro ICC entre los canales 1 y 2 y en el que, en otro
momento, se calcula un parámetro ICC entre los canales 1 y 5. Luego,
el descodificador sintetiza la correlación entre canales entre los
dos canales más intensos en el descodificador y ejecuta además
reglas normalmente heurísticas para sintetizar la coherencia entre
canales para los pares de canales restantes.
Con respecto al cálculo de, por ejemplo, los
parámetros de multiplicación a_{1}, ... a_{N} basándose en los
parámetros ICLD transmitidos, se hace referencia al artículo de la
convención de AES citado 5574. Los parámetros ICLD representan una
distribución de energía en una señal multicanal original. Sin
pérdida de generalidad, la figura 8A muestra que hay cuatro
parámetros ICLD que representan la diferencia de energía entre todos
los demás canales y el canal izquierdo delantero. En el bloque 123
de procesamiento de información lateral, los parámetros de
multiplicación
a_{1}, ... a_{N} se derivan a partir de los parámetros ICLD, de tal manera que la energía total de todos los canales de salida reconstruidos es la misma energía que la presente para la señal de suma transmitida o es al menos proporcional a esta energía. Una manera de determinar estos parámetros es un proceso de dos fases en el cual, en una primera fase, el factor de multiplicación para el canal delantero izquierdo se ajusta a uno, mientras que los factores de multiplicación para los demás canales en la figura 8C se ajustan a los valores ICLD transmitidos. Luego, en una segunda fase, se calcula la energía de todos los cinco canales y se compara con la energía de la señal de suma transmitida. Luego, todos los canales se ajustan a escala hacia abajo, a saber, utilizando un factor de escala que es igual para todos los canales, donde el factor de escala se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos después del ajuste a escala es igual a la energía total de la señal de suma transmitida y/o las señales de suma transmitidas.
a_{1}, ... a_{N} se derivan a partir de los parámetros ICLD, de tal manera que la energía total de todos los canales de salida reconstruidos es la misma energía que la presente para la señal de suma transmitida o es al menos proporcional a esta energía. Una manera de determinar estos parámetros es un proceso de dos fases en el cual, en una primera fase, el factor de multiplicación para el canal delantero izquierdo se ajusta a uno, mientras que los factores de multiplicación para los demás canales en la figura 8C se ajustan a los valores ICLD transmitidos. Luego, en una segunda fase, se calcula la energía de todos los cinco canales y se compara con la energía de la señal de suma transmitida. Luego, todos los canales se ajustan a escala hacia abajo, a saber, utilizando un factor de escala que es igual para todos los canales, donde el factor de escala se selecciona de tal manera que la energía total de todos los canales de salida reconstruidos después del ajuste a escala es igual a la energía total de la señal de suma transmitida y/o las señales de suma transmitidas.
Con respecto a la medida de coherencia entre
canales ICC transmitida desde el codificador BCC al descodificador
BCC como conjunto de parámetros adicional, ha de observarse que
podría realizarse una manipulación de coherencia mediante la
modificación de los factores de multiplicación, tal como
multiplicando los factores de ponderación de todas las subbandas por
números aleatorios que tienen valores entre 20 log 10^{-6} y 20
log 10^{6}. La secuencia pseudoaleatoria se selecciona
normalmente de tal manera que la varianza para todas las bandas
críticas es aproximadamente igual y que el valor promedio dentro de
cada banda crítica es cero. Se utiliza la misma secuencia para los
coeficientes espectrales de cada trama o bloque diferente. Así, al
ancho de la escena de audio se controla mediante modificaciones de
las varianzas de la secuencia pseudoaleatoria. Una varianza mayor
genera un ancho de audición mayor. La modificación de varianza puede
realizarse en bandas individuales que tienen un ancho de una banda
crítica. Esto permite la existencia simultánea de varios objetos en
una escena de audición, donde cada objeto tiene un ancho de
audición diferente. Una distribución de amplitud adecuada para la
secuencia pseudoaleatoria es una distribución uniforme en una escala
logarítmica, tal como se representa en la publicación de patente
estadounidense 2002/0219130 A1.
Con el fin de transmitir los cinco canales de
manera compatible, por ejemplo, en un formato de flujo de bits que
también es adecuado para un descodificador de estéreo normal, puede
utilizarse la denominada técnica de matrizado descrita en
"MUSICAM Surround: A universal multi-channel
coding system compatible with ISO/IEC
11172-3", G. Theile y G. Stoll, documento
preliminar AES, octubre de 1992, San Francisco.
Además, véanse las técnicas de codificación
multicanal descritas en la publicación "Improved MPEG 2 Audio
multi-channel encoding", B. Grill, J. Herre,
K. H. Brandenburg, E. Eberlein, J. Koller, J. Miller, documento
preliminar AES 3865, febrero de 1994, Ámsterdam, donde se usa una
matriz de compatibilidad para obtener los canales de downmix a
partir de los canales de entrada originales.
En resumen, se puede decir que la técnica BCC
permite una codificación eficaz y también compatible hacia atrás de
material de audio multicanal, como también se describe, por ejemplo
en la publicación especialista por E. Shuijer, J. Breebaart, H.
Purnhagen, J. Engdegård titulada
"Low-Complexity Parametric Stereo
Coding", 119th AES Convention, Berlín, 2004, documento
preliminar 6073. En este contexto, también debería hacer mención
del estándar MPEG-4 y particularmente la expansión
de técnicas de audio paramétricas, donde esta parte de estándar
también se conoce por la designación ISO/IEC
14496-3: 2001/FDAM 2 (audio paramétrico). A este
respecto, se debe mencionar, en particular, la sintaxis en la tabla
8.9 del estándar MPEG-4 titulada "sintaxis de los
ps_data()". En este ejemplo, se deben mencionar los elementos de
sintaxis "enable_icc" y "enable_ipdopd", donde estos
elementos de sintaxis se utilizan para activar y desactivar una
transmisión de un parámetro ICC y una fase correspondiente a
diferencias de tiempo entre canales. También se deben mencionar
adicionalmente los elementos de sintaxis "icc_data()"
"ipd_data()" y "opd_data()".
En resumen, ha de observarse en general que
tales técnicas multicanal paramétricas se utilizan empleando uno o
varios canales de portadora transmitidos, donde se forman M canales
transmitidos a partir de N canales originales para reconstruir de
nuevo los N canales de salida o un número K de canales de salida,
donde K es menor o igual al número de canales originales N.
Como puede verse a partir de la figura 6, el
análisis BCC es un preprocesamiento separado típico para generar
datos de parámetros por una parte y uno o más canales de transmisión
(canales de downmix) por otra parte a partir de una señal
multicanal que tiene N canales originales. Normalmente, estos
canales de downmix luego se comprimen por ejemplo por medio de un
codificador estéreo/mono MP3 o AAC típico, aunque esto no se muestra
en la figura 6, de tal manera que, en el lado de salida, hay un
flujo de bits que representa los datos de canal de transmisión en
forma comprimida y hay otro flujo de bits adicional que representa
los datos de parámetros. El análisis BCC ocurre así por separado de
la codificación de audio real de los canales de downmix y/o la
señal 115 de suma de la figura 6.
El lado del descodificador es similar. Un
descodificador que tiene capacidad multicanal descodificará primero
el flujo de bits que incluye la señal de downmix comprimida
dependiendo del algoritmo de codificación utilizado y proporcionará
de nuevo uno o más canales de transmisión en el lado de salida, es
decir, normalmente como una secuencia en el tiempo de datos PCM
(PCM = Pulse Code Modulation, modulación por código de
pulso). Entonces, tendrá lugar la síntesis BCC como un
postprocesamiento separado y aislado distinto que señaliza de
manera autosuficente con el flujo de datos de parámetros y se le
proporcionan datos para generar, en el lado de salida, varios
canales de salida, preferentemente iguales al número de los canales
de entrada originales de la señal de downmix descodificada de
audio.
Así, es una ventaja de la tecnología BCC que
tiene un banco de filtros distinto para los propósitos del análisis
BCC y un banco de filtros distinto para los propósitos de la
síntesis BCC, por ejemplo, de tal manera que está separado del
banco de filtros del codificador/descodificador de audio, con el fin
de no tener que realizar cualquier solución intermedia con respecto
a la compresión de audio por una parte y la reconstrucción
multicanal por otra parte. Hablando de manera general, la
compresión de audio se realiza por tanto por separado del
procesamiento de parámetros multicanal para estar equipado
óptimamente para ambos campos de aplicación.
Sin embargo, este concepto tiene la desventaja
de que tiene que transmitirse una señalización completa tanto para
la reconstrucción multicanal como para la descodificación de audio.
Esto es particularmente desventajoso cuando, como será normalmente
el caso, tanto el descodificador de audio como los medios de
reconstrucción multicanal realizan las mismas etapas o similares y
requieren por tanto ajustes de configuración iguales y/o mutuamente
dependientes. Debido al concepto completamente separado, los datos
de señalización se transmiten por tanto dos veces dando como
resultado una "expansión" artificial de la cantidad de datos,
que se debe en último lugar al hecho de que se ha escogido el
concepto separado entre codificación/descodificación de audio y
análisis/síntesis multicanal.
Por otra parte, un "enlace" completo de la
reconstrucción multicanal con la descodificación de audio
restringiría considerablemente la flexibilidad, porque en ese caso
el objetivo realmente importante de la separación de ambas etapas
de procesamiento de poder realizar cada etapa de procesamiento de
una manera óptima tendría que abandonarse. Así, surgirían pérdidas
de calidad considerables, en particular en el caso de varias fases
de codificación/descodificación sucesivas, también denominadas como
codificación en "tándem". Si hay un enlace completo de los
datos BCC con los datos de audio codificados, tiene que realizarse
una reconstrucción multicanal con cada descodificación para
realizar una síntesis multicanal de nuevo cuando se recodifique.
Puesto que es la naturaleza de cada técnica paramétrica que tiene
pérdidas, las pérdidas se acumularán por los análisis de síntesis
de análisis repetidos de tal manera que, con cada fase de
codificador/descodificador, la calidad perceptible de la señal de
audio disminuye adicionalmente.
En este caso, la descodificación/codificación de
datos de audio sin procesamiento de análisis/síntesis simultáneo de
los datos de parámetros solamente sería posible si cada códec de
audio en la cadena en tándem trabajara de manera idéntica, es
decir, tuviera la misma tasa de muestreo, longitud de bloque,
longitud de avance, tamaño de ventana, transformada ..., es decir,
tuviera en general la misma configuración, y si, además, las
fronteras de bloque respectivas también se mantuvieran. Sin
embargo, tal concepto restringiría considerablemente la
flexibilidad de todo el concepto. Particularmente con respecto al
hecho de que se pretende que las técnicas multicanal paramétricas
complementen los datos estéreo ya existentes, por ejemplo mediante
datos de parámetros adicionales, esta limitación es de todas la más
dolorosa. Puesto que los datos estéreo ya existentes pueden
originarse a partir de muchos codificadores diferentes que utilizan
todos longitudes de bloque diferentes o que incluso no operan en el
dominio de la frecuencia, sino en el dominio del tiempo, etc., tal
limitación tomaría el concepto de complementación más tarde ad
absurdum desde el comienzo.
Es el objeto de la presente invención
proporcionar un concepto flexible y eficaz para generar una señal de
audio multicanal o un conjunto de datos de parámetros de
reconstrucción.
Este objeto se consigue mediante un dispositivo
para generar una señal multicanal según la reivindicación 1, un
método para generar una señal multicanal según la reivindicación 14,
un dispositivo para generar una salida de datos de parámetros según
la reivindicación 15, un método para generar una salida de datos de
parámetros según la reivindicación 18, un dispositivo para generar
una salida de datos de parámetros según la reivindicación 19, un
método para generar una salida de datos de parámetros según la
reivindicación 20, o un producto de programa informático según la
reivindicación 21.
La presente invención se basa en el
descubrimiento de que pueden obtenerse eficacia por una parte y
flexibilidad por otra parte teniendo el flujo de datos, que puede
incluir datos de canal de transmisión y datos de parámetros,
contener una indicación de configuración de parámetros que se ha
insertado en el lado del codificador y se evalúa en el lado del
descodificador. Esta indicación indica si los medios de
reconstrucción multicanal están configurados a partir de los datos
de entrada, es decir, a partir de los datos transmitidos desde el
codificador al descodificador, o si los medios de reconstrucción
multicanal están configurados por una indicación para un algoritmo
de codificación con la cual se han descodificado datos de canal de
transmisión codificados. Los medios de reconstrucción multicanal
tienen un ajuste de configuración idéntico a un ajuste de
configuración del descodificador de audio para descodificar los
datos de canal de transmisión codificados o al menos dependiente de
este ajuste.
Si un detector detecta la primera situación, es
decir la indicación de configuración de parámetros tiene un primer
significado, el descodificador buscará información de configuración
adicional en los datos de entrada recibidos, para configurar
apropiadamente los medios de reconstrucción multicanal, para
utilizar la información entonces para efectuar un ajuste de
configuración de los medios de reconstrucción multicanal. Tal ajuste
de configuración podría ser, por ejemplo, longitud de bloque,
avance, frecuencia de muestreo, datos de control de banco de
filtros, la denominada información granular (cuántos bloques BCC hay
en un trama), configuraciones de canal (por ejemplo se genera una
salida 5.1 siempre que hay "mp3"), información sobre qué datos
de parámetros son obligatorios en un caso ajustado a escala (por
ejemplo, ICLD) y cuáles no (ICTD), etc.
Sin embargo, si el descodificador determina que
la indicación de configuración de parámetros tiene un segundo
significado diferente del primer significado, los medios de
reconstrucción multicanal escogerán el ajuste de configuración en
los medios de reconstrucción multicanal dependiendo de la
información acerca del algoritmo de codificación de audio en el que
se basa la codificación/descodificación de los datos de canal de
transmisión, es decir, los canales de downmix.
En contraste con el concepto separado de los
datos de parámetros por una parte y los datos de downmix comprimidos
por otra parte, el dispositivo de la invención para generar una
señal de audio multicanal comete un "robo", por así decirlo,
para la configuración de los medios de reconstrucción multicanal, en
los datos de audio realmente separados por completo y
autosuficientes y/o en un descodificador de audio aguas arriba que
opera de manera autosuficiente, para configurarse a sí mismo.
El concepto de la invención es particularmente
potente en una realización preferida de la presente invención
cuando se consideran diferentes algoritmos de codificación de audio.
En este caso, tendría que transmitirse una gran cantidad de
información de señalización explicita para conseguir un
funcionamiento síncrono, es decir, un funcionamiento en el que los
medios de reconstrucción multicanal operan de manera síncrona con el
descodificador de audio, a saber, las longitudes de avance
correspondientes, etc., para cada algoritmo de codificación
diferente, de tal manera que el algoritmo de reconstrucción
multicanal realmente independiente funciona de manera síncrona con
el algoritmo de descodificación de audio.
Según la invención, la indicación de
configuración de parámetros, para la que es suficiente un único bit,
señaliza a un descodificador que, para el propósito de su
configuración, se busca de qué codificador de audio está aguas
abajo. A continuación de esto, el descodificador recibirá
información sobre qué codificador de audio está actualmente aguas
arriba de un número de codificadores de audio diferentes. Cuando se
ha recibido esta información, entrará preferiblemente a una tabla
de configuración depositada en el descodificador multicanal con
esta identificación de algoritmo de codificación de audio para
recuperar ahí la información de configuración predefinida para cada
uno de los posibles algoritmos de codificación de audio para
efectuar al menos un ajuste de configuración de los medios de
reconstrucción multicanal. Esto consigue un ahorro de tasa de datos
significativo en comparación con el caso en el que la configuración
se señaliza explícitamente en el flujo de datos, en el que no hay
por tanto consideración entre los medios de reconstrucción
multicanal y el descodificador de audio, en el que no hay
"robo" de la invención de los datos de descodificador de audio
tampoco por los medios de reconstrucción multicanal.
Por otra parte, el concepto de la invención
todavía proporciona la alta flexibilidad inherente a la señalización
explicita de información de configuración, porque, debido a la
indicación de configuración de parámetros, para la que es
suficiente un único bit en el flujo de datos, existe la posibilidad
de transmitir realmente toda la información de configuración en el
flujo de datos, si es necesario o, como una forma mixta, de
transmitir al menos parte de la información de configuración de
parámetros en el flujo de datos y tomar otra parte de información
necesaria de un conjunto de información determinada.
En una realización preferida de la presente
invención, los datos transmitidos desde el codificador al
descodificador incluyen además una señalización de indicación de
continuación a un descodificador si deben cambiarse los ajustes de
configuración en todo en comparación con los ajustes de
configuración ya existentes o previamente señalizados, o si debe
continuarse como antes, o si, como reacción a un cierto ajuste de la
indicación de continuación, la indicación de configuración de
parámetros se lee para determinar si debe haber una alineación de
los medios de reconstrucción multicanal con respecto al
descodificador de audio, o si información al menos parcialmente
explicita con respecto a la configuración está contenida en los
datos de transmisión.
A continuación se explicarán realizaciones
preferidas de la presente invención en más detalle con respecto a
los dibujos adjuntos, en los que:
la figura 1 es un diagrama de circuito de
bloques de un dispositivo de la invención para generar un conjunto
de datos de parámetros que puede utilizarse en el lado del
codificador;
la figura 2 es un diagrama de circuito de
bloques de un dispositivo para generar una señal de audio multicanal
utilizada en el lado del descodificador;
la figura 3 es un diagrama de flujo principal
del funcionamiento de los medios de configuración de la figura 2 en
una realización preferida de la presente invención;
la figura 4a es una representación esquemática
de los flujos de datos para un funcionamiento síncrono entre el
descodificador de audio y los medios de reconstrucción
multicanal;
la figura 4b es una representación esquemática
de los flujos de datos para un funcionamiento asíncrono entre el
descodificador de audio y los medios de reconstrucción
multicanal;
la figura 4c es una realización preferida del
dispositivo para generar una señal de audio multicanal en forma de
sintaxis;
la figura 5 es una representación general de un
codificador multicanal;
la figura 6 es un diagrama de bloques
esquemático de una trayectoria de codificador BCC/descodificador
BCC;
la figura 7 es un diagrama de circuito de
bloques del bloque de síntesis BCC de la figura 6; y
las figuras 8A a 8C son una representación de
escenarios típicos para el cálculo de los conjuntos de parámetros
ICLD, ICTD e ICC.
\vskip1.000000\baselineskip
La figura 1 muestra un diagrama de circuito de
bloques de un dispositivo de la invención para generar un conjunto
de datos de parámetros, donde el conjunto de datos de parámetros
puede emitirse en una salida 10 del dispositivo mostrado en la
figura 1. El conjunto de datos de parámetros contiene datos de
parámetros que, junto con los datos de canal de transmisión no
ilustrados en la figura 1, pero que se comentarán posteriormente,
representan N canales originales, donde los datos de canal de
transmisión incluirán normalmente M canales de transmisión, donde
el número M de canales de transmisión es menor que el número M de
canales originales y es mayor o igual a 1.
El dispositivo mostrado en la figura 1, que se
alojará en el lado del codificador, incluyen medios 11 de parámetros
multicanal diseñados para realizar, por ejemplo, un análisis BCC en
un análisis de intensidad estéreo o similares. En este caso, los
medios 11 de parámetros multicanal recibirán N canales originales en
una entrada 12. Alternativamente, sin embargo, los medios 11 de
parámetros multicanal pueden también estar diseñados como medios de
transcodificador para generar los datos de parámetros en la salida
de los medios 11 utilizando datos de parámetros sin procesar
existentes alimentados en una entrada 13 de parámetros sin procesar.
Si los datos de parámetros son datos BCC simples como se
proporcionan por cualquier medio de análisis BCC, el procesamiento
de los medios 11 de parámetros multicanal consistirá simplemente en
una función de copiado de los datos de la entrada 13 en una salida
de los medios 11. Sin embargo, los medios 11 de parámetros
multicanal pueden también estar diseñados para cambiar la sintaxis
del flujo de datos de parámetros sin procesar para añadir, por
ejemplo datos de señalización o para escribir conjuntos de
parámetros que pueden descodificarse o saltarse al menos
parcialmente independientes entre sí de los datos de parámetros sin
procesar existentes.
El dispositivo mostrado en la figura 1 incluye
además medios 14 de señalización para determinar y asociar una
indicación de configuración de parámetros PKH con los datos de
parámetros en la salida de los medios 11. En particular, los medios
de señalización están diseñados para determinar la indicación de
configuración de parámetros, de tal manera que tiene un primer
significado cuando la información de configuración contenida en el
conjunto de datos de parámetros va a utilizarse para una
reconstrucción multicanal. Alternativamente, los medios 14 de
señalización determinarán la indicación de configuración de
parámetros, de tal manera que tiene un segundo significado cuando
los datos de configuración que se basan en un algoritmo de
codificación que va a utilizarse y/o se ha utilizado para codificar
los datos de canal de transmisión van a utilizarse para una
reconstrucción multicanal.
Finalmente, el dispositivo de la invención de la
figura 1 incluye medios 15 de escritura de datos de configuración
diseñados para asociar información de configuración con los datos de
parámetros y la indicación de configuración de parámetros para
obtener finalmente el conjunto de datos de parámetros en la salida
10. Así, el conjunto 10 de datos de parámetros incluye los datos de
parámetros de los medios 11 de parámetros multicanal, la indicación
de configuración de parámetros PKH de los medios 14 de señalización
y, si es aplicable, datos de configuración de los medios 15 de
escritura de datos de configuración. En el conjunto de datos de
parámetros, estos elementos del conjunto de datos se disponen según
una sintaxis determinada y normalmente se multiplexan en el tiempo,
como se representa simbólicamente por un elemento denominado
generalmente como medios 16 de combinación en la figura 1.
En una realización preferida de la presente
invención, los medios 14 de señalización se acoplan a los medios 15
de escritura de datos de configuración a través de una línea 17 de
control para activar los medios 15 de escritura de datos de
configuración solamente cuando la indicación de configuración de
parámetros tiene el primer significado, es decir, cuando, en una
reconstrucción multicanal, no se accederá a ninguna información de
configuración presente en el descodificador de ninguna manera, pero
cuando hay señalización explicita, es decir, cuando está presente
información de configuración adicional en el conjunto de datos de
parámetros. En el otro caso, en el que la indicación de
configuración de parámetros tiene el segundo significado, los
medios 15 de escritura de datos de configuración no se activan para
introducir datos en el conjunto de datos de parámetros en la salida
10, porque tales datos no se leerían mediante un descodificador y/o
no se requerirían por el descodificador, como se comentará
posteriormente. En el caso de una solución mixta, en lugar de
señalizar todo en el flujo de datos, solamente se señaliza una
parte de la configuración, mientras que el resto se toma, por
ejemplo, de la tabla de configuración en el descodificador.
Los medios 14 de señalización incluyen una
entrada 18 de control, mediante la cual se informa a los medios 14
de señalización de si la indicación de configuración de parámetros
va a tener el primero o el segundo significado. Como se comentará
con respecto a las figuras 4a y 4b, en el denominado funcionamiento
"síncrono", se prefiere escoger la indicación de configuración
de parámetros de tal manera que tenga el segundo significado para
obtener información sobre el algoritmo de codificación de tal
manera en el lado del descodificador y para realizar ajustes de
configuración en los medios de reconstrucción multicanal en el lado
del descodificador dependiendo de lo mismo. En el funcionamiento
asíncrono, sin embargo, la entrada 18 de control accionará los
medios de señalización de tal manera que determinen el primer
significado para la indicación de configuración de parámetros, que
será interpretada por un descodificador de tal manera que hay
información de configuración en los propios datos, y el algoritmo
de codificación de audio en el que se basan los datos de canal de
transmisión no se utilizará.
Ha de observarse que el conjunto de datos de
parámetros y/o la salida de datos de parámetros no tienen que estar
en una forma rígida entre sí. Así, la indicación de configuración,
los datos de configuración y los datos de parámetros no tienen que
transmitirse juntos necesariamente en un flujo o paquete, sino que
pueden también proporcionarse al descodificador por separado entre
sí.
La siguiente descripción presentará el
denominado funcionamiento "síncrono" con respecto a la figura
4a. Para fines de ilustración, la figura 4a ilustra los datos de
parámetros como una secuencia de tramas 40, donde la secuencia de
tramas 40 es precedida por una cabecera 41 en la que está la
indicación de configuración de parámetros generada por los medios
14 de señalización, y en la que si es aplicable, hay información de
configuración adicional generada por los medios 15 de escritura de
datos de configuración. Los datos de parámetros en la salida de los
medios 11 se alojan en las tramas 1, 2, 3, 4, que es la razón por la
cual se denominan datos de carga útil en la figura 4a.
La indicación de continuación FSH, que se
menciona tanto en la figura 1 en la salida de los medios 14 de
señalización como también se menciona adicionalmente para la
cabecera 41 en la figura 4a, hace que un descodificador mantenga,
es decir, continúe, un ajuste de configuración previamente
comunicado al mismo, cuando tiene un significado determinado,
mientras que, cuando la indicación de continuación FSH tiene otro
significado, hay una decisión basándose en la indicación de
configuración de parámetros de si se realizarán ajustes de
configuración en los medios de reconstrucción multicanal basándose
en la información de configuración en el flujo de datos o basándose
en datos de configuración recuperados por una indicación para el
algoritmo de codificación de audio en el lado del
descodifica-
dor.
dor.
La figura 4a representa además una secuencia 42
de bloques de datos de transmisión codificados en asociación en el
tiempo, que también tienen cuatro tramas, trama 1, trama 2, trama 3,
trama 4. La asociación en el tiempo de los datos de parámetros con
los datos de canal de transmisión codificados se ilustra por flechas
verticales en la figura 4a. Así, un bloque de datos de canal de
transmisión codificados siempre se relacionará con un bloque de
datos de entrada y/o, cuando se utilizan ventanas solapantes, al
menos se determinará el avance de cuántos datos en un bloque se
procesan nuevamente en comparación con el bloque anterior y, en
funcionamiento síncrono, serán síncronos con la longitud de bloque
y/o el avance en el que se obtienen los datos de parámetros. Esto
garantiza que la conexión entre los parámetros de reconstrucción por
una parte y los datos de canal de transmisión por otra parte no se
pierda.
Esto se explicará por medio de un ejemplo breve.
Suponiendo una señal de entrada de 5 canales, esta señal de entrada
de 5 canales tendrá cinco canales de audio diferentes que incluyen
muestras de tiempo desde un tiempo x hasta un tiempo y,
respectivamente. En la fase 114 de downmix de la figura 6, se genera
entonces al menos un canal de transmisión que será síncrono con los
datos de entrada multicanal. Una parte de los datos de canal de
transmisión desde el tiempo x hasta el tiempo y corresponderá por
tanto a una parte de los datos de entrada multicanal respectivos
desde el tiempo x hasta el tiempo y. Además, los medios 116 de
análisis BCC de la figura 6 generan, por ejemplo, datos de
parámetros, de nuevo exactamente para la sección de tiempo de los
datos de canal de transmisión desde el tiempo x hasta el tiempo y,
de tal manera que, en el lado del descodificador, pueden generarse
de nuevo datos de canal de salida respectivos desde el tiempo x
hasta el tiempo y a partir de los datos del canal de transmisión
desde el tiempo x hasta el tiempo y y los datos de parámetros desde
el tiempo x hasta el tiempo y.
Se consigue automáticamente un funcionamiento
síncrono cuando las tramas con las que se generan y escriben los
datos de parámetros son iguales a las tramas con las que opera el
codificador de audio para comprimir el uno o más canales de
transmisión. Así, si las tramas de tanto los datos de parámetros
como los datos de canal de transmisión codificados (40 y 42 en la
figura 4a) se refieren siempre a la misma parte de tiempo, un
dispositivo de reconstrucción multicanal siempre puede procesar
fácilmente datos correspondientes a una trama de audio y procesar
una trama de parámetros al mismo tiempo.
En funcionamiento síncrono, la longitud de trama
del codificador de audio utilizado para la transmisión de los datos
de downmix es igual por tanto a la longitud de trama utilizada por
el esquema multicanal paramétrico. De manera similar, también
existe por supuesto la posibilidad de que haya una relación entera
entre las longitudes de trama de los datos de parámetros y los
datos de canal de transmisión codificados. En este caso, la
información lateral para la codificación multicanal paramétrica
puede multiplexarse en el flujo de bits codificado de la señal de
downmix de audio de tal manera que puede generarse un flujo de un
único bit. En el caso de "retroactualización" de datos estéreo
ya existentes, todavía habría dos flujos de datos diferentes. Sin
embargo, habría una relación de 1:1 y/o m:1 o m:n entre las dos
secuencias de tramas. Los barridos de tramas nunca se desplazarían
entre sí. Así, hay una asociación no ambigua entre las tramas de
datos de audio y las tramas de datos de información lateral
paramétrica correspondientes. Este modo puede ser favorable para
diversas aplicaciones.
Según la invención, la indicación de
configuración de parámetros tendría el primer significado en tal
caso. Esto significa que no habría o sólo habría parte de la
información de configuración en la cabecera 41, debido a que se
proporciona a los propios medios de reconstrucción multicanal
información sobre el codificador de audio subyacente y dependiendo
de lo mismo, escogen su ajuste de configuración, es decir, por
ejemplo el número de muestras de tiempo para el avance o la
longitud de bloque, etc.
En constaste, la figura 4b muestra un
funcionamiento asíncrono. Existe un funcionamiento asíncrono cuando
los datos 42' de canal de transmisión no tienen, por ejemplo, una
estructura de trama, sino que solamente se producen como un flujo
de muestras PCM. Alternativamente, tal situación asíncrona también
surgiría cuando el codificador de audio tuviera una estructura de
trama irregular o simplemente una estructura de trama con una
longitud de trama y/o un barrido trama diferente del barrido de
trama de los datos 40 de parámetros. Aquí, el esquema de
codificación multicanal paramétrico y los medios de
codificación/descodificación de audio se consideran por tanto como
fases de procesamiento aisladas y separadas que no dependen entre
sí. Esto es particularmente ventajoso en el caso de los denominados
escenarios de codificación en tándem en los que hay varias fases
sucesivas de codificación/descodificación. Si los datos de
parámetros se acoplaran de manera fija a los datos de audio
comprimidos, tendrían que realizarse una síntesis multicanal y un
análisis multicanal posterior simultáneamente en cada
codificación/descodificación. Ya que estas operaciones son de muchas
pérdidas, las perdidas se acumularían gradualmente, lo que daría
como resultado un deterioro creciente de la impresión
multicanal.
En una cadena en tándem de este tipo, el ajuste
de la indicación de configuración de parámetros al segundo
significado y la estructura de información de configuración en el
flujo de datos permiten un ajuste de configuración de los medios de
reconstrucción multicanal en el descodificador independientemente
del codificador de audio subyacente. Así, los datos de downmix
pueden descodificarse/codificarse de cualquier manera sin tener
siempre que realizar una síntesis multicanal o análisis multicanal
al mismo tiempo. La introducción de información de configuración en
el flujo de datos y preferiblemente en el flujo de datos de
parámetros según la sintaxis de datos de parámetros permite, por
así decirlo, determinar una asociación absoluta de los datos de
parámetros con muestras de tiempo de los datos de canal de
transmisión descodificados, es decir, una asociación que es
autosuficiente y no se da en relación a una regla de procesamiento
de trama de codificador, como en el funcionamiento síncrono.
En el funcionamiento asíncrono, se impide por
tanto el deterioro de las características de sonido multicanal,
debido a que no siempre se realiza un análisis/síntesis multicanal.
Por tanto, el tamaño de trama para la codificación/descodificación
multicanal paramétrica no tiene necesariamente que estar conectado
con el tamaño de trama del codificador de audio.
El dispositivo de la figura 1 puede
implementarse tanto como codificador y como el denominado
"transcodificador hacia delante". En el primer caso, los
medios de parámetros multicanal calculan los propios datos de
parámetros. En el segundo caso, reciben los datos de parámetros ya
en una forma determinada y proporcionan la salida de datos de
parámetros de la invención con la indicación de configuración de
parámetros y datos de configuración asociados. Así, el
transcodificador hacia delante genera la salida de datos de
parámetros de la invención a partir de cualquier salida de
datos.
Lo inverso de esta medida se realiza mediante un
denominado "transcodificador hacia atrás" que, a partir de la
salida de datos de parámetros de la invención, genera alguna salida
en la que ya no está contenida la indicación de configuración de
parámetros, en la que, sin embargo, están completamente contenidos
también los datos de configuración, de tal manera que no es
necesario ningún uso de un algoritmo de codificación de audio en la
reconstrucción multicanal para la configuración.
Según la invención, el transcodificador hacia
atrás está diseñado como dispositivo para generar una salida de
datos de parámetros que, junto con los datos de canal de transmisión
que incluyen M canales de transmisión, representa N canales
originales, donde M es menor que N y mayor o igual a 1, utilizando
datos de entrada, en el que los datos de entrada comprenden una
indicación (41) de configuración de parámetros que tiene un primer
significado de que está contenida información de configuración para
medios de reconstrucción multicanal en los datos de entrada, o
tiene un segundo significado de que los medios de reconstrucción
multicanal van a utilizar información de configuración que depende
de un algoritmo (23) de codificación con el que se han
descodificado los datos de canal de transmisión a partir de una
versión codificada de los mismos. Contiene medios de escritura para
escribir datos de configuración, donde los medios de escritura están
diseñados para leer primero los datos de entrada para interpretar
(30) la indicación de configuración de parámetros, y para recuperar
información acerca de un algoritmo (23) de codificación con el que
se han descodificado los datos de canal de transmisión a partir de
una versión codificada de los mismos y para emitirlos como los datos
de configuración, cuando la indicación de configuración de
parámetros tiene el segundo significado.
A continuación, se describirá un diagrama de
circuito de bloques de un dispositivo para generar una señal de
audio multicanal según una realización preferida de la presente
invención, con respecto a la figura 2. Para generar la señal de
audio multicanal, se utilizan datos de entrada que incluyen datos
del canal de transmisión que representan los M canales de
transmisión y que incluyen además datos 21 de parámetros para
obtener K canales de salida. Los M canales de transmisión y los
datos de parámetros representan juntos N canales originales, donde
M es menor que N y es mayor o igual a 1, y donde K es mayor que M.
Además, los datos de entrada incluyen una indicación de
configuración de parámetros PKH, como ya se comentó, mientras que
los datos 20 de canal de transmisión son una versión descodificada
de los datos 22 de canal de transmisión codificados según un
algoritmo de codificación. En la realización mostrada en la figura
2, el algoritmo de descodificación se realiza mediante un
descodificador 23 de audio que tiene un funcionamiento de algoritmo
de codificación, por ejemplo, según el concepto de MP3 o según
MPEG-2 (AAC) o según cualquier otro concepto de
codificación.
El dispositivo que va a utilizarse en el lado
del descodificador mostrado en la figura 2 incluye medios 24 de
reconstrucción multicanal diseñados para generar los K canales de
salida en una salida 25 a partir de los datos 20 de canal de
transmisión y los datos 21 de parámetros.
Además, el dispositivo de la invención mostrado
en la figura 2 incluye medios 26 de configuración diseñados para
configurar los medios 24 de reconstrucción multicanal señalizando un
ajuste de configuración a través de una línea 27 de señalización.
Como los datos de entrada, los medios 26 de configuración reciben
preferiblemente los datos 21 de parámetros para leer y procesar
correspondientemente la indicación de configuración de parámetros,
la indicación de continuación FSH y posiblemente datos de
configuración presentes. Además, los medios de configuración
incluyen una entrada 28 de señalización del algoritmo de
codificación para obtener información acerca del algoritmo de
codificación de audio en el que se basan los datos de canal de
transmisión descodificados, es decir, el algoritmo de codificación
ejecutado por el codificador 23 de audio. La información puede ser
obtenida de diferentes maneras, por ejemplo a partir de una
observación de los datos de canal de transmisión descodificados, si
puede verse a partir de los mismos con qué algoritmo de codificación
se han codificado/descodificado. Alternativamente, el
descodificador 23 de audio puede comunicar por sí mismo su identidad
a los medios 26 de configuración. Todavía alternativamente, los
medios 26 de configuración pueden también analizar sintácticamente
los datos 22 de canal de transmisión codificados para determinar
una indicación a partir de los datos de canal de transmisión
codificados según qué codificación de algoritmo de codificación haya
tenido lugar. Tal "firma de algoritmo de codificación" estará
normalmente contenida en cada flujo de datos de salida de un
codificador.
A continuación, se describirá una implementación
preferida de los medios de configuración basándose en un diagrama
de bloques con respecto a la figura 3a. Los medios 26 de
configuración están diseñados para leer la indicación de
configuración de parámetros PKH a partir de los datos de entrada e
interpretarla, como se ilustra en el bloque 30. Si la indicación de
configuración de parámetros tiene un primer significado, los medios
de configuración continuarán leyendo el flujo de datos de parámetros
para extraer información de configuración (o al menos parte de la
información de configuración) en el flujo de datos de parámetros,
como se ilustra en el bloque 31. Si, sin embargo, la etapa 30
determina que la indicación de configuración de parámetros PKH
tiene el segundo significado, los medios de configuración obtendrán
información sobre un algoritmo de codificación en el que se basan
los datos del canal de transmisión descodificados, en la etapa
32.
Si hay varios algoritmos de codificación
básicamente posibles para los cuales está diseñado el dispositivo
de la invención para generar la señal multicanal, la etapa 32 es
seguida por una etapa 33 posterior en la que los medios de
reconstrucción multicanal determinan (33) un ajuste de configuración
basándose en información existente en el lado del descodificador.
Esto puede realizarse, por ejemplo, en forma de una tabla de
consulta (LUT, Look-Up Table). Si, al final
de la etapa 32, se obtiene una indicación de identificación de
codificador de audio, se entra en la tabla de consulta en la etapa
33 utilizando la indicación de identificación de codificador de
audio, donde la indicación de identificación de codificador de audio
se utiliza como índice. Asociados en el índice hay diversos ajustes
de configuración encontrados, tales como longitud de bloque, tasa de
muestreo, avance, etc., asociados con tal codificador de audio.
Entonces se aplica un ajuste de configuración a
los medios de reconstrucción multicanal en la etapa 34. Sin
embargo, si el primer significado de la indicación de configuración
de parámetros se escoge en la etapa 30, el mismo ajuste de
configuración se efectúa basándose en información de configuración
contenida en el flujo de datos de parámetros, como se representa
por la fecha de conexión entre el bloque 31 y el bloque 34 en la
figura 3.
El esquema de la invención es flexible porque
soporta métodos de señalización de información de configuración
tanto explícitos como implícitos. Esto es para lo que sirve la
indicación de configuración de parámetros PKH, que se inserta
preferiblemente como etiqueta y, en el mejor caso, requiere
solamente un único bit para indicar la señalización de la
información de configuración en sí. El descodificador multicanal
paramétrico puede evaluar posteriormente esta etiqueta. Si la
disponibilidad de información de configuración disponible
explícitamente se señaliza con esta etiqueta, se utiliza esta
información de configuración. Por otra parte, si se indica la
señalización implícita por la etiqueta, el descodificador utilizará
la información sobre el método de codificación de audio o voz
utilizado y aplicará la información de configuración basada en
método de codificación señalizado. Para este propósito, el
descodificador multicanal paramétrico y/o los medios de
reconstrucción multicanal tienen preferiblemente una tabla de
consulta que contiene la información de configuración estándar para
un número determinado de codificadores de audio o voz. Sin embargo,
también hay otras posibilidades de una tabla de consulta que pueda,
por ejemplo, incluir soluciones cableadas, etc. En general, el
descodificador puede proporcionar la información de configuración
con información predeterminada presente en sí misma dependiendo de
la información de identificación del codificador presente
actualmente.
Este concepto es particularmente ventajoso
porque puede conseguirse una configuración completa del esquema de
parámetros con un mínimo de esfuerzo adicional, donde, en el caso
extremo, un único bit será suficiente, lo que forma un contraste
con la situación de que toda la información de configuración tendría
que escribirse explícitamente en el propio flujo de datos con un
esfuerzo considerablemente superior con respecto a bits.
Según la invención, la señalización puede
conmutarse alternativamente. Esto permite una manipulación de datos
multicanal simple, incluso si la representación de los datos de
canal de transmisión cambia, por ejemplo cuando los datos de canal
de transmisión se descodifican y se codifican de nuevo
posteriormente, es decir, cuando hay una situación de codificación
en tándem.
El concepto de la invención permite por tanto el
ahorro de bits de señalización en el caso de funcionamiento
síncrono por una parte y conmutación a funcionamiento asíncrono por
otra parte, si es necesario, es decir, una implementación de ahorro
de bits eficaz y, por otra parte, manipulación flexible, que será de
particular interés en relación con la "complementación" de
datos estéreo existentes para una representación multicanal.
A continuación, se dará una implementación a
modo de ejemplo del dispositivo de la invención para generar una
señal de audio multicanal con el ejemplo de un pseudocódigo de
sintaxis, con respecto a la figura 4c. En primer lugar, se lee el
valor de la variable "useSameBccConfig". Aquí, la variable
sirve como indicación de continuación. Así, hay solamente una
continuación para interpretar la indicación de configuración de
parámetros cuando esta variable, es decir, la indicación de
configuración, tiene un valor igual a, por ejemplo, 1. Sin embargo,
si la indicación de configuración no es igual a 1, es decir, tiene
el otro significado, se utiliza una configuración transmitida
previamente. Si todavía no hay ninguna configuración en los medios
de reconstrucción multicanal, tiene que esperar hasta que obtiene
justo la primera información de configuración y/o ajuste de
configuración. Lo siguiente examinará la indicación de configuración
de parámetros. La variable "codecToBccConfigAlignment" sirve
como indicación de configuración de parámetros PKH. Si esta variable
es igual a 1, es decir, si tiene el segundo significado, el
descodificador no utilizará ninguna información de configuración
adicional, sino que determinará la información de configuración
basándose en la identificación del codificador, tal como MP3,
CoderX o CoderY, como puede verse a partir de las líneas que
empiezan con "case" en la figura 4c. Ha de observarse que, a
modo de ejemplo, la sintaxis mostrada en la figura 4c soporta
solamente MP3, CoderX y CoderY. Sin embargo, puede añadirse
cualquier otro nombre/identificación de codificación.
\newpage
Cuando se ha determinado, por ejemplo MP3 como
información del codificador, la variable bccConfigID se ajusta por
ejemplo, a MP3_V1, que es la configuración para un codificador MP3
subyacente con la versión de sintaxis V1. Posteriormente, el
descodificador se configura con un conjunto de parámetros
determinado basándose en esta identificación de configuración BCC.
Así, por ejemplo, se activa una longitud de bloque de 576 muestras
como ajuste de configuración. Así, se señalizan tramas que tienen
esta longitud de bloque. Ajustes de configuración
alternativos/adicionales pueden ser la tasa de muestreo, etc., sin
embargo, si la indicación de configuración de parámetros
(codecToBccConfigAlignment) tiene el primer significado, es decir,
por ejemplo el valor 0, el descodificador recibirá explícitamente
información de configuración desde el flujo de datos, es decir,
recibirá una bccConfigID distinta del flujo de datos, es decir, de
los datos de entrada. El siguiente procedimiento es entonces el
mismo que el que se acaba de describir. Sin embargo, este caso, no
se utiliza una identificación del descodificador para descodificar
los datos de canal de transmisión codificados para fines de
configuración de los medios de reconstrucción multicanal.
Así, la bccConfigID puede utilizarse para el fin
de descodificar los datos de canal de transmisión en el caso de un
descodificador de audio MP3 para configurar medios de reconstrucción
multicanal. Por otra parte, también puede haber cualquier otra
bccConfigID de información de configuración en el flujo de datos y
puede evaluarse, independientemente de si el codificador de audio
subyacente o es un codificador MP3 o no. Lo mismo se aplica a otros
ajustes de configuración predefinidos, tales como CoderX y CoderY, y
a una configuración libre adicional en la que la información de
configuración (bccConfigID) se ajusta a individual. En realizaciones
preferidas, hay información de configuración adicional en el flujo
de datos que, a su vez, señaliza al descodificador que debería
utilizar una mezcla de información de configuración ya predefinida
presente en el descodificador e información de configuración
transmitida explícitamente.
A diferencia de las realizaciones descritas
anteriormente, la presente invención también puede aplicarse a
otras señales multicanal que no son señales de audio, tales como
señales de vídeo codificadas paramétricamente, etc.
Dependiendo de las circunstancias, el método de
la invención de generación y/o descodificación puede implementarse
en hardware o en software. La implementación puede realizarse en un
medio de almacenamiento digital, en particular un disco flexible o
un CD que tiene señales de control que pueden ser leídas
electrónicamente, que puede actuar conjuntamente con un sistema
informático programable, de tal manera que se ejecuta el método.
Así, en general, la invención consiste también en un producto de
programa informático que tiene un código de programa para realizar
el método almacenado en un soporte legible por máquina, cuando el
producto de programa informático se ejecuta en un ordenador. En
otras palabras, la invención puede por tanto realizarse como un
programa informático que tiene un código de programa para realizar
el método, cuando el programa informático se ejecuta en un
ordenador.
Claims (21)
1. Dispositivo para generar una señal multicanal
utilizando datos de entrada que incluyen datos de canal de
transmisión que representan M canales de transmisión y datos de
parámetros para obtener K canales de salida, en el que los M
canales de transmisión y los datos de parámetros representan juntos
N canales originales, donde M es menor que N y mayor o igual a 1 y
donde K es mayor que M, en el que los datos de entrada comprenden
una indicación (41) de configuración de parámetros, que
comprende:
medios (24) de reconstrucción multicanal
diseñados para generar los K canales de salida a partir de los datos
de canal de transmisión y los datos de parámetros; y
medios (26) de configuración para configurar los
medios de reconstrucción multicanal, en el que los medios de
configuración están diseñados para
- leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros,
- cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración de los medios de reconstrucción multicanal, y
- cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, configurar (34) los medios de reconstrucción multicanal utilizando información sobre un algoritmo (23) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos de tal manera que el ajuste de configuración de los medios de reconstrucción multicanal es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.
2. Dispositivo según la reivindicación 1, en el
que los datos de canal de transmisión comprenden un flujo de datos
de canal de transmisión que tiene una sintaxis de datos de canal de
transmisión,
en el que los datos de parámetros comprenden un
flujo de datos de parámetros que tiene una sintaxis de datos de
parámetros, en el que la sintaxis de datos de canal de transmisión
difiere de la sintaxis de datos de parámetros, y
en el que la indicación de configuración de
parámetros se inserta en los datos de parámetros según esta
sintaxis,
en el que los medios (26) de configuración están
diseñados para leer los datos de parámetros según la sintaxis de
datos de parámetros y para extraer (30) la indicación de
configuración de parámetros.
3. Dispositivo según la reivindicación 1 ó 2, en
el que los medios (24) de reconstrucción multicanal están diseñados
para realizar el procesamiento en bloques, en el que los datos de
canal de transmisión son una secuencia de muestras y en el que el
ajuste de configuración incluye una longitud de bloque o número de
avance de muestras que se procesan nuevamente por los medios (24)
de de reconstrucción multicanal por procesamiento de un bloque.
4. Dispositivo según la reivindicación 3, en el
que los datos de canal de transmisión son muestras de tiempo del al
menos un canal de transmisión, y los medios (24) de reconstrucción
multicanal comprenden un banco de filtros para convertir un bloque
de muestras de tiempo de los datos de canal de transmisión a una
representación de dominio de la frecuencia.
5. Dispositivo según una de las reivindicaciones
anteriores, en el que los datos de parámetros comprenden una
secuencia de bloques de valores de parámetros, en el que un bloque
de valores de parámetros está asociado con una parte de tiempo de
al menos un canal de transmisión, en el que los medios (24) de
reconstrucción multicanal están diseñados de tal manera que el
ajuste de configuración hace que el bloque de valores de parámetros
y la parte de tiempo asociada del al menos un canal de transmisión
se utilicen para generar los K canales de salida.
6. Dispositivo según una de las reivindicaciones
anteriores, en el que el algoritmo (23) de codificación es uno de
entre una pluralidad de diversos algoritmos de codificación, y
en el que los medios (26) de configuración
comprenden medios de tabla de consulta que incluyen un índice y un
conjunto de información de configuración asociado con el índice para
un algoritmo de codificación, que comprende respectivamente el
ajuste de configuración para los algoritmos de codificación,
en el que los medios (26) de configuración están
diseñados para determinar el índice para la tabla de consulta a
partir de la información sobre el algoritmo de codificación y para
determinar (33) a partir de la misma la información de
configuración para los medios de reconstrucción multicanal.
7. Dispositivo según una de las reivindicaciones
anteriores, en el que los datos de entrada comprenden información
de configuración para los medios (24) de reconstrucción multicanal
en el caso de una indicación de configuración de parámetros que
tiene el primer significado, y comprenden sólo parte de o ninguna
información de configuración para los medios de reconstrucción
multicanal en el caso de la indicación de configuración de
parámetros que tiene el segundo significado.
8. Dispositivo según una de las reivindicaciones
anteriores, en el que los medios (26) de configuración están
diseñados para extraer sólo parte de la información de configuración
requerida a partir de los datos de entrada cuando la indicación de
configuración de parámetros tiene el segundo significado, y para
utilizar una parte restante de información de configuración de la
información de configuración preestablecida conocida para los
medios de reconstrucción multicanal.
9. Dispositivo según una de las reivindicaciones
anteriores, en el que los medios (26) de configuración están
diseñados para obtener la información sobre el algoritmo de
codificación a través de una línea de conexión a través de la cual
los medios de configuración pueden conectarse a un descodificador
que genera los datos de canal de transmisión a partir de los datos
de canal de transmisión codificados, o para obtener la información
sobre el algoritmo de codificación leyendo los datos de canal de
transmisión o los datos de canal de transmisión codificados, cuando
la indicación de configuración de parámetros tiene el segundo
significado.
10. Dispositivo según una de las
reivindicaciones anteriores, en el que los datos de entrada
comprenden además una indicación (41) de continuación y
en el que los medios (26) de configuración están
diseñados para leer e interpretar (29) la indicación de continuación
para efectuar un ajuste de configuración establecido de manera fija
o señalizado previamente de los medios de reconstrucción multicanal
en caso de que la indicación de continuación tenga un primer
significado, y para configurar (30) los medios de reconstrucción
multicanal basándose en la indicación de configuración de parámetros
solamente en caso de que la indicación de continuación tenga un
segundo significado que difiere del primer significado.
11. Dispositivo según la reivindicación 10, en
el que la indicación de continuación está asociada con los datos de
parámetros según una sintaxis de datos de parámetros y es una
etiqueta en el flujo de datos de parámetros.
12. Dispositivo según una de las
reivindicaciones anteriores, en el que la indicación de
configuración de parámetros está asociada con los datos de
parámetros según una sintaxis de datos de parámetros y es una
etiqueta en el flujo de datos de parámetros.
13. Dispositivo según la reivindicación 11 ó 12,
en el que la indicación de continuación o la indicación de
configuración de parámetros incluye cada una un único bit.
14. Método para generar una señal multicanal
utilizando datos de entrada que incluyen datos de canal de
transmisión que representan M canales de transmisión y datos de
parámetros para obtener K canales de salida, en el que los M
canales de transmisión y los datos de parámetros representan juntos
N canales originales, donde M es menor que N y mayor o igual a 1, y
donde K es mayor que M, en el que los datos de entrada comprenden
una indicación (41) de configuración de parámetros, que
comprende:
reconstruir (24) los K canales de salida a
partir de los datos de canal de transmisión y los datos de
parámetros según un algoritmo de reconstrucción;
configurar (26) el algoritmo de reconstrucción
mediante las siguientes subetapas:
- leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros;
- cuando la indicación de configuración de parámetros tiene un primer significado, extraer (31) información de configuración contenida en los datos de entrada y efectuar (34) un ajuste de configuración del algoritmo de reconstrucción y
- cuando la indicación de configuración de parámetros tiene un segundo significado que difiere del primer significado, efectuar (34) el ajuste de configuración del algoritmo de reconstrucción utilizando información sobre un algoritmo (22) de codificación con el que se han descodificado los datos del canal de transmisión a partir de una versión codificada de los mismos, de tal manera que el ajuste de configuración es idéntico a un ajuste de configuración del algoritmo (23) de codificación o depende de un ajuste de configuración del algoritmo (23) de codificación.
15. Dispositivo para generar una salida de datos
de parámetros que, junto con los datos de canal de transmisión que
incluyen M canales de transmisión, representa N canales originales,
donde M es menor que N y es mayor o igual a 1, que comprende:
medios (11) de parámetros multicanal para
proporcionar los datos de parámetros;
medios (14) de señalización para determinar una
indicación de configuración de parámetros, en el que la indicación
de configuración de parámetros tiene un primer significado cuando va
a utilizarse información de configuración contenida en la salida de
datos de parámetros para medios de reconstrucción multicanal, y en
el que la indicación de configuración de parámetros tiene un
segundo significado cuando van a utilizarse datos de configuración
para una reconstrucción multicanal que se basan en un algoritmo de
codificación que va a utilizarse para la codificación o
descodificación de los M canales de transmisión; y
medios (15) de escritura de datos de
configuración para emitir la información de codificación para
obtener la salida de datos de parámetros.
16. Dispositivo según la reivindicación 15, en
el que los medios (15) de escritura de datos de configuración están
diseñados para insertar una indicación de continuación en el
conjunto de datos de parámetros,
en el que la indicación de continuación hace que
se utilice un ajuste de configuración establecido de manera fija
previamente señalizado en una reconstrucción multicanal cuanto tiene
un primer significado, y hace que tenga lugar una configuración de
una reconstrucción multicanal utilizando la indicación de
configuración de parámetros cuando la indicación de continuación
tiene un segundo significado que difiere del primer significado.
17. Dispositivo según la reivindicación 15 ó 16,
en el que los medios de escritura de datos de configuración están
diseñados para asociar ninguna o sólo parte de la información de
configuración necesaria con el conjunto de datos de parámetros
cuando la indicación de configuración de parámetros tiene el segundo
significado (17).
18. Método para generar una salida de datos de
parámetros que, junto con los datos de canal de transmisión que
incluyen M canales de transmisión, representa N canales originales,
donde M es menor que N y es mayor o igual a 1, que comprende:
proporcionar (11) los datos de parámetros;
determinar (14) una indicación de configuración
de parámetros, en el que la indicación de configuración de
parámetros tiene un primer significado cuando va a utilizarse
información de configuración contenida en la salida de datos de
parámetros para un algoritmo de reconstrucción multicanal, y en el
que la indicación de configuración de parámetros tiene un segundo
significado cuando van a utilizarse datos de configuración para una
reconstrucción multicanal que se basa en un algoritmo de
codificación que va a utilizarse para la codificación o
descodificación de los M canales de transmisión; y
emitir (15) la información de configuración para
obtener la salida de datos de parámetros.
19. Dispositivo para generar una salida de datos
de parámetros que, junto con los datos de canal de transmisión que
incluyen M canales de transmisión, representa N canales originales,
donde M es menor que N y es mayor o igual a 1, utilizando datos de
entrada, en el que los datos de entrada comprenden una indicación
(41) de configuración de parámetros que tiene un primer significado
de que la información de configuración para medios de
reconstrucción multicanal está contenida en los datos de entrada, o
tiene un segundo significado de que los medios de reconstrucción
multicanal van a utilizar información de configuración que depende
de un algoritmo (23) de codificación con el que se han
descodificado los datos de canal de transmisión, que comprende:
medios de escritura para escribir datos de
configuración, en el que los medios de escritura están diseñados
para
- leer los datos de entrada para interpretar (30) la indicación de configuración de parámetros, y
- cuando la indicación de configuración de parámetros tiene el segundo significado, recuperar y emitir como la información de datos de configuración sobre un algoritmo (23) de codificación con el que se han descodificado los datos de canal de transmisión.
20. Método para generar una salida de datos de
parámetros que, junto con los datos de canal de transmisión que
incluyen M canales de transmisión, representa N canales originales,
donde M es menor que N y es mayor o igual a 1, utilizando datos de
entrada, en el que los datos de entrada comprenden una indicación
(41) de configuración de parámetros que tiene un primer significado
de que la información de configuración para medios de reconstrucción
multicanal está contenida en los datos de entrada, o tiene un
segundo significado de que los medios de reconstrucción multicanal
van a utilizar información de configuración que depende de un
algoritmo (23) de codificación con el que se han descodificado los
datos de canal de transmisión, que comprende:
leer los datos de entrada para interpretar (30)
la indicación de configuración de parámetros;
cuando la indicación de configuración de
parámetros tiene el segundo significado, recuperar información sobre
un algoritmo (23) de codificación con el que se han descodificado
los datos de canal de transmisión, y emitir los datos de
configuración recuperados.
21. Producto de programa informático que tiene
un código de programa para realizar el método según la
reivindicación 14, la reivindicación 18 o la reivindicación 20, en
el que el programa informático se ejecuta en un ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004043521 | 2004-09-08 | ||
DE102004043521A DE102004043521A1 (de) | 2004-09-08 | 2004-09-08 | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2314706T3 true ES2314706T3 (es) | 2009-03-16 |
Family
ID=35502612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05782843T Active ES2314706T3 (es) | 2004-09-08 | 2005-08-10 | Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros. |
Country Status (18)
Country | Link |
---|---|
US (1) | US8731204B2 (es) |
EP (1) | EP1687809B1 (es) |
JP (1) | JP4601669B2 (es) |
KR (1) | KR100857920B1 (es) |
CN (1) | CN101014999B (es) |
AT (1) | ATE409938T1 (es) |
AU (1) | AU2005281966B2 (es) |
BR (1) | BRPI0515651B1 (es) |
CA (1) | CA2579114C (es) |
DE (2) | DE102004043521A1 (es) |
ES (1) | ES2314706T3 (es) |
HK (1) | HK1093595A1 (es) |
IL (1) | IL181743A0 (es) |
MX (1) | MX2007002854A (es) |
NO (1) | NO338932B1 (es) |
PT (1) | PT1687809E (es) |
RU (1) | RU2355046C2 (es) |
WO (1) | WO2006027079A1 (es) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100740807B1 (ko) | 2004-12-31 | 2007-07-19 | 한국전자통신연구원 | 공간정보기반 오디오 부호화에서의 공간정보 추출 방법 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7987097B2 (en) | 2005-08-30 | 2011-07-26 | Lg Electronics | Method for decoding an audio signal |
US7788107B2 (en) | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
US8577483B2 (en) | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
JP5134623B2 (ja) * | 2006-07-07 | 2013-01-30 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 複数のパラメータ的に符号化された音源を合成するための概念 |
KR101438387B1 (ko) * | 2006-07-12 | 2014-09-05 | 삼성전자주식회사 | 서라운드 확장 데이터 부호화 및 복호화 방법 및 장치 |
WO2008039038A1 (en) | 2006-09-29 | 2008-04-03 | Electronics And Telecommunications Research Institute | Apparatus and method for coding and decoding multi-object audio signal with various channel |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
CN101169866B (zh) * | 2006-10-26 | 2010-09-01 | 朱明程 | 自重构片上多媒体处理系统及其自重构实现方法 |
WO2009075510A1 (en) * | 2007-12-09 | 2009-06-18 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
US8654988B2 (en) | 2008-05-05 | 2014-02-18 | Qualcomm Incorporated | Synchronization of signals for multiple data sinks |
EP2124486A1 (de) * | 2008-05-13 | 2009-11-25 | Clemens Par | Winkelabhängig operierende Vorrichtung oder Methodik zur Gewinnung eines pseudostereophonen Audiosignals |
KR20110052562A (ko) | 2008-07-15 | 2011-05-18 | 엘지전자 주식회사 | 오디오 신호의 처리 방법 및 이의 장치 |
US8639368B2 (en) | 2008-07-15 | 2014-01-28 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
RU2562384C2 (ru) * | 2010-10-06 | 2015-09-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac) |
ES2529025T3 (es) * | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
US8600692B2 (en) * | 2011-03-17 | 2013-12-03 | Sysacom | Automatically configurable sensing device |
MX2013010537A (es) * | 2011-03-18 | 2014-03-21 | Koninkl Philips Nv | Codificador y decodificador de audio con funcionalidad de configuracion. |
JP6141978B2 (ja) | 2012-08-03 | 2017-06-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネル・ダウンミックス/アップミックス構成のためのパラメトリックコンセプトを採用したマルチインスタンス方式の空間音響オブジェクト符号化用のデコーダおよびその方法 |
CN103686179B (zh) * | 2012-09-26 | 2019-05-07 | 中兴通讯股份有限公司 | 使用参数集的编码、解码方法及装置、电子设备 |
CN109509478B (zh) | 2013-04-05 | 2023-09-05 | 杜比国际公司 | 音频处理装置 |
CN103336747B (zh) * | 2013-07-05 | 2015-09-09 | 哈尔滨工业大学 | VxWorks操作系统下CPCI总线数字量输入与开关量输出可配置驱动器及驱动方法 |
EP2840811A1 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder |
CN103412833A (zh) * | 2013-08-30 | 2013-11-27 | 哈尔滨工业大学 | VxWorks操作系统下CPCI总线扫描ADC功能模块驱动设备及其控制方法 |
EP2863386A1 (en) | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
CN103744805B (zh) * | 2014-01-03 | 2016-04-27 | 哈尔滨工业大学 | VxWorks下CPCI总线开关量与模拟量输出模块硬件架构与时序可配置驱动方法 |
EP3067885A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
WO2018127764A1 (en) | 2017-01-06 | 2018-07-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Explicit configuration of paging and control channel in system information |
US10542052B2 (en) * | 2017-04-27 | 2020-01-21 | Samsung Electronics Co., Ltd. | Multi-area grouping |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5329000A (en) | 1991-10-31 | 1994-07-12 | Becton, Dickinson And Company | Purification of DNA with silicon tetrahydrazide |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
EP0631458B1 (en) | 1993-06-22 | 2001-11-07 | Deutsche Thomson-Brandt Gmbh | Method for obtaining a multi-channel decoder matrix |
ES2165370T3 (es) * | 1993-06-22 | 2002-03-16 | Thomson Brandt Gmbh | Metodo para obtener una matriz decodificadora multicanal. |
AU748414B2 (en) | 1997-11-14 | 2002-06-06 | W.Waves (U.S.A) Inc. | Post-amplification stereophonic to surround sound decoding circuit |
KR100335611B1 (ko) | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
KR100335609B1 (ko) | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
JPH11330980A (ja) | 1998-05-13 | 1999-11-30 | Matsushita Electric Ind Co Ltd | 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体 |
US6452941B1 (en) * | 1998-09-16 | 2002-09-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and system for alternating transmission of codec mode information |
DE19900961A1 (de) | 1999-01-13 | 2000-07-20 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Wiedergabe von Mehrkanaltonsignalen |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
TW533746B (en) | 2001-02-23 | 2003-05-21 | Formosa Ind Computing Inc | Surrounding sound effect system with automatic detection and multiple channels |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
TW569551B (en) | 2001-09-25 | 2004-01-01 | Roger Wallace Dressler | Method and apparatus for multichannel logic matrix decoding |
WO2003090207A1 (en) * | 2002-04-22 | 2003-10-30 | Koninklijke Philips Electronics N.V. | Parametric multi-channel audio representation |
US8340302B2 (en) * | 2002-04-22 | 2012-12-25 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
US20040037433A1 (en) | 2002-08-21 | 2004-02-26 | Heng-Chien Chen | Multi-channel wireless professional audio system |
EP1414273A1 (en) * | 2002-10-22 | 2004-04-28 | Koninklijke Philips Electronics N.V. | Embedded data signaling |
JP2005352396A (ja) * | 2004-06-14 | 2005-12-22 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置および音響信号復号装置 |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US7751572B2 (en) * | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
TWI336599B (en) * | 2006-02-23 | 2011-01-21 | Lg Electronics Inc | Method and apparatus for processing a audio signal |
-
2004
- 2004-09-08 DE DE102004043521A patent/DE102004043521A1/de not_active Withdrawn
-
2005
- 2005-08-10 CN CN2005800300274A patent/CN101014999B/zh active Active
- 2005-08-10 EP EP05782843A patent/EP1687809B1/de active Active
- 2005-08-10 KR KR1020077005307A patent/KR100857920B1/ko active IP Right Grant
- 2005-08-10 AU AU2005281966A patent/AU2005281966B2/en active Active
- 2005-08-10 BR BRPI0515651-3A patent/BRPI0515651B1/pt active IP Right Grant
- 2005-08-10 MX MX2007002854A patent/MX2007002854A/es active IP Right Grant
- 2005-08-10 CA CA2579114A patent/CA2579114C/en active Active
- 2005-08-10 JP JP2007530606A patent/JP4601669B2/ja active Active
- 2005-08-10 WO PCT/EP2005/008694 patent/WO2006027079A1/de active Application Filing
- 2005-08-10 DE DE502005005522T patent/DE502005005522D1/de active Active
- 2005-08-10 PT PT05782843T patent/PT1687809E/pt unknown
- 2005-08-10 ES ES05782843T patent/ES2314706T3/es active Active
- 2005-08-10 RU RU2007112943/09A patent/RU2355046C2/ru active
- 2005-08-10 AT AT05782843T patent/ATE409938T1/de active
-
2007
- 2007-01-10 HK HK07100368A patent/HK1093595A1/xx unknown
- 2007-02-28 NO NO20071132A patent/NO338932B1/no unknown
- 2007-03-06 IL IL181743A patent/IL181743A0/en unknown
- 2007-03-08 US US11/683,741 patent/US8731204B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2005281966B2 (en) | 2008-07-17 |
CA2579114A1 (en) | 2006-03-16 |
KR100857920B1 (ko) | 2008-09-10 |
DE102004043521A1 (de) | 2006-03-23 |
BRPI0515651B1 (pt) | 2019-07-02 |
CA2579114C (en) | 2011-05-10 |
EP1687809B1 (de) | 2008-10-01 |
JP4601669B2 (ja) | 2010-12-22 |
CN101014999B (zh) | 2011-04-27 |
HK1093595A1 (en) | 2007-03-02 |
RU2355046C2 (ru) | 2009-05-10 |
JP2008512708A (ja) | 2008-04-24 |
NO338932B1 (no) | 2016-10-31 |
IL181743A0 (en) | 2007-07-04 |
ATE409938T1 (de) | 2008-10-15 |
RU2007112943A (ru) | 2008-10-20 |
MX2007002854A (es) | 2007-05-08 |
PT1687809E (pt) | 2009-01-14 |
US20070206690A1 (en) | 2007-09-06 |
CN101014999A (zh) | 2007-08-08 |
AU2005281966A1 (en) | 2006-03-16 |
US8731204B2 (en) | 2014-05-20 |
KR20070065314A (ko) | 2007-06-22 |
BRPI0515651A (pt) | 2008-07-29 |
NO20071132L (no) | 2007-04-03 |
EP1687809A1 (en) | 2006-08-09 |
DE502005005522D1 (de) | 2008-11-13 |
WO2006027079A1 (de) | 2006-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2314706T3 (es) | Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros. | |
ES2770146T3 (es) | Conformación temporal y espacial de señales de audio multicanal | |
ES2362920T3 (es) | Método mejorado para la conformación de señales en reconstrucción de audio multicanal. | |
ES2923661T3 (es) | Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia | |
ES2297825T3 (es) | Cuantificacion dependiente de energia para la codificacion eficaz de parametros de audio espaciales. | |
ES2952871T3 (es) | Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial | |
JP4589962B2 (ja) | レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法 | |
ES2913849T3 (es) | Concepto para codificación y decodificación de audio para canales de audio y objetos de audio | |
JP4856641B2 (ja) | 符号化されたマルチチャネル信号を発生するための装置および方法並びに符号化されたマルチチャネル信号を復号化するための装置および方法 | |
ES2511390T3 (es) | Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase | |
JP4519919B2 (ja) | コンパクトなサイド情報を用いたマルチチャネルの階層的オーディオ符号化 | |
ES2281795T3 (es) | Sintesis de señal de audio. | |
ES2306076T3 (es) | Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix. | |
US20070168183A1 (en) | Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore | |
ES2438176T3 (es) | Método para restablecer una señal de audio de múltiples canales usando un decodificador de HE-AAC y un decodificador de MPEG surround | |
BRPI0305434B1 (pt) | Methods and arrangements for encoding and decoding a multichannel audio signal, and multichannel audio coded signal | |
JP2022010239A (ja) | マルチチャネル・オーディオ・コンテンツの符号化 | |
JP4988717B2 (ja) | オーディオ信号のデコーディング方法及び装置 |