ES2306076T3 - Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix. - Google Patents
Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix. Download PDFInfo
- Publication number
- ES2306076T3 ES2306076T3 ES05700983T ES05700983T ES2306076T3 ES 2306076 T3 ES2306076 T3 ES 2306076T3 ES 05700983 T ES05700983 T ES 05700983T ES 05700983 T ES05700983 T ES 05700983T ES 2306076 T3 ES2306076 T3 ES 2306076T3
- Authority
- ES
- Spain
- Prior art keywords
- channel
- channels
- original
- signal
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 56
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 238000009826 distribution Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000001934 delay Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Radio Relay Systems (AREA)
- Logic Circuits (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
Aparato para construir una señal de salida multicanal, utilizando una señal de entrada e información lateral paramétrica, incluyendo la señal de entrada un primer canal de entrada (Lc) y un segundo canal de entrada (Rc) derivado a partir de una señal multicanal original, teniendo la señal multicanal original una pluralidad de canales, incluyendo la pluralidad de canales al menos dos canales originales, que se definen como ubicados en un lado de una posición del oyente considerada, en el que un primer canal original es uno primero de los al menos dos canales originales, y en el que un segundo canal original es uno segundo de los al menos dos canales originales, y describiendo la información lateral paramétrica interrelaciones entre canales originales de la señal original multicanal, que comprende: medios (322) para determinar un primer canal base seleccionando uno del primer y el segundo canal de entrada o una combinación del primer y el segundo canal de entrada, y para determinar un segundo canal base seleccionando el otro del primer y el segundo canal de entrada o una combinación diferente del primer y el segundo canal de entrada, de tal manera que el segundo canal base es diferente del primer canal base; y medios (324) para sintetizar un primer canal de salida utilizando la información lateral paramétrica y el primer canal base para obtener un primer canal de salida sintetizado que es una versión reproducida del primer canal original que se ubica en un lado de la posición del oyente considerada, y para sintetizar un segundo canal de salida utilizando la información lateral paramétrica y el segundo canal base, siendo el segundo canal de salida una versión reproducida del segundo canal original que se ubica en el mismo lado de la posición del oyente considerada.
Description
Aparato y método para construir una señal de
salida multicanal o para generar una señal de downmix.
La presente invención se refiere a un aparato y
un método para procesar una señal de audio multicanal y en
particular, a un aparato y un método para procesar una señal de
audio multicanal en una forma compatible con estéreo.
En los últimos tiempos, la técnica de
reproducción de audio multicanal, cada vez se está volviendo más
importante. Esto puede deberse al hecho de que las técnicas de
compresión/codificación de audio tales como la bien conocida técnica
mp3 han hecho posible distribuir grabaciones de audio por Internet
u otros canales de transmisión que tienen un ancho de banda
limitado. La técnica de codificación mp3 se ha vuelto tan famosa
debido al hecho de que permite la distribución de todas las
grabaciones en un formato estéreo, es decir, una representación
digital de la grabación de audio, que incluye un canal de estéreo
primero o izquierdo y un canal de estéreo segundo o derecho.
Sin embargo, hay desventajas básicas de sistemas
de sonido de dos canales convencionales. Por tanto, se ha
desarrollado la técnica de sonido envolvente. Una representación de
sonido multicanal recomendada incluye, además de los dos canales de
estéreo L y R, un canal central adicional C y dos canales
envolventes Ls, Rs. Este formato de sonido de referencia también se
denomina como estéreo tres/dos, que significa tres canales
frontales y dos canales envolventes. En general, se requieren cinco
canales de transmisión. En un entorno de reproducción, se requieren
al menos cinco altavoces en los cinco lugares diferentes
respectivos para obtener un punto óptimo a una cierta distancia
desde los cinco altavoces bien colocados.
Se conocen varias técnicas en la técnica para
reducir la cantidad de datos requeridos para la transmisión de una
señal de audio multicanal. Estas técnicas se denominan técnicas de
estéreo conjunto. Con este fin, se hace referencia a la figura 10,
que muestra un dispositivo 60 de estéreo conjunto. Este dispositivo
puede ser un dispositivo que implementa por ejemplo intensidad
estéreo (IS, intensity stereo) o codificación de indicación
binaural (BCC, binaural cue coding). Un dispositivo de este
tipo generalmente recibe, como una entrada, al menos dos canales
(CH1, CH2,... CHn), y emite un único canal portador y datos
paramétricos. Los datos paramétricos se definen de tal manera que,
en un descodificador, pueda calcularse una aproximación de un canal
original (CH1, CH2, ... CHn).
Normalmente, el canal portador incluirá muestras
de subbanda, coeficientes espectrales, muestras de dominio del
tiempo, etc., que proporcionan una representación comparativamente
precisa de la señal subyacente, mientras que los datos paramétricos
no incluyen tales muestras de coeficientes espectrales sino que
incluyen parámetros de control para controlar un cierto algoritmo de
reconstrucción tales como ponderación por multiplicación,
desplazamiento de tiempo, desplazamiento de frecuencia, ... Los
datos paramétricos, por lo tanto, incluyen sólo una representación
comparativamente imprecisa de la señal o el canal asociado. Puesto
en números, la cantidad de datos requerida por un canal portador
estará en el intervalo de 60 a 70 kbits/s, mientras que la cantidad
de datos requerida por información lateral paramétrica para un
canal estará en el intervalo de 1,5 a 2,5 kbits/s. Un ejemplo para
datos paramétricos son los bien conocidos factores de escala,
información de intensidad estéreo o parámetros de indicación
binaural tal como se describirá a continuación.
La codificación de intensidad estéreo se
describe en la preimpresión AES 3799, "Intensity Stereo
Coding", J. Herre, K. H. Brandenburg, D. Lederer, febrero de
1994, Amsterdam. En general, el concepto de intensidad estéreo se
basa en aplicar una transformada de eje principal a los datos de
ambos canales de audio estereofónicos. Si la mayoría de los puntos
de datos se concentran alrededor del primer eje principal, puede
conseguirse una ganancia de codificación girando ambas señales un
cierto ángulo antes de la codificación. Esto, sin embargo, no es
siempre cierto para técnicas de producción estereofónicas reales.
Por lo tanto, esta técnica se modifica excluyendo la segunda
componente ortogonal de la transmisión en el flujo de bits. Por
tanto, las señales reconstruidas para los canales izquierdo y
derecho consisten en versiones ajustadas a escala o ponderadas de
manera diferente de la misma señal transmitida. Sin embargo, las
señales reconstruidas difieren en su amplitud pero son idénticas
respecto a su información de fase. Las envolventes de
tiempo-energía de ambos canales de audio
originales, sin embargo, se conservan mediante la operación de
ajuste a escala selectiva, que normalmente funcionada de una manera
selectiva en frecuencia. Esto se ajusta a la percepción humana del
sonido a altas frecuencias, donde las indicaciones espaciales
dominantes se determinan por las envolventes de energía.
Adicionalmente, en implementaciones prácticas,
la señal transmitida, es decir, el canal portador se genera a
partir de la señal de suma del canal izquierdo y el canal derecho
en lugar de girar ambas componentes. Además, este procesamiento, es
decir, generar parámetros de intensidad estéreo para realizar la
operación de ajuste a escala, se realiza selectivo en frecuencia,
es decir independientemente por cada banda de factor de escala, es
decir, partición de frecuencia de codificador. Preferiblemente,
ambos canales se combinan para formar un canal "portador" o
combinado, y, además del canal combinado, se determina la
información de intensidad estéreo que depende de la energía del
primer canal, la energía del segundo canal o la del combinado o
canal.
\newpage
La técnica BCC se describe en el artículo de
convención AES 5574, "Binaural cue coding applied to stereo
and multi-channel audio compression", C.
Faller, F. Baumgarte, mayo de 2002, Munich. En codificación BCC, se
convierte un número de canales de entrada de audio a una
representación espectral utilizando una transformada basada en DFT
con ventanas superpuestas. El espectro uniforme resultante se
divide en particiones no superpuestas que tiene cada un índice. Cada
partición tiene un ancho de banda proporcional al ancho de banda
rectangular equivalente (ERB, equivalent rectangular
bandwidth). Las diferencias de nivel entre canales (ICLD,
inter-channel level differences) y las
diferencias de tiempo entre canales (ICTD,
inter-channel time differences) se estiman
para cada partición para cada trama k. Las ICLD e ICTD se
cuantifican y codifican dando como resultado un flujo de bits BCC.
Las diferencias de nivel entre canales y las diferencias de tiempo
entre canales se dan para cada canal respecto a un canal de
referencia. Entonces, se calculan los parámetros según las fórmulas
predeterminadas, que dependen de ciertas particiones de la señal
que va a procesarse.
En el lado del descodificador, el descodificador
recibe una señal mono y el flujo de bits BCC. La señal mono se
transforma en el dominio de la frecuencia y se introduce en un
bloque de síntesis espacial, que también recibe valores ICLD e ICTD
descodificados. En el bloque de síntesis espacial, los valores de
parámetros BCC (ICLD e ICTD) se utilizan para realizar una
operación de ponderación de la señal mono con el fin de sintetizar
las señales multicanal, que, después de una conversión de
frecuencia/tiempo, representan una reconstrucción de la señal de
audio multicanal original.
En el caso de BCC, el módulo 60 de estéreo
conjunto, está operativo para emitir la información lateral de
canal de tal manera que los datos de canal paramétricos son
parámetros ICLD o ICTD cuantificados y codificados, donde uno de
los canales originales se utiliza como el canal de referencia para
codificar la información lateral de canal.
Normalmente, el canal portador se forma de la
suma de los canales originales participantes.
Naturalmente, las técnicas anteriores sólo
proporcionan una representación mono para un descodificador, que
sólo puede procesar el canal portador, pero no puede procesar los
datos paramétricos para generar una o más aproximaciones de más de
un canal de entrada.
La técnica de codificación de audio conocida
como codificación de indicación binaural (BCC) también se describe
bien en las publicaciones de solicitud de patente estadounidenses.
US 2003, 0219130 A1, 2003/0026441 A1 y 2003/0035553 A1. También se
hace referencia adicional a "Binaural Cue Coding. Part II:
Schemes and Applications", C. Faller y F. Baumgarte, IEEE
Trans. On Audio and Speech Proc., volumen 11, nº 6, noviembre de
2993.
A continuación, se elabora con más detalle un
esquema BCC genérico típico para codificación de audio multicanal
con referencia a las figuras 11 a 13. La figura 11 muestra un
esquema de codificación de indicación binaural genérico de este tipo
para codificar/transmitir señales de audio multicanal. La señal de
entrada de audio multicanal en una entrada 110 de un codificador
112 BCC se somete a downmix en un bloque 114 de downmix. En el
presente ejemplo, la señal multicanal original en la entrada 110 es
una señal envolvente de cinco canales que tiene un canal izquierdo
frontal, un canal derecho frontal, un canal envolvente izquierdo, un
canal envolvente derecho y un canal central. En una realización
preferida de la presente invención, el bloque 114 de downmix
produce una señal de suma mediante una simple adición de estos
cinco canales en una señal mono. Se conocen en la técnica otros
esquemas de downmix de tal manera que, utilizando una señal de
entrada multicanal, puede obtenerse una señal de downmix que tiene
un único canal. Este único canal se emite en una línea 115 de señal
de suma. Una información lateral obtenida mediante un bloque 116 de
análisis BCC se emite en una línea 117 de información lateral. En el
bloque de análisis BCC, se calculan las diferencias de nivel entre
canales (ICLD) y diferencias de tiempo entre canales (ICTD) tal
como se ha comentado anteriormente. Recientemente, se ha mejorado el
bloque 116 de análisis BCC para también calcular los valores de
correlación entre canales (valores ICC). La señal de suma y la
información lateral se transmiten, preferiblemente en una forma
cuantificada y codificada, a un descodificador 120 BCC. El
descodificador BCC descompone la señal de suma transmitida en un
número de subbandas y aplica ajuste a escala, retardos y otros
procesamientos para generar las subbandas de las señales de audio
multicanal de salida. Este procesamiento se realiza de tal manera
que los parámetros ICLD, ICTD e ICC (indicaciones) de una señal
multicanal reconstruida en una salida 121 son similares a las
indicaciones respectivas para la señal multicanal original en la
entrada 110 en el codificador 112 BCC. Con este fin, el
descodificador 120 BCC incluye un bloque 122 de síntesis BCC y un
bloque 123 de procesamiento de información lateral.
A continuación, se explica la construcción
interna del bloque 122 de síntesis BCC con referencia a la figura
12. La señal de suma en la línea 115 se introduce en una unidad de
conversión de tiempo/frecuencia o banco 125 de filtros FB. En la
salida del bloque 125, existe un número N de señales de subbanda o,
en un caso extremo, un bloque de coeficientes espectrales, cuando
el banco 125 de filtros de audio realiza una transformada 1:1, es
decir una transformada que produce N coeficientes espectrales a
partir de N muestras de dominio del tiempo.
El bloque 122 de síntesis BCC comprende además
una etapa 126 de retardo, una etapa 127 de modificación de nivel,
una etapa 128 de procesamiento de correlación y una etapa 129 de
banco de filtros inversos IFB. En la salida de la etapa 129, la
señal de audio multicanal reconstruida tiene por ejemplo cinco
canales en el caso de un sistema envolvente de cinco canales, puede
emitirse a un conjunto de altavoces 124 tal como se ilustra en la
figura 11.
\newpage
Tal como se muestra en la figura 12, la señal de
entrada s(n) se convierte al dominio de la frecuencia o al
dominio de banco de filtros por medio del elemento 125. La señal
emitida por el elemento 125 se multiplica de tal manera que se
obtienen varias versiones de la misma señal tal como se ilustra
mediante el nodo 130 de multiplicación. El número de versiones de
la señal original es igual al número de canales de salida en la
señal de salida que va a reconstruirse cuando, en general, cada
versión de la señal original en el nodo 130 se somete a cierto
retardo d_{1}, d_{2}, ..., d_{i}, ..., d_{N}. Los
parámetros de retardo se calculan mediante el bloque 123 de
procesamiento de información lateral en la figura 11 y se derivan a
partir de las diferencias de tiempo entre canales tal como se
determina mediante el bloque 116 de análisis BCC.
Lo mismo es cierto para los parámetros de
multiplicación a_{1}, a_{2}, ..., a_{i}, ..., a_{N}, que
también se calculan mediante el bloque 123 de procesamiento de
información lateral basándose en las diferencias de tiempo entre
canales tal como se calcula mediante el bloque 116 de análisis
BCC.
Los parámetros ICC calculados mediante el bloque
116 de análisis BCC se utilizan para controlar la funcionalidad del
bloque 128, de tal manera que se obtienen ciertas correlaciones
entre las señales retardadas y manipuladas en nivel en las salidas
del bloque 128. Ha de observarse que el ordenamiento de las etapas
126, 127 y 128 puede ser diferente del caso mostrado en la figura
12.
Ha de observarse aquí que, en un procesamiento a
lo largo de tramas de una señal de audio, el análisis BCC se
realiza a lo largo de tramas, es decir variable en el tiempo y
también a lo largo de la frecuencia. Esto significa que, para cada
banda espectral, se obtienen los parámetros BCC. Esto significa
que, en el caso de que el banco 125 de filtros de audio descomponga
la señal de entrada en por ejemplo 32 señales de paso banda, el
bloque de análisis BCC obtiene un conjunto de parámetros BCC para
cada una de las 32 bandas. Naturalmente, el bloque 122 de síntesis
BCC de la figura 11, que se muestra en detalle en la figura 12,
realiza una reconstrucción que también se basa en las 32 bandas en
el ejemplo.
A continuación, se hace referencia a la figura
13, que muestra una configuración para determinar ciertos
parámetros BCC. Normalmente, los parámetros ICLD, ICTD e ICC pueden
definirse entre pares de canales. Sin embargo, se prefiere
determinar los parámetros ICLD e ICTD entre un canal de referencia y
cada otro canal. Esto se ilustra en la figura 13A.
Los parámetros ICC pueden definirse de
diferentes maneras. Más en general, se podrían estimar parámetros
ICC en el codificador entre todos los pares de canales posibles tal
como se indica en la figura 13B. En este caso, un descodificador
sintetizaría ICC de tal manera que sea aproximadamente la misma que
en la señal multicanal original entre todos los pares de canales
posibles. Sin embargo, se propuso estimar sólo parámetros ICC entre
los dos canales más fuertes cada vez. Este esquema se ilustra en la
figura 13C, en la que se muestra un ejemplo, en el que en un
momento de tiempo, se estima un parámetro ICC entre los canales 1 y
2, y en otro momento de tiempo, se calcula un parámetro ICC entre
los canales 1 y 5. El descodificador sintetiza entonces la
correlación entre canales entre los canales más fuertes en el
descodificador y aplica alguna regla heurística para calcular y
sintetizar la coherencia entre canales para los pares de canales
restantes.
Respecto al cálculo de, por ejemplo, los
parámetros de multiplicación a_{1}, aN basándose en los
parámetros ICLD transmitidos, se hace referencia al artículo de
convención AES 5574 citado anteriormente. Los parámetros ICLD
representan una distribución de energía en una señal multicanal
original. Sin pérdida de generalidad, se muestra en la figura 13A
que hay cuatro parámetros ICLD que muestran la diferencia de
energía entre todos los demás canales y el canal izquierdo frontal.
En el bloque 123 de procesamiento de información lateral, se
derivan los parámetros de multiplicación a_{1}, ..., a_{N} a
partir de los parámetros ICLD de tal manera que la energía total de
todos los canales de salida reconstruidos es la misma que (o
proporcional a) la energía de la señal de suma transmitida. Una
manera sencilla de determinar estos parámetros es un proceso de dos
etapas, en el que, en una primera etapa, el factor de multiplicación
para el canal frontal izquierdo se ajusta a la unidad, mientras que
los factores de multiplicación para los demás canales en la figura
13A se ajustan a los valores ICLD transmitidos. Después, en una
segunda etapa, se calcula la energía de todos los cinco canales y
se compara con la energía de la señal de suma transmitida. Después,
todos los canales se reducen en escala utilizando un factor de
reducción de escala que es igual para todos los canales, donde el
factor de reducción de escala se elige de tal manera que la energía
total de todos los canales de salida reconstruidos es, después de
la reducción de escala, igual a la energía total de la señal de suma
transmitida.
Naturalmente, hay otros métodos para calcular
los factores de multiplicación, que no se basan en el proceso de
dos etapas sino que sólo requieren un proceso de una etapa.
Respecto a los parámetros de retardo, ha de
observarse que los parámetros de retardo ICTD, que se transmiten
desde un codificador BCC pueden utilizarse directamente, cuando el
parámetro de retardo d_{1} para el canal frontal izquierdo se
ajusta a cero. No tiene que realizarse reajuste a escala aquí, ya
que un retardo no altera la energía de la señal.
Respecto a la medida de coherencia entre canales
ICC transmitida desde el codificador BCC al descodificador BCC, ha
de observarse en este momento que puede realizarse una manipulación
de coherencia modificando los factor de multiplicación a1, ..., an
tal como multiplicando los factores de ponderación de todas las
subbandas con números aleatorios con valores entre 20log10(-6) y
201og10(6). La secuencia pseudoaleatoria se elige
preferiblemente de tal manera que la varianza es aproximadamente
constante para todas las bandas críticas, y el promedio es cero
dentro de cada banda crítica. La misma secuencia se aplica a los
coeficientes espectrales para cada trama diferente. Por tanto, el
ancho de imagen de auditorio se controla modificando la varianza de
la secuencia pseudoaleatoria. Una mayor varianza crea un ancho de
imagen mayor.
La modificación de varianza puede realizarse en
bandas individuales que son de un ancho de banda crítico. Esto
permite la existencia simultánea de múltiples objetos en una escena
de auditorio, teniendo cada objeto un ancho de imagen diferente.
Una distribución de amplitud adecuada para la secuencia
pseudoaleatoria es una distribución uniforme en una escala
logarítmica tal como se comenta en la publicación de solicitud de
patente estadounidense 2003/0219130 A1. Sin embargo, todo el
procesamiento de síntesis BCC se relaciona con un único canal de
entrada transmitido como la señal de suma desde el codificador BCC
al descodificador BCC tal como se muestra en la figura 11.
Para transmitir los cinco canales de una manera
compatible, es decir, en un formato de flujo de bits, que también
es comprensible para un descodificador de estéreo normal, la
denominada técnica de matrizado se ha utilizado tal como se
describe en "MUSICAM surround: a universal
multi-channel coding system compatible with ISO
11172-3", G. Theile y G. Stoll, preimpresión
AES 3403, octubre de 1992, San Francisco. Los cinco canales de
entrada L, R, C, Ls y Rs se alimentan en un dispositivo de
matrizado que realiza una operación de matrizado para calcular los
canales de estéreo compatibles o básicos Lo, Ro a partir de los
cinco canales de entrada. En particular, estos canales de estéreo
básicos Lo/Ro se calculan tal como se establece a continuación:
x e y son constantes. Los otros
tres canales C, Ls, Rs se transmiten como están en una capa de
extensión, además de una capa de estéreo básica, que incluye una
versión codificada de las señales de estéreo básicas Lo/Ro. Con
respecto al flujo de bits, esta capa de estéreo básica Lo/Ro
incluye una cabecera, información tal como factores de escala y
muestras de subbanda. La capa de extensión multicanal, es decir el
canal central y los dos canales envolventes se incluyen en el campo
de extensión multicanal, que también se denomina campo de datos
auxiliar.
En un lado del descodificador, se realiza una
operación de matrizado inverso con el fin de formar
reconstrucciones de los canales izquierdo y derecho en la
representación de cinco canales utilizando los canales de estéreo
básicos Lo, Ro y los tres canales adicionales. Adicionalmente, los
tres canales adicionales se descodifican a partir de la información
auxiliar con el fin de obtener una representación envolvente o de
cinco canales descodificada de la señal de audio multicanal
original.
Otro enfoque para codificación multicanal se
describe en la publicación "Improved MPEG-2
audio multi-channel encoding", B. Grill, J.
Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller,
preimpresión AES 3865, febrero de 1994, Amsterdam, en la que, para
obtener compatibilidad hacia atrás, se consideran modos compatibles
hacia atrás. Con este objetivo, se utiliza una matriz de
compatibilidad para obtener dos denominados canales de downmix Lc,
Rc a partir de los cinco canales de entrada originales. Además, es
posible seleccionar dinámicamente los tres canales auxiliares que
se transmiten como datos auxiliares.
Con fin de aprovecharse de la irrelevancia de
estéreo, la técnica de estéreo conjunto se aplica a grupos de
canales, por ejemplo los tres canales frontales, es decir, para el
canal izquierdo, el canal derecho y el canal central. Con este
objetivo, estos tres canales se combinan para obtener un canal
combinado. Este canal combinado se cuantifica y empaqueta en el
flujo de bits.
Después, este canal combinado junto con la
información estéreo conjunto correspondiente se introduce en un
módulo de descodificación de estéreo conjunto para obtener canales
descodificados de estéreo conjunto, es decir un canal izquierdo
descodificado de estéreo conjunto, un canal derecho descodificado de
estéreo conjunto y un canal central descodificado de estéreo
conjunto. Estos canales descodificados de estéreo conjunto se
introducen, junto con el canal envolvente izquierdo y el canal
envolvente derecho en un bloque de matriz de compatibilidad para
formar el primer y el segundo canal de downmix Lc, Rc. Después, se
empaquetan versiones cuantificadas de ambos canales de downmix y
una versión cuantificada del canal combinado en el flujo de bits
junto con parámetros de codificación de estéreo conjunto.
Por lo tanto, utilizando codificación de
intensidad estéreo, se transmite un grupo de señales de canal
original independientes dentro de una única parte de datos
"portadores". El descodificador entonces reconstruye las
señales implicadas como datos idénticos, que se vuelven a ajustar a
escala según sus envolventes de tiempo-energía
originales. Por consiguiente, una combinación lineal de los canales
transmitidos llevará a resultados, que son bastante diferentes del
downmix original. Esto se aplica a cualquier tipo de codificación
de estéreo conjunto basada en el concepto de intensidad estéreo.
Para un sistema de codificación que proporciona canales de downmix
compatibles, hay una consecuencia directa: la reconstrucción por
desmatrizado, tal como se describe en la publicación anterior, sufre
los artefactos provocados por la reconstrucción imperfecta.
Utilizando un denominado esquema de predistorsión de estéreo
conjunto, en el que se realiza una codificación de estéreo conjunto
de los canales izquierdo, derecho y central, antes del matrizado en
el codificador, alivia este problema. De esta manera, el esquema de
desmatrizado para la reconstrucción, introduce menos artefactos, ya
que, en el lado del codificador, las señales descodificadas de
estéreo conjunto se han utilizado para generar los canales de
downmix. Por tanto, el proceso de reconstrucción imperfecta se
desplaza a los canales de downmix compatibles Lc y Rc, en los que
es mucho más probable que se enmascare por la propia señal de
audio.
Aunque un sistema de este tipo ha dado como
resultado en menos artefactos debido al desmatrizado en el lado del
descodificador, sin embargo tiene algunas desventajas. Una
desventaja es que los canales de downmix compatibles con estéreo Lc
y Rc no se derivan a partir de los canales originales sino a partir
de versiones codificadas/descodificada de intensidad estéreo de los
canales originales. Por lo tanto, se incluyen pérdidas de datos
debido al sistema de codificación de intensidad estéreo en los
canales de downmix compatibles. Un descodificador sólo estéreo, que
sólo descodifica los canales compatibles en lugar de los canales
codificados de intensidad estéreo de mejora, por lo tanto,
proporciona una señal de salida, que se ve afectada por las
pérdidas de datos inducidas por intensidad estéreo.
Adicionalmente, tiene que transmitirse un canal
adicional completo además de los dos canales de downmix. Este canal
es el canal combinado, que se forma por medio de una codificación
de estéreo conjunto del canal izquierdo, el canal derecho y el
canal central. Adicionalmente, la información de intensidad estéreo
para reconstruir los canales originales L, R, C a partir del canal
combinado también tiene que transmitirse al descodificador. En el
descodificador se realiza un desmatrizado inverso, es decir, una
operación de desmatrizado, para derivar los canales envolventes a
partir de los dos canales de downmix. Adicionalmente, se aproximan
los canales originales izquierdo, derecho y central por
descodificación de estéreo conjunto utilizando el canal combinado
transmitido y los parámetros de estéreo conjunto transmitidos. Ha de
observarse que los canales originales izquierdo, derecho y central
se derivan por descodificación de estéreo conjunto del canal
combinado.
Se ha descubierto que en el caso de técnicas de
intensidad estéreo, cuando se utilizan en combinación con señales
multicanal, sólo pueden producirse señales de salida totalmente
coherentes que se basan en el mismo canal base.
En técnicas BCC, es bastante costoso reducir la
coherencia entre canales en una señal de salida multicanal
reconstruida, ya que se requiere un generador de números
pseudoaleatorios para influir en los sectores de ponderación.
Adicionalmente, se ha mostrado que este tipo de procesamiento es
problemático ya que pueden introducirse artefactos debido a
manipulación de manera aleatoria de factores de multiplicación o
factores de retardo de tiempo, que pueden ser audibles bajo ciertas
circunstancias y, por lo tanto, deterioran la calidad de la señal de
salida multicanal reconstruida.
Por lo tanto, un objeto de la presente invención
es proporcionar un concepto para un procesamiento o procesamiento
inverso eficaz en bits y con artefactos reducidos de una señal de
audio multicanal.
Según el primer aspecto de la presente
invención, este objeto se consigue mediante un aparato para
construir una señal de salida multicanal utilizando una señal de
entrada e información lateral paramétrica, incluyendo la señal de
entrada un primer canal de entrada y un segundo canal de entrada
derivados a partir de una señal multicanal original, teniendo la
señal multicanal original una pluralidad de canales, incluyendo la
pluralidad de canales al menos dos canales originales, que se
definen como ubicados en un lado de una posición del oyente
considerada, en el que un primer canal original es uno primero de
los al menos dos canales originales, y en el que un segundo canal
original es uno segundo de los al menos dos canales originales, y
describiendo la información lateral paramétrica interrelaciones
entre canales originales de la señal original multicanal, que
comprende: señal multicanal original; medios para determinar un
primer canal base seleccionando uno del primer y el segundo canal de
entrada o una combinación del primer y el segundo canal de entrada,
y para determinar un segundo canal base seleccionando el otro del
primer y el segundo canal de entrada o una combinación diferente
del primer y el segundo canal de entrada, de tal manera que el
segundo canal base es diferente del primer canal base; y medios
para sintetizar un primer canal de salida utilizando la información
lateral paramétrica y el primer canal base para obtener un primer
canal de salida sintetizado que es una versión reproducida del
primer canal original que se ubica en un lado de la ubicación del
oyente considerada, y para sintetizar un segundo canal de salida
utilizando la información lateral paramétrica y el segundo canal
base, siendo el segundo canal de salida una versión reproducida del
segundo canal original que se ubica en el mismo lado de la posición
del oyente considerada.
Según el segundo aspecto de la presente
invención, este objeto se consigue mediante un método de
construcción de una señal de salida multicanal utilizando una señal
de entrada e información lateral paramétrica, incluyendo la señal de
entrada un primer canal de entrada y un segundo canal de entrada
derivados a partir de una señal multicanal original, teniendo la
señal multicanal original una pluralidad de canales, incluyendo la
pluralidad de canales al menos dos canales originales, que se
definen como ubicados en un lado de una posición del oyente
considerada, en el que un primer canal original es uno primero de
los al menos dos canales originales, y en el que un segundo canal
original es uno segundo de los al menos dos canales originales, y
describiendo la información lateral paramétrica interrelaciones
entre canales originales de la señal original multicanal, que
comprende: determinar un primer canal base seleccionando uno del
primero y el segundo canal de entrada o una combinación del primer
y el segundo canal de entrada, y determinar un segundo canal base
seleccionando el otro del primer y el segundo canal de entrada o una
combinación diferente del primer y el segundo canal de entrada, de
tal manera que el segundo canal base es diferente del primer canal
base; y sintetizar un primer canal de salida utilizando la
información lateral paramétrica y el primer canal base para obtener
un primer canal de salida sintetizado que es una versión
reproducida del primer canal original que se ubica en un lado de la
posición del oyente considerada, y sintetizar un segundo canal de
salida utilizando la información lateral paramétrica y el segundo
canal base, siendo el segundo canal de salida una versión
reproducida del segundo canal original que se ubica en el mismo
lado de la posición del oyente considerada.
Según el tercer aspecto de la presente
invención, este objeto se consigue mediante un aparato para generar
una señal de downmix a partir de una señal original multicanal,
teniendo la señal de downmix un número de canales que es inferior a
un numero de canales originales, que comprende: medios para
calcular un primer canal de downmix y un segundo canal de downmix
utilizando una regla de downmix; medios para calcular información
de nivel paramétrica que representa una distribución de energía
entre los canales en la señal original multicanal; medios para
determinar una medida de coherencia entre dos canales originales,
estando ubicados los dos canales originales en un lado de una
posición del oyente considerada; y medios para formar la señal de
salida utilizando el primer y el segundo canal de downmix, la
información de nivel paramétrica y sólo al menos una medida de
coherencia entre dos canales originales ubicados en un lado o un
valor derivado a partir de al menos una medida de coherencia, pero
no utilizando ninguna medida de coherencia entre canales ubicados
en diferentes lados de la posición del oyente considerada.
Según un cuarto aspecto de la presente
invención, este objeto se consigue mediante un método para generar
una señal de downmix a partir de una señal original multicanal,
teniendo la señal de downmix un número de canales que es inferior a
un número de canales originales, que comprende: calcular un primer
canal de downmix y un segundo canal de downmix utilizando una regla
de downmix; calcular información de nivel paramétrica que
representa una distribución de energía entre dos canales en la
señal original multicanal; determinar una medida de coherencia entre
dos canales originales, estando ubicados los dos canales originales
en un lado de una posición del oyente considerada; y formar una
señal de salida utilizando el primer y el segundos canal de
downmix, la información de nivel paramétrica y sólo al menos una
medida de coherencia entre dos canales originales ubicados en un
lado o un valor derivado a partir de la al menos una medida de
coherencia, pero no utilizando ninguna medida de coherencia entre
canales ubicados en diferentes lados de la posición del oyente
considerada.
Según un quinto aspecto y un sexto aspecto de la
presente invención, este objeto se consigue mediante un programa
informático que incluye el método para construir la señal de salida
multicanal o el método de generación de una señal de downmix.
La presente invención se basa en el hallazgo de
que se obtiene una reconstrucción eficaz y con artefactos reducidos
de una señal de salida multicanal, cuando hay dos o más canales, que
pueden transmitirse de un codificador a un descodificador, donde
los canales que son preferiblemente un canal de estéreo izquierdo y
uno derecho muestran un cierto grado de incoherencia. Esto
normalmente será el caso, ya que los canales de estéreo izquierdo y
derecho o los canales de estéreo compatibles izquierdo y derecho
según se obtienen por downmix de una señal multicanal normalmente
mostrarán un cierto grado de incoherencia, es decir no serán
totalmente coherentes o estarán totalmente correlacionados.
Según la presente invención, los canales de
salida reconstruidos de la señal de salida multicanal se
descorrelacionan entre sí determinando diferentes canales base para
los diferentes canales de salida, donde los diferentes canales base
se obtienen utilizando grados variables de los canales transmitidos
no correlacionados.
Dicho de otro modo, un canal de salida
reconstruido que tiene, por ejemplo, el canal de entrada
transmitido izquierdo como un canal base estaría, en el dominio de
subbanda BCC, totalmente correlacionado con otro canal de salida
reconstruido que tiene el mismo, por ejemplo, canal izquierdo que
el canal base considerando que no hay "síntesis de
correlación" adicional. En este contexto, ha de observarse que
los ajustes de nivel y retardo determinísticos no reducen la
coherencia entre estos canales. Según la presente invención, la
coherencia entre estos canales, que es del 100% en el ejemplo
anterior, se reduce a un cierto grado de coherencia o medida de
coherencia utilizando un primer canal base para construir el primer
canal de salida y utilizando un segundo canal base para construir
el segundo canal de salida, donde el primer y el segundo canal base
tienen diferentes "partes" de los dos canales transmitidos
(descorrelacionados). Esto significa que el primer canal base se ve
influenciado más por el primero transmitido o es incluso idéntico al
primer canal transmitido, comparado con el segundo canal base que
se ve influenciado menos por el primer canal, es decir, que se ve
más influenciado por el segundo canal transmitido.
Según la presente invención, la descorrelación
inherente entre los canales transmitidos se utiliza para
proporcionar canales descorrelacionados en una señal de salida
multicanal.
En una realización preferida, se determina una
medida de coherencia entre pares de canales respectivos tales como
el izquierdo frontal y el envolvente izquierdo o el derecho frontal
y el envolvente derecho en un codificador de una forma dependiente
del tiempo y dependiente de la frecuencia y se transmite como
información lateral, a un descodificador de la invención de tal
manera que puede obtenerse una determinación dinámica de canales
base y, por lo tanto, una manipulación dinámica de coherencia entre
los canales de salida reconstruidos.
En comparación con el caso de la técnica
anterior mencionado anteriormente, en el que sólo se transmite una
indicación ICC para los dos canales mas fuertes, el sistema de la
invención es mas fácil de controlar y proporciona una reconstrucción
de mejor calidad, ya que no es necesaria la determinación de los
canales mas fuertes en un codificador o descodificador, ya que la
medida de coherencia inventiva siempre se refiere al mismo par de
canales independientemente del hecho de si este par de canales
incluye los canales más fuertes o no. Se obtiene calidad superior
comparado con los sistemas de la técnica anterior porque se
transmiten dos canales de downmix desde un codificador a un
descodificador, de tal manera que la relación de coherencia
izquierda/derecha se transmite automáticamente de tal modo que no se
requiere información adicional sobre una coherencia
izquierda/derecha.
Una ventaja adicional de la presente invención
tiene que verse en el hecho de que puede reducirse una carga de
trabajo de cálculo en el lado del descodificador, puesto que la
carga de procesamiento de descorrelación normal puede reducirse o
incluso eliminarse completamente.
Preferiblemente, la información lateral de canal
paramétrica para uno o más de los canales originales se deriva de
tal manera que se refiere a uno de los canales de downmix en lugar
de, como en la técnica anterior, a un canal de estéreo conjunto
"combinado" adicional. Esto significa que la información
lateral de canal paramétrica se calcula de tal manera que, en un
lado de descodificador, un reconstructor de canal utiliza la
información lateral de canal y uno de los canales de downmix o una
combinación de los canales de downmix para reconstruir una
aproximación del canal de audio original, al cual se asigna la
información lateral de canal.
Este concepto es ventajoso porque proporciona
una extensión multicanal eficaz en bits de tal manera que puede
reproducirse una señal de audio multicanal en un
descodificador.
Adicionalmente, el concepto es compatible hacia
atrás, ya que un descodificador de escala inferior que sólo está
adaptado para procesamiento de dos canales, puede simplemente
ignorar la información de extensión, es decir, la información
lateral de canal. El descodificador de escala inferior sólo puede
reproducir los dos canales de downmix para obtener una
representación estéreo de la señal de audio multicanal
original.
Sin embargo, un descodificador de escala
superior, que está habilitado para funcionamiento multicanal, puede
utilizar la información lateral de canal transmitida para
reconstruir aproximaciones de los canales originales.
La presente realización es ventajosa ya que es
eficaz en bits, puesto que, en contraste con la técnica anterior no
se requiere ningún canal portador adicional más allá del primer y
el segundo canal de downmix Lc, Rc. En su lugar, la información
lateral de canal se refiere a uno o ambos canales de downmix. Esto
significa que los propios canales de downmix sirven como un canal
portador, con el que se combina la información lateral de canal
para reconstruir un canal de audio original. Esto significa que la
información lateral de canal es preferiblemente información lateral
paramétrica, es decir, información que no incluye ninguna muestra
de subbanda o coeficientes espectrales. En su lugar, la información
lateral paramétrica es información utilizada para ponderar (en
tiempo y/o frecuencia) el canal de downmix respectivo o la
combinación los canales de downmix respectivos para obtener una
versión reconstruida de un canal original seleccionado.
En una realización preferida de la presente
invención, se obtiene una codificación compatible hacia atrás de
una señal multicanal basada en una señal de estéreo compatible.
Preferiblemente, la señal de estéreo compatible (señal de downmix)
se genera utilizando matrizado de los canales originales de señales
de audio multicanal.
Preferiblemente, la información lateral de canal
para un canal original seleccionado se obtiene basándose en
técnicas de estero conjunto tales como codificación de intensidad
estéreo o codificación de indicación binaural. Por tanto, en el
lado del descodificador, no tiene que realizarse ninguna operación
de desmatrizado. Los problemas asociados con el desmatrizado, es
decir, se evitan ciertos artefactos relacionados con una
distribución indeseable de ruido de cuantificación en operaciones
de desmatrizado. Esto se debe al hecho de que el descodificador
utiliza un reconstructor de canal, que reconstruye una señal
original, utilizando uno de los canales de downmix o una
combinación de los canales de downmix y la información lateral de
canal transmitida.
Preferiblemente, el concepto inventivo se aplica
a una señal de audio multicanal que tienen cinco canales. Estos
cinco canales son un canal izquierdo L, un canal derecho R, un
canal central C, un canal envolvente izquierdo Ls, y un canal
envolvente derecho Rs. Preferiblemente, los canales de downmix son
canales de downmix compatibles con estéreo Ls y Rs, que proporcionan
una representación estéreo de la señal de audio multicanal
original.
Según la realización preferida en la presente
invención, para cada canal original, se calcula información lateral
de canal en un lado de codificador empaquetada en los datos de
salida. La información lateral de canal para el canal izquierdo
original se deriva utilizando el canal de downmix izquierdo. La
información lateral de canal para el canal envolvente izquierdo
original se deriva utilizando el canal de downmix izquierdo. La
información lateral de canal para el canal derecho original se
deriva a partir del canal de downmix derecho. La información
lateral de canal para el canal envolvente derecho original se
deriva a partir del canal de downmix derecho.
Según la realización preferida de la presente
invención, la información de canal para el canal central original
se deriva utilizando el primer canal de downmix así como el segundo
canal de downmix, es decir, utilizando una combinación de los dos
canales de downmix. Preferiblemente, esta combinación es una
suma.
\newpage
Por tanto, los agrupamientos, es decir, la
relación entre la información lateral de canal y la señal
portadora, es decir, el canal de downmix utilizado para proporcionar
información lateral de canal para un canal original seleccionado,
son tales que, para calidad optima, se selecciona un cierto canal
de downmix, que contiene la cantidad relativa mas alta posible de
la señal multicanal original respectiva que se representa por medio
de información lateral de canal. Como tal se utilizan una señal
portadora de estéreo conjunto, el primer y el segundo canal de
downmix. Preferiblemente, también puede utilizarse la suma del
primer y el segundo canal de downmix. Naturalmente, la suma del
primer y el segundo canal de downmix puede utilizarse para calcular
la información lateral de canal para cada uno de los canales
originales. Sin embargo, preferiblemente la suma de los canales de
downmix se utiliza para calcular la información lateral de canal
del canal central original en un entorno envolvente, tal como
envolvente de cinco canales, envolvente de siete canales, envolvente
5.1 o envolvente 7.1. Utilizar la suma del primer y el segundo
canal de downmix es especialmente ventajoso, ya que no tiene que
realizarse sobrecarga de transmisión adicional. Esto se debe al
hecho de que ambos canales de downmix están presentes en el
descodificador, de tal manera que la suma de estos canales de
downmix puede realizarse fácilmente en el descodificador sin
requerir ningún bit de transmisión
adicional.
adicional.
Preferiblemente, la información lateral de canal
que forma la extensión multicanal se introduce en el flujo de bits
de datos de salida de una manera compatible, de tal manera que un
descodificador de escala inferior simplemente ignora los datos de
extensión multicanal y sólo proporciona una representación estéreo
de la señal de audio multicanal.
Sin embargo, un codificador de escala superior
no sólo utiliza dos canales de downmix, si no que, además, emplea
la información lateral de canal para reconstruir una representación
multicanal completa de la señal de audio original.
Posteriormente se describen realizaciones
preferidas de la presente invención en referencia a los dibujos
adjuntos, en los que:
la figura 1A es un diagrama de bloques de una
realización preferida del codificador de la invención;
la figura 1B es un diagrama de bloques de un
codificador de la invención para proporcionar una medida de
coherencia para pares de canales de entrada respectivos.
la figura 2A es un diagrama de bloques de una
realización preferida del descodificador de la invención;
la figura 2B es un diagrama de bloques de un
descodificador de la invención que tiene diferentes canales base
para diferentes canales de salida;
la figura 2C es un diagrama de bloques de una
realización preferida de los medios para sintetizar de la figura
2B;
la figura 2D es un diagrama de bloques de una
realización preferida del aparato mostrado en la figura 2C para un
sistema envolvente de 5 canales;
la figura 2E es una representación esquemática
de medios para determinar una medida de coherencia en un
codificador de la invención;
la figura 2F es una representación esquemática
de un ejemplo preferido para determinar un factor de ponderación
para calcular un canal base que tiene una cierta medida de
coherencia con respecto a otro canal base;
la figura 2G es un diagrama esquemático de una
manera preferida de obtener un canal de salida reconstruido
basándose en un cierto factor de ponderación calculado mediante el
esquema mostrado en la figura 2F;
la figura 3A es un diagrama de bloques para una
implementación preferida de los medios de cálculo para obtener la
información lateral de canal selectiva en frecuencia;
la figura 3B es una realización preferida de un
calculador que implementa procesamiento de estéreo conjunto tal que
como codificación de intensidad o codificación de indicación
binaural;
la figura 4 ilustra otra realización preferida
de los medios para calcular información lateral de canal, en los
que la información lateral de canal son factores de ganancia;
la figura 5 ilustra una realización preferida de
una implementación del descodificador, cuando el codificador se
implementa tal como en la figura 4;
la figura 6 ilustra una implementación preferida
de los medios para proporcionar los canales de downmix;
la figura 7 ilustra agrupamientos de canales
originales y de downmix para calcular la información lateral de
canal para los canales originales respectivos;
la figura 8 ilustra otra realización preferida
de un codificador de la invención;
la figura 9 ilustra otra implementación de un
descodificador de la invención; y
la figura 10 ilustra un codificador de estéreo
conjunto de la técnica anterior;
la figura 11 es una representación de diagrama
de bloques de una cadena de descodificador/codificador BCC de la
técnica anterior;
la figura 12 es un diagrama de bloques de una
implementación de la técnica anterior de un bloque de síntesis BCC
de la figura 11;
la figura 13 es una representación de un esquema
bien conocido para determinar los parámetros ICLD, ICTD e ICC;
la figura 14A es una representación esquemática
del esquema para atribuir diferentes canales base para la
reproducción de diferentes canales de salida;
la figura 14B es una representación de los pares
de canales necesarios para determinar los parámetros ICC e
ICTD;
la figura 15A es una representación esquemática
de una primera selección de canales base para construir una señal
de salida de 5 canales; y
la figura 15B es una representación esquemática
de una segunda selección de canales base para construir una señal
de salida de 5 canales.
\vskip1.000000\baselineskip
La figura 1A muestra un aparato para procesar
una señal 10 de audio multicanal que tiene al menos tres canales
originales tales como R, L y C. Preferiblemente, la señal de audio
original tiene más de tres canales, tales como cinco canales en el
entorno envolvente, lo que se ilustra en la figura 1A. Los cinco
canales son el canal izquierdo L, el canal derecho R, el canal
central C, el canal envolvente izquierdo Ls y el canal envolvente
derecho Rs. El aparato de la invención incluye medios 12 para
proporcionar un primer canal de downmix Lc y un segundo canal de
downmix Rc, derivándose el primer y el segundo canal de downmix a
partir de los canales originales. Para derivar los canales de
downmix a partir de los canales originales, existen varias
posibilidades. Una posibilidad es derivar los canales de downmix Lc
y Rc por medio de matrizado de los canales originales utilizando una
operación de matrizado tal como se ilustra en la figura 6. Esta
operación de matrizado se realiza en el dominio del tiempo.
Los parámetros de matrizado a, b y t se
seleccionan de tal manera que son menores que o igual a 1.
Preferiblemente, a y b son 0,7 ó 0,5. El parámetro de ponderación
global t se elige preferiblemente de tal modo que se evita recorte
de canal.
Como alternativa, tal como se indica en la
figura 1A, los canales de downmix Lc y Rc también pueden
suministrarse externamente. Esto puede realizarse cuando los
canales de downmix Lc y Rc son el resultado de una operación de
"mezclado a mano". En este escenario, un ingeniero de sonido
mezcla los canales de downmix por sí mismo en lugar de utilizar una
operación de matrizado automatizada. El ingeniero de sonido realiza
mezclado creativo para obtener canales de downmix optimizados Lc y
Rc que dan la mejor representación estéreo posible de la señal de
audio multicanal original.
En caso de un suministro externo de los canales
de downmix, los medios para proporcionar no realizan una operación
de matrizado sino simplemente reenvían los canales de downmix
suministrados externamente a medios 14 de cálculo posteriores.
Los medios 14 de cálculo están operativos para
calcular la información lateral de canal tal como l_{i},
ls_{i}, r_{i} o rs_{i} para canales originales seleccionados
tales como L, Ls, R o Rs, respectivamente. En particular, los
medios 14 para cálculo están operativos para calcular la
información lateral de canal tal como un canal de downmix, cuando se
ponderan utilizando la información lateral de canal, se da como
resultado una aproximación del canal original seleccionado.
Como alternativa o adicionalmente, los medios
para calcular la información lateral de canal están operativos
además para calcular la información lateral de canal para un canal
original seleccionado, de tal manera que un canal de downmix
combinado que incluye una combinación del primer el y segundo canal
de downmix, cuando se ponderan utilizando la información lateral de
canal calculada, da como resultado una aproximación del canal
original seleccionado.
Para mostrar esta característica en la figura,
se ilustran un sumador 14a y un calculador 14b de información
lateral de canal combinado.
Está claro para los expertos en la técnica que
estos elementos no tienen que implementarse como elementos
distintos. En su lugar, toda la funcionalidad de los bloques 14,
14a y 14b puede implementarse por medio de un cierto procesador que
puede ser un procesador de propósito general o cualquier otro medio
para realizar la funcionalidad requerida.
Adicionalmente, ha de observarse en este momento
que las señales de canal que son muestras de subbanda o valores de
dominio de la frecuencia se indican en letras mayúsculas. La
información lateral de canal, en contraste con los propios canales,
se indica mediante letras minúsculas. La información lateral de
canal c; es, por lo tanto, la información lateral de canal para el
canal central original C.
La información lateral de canal así como los
canales de downmix Lc y Rc o una versión codificada Lc' y Rc' como
se produce por un codificador 16 de audio se introducen en un
formateador 18 de datos de salida. En general, el formateador 18 de
datos de salida actúa como medios para generar datos de salida,
incluyendo los datos de salida la información lateral de canal para
al menos un canal original, el primer canal de downmix o una señal
derivada a partir del primer canal de downmix (tal como una versión
codificada del mismo) y el segundo canal de downmix o una señal
derivada a partir del segundo canal de downmix (tal como una versión
codificada del mismo).
Los datos de salida o el flujo 20 de bits de
salida pueden transmitirse entonces a un descodificador de flujo de
bits o pueden almacenarse o distribuirse. Preferiblemente, el flujo
20 de bits de salida es un flujo de bits compatible que también
puede leerse mediante un descodificador de escala inferior que no
tenga capacidad de extensión multicanal. Estos codificadores de
escala inferior tales como los descodificadores mp3 del estado de
la técnica normales más existentes, simplemente ignorarán los datos
de extensión multicanal, es decir, la información lateral de canal.
Sólo descodificarán el primer y el segundo canal de downmix para
producir una salida estéreo. Los descodificadores de escala
superior, tales como los descodificadores habilitados para
multicanal leerán la información lateral de canal y generarán
una aproximación de los canales de audio originales de tal manera que se obtiene una impresión de audio multicanal.
una aproximación de los canales de audio originales de tal manera que se obtiene una impresión de audio multicanal.
La figura 8 muestra una realización preferida de
la presente invención en el entorno de envolvente de cinco
canales/mp3. En este caso, se prefiere escribir los datos de mejora
envolvente en el campo de datos auxiliar en la sintaxis de flujo de
bits mp3 estandardizada de tal manera que se obtiene un flujo de
bits "mp3 envolvente".
La figura 1B ilustra una representación más
detallada del elemento 14 de la figura 1A. En una realización
preferida de la presente invención, un calculador 14 incluye medios
141 para calcular información de nivel paramétrica que representa
una distribución de energía entre los canales en la señal original
multicanal mostrada en 10 en la figura 1A. El elemento 141 por lo
tanto puede generar información de nivel de salida para todos los
canales originales. En una realización preferida, esta información
de nivel incluye parámetros ICLD obtenidos por síntesis BCC regular
tal como se ha descrito en conexión con las figuras 10 a 13.
El elemento 14 además comprende medios 142 para
determinar una medida de coherencia entre dos canales originales
ubicados en un lado de la posición del oyente considerada. En caso
del ejemplo envolvente de 5 canales mostrado en la figura 1A, tal
par de canales incluye el canal derecho R y el canal envolvente
derecho Rs o, como alternativa o adicionalmente el canal izquierdo
L y el canal envolvente izquierdo Ls. El elemento 14 como
alternativa comprende además medios 143 para calcular la diferencia
de tiempo para tal par de canales, es decir, un par de canales que
tiene canales que están ubicados en un lado de una posición del
oyente considerada.
El formateador 18 de datos de salida de la
figura 1A está operativo para introducir en el flujo de datos en 20
la información de nivel que representa una distribución de energía
entre los canales en la señal original multicanal y una medida de
coherencia sólo para el par de canales izquierdo y envolvente
izquierdo y/o el par de canales derecho y envolvente derecho. El
formateador de datos de salida, sin embargo, está operativo para no
incluir cualquier otra medida de coherencia u opcionalmente
diferencias de tiempo en la señal de salida de tal manera que la
cantidad de información lateral se reduce comparado con el esquema
de la técnica anterior en el que se transmitían indicaciones ICC
para todos los pares de canales posibles.
Para ilustrar el codificador de la invención tal
como se muestra en la figura 1B con más detalle, se hace referencia
a la figura 14A y la figura 14B. En la figura 14A, se da una
disposición de los altavoces de canal para un sistema de 5 canales
de ejemplo con respecto a una posición del oyente considerada, que
se ubica en el punto central de un círculo en el cual se colocan
los altavoces respectivos. Tal como se comentó anteriormente, el
sistema de 5 canales incluye un canal envolvente izquierdo, un canal
izquierdo, un canal central, un canal derecho y un canal envolvente
derecho. Naturalmente, un sistema de este tipo también puede
incluir un canal de altavoz de graves que no se muestra en la
figura 14.
Ha de observarse en este caso que el canal
envolvente izquierdo también puede denominarse como "canal
izquierdo posterior". Lo mismo es cierto para el canal
envolvente derecho. Este canal también se conoce como el canal
derecho posterior.
En contraste con el estado de la técnica BBC con
un canal de transmisión, en el que se utiliza el mismo canal base,
es decir la señal mono transmitida tal como se muestra en la figura
11 para generar cada uno de los N canales de salida, el sistema de
la invención utiliza, como un canal base, uno de los N canales
transmitidos o una combinación lineal de los mismos como el canal
base para cada uno de los N canales de salida.
Por lo tanto, la figura 14 muestra un esquema N
a M, es decir un esquema en el que N canales originales se someten
a downmix para dar dos canales de downmix. En el ejemplo de la
figura 14, N es igual a 5 mientras que M es igual a 2. En
particular, para la reconstrucción de canal izquierdo frontal, se
utiliza el canal izquierdo L_{C} transmitido. Análogamente, para
la reconstrucción de canal derecho frontal, se utiliza el segundo
canal R_{C} transmitido como el canal base. Adicionalmente, se
utiliza una combinación igual de L_{C} y R_{C} como el canal
base para reconstruir el canal central. Según una realización de la
presente invención, se transmiten adicionalmente medidas de
correlación desde un codificador a un descodificador. Por lo tanto,
para el canal envolvente izquierdo, no sólo se utiliza el canal
izquierdo L_{C} transmitido sino el canal transmitido L_{C} +
\alpha_{1}R_{C} de tal manera que el canal base para
reconstruir el canal envolvente izquierdo no es completamente
coherente con el canal base para reconstruir el canal izquierdo
frontal. Análogamente, se realiza el mismo procedimiento para el
lado derecho (con respecto a la posición del oyente considerada),
porque el canal base para reconstruir el canal envolvente derecho
es diferente del canal base para reconstruir el canal derecho
frontal, donde la diferencia depende de la medida de coherencia
\alpha2 que preferiblemente se transmite desde un codificador a un
descodificador como información lateral.
El proceso de la invención, por lo tanto, es
único ya que para la reproducción cada canal de salida preferible,
se utiliza un canal base diferente, donde los canales base son
iguales a los canales transmitidos o una combinación lineal de los
mismos. Esta combinación lineal puede depender de los canales base
transmitidos en grados variables, en la que estos grados dependen
de medidas de coherencia que dependen de la señal multicanal
original.
El proceso de obtener los N canales base dados
los M canales transmitidos se denomina "upmixing". Este
upmixing puede implementarse multiplicando un vector con los
canales transmitidos por una matriz NxM para generar N canales base.
Al hacerlo, se forman combinaciones lineales de canales de señal
transmitidos para producir señales base para las señales de canal
de salida. Un ejemplo específico para upmixing se muestra en la
figura 14A, que es un esquema 5 a 2 aplicado para generar un señal
de salida envolvente de 5 canales con una transmisión estéreo de 2
canales. Preferiblemente, el canal base para un canal de salida de
altavoz de graves adicional es el mismo que el canal central L+R.
En una realización preferida de la presente invención, se
proporciona una medida de coherencia variable en el tiempo y,
opcionalmente, variante en frecuencia, de tal manera que se obtiene
una matriz de upmixing adaptativa con el tiempo, que es,
opcionalmente, también selectiva en frecuencia.
A continuación, se hace referencia a la figura
14B que muestra un entorno para la implementación de codificador de
la invención ilustrada en la figura 1 B. En este contexto, ha de
observarse que las indicaciones ICC e ICTD entre izquierdo y derecho
y envolvente izquierdo y envolvente derecho son las mismos que en
la señal de estéreo transmitida. De esta manera, según la presente
invención, no hay necesidad de utilizar indicaciones ICC e ICTD
entre izquierdo y derecho y envolvente izquierdo y envolvente
derecho para sintetizar o reconstruir una señal de salida. Otra
razón para no sintetizar indicaciones ICC e ICTD entre izquierdo y
derecho y envolvente izquierdo y envolvente derecho es el objetivo
general que establece que los canales base tienen que modificarse
lo menos posible para mantener calidad de señal máxima. Cualquier
modificación de señal introduce potencialmente artefactos o no
naturalidad.
Por lo tanto, sólo se proporciona una
representación de nivel de la señal multicanal original que se
obtiene proporcionando las indicaciones ICLD, mientras que, según la
presente invención, los parámetros ICC e ICTD sólo se calculan y
transmiten para pares de canales en un lado de la posición del
oyente considerada. Esto se ilustra por la línea discontinua 144
para el lado izquierdo y la línea discontinua 145 para el lado
derecho en la figura 14B. En contraste con ICC e ICTD, la síntesis
ICLD es más bien no problemática con respecto a artefactos y no
naturalidad, debido a que sólo implica ajuste a escala de señales
de subbanda. Por tanto, se sintetizan ICLD como generalmente en BCC
regular, es decir entre un canal de referencia y todos los demás
canales. Hablando más en general, en un esquema N 2 M, se sintetizan
ICLD entre pares de canales de manera similar a BCC regular. Las
indicaciones ICC e ICTD, sin embargo, según la presente invención,
sólo se sintetizan entre pares de canales que están en el mismo
lado con respecto a la posición del oyente considerada, es decir,
para el par de canales que incluye el canal izquierdo frontal y el
envolvente izquierdo o el par de canales que incluye el canal
derecho frontal y el envolvente derecho.
En el caso de sistemas envolventes de 7 canales
o más, en los que hay tres canales en el lado izquierdo y tres
canales en el lado derecho, puede aplicarse el mismo esquema, en el
que sólo se transmiten parámetros de coherencia para pares de
canales posibles en el lado izquierdo o el lado derecho, para
proporcionar diferentes canales base para la reconstrucción de los
diferentes canales de salida en un lado de la posición del oyente
considerada. El codificador N a M de la invención tal como se
muestra en la figura 1A y la figura 1B es, por lo tanto, único ya
que las señales de entrada se someten a downmix para dar no un
único canal sino M canales, y que las indicaciones ICTD e ICC se
estiman y transmiten sólo entre los pares de canales para los
cuales es necesario.
En un sistema envolvente de 5 canales, la
situación se muestra en la figura 14B de lo cual queda claro que al
menos tiene que transmitirse una medida de coherencia entre el
izquierdo y el envolvente izquierdo. Esta medida de coherencia
también puede utilizarse para proporcionar descorrelación entre el
derecho y el envolvente derecho. Esta es una implementación de
información lateral baja. En caso de que se tenga más capacidad de
canal disponible, también puede generarse y transmitirse una medida
de coherencia separada entre el canal derecho y envolvente derecho
de tal manera que, en un descodificador de la invención, pueden
obtenerse también diferentes grados de descorrelación en el lado
izquierdo y en el lado derecho.
La figura 2A muestra una ilustración de un
descodificador de la invención que actúa como un aparato para datos
de entrada de procesamiento inverso recibidos en un puerto 22 de
datos de entrada. Los datos recibidos en el puerto 22 de datos de
entrada son los mismos datos que la salida en el puerto 20 de datos
de salida en la figura 1A. Como alternativa, cuando los datos no se
transmiten a través de un canal cableado sino a través de un canal
inalámbrico, los datos recibidos en el puerto 22 de entrada de
datos son datos derivados a partir de los datos originales
producidos por el codificador.
Los datos de entrada del descodificador se
introducen en un lector 24 de flujo de datos para leer los datos de
entrada para finalmente obtener la información 26 lateral de canal
y el canal 28 de downmix izquierdo y el canal 30 de downmix derecho.
En caso que los datos de entrada incluyan versiones codificadas de
los canales de downmix, que corresponde al caso, en el que el
codificador 16 de audio de la figura 1A está presente, el lector 24
de flujo de datos también incluye un descodificador de audio, que
está adaptado al codificador de audio utilizado para codificar los
canales de downmix. En este caso, el descodificador de audio, que
es parte del lector 24 de flujo de datos, está operativo para
generar el primer canal de downmix L_{C} y el segundo canal de
downmix R_{C}, o dicho en forma más exacta, una versión
descodificada de esos canales. Para facilidad de descripción, sólo
se hace una distinción entre señales y versiones descodificadas de
las mismas cuando se establece explícitamente.
La información 26 lateral de canal y los canales
28 y 30 de downmix izquierdo y derecho emitidos por el lector 24 de
flujo de datos se alimentan en un reconstructor 32 multicanal, para
proporcionar una versión 34 reconstruida de las señales de audio
originales, que pueden reproducirse por medio de un reproductor 36
multicanal. En caso que el reconstructor multicanal esté operativo
en el dominio de la frecuencia, el reproductor 36 multicanal
recibirá datos de entrada de dominio de la frecuencia, que tienen
que descodificarse de una cierta manera tal como convertirse al
dominio del tiempo antes de reproducirlos. Con este objetivo, el
reproductor 36 multicanal también puede incluir recursos de
descodificación.
Ha de observarse en este momento que un
descodificador de escala inferior sólo tendrá el lector 24 de flujo
de datos, que sólo emite los canales 28 y 30 de downmix izquierdo y
derecho a una salida 38 estéreo. Un descodificador de la invención
mejorado, sin embargo, extraerá la información 26 lateral de canal y
utilizará esta información lateral y los canales 28 y 30 de downmix
para reconstruir versiones 34 reconstruidas de los canales
originales utilizando el reconstructor 32 multicanal.
La figura 2B muestra una implementación de la
invención del reconstructor 32 multicanal de la figura 2A. Por lo
tanto, la figura 2B muestra un aparato para construir una señal de
salida multicanal utilizando una señal de entrada e información
lateral paramétrica, incluyendo la señal de entrada un primer canal
de entrada y un segundo canal de entrada derivado a partir de una
señal multicanal original, y describiendo la información lateral
paramétrica interrelaciones entre canales de la señal original
multicanal. El aparato de la invención mostrado en la figura 2B
incluye medios 320 para proporcionar una medida de coherencia que
depende de un primer canal original y un segundo canal original,
estando incluidos el primer canal original y el segundo canal
original en la señal multicanal original. En caso que la medida de
coherencia se incluya en la información lateral paramétrica, la
información lateral paramétrica se introduce en medios 320 tal como
se ilustra en la figura 2B. La medida de coherencia que se
proporciona por los medios 320 se introduce en los medios 322 para
determinar canales base. En particular, los medios 322 están
operativos para determinar un primer canal base seleccionando uno
del primer y el segundo canal de entrada o una combinación
predeterminada del primer y el segundo canal de entrada. Los medios
322 están operativos además para determinar un segundo canal base
utilizando la medida de coherencia de tal manera que el segundo
canal base es diferente del primer canal base debido a la medida de
coherencia. En el ejemplo mostrado en la figura 2B, que se refiere
al sistema de envolvente de 5 canales, el primer canal de entrada
es el canal de estéreo compatible izquierdo L_{C}; y el segundo
canal de entrada es el canal de estéreo compatible derecho R_{C}.
Los medios 322 están operativos para determinar los canales base
que ya se han descrito en conexión con la figura 14A. Por tanto, a
la salida de los medios 322, se obtiene un canal base separado por
cada uno de los canales de salida que han de reconstruirse, en los
que, preferiblemente, los canales base emitidos por los medios 322
son todos diferentes entre sí, es decir, tienen una medida de
coherencia entre los mismos, que es diferente para cada par.
Los canales base emitidos por los medios 322 y
la información lateral paramétrica tal como ICLD, ICTD o
información de intensidad estéreo se introducen en los medios 324
para sintetizar el primer canal de salida tal como L utilizando la
información lateral paramétrica y el primer canal base para obtener
un primer canal de salida sintetizado L, que es una versión
reproducida del primer canal original correspondiente, y para
sintetizar un segundo canal de salida tal como Ls utilizando la
información lateral paramétrica y el segundo canal base, siendo el
segundo canal de salida una versión reproducida del segundo canal
original. Además, los medios 324 para sintetizar están operativos
para reproducir el canal derecho R y el canal envolvente derecho Rs
utilizando otro par de canales base, donde los canales base en este
otro par son diferentes entre sí debido a la medida de coherencia o
debido a una medida de coherencia adicional que se ha derivado para
el par de canales derecho/envolvente derecho.
Una implementación más detallada del
descodificador de la invención se ilustra en la figura 2C. Puede
verse que en la realización preferida que se muestra en la figura
2C, la estructura general es similar a la estructura que ya se ha
descrito en conexión con la figura 12 para un descodificador BCC de
la técnica anterior del estado de la técnica. Contrariamente a la
figura 12, el esquema de la invención mostrado en la figura 2C
incluye dos bancos de filtros de audio, es decir un banco de filtros
para cada señal de entrada. Naturalmente, también es suficiente un
único banco de filtros. En este caso, se requiere un control que se
introduce en el único banco de filtros, las señales de entrada en
un orden secuencial. Los bancos de filtros se ilustran mediante los
bloques 319a y 319b. La funcionalidad de los elementos 320 y 322,
que se ilustran en la figura 2B, se incluye en un bloque 323 de
upmixing en la figura 2C.
A la salida del bloque 323 de upmixing, se
obtienen los canales base, que son diferentes entre sí. Esto está
en contraste con la figura 12, en la que los canales base en el
nodo 130 son idénticos entre sí. Los medios 324 de síntesis
mostrados en la figura 2B incluyen preferiblemente una etapa 324a
de retardo, una etapa 324b de modificación de nivel y, en algunos
casos, una etapa de procesamiento para realizar tareas 324c de
procesamiento adicional así como un número respectivo de bancos
324d de filtros de audio inversos. En una realización, la
funcionalidad de los elementos 324a, 324b, 324c y 324d puede ser la
misma que en el dispositivo de la técnica anterior descrito en
conexión con la figura 12.
La figura 2D muestra un ejemplo más detallado de
la figura 2C para una configuración envolvente de 5 canales, en la
que se introducen dos canales de entrada y_{1} e y_{2} y se
obtienen cinco canales de salida construidos tal como se muestra en
la figura 2D. En contraste con la figura 2C, se da un diseño más
detallado del bloque 323 de upmixing. En particular, se ilustra un
dispositivo 330 de suma para proporcionar los canales base para
reconstruir un canal de salida central. Adicionalmente, dos bloques
331, 332 con título "W" se muestran en la figura 2D. Estos
bloques realizan la combinación ponderada de los dos canales de
entrada basándose en la medida de coherencia K que se introduce en
una entrada 334 de medida de coherencia. Preferiblemente, el bloque
331 ó 332 de ponderación también realiza operaciones de
procesamiento posterior respectivas para los canales base tales como
suavizado en el tiempo y frecuencia tal como se comentará a
continuación. Por tanto, la figura 2C es un caso general de la
figura 2D, en la que la figura 2C ilustra cómo se generan los N
canales de salida, dados los M canales de entrada del
descodificador. Las señales transmitidas se transforman a un
dominio de subbanda.
El proceso de cálculo de los canales base para
cada canal de salida se denota como upmixing, debido a que cada
canal base preferiblemente es una es una combinación lineal de los
canales transmitidos. El upmixing puede realizarse en el dominio
del tiempo o en el dominio de subbanda o frecuencia.
Para calcular cada canal base, puede aplicarse
un cierto procesamiento para reducir efectos de
cancelación/amplifi-
cación cuando los canales transmitidos están desfasados o en fase. La ICTD se sintetiza imponiendo retardos en las señales de subbanda e la ICLD se sintetiza ajustando a escala las señales de subbanda. Pueden utilizarse diferentes técnicas para sintetizar ICC tales como manipular los factores de ponderación o los retardos de tiempo por medio de una secuencia de números aleatorios. Sin embargo, ha de observarse en este momento que preferiblemente, no se realiza ningún procesamiento de coherencia/correlación entre canales de salida excepto la determinación de la invención de los diferentes canales base para cada canal de salida. Por lo tanto, un dispositivo de la invención preferido procesa indicaciones ICC recibidas desde un codificador para construir los canales base e indicaciones ICTD e ICLD recibidas desde un codificador para manipular el canal base ya construido. Por tanto, las indicaciones ICC o, hablando de manera más generar, las medidas de coherencia no se utilizan para manipular un canal base sino que se utilizan para construir el canal base que se manipula posteriormente.
cación cuando los canales transmitidos están desfasados o en fase. La ICTD se sintetiza imponiendo retardos en las señales de subbanda e la ICLD se sintetiza ajustando a escala las señales de subbanda. Pueden utilizarse diferentes técnicas para sintetizar ICC tales como manipular los factores de ponderación o los retardos de tiempo por medio de una secuencia de números aleatorios. Sin embargo, ha de observarse en este momento que preferiblemente, no se realiza ningún procesamiento de coherencia/correlación entre canales de salida excepto la determinación de la invención de los diferentes canales base para cada canal de salida. Por lo tanto, un dispositivo de la invención preferido procesa indicaciones ICC recibidas desde un codificador para construir los canales base e indicaciones ICTD e ICLD recibidas desde un codificador para manipular el canal base ya construido. Por tanto, las indicaciones ICC o, hablando de manera más generar, las medidas de coherencia no se utilizan para manipular un canal base sino que se utilizan para construir el canal base que se manipula posteriormente.
En el ejemplo específico mostrado en la figura
2D, se descodifica una señal envolvente de cinco canales de una
transmisión estéreo de 2 canales. Una señal de estéreo de 2 canales
transmitida se convierte a un dominio de subbanda. Después, se
aplica upmixing para generar cinco canales base diferentes
preferibles. Las indicaciones ICTD sólo se sintetizan entre el
izquierdo y el envolvente izquierdo, y el derecho y el envolvente
derecho aplicando retardos di(k) tal como se ha comentado en
conexión con la figura 14B. También, se utilizan las medidas de
coherencia para construir los canales base (bloques 331 y 332) en
la figura 2D en vez de para realizar cualquier procesamiento
posterior en el bloque 324c.
De manera inventiva, las indicaciones ICC e ICTD
entre izquierdo y derecho y envolvente izquierdo y envolvente
derecho se mantienen como en la señal de estéreo transmitida. Por
lo tanto, serán suficientes una única indicación ICC y un parámetro
de una única indicación ICTD y, por lo tanto, se transmitirán desde
un codificador a un
descodificador.
descodificador.
En otra realización, pueden calcularse
indicaciones ICC e indicaciones ICTD para ambos lados en un
codificador. Estos dos valores pueden transmitirse desde un
codificador a un descodificador. Como alternativa, el codificador
puede calcular una indicación ICC o ICTD resultante introduciendo
las indicaciones para ambos lados en una función matemática tal
como una función promedio, etc., para derivar el valor resultante a
partir de las dos medidas de coherencia.
A continuación, se hace referencia a las figuras
15a y 15b para mostrar una implementación de baja complejidad del
concepto inventivo. Mientras que una implementación de alta
complejidad requiere una determinación del lado del codificador de
la medida de coherencia, al menos entre un par de canales en un lado
de la parte del oyente considerada, y la transmisión de esta medida
de coherencia preferiblemente en una forma cuantificada y
codificada de entropía, la versión de baja complejidad no requiere
ninguna determinación de medida de coherencia en el lado del
codificador ni ninguna transmisión desde el codificador al
descodificador de tal información. Sin embargo, para obtener una
buena calidad subjetiva de la señal de salida multicanal
reconstruida, se proporciona una medida de coherencia
predeterminada o, dicho de otro modo, factores de ponderación
predeterminados para determinar una combinación ponderada de los
canales de entrada transmitidos utilizando tal factor de
ponderación predeterminado, mediante los medios 324 de la figura
2D. Existen varias posibilidades para reducir la coherencia en
canales base para la reconstrucción de los canales de salida. Sin
la medida de la invención, los canales de salida respectivos
serían, en una implementación de línea base, en la que no se
codifican y transmiten ICC e ICTD, totalmente coherentes. Por lo
tanto, cualquier uso de cualquier medida de coherencia
predeterminada reducirá la coherencia en señales de salida
reconstruidas, de tal manera que las señales de salida reproducidas
son mejores aproximaciones de los canales originales
correspondientes.
Para evitar por lo tanto que los canales base
sean totalmente coherentes, el upmixing se realiza tal como se
muestra por ejemplo en la figura 15A como una alternativa o la
figura 15B como otra alternativa. Los cinco canales base se calculan
de tal manera que ninguno de ellos sea totalmente coherente, si la
señal de estéreo transmitida tampoco es totalmente coherente. Esto
da como resultado que se reduzca automáticamente una coherencia
entre canales entre el canal izquierdo y el canal envolvente
izquierdo o entre el canal derecho y el canal envolvente derecho,
cuando se reduce la coherencia entre canales entre el canal
izquierdo y el canal derecho. Por ejemplo, para una señal de audio
que es independiente entre todos los canales tal como una señal de
aplauso, tal upmixing tiene la ventaja de que se genera cierta
independencia entre el izquierdo y el envolvente izquierdo y el
derecho y el envolvente derecho sin necesidad de sintetizar (y
codificar) coherencia entre canales explícitamente. Por supuesto,
esta segunda versión de upmixing puede combinarse con un esquema
que aún sintetice ICC e ICTD.
La figura 15A muestra un upmixing optimizado
para izquierdo frontal y derecho frontal, en el que se mantiene la
mayoría de la independencia entre el izquierdo frontal y el derecho
frontal.
La figura 15B muestra otro ejemplo, en el que el
izquierdo frontal y el derecho frontal por una parte y el
envolvente izquierdo y el envolvente derecho por otra parte, se
tratan en la misma manera porque el grado de independencia de los
canales frontales y posteriores es el mismo. Esto puede verse en la
figura 15B por el hecho de que un ángulo entre izquierdo/derecho
frontal es el mismo que el ángulo entre envolvente
izquierdo/derecho.
Según la realización preferida de la presente
invención, se utiliza upmixing dinámico en lugar de una selección
estática. Con este objetivo, la invención también se refiere a un
algoritmo mejorado que puede adaptar dinámicamente la matriz de
upmixing con el fin de optimizar un comportamiento dinámico. En el
ejemplo mostrado a continuación, la matriz de upmixing puede
elegirse para los canales posteriores, de tal manera se hace
posible la reproducción óptima de coherencia
frontal-posterior. El algoritmo de la invención
comprende las siguientes etapas:
Para los canales frontales, se utiliza una
simple asignación de canales base, tal como la descrita en la
figura 14A o 15A. Con esta simple elección, se conserva coherencia
de los canales a lo largo del eje izquierdo/derecho.
En el codificador, se miden los valores de
coherencia frontal-posterior tales como
indicaciones ICC entre los pares izquierdo/envolvente izquierdo y
preferiblemente entre derecho/envolvente derecho.
En el descodificador, los canales base para los
canales posterior izquierdo y posterior derecho se determinan
formando combinaciones lineales de las señales de canal
transmitidas, es decir, un canal izquierdo transmitido y un canal
derecho transmitido. Específicamente, los coeficientes de upmixing
se determinan de tal manera que la coherencia real entre el
izquierdo y el envolvente izquierdo y el derecho y el envolvente
derecho alcanza los valores medidos en el codificador. Para fines
prácticos, esto puede conseguirse cuando las señales de canal
transmitidas muestran descorrelaciones suficientes, que normalmente
es el caso en escenarios de cinco canales habituales.
En la realización preferida de upmixing
dinámico, un ejemplo de una implementación que se considera como el
mejor modo de llevar a cabo la invención, se dará con respecto a la
figura 2E, en cuanto a una implementación de codificador y a la
figura 2F y la figura 2G con respecto a una implementación de
descodificador. La figura 2E muestra un ejemplo para medir valores
de coherencia frontal/posterior (valores ICC) entre el canal
izquierdo y envolvente izquierdo o entre el canal derecho y
envolvente derecho, es decir, entre un par de canales ubicados en un
lado respecto a una posición del oyente considerada.
La ecuación mostrada en la caja en la figura 2C
da una medida de coherencia cc entre el primer canal x y el segundo
canal y. En un caso, el primer canal x es el canal izquierdo,
mientras que el segundo canal y es el canal envolvente izquierdo. En
otro caso, el canal x es el canal derecho, mientras que el segundo
canal y es el canal envolvente derecho. x_{i} representa una
muestra del canal x respectivo en el momento de tiempo i, mientras
que y_{i} representa una muestra en un momento de tiempo del otro
canal original y. Ha de observarse en este caso que la medida de
coherencia puede calcularse completamente en el dominio del tiempo.
En este caso, el índice de suma i recorre desde un borde inferior a
un borde superior, donde el otro borde normalmente es el mismo que
el número de muestras en una trama en caso de un procesamiento a lo
largo de tramas.
Como alternativa, también pueden calcularse
medidas de coherencia entre señales de paso banda, es decir,
señales que tienen anchos de banda reducidos con respecto a la
señal de audio original. En este último caso, la medida de
coherencia no sólo depende del tiempo sino también depende de la
frecuencia. Las indicaciones ICC frontal/posterior resultantes, es
decir, CC_{1} para la coherencia frontal/posterior izquierda y
CC_{r} para la coherencia frontal/posterior derecha, se transmiten
a un descodificador como información lateral paramétrica
preferiblemente en forma cuantificada y codificada.
A continuación, se hará referencia a la figura
2F para mostrar un esquema de upmixing de descodificador preferido.
En el caso ilustrado, el canal izquierdo transmitido se mantiene
como el canal base para el canal de salida izquierdo. Con el fin de
derivar el canal base para el canal de salida posterior izquierdo,
se determina una combinación lineal entre el canal transmitido
izquierdo (l) y el derecho (r), es decir l + \alphar. El factor
de ponderación \alpha se determina de tal manera que la
correlación cruzada entre l y l + \alphar es igual al valor
CC_{1} deseado transmitido para el lado izquierdo y CC_{r} para
el lado derecho o en general la medida de coherencia k.
El cálculo del valor \alpha apropiado se
describe en la figura 2F. En particular, una correlación cruzada
normalizada de dos señales l y r se define tal como se muestra en
la ecuación en el bloque de la figura 2E.
Dadas dos señales transmitidas l y r, el factor
de ponderación \alpha tiene que determinarse de tal manera que la
correlación cruzada normalizada de la señal l y l + r sea igual a
un valor deseado k, es decir, la medida de coherencia. Esta medida
se define entre -1 y +1.
Usando la definición de la correlación cruzada
para los dos canales, se obtiene la ecuación dada en la figura 2F
para el valor k. Utilizando varias abreviaturas que se dan en la
parte inferior de la figura 2F, la condición para k puede
rescribirse como una ecuación cuadrática, la solución de la cual da
el factor de ponderación \alpha.
Puede demostrarse que la ecuación siempre tiene
soluciones de valor real, es decir, que está garantizado que el
discriminante es no negativo.
Dependiendo de la correlación cruzada básica de
la señal l y r, y de la correlación cruzada deseada k, una de ambas
soluciones suministradas puede de hecho llevar al negativo del
valor de correlación cruzada deseado y, por lo tanto, se descarta
para todo cálculo adicional.
Después de calcular la señal de canal base como
una combinación lineal de la señal l y la señal r, la señal
resultante se normaliza (reajusta a escala) a la energía de señal
original de la señal de canal l o r transmitida.
De manera similar, la señal de canal base para
el canal de salida derecho puede derivarse intercambiando el papel
de los canales izquierdo y derecho, es decir considerando la
correlación cruzada entre r y r + \alphal.
En la práctica, se prefiere suavizar los
resultados del proceso de cálculo para el valor \alpha a lo largo
del tiempo y la frecuencia, con el fin de obtener calidad de señal
máxima. También pueden utilizarse medidas de correlación
frontal/posterior diferentes a izquierdo/posterior izquierdo y
derecho/posterior derecho para maximizar adicionalmente la calidad
de señal.
Posteriormente se dará una descripción de etapa
por etapa de la funcionalidad realizada por el reconstructor 32
multicanal de la figura 2A, con referencia a la figura 2G.
Preferiblemente, se calcula un factor de
ponderación \alpha (200) basándose en una medida de coherencia
dinámica proporcionada desde un codificador a un descodificador o
basándose en un suministro estático de una medida de coherencia tal
como se describe en conexión con la figura 15A y la figura 15B.
Después, se suaviza el factor de ponderación a lo largo del tiempo
y/o frecuencia (etapa 202) para obtener un factor de ponderación
suavizado \alpha_{s}. Después, se calcula un canal base b para
que sea por ejemplo l + \alpha_{s}r (etapa 204). El canal base
b se utiliza entonces, junto con otros canales base, para calcular
las señales de salida en bruto.
Tal como queda claro a partir de la caja 206, se
requieren la ICLD de representación de nivel así como la ICTD de
representación de retardo para calcular señales de salida en bruto.
Después, las señales de salida en bruto se ajustan en escala para
tener la misma energía que una suma de las energías individuales de
los canales de entrada izquierdo y derecho. Dicho de otro modo, las
señales de salida en bruto se ajustan en escala por medio de un
factor de escala de tal manera que una suma de las energías
individuales de las señales de salida en bruto ajustadas a escala
es la misma que la suma de las energías individuales de los canales
de entrada izquierdo y derecho transmitidos.
Como alternativa, también se podría calcular la
suma de los canales transmitidos izquierdo y derecho y utilizar la
energía de la señal resultante. Adicionalmente, también podría
calcularse una señal de suma por una suma a lo largo de las muestras
de las señales de salida en bruto y utilizar la energía de la señal
resultante para fines de ajuste a escala.
Después, en una salida de la caja 208, se
obtienen los canales de salida reconstruidos, que son únicos porque
ninguno de los canales de salida reconstruidos es totalmente
coherente con otro de los canales de salida reconstruidos de tal
manera que se obtiene una calidad máxima de la señal de salida
reproducida.
En resumen, el concepto inventivo es ventajoso
ya que puede utilizarse un número arbitrario de canales
transmitidos (M) y un número arbitrario de canales de salida
(N).
Adicionalmente, la conversión entre los canales
transmitidos y los canales base para los canales de salida se
realiza preferiblemente a través de upmixing dinámico.
En una realización importante, el upmixing
consiste en una multiplicación por una matriz de upmixing, es
decir, formar combinaciones lineales de los canales transmitidos,
en el que preferiblemente se sintetizan canales frontales utilizando
canales base transmitidos correspondientes como canales base,
mientras que los canales posteriores consisten en una combinación
lineal de los canales transmitidos, dependiendo el grado de
combinación lineal de una medida de coherencia.
Adicionalmente, este proceso de upmixing se
realiza preferiblemente adaptativo a la señal de una forma variable
en el tiempo. Específicamente, el proceso de upmixing depende
preferiblemente de una información lateral transmitida desde un
codificador BCC tal como indicaciones de coherencia entre canales
para una coherencia frontal/posterior.
Dado el canal base para cada canal de salida, se
aplica un procesamiento similar a una codificación de indicación
binaural regular para sintetizar indicaciones espaciales, es decir,
aplicando ajustes a escala y retardos en subbandas y aplicando
técnicas para reducir la coherencia entre canales, en el que las
indicaciones ICC se utilizan adicionalmente, o como alternativa,
para construir canales base respectivos para obtener reproducción
óptima de coherencia frontal/posterior.
La figura 3A muestra una realización del
calculador 14 de la invención para calcular la información lateral
de canal, en la que un codificador de audio por una parte y el
calculador de información lateral de canal por otra parte operan en
la misma representación espectral de la señal multicanal. Sin
embargo, la figura 1 muestra la otra alternativa, en la que el
codificador de audio por una parte y el calculador de información
lateral de canal por otra parte operan en representaciones
espectrales diferentes de la señal multicanal. Cuando los recursos
de cálculo no son tan importantes como la calidad de audio, se
prefiere la alternativa de la figura 1A, ya que pueden utilizarse
bancos de filtros optimizados individualmente para codificación de
audio y cálculo de información lateral. Cuando, sin embargo los
recursos de cálculo son un tema importante, se prefiere la
alternativa de la figura 3A, ya que esta alternativa requiere menos
potencia de cálculo debido a una utilización compartida de
elementos.
El dispositivo mostrado en la figura 3A está
operativo para recibir dos canales, A, B. El dispositivo mostrado
en la figura 3A está operativo para calcular una información
lateral para el canal B, de tal manera que utilizando esta
información lateral de canal para el canal original seleccionado B,
puede calcularse una versión reconstruida del canal B a partir de
la señal de canal A. Adicionalmente, el dispositivo mostrado en la
figura 3A está operativo para formar información lateral de canal de
dominio de la frecuencia, tal como parámetros para ponderar
(multiplicando o procesando en tiempo tal como en codificación BCC,
por ejemplo) valores espectrales de muestras de subbanda. Con este
objetivo, el calculador de la invención incluye formar ventanas y
medios 140a de conversión de tiempo/frecuencia para obtener una
representación de frecuencia del canal A en una salida 140b o una
representación de dominio de la frecuencia del canal B en una
salida 140c.
En la realización preferida, la determinación de
información lateral (mediante los medios 140f de determinación de
información lateral) se realiza utilizando valores espectrales
cuantificados. Después, un cuantificador 140d está también presente
que preferiblemente se controla utilizando un modelo psicoacústico
que tiene una entrada 140e de control de modelo psicoacústico. Sin
embargo, no se requiere un cuantificador, cuando los medios 140c de
determinación de información lateral utilizan una representación no
cuantificada del canal A para determinar la información lateral de
canal para el canal B.
En caso de que la información lateral de canal
para el canal B se calcule mediante una representación de dominio
de la frecuencia del canal A y la representación de dominio de la
frecuencia del canal B, los medios 140A de conversión de
tiempo/frecuencia y formación de ventanas pueden ser los mismos que
se utilizan en un codificador de audio basado en bancos de filtros.
En este caso, cuando se considera AAC (ISO/IEC
13818-3), los medios 140 se implementan como un
banco de filtros MDCT (MDCT = transformada de coseno discreto
modificado) con 50% de funcionalidad
superposición-y-adición.
En tal caso, el cuantificador 140d es un
cuantificador iterativo tal como el que se utiliza cuando se
generan señales de audio codificadas AAC o mp3 .La representación
de dominio de la frecuencia del canal A, que preferiblemente ya se
ha cuantificado puede entonces utilizarse directamente para
codificación de entropía utilizando un codificador 140g de
entropía, que puede ser un codificador basado en Huffman o un
codificador de entropía que implementa codificación aritmética.
Cuando se compara con la figura 1, la salida del
dispositivo en la figura 3A es la información lateral tal como
l_{i} para un canal original (correspondiente a la información
lateral para B en la salida del dispositivo 140f). El flujo de bits
codificado de entropía para el canal A corresponde por ejemplo al
canal de downmix izquierdo codificado Lc' en la salida del bloque
16 de la figura 1. A partir de la figura 3A queda claro que el
elemento 14 (figura 1), es decir el calculador para calcular la
información lateral de canal y el codificador 16 de audio (figura
1), pueden implementarse como medios separados o pueden
implementarse como una versión compartida de tal manera ambos
dispositivos comparten varios elementos tales como el banco 140a de
filtros MDCT, el cuantificador 140e y el codificador 140g de
entropía. Naturalmente, en caso de que se requiera una transformada
diferente, etc. para determinar una información lateral de canal,
entonces el codificador 16 y el calculador 14 (figura 1) se
implementarán en dispositivos diferentes de tal manera que ambos
elementos no compartan el banco de filtros, etc.
En general, el determinador real para calcular
la información lateral (o expresado de manera general el calculador
14), puede implementarse como un módulo de estéreo conjunto tal
como se ilustra en la figura 3B, que opera según cualquiera de las
técnicas de estéreo conjunto tales como codificación de intensidad
estéreo o codificación de indicación binaural.
En contraste con tales codificadores de
intensidad estéreo de la técnica anterior, los medios 140f de
determinación de la invención no tienen que calcular el canal
combinado. El "canal combinado" o canal portador, como se puede
decir, ya existe y es el canal de downmix compatible izquierdo Lc o
el canal de downmix compatible derecho Rc o una versión combinada
de estos canales de downmix tal como Lc + Rc. Por lo tanto, el
dispositivo 140f de la invención sólo tiene que calcular la
información de ajuste a escala para ajustar a escala el canal de
downmix respectivo de tal manera que se obtiene la envolvente de
energía/tiempo del canal original seleccionado respectivo, cuando
el canal de downmix se pondera utilizando la información de ajuste
a escala o, como se puede decir, la información direccional de
intensidad.
Por lo tanto, el módulo 140f de estéreo conjunto
de la figura 3B se ilustra de tal manera que recibe, como una
entrada, el canal "combinado" A, que es el primer o segundo
canal de downmix o una combinación de los canales de downmix, y el
canal seleccionado original. Este módulo, naturalmente, emite el
canal "combinado" A y los parámetros de estéreo conjunto como
información lateral de canal de tal manera que, utilizando el canal
combinado A y los parámetros de estéreo conjunto puede calcularse
una aproximación del canal seleccionado original B.
Como alternativa, el módulo 140f de estéreo
conjunto puede implementarse para realizar codificación de
indicación binaural.
En el caso de BCC, el módulo 140f de estéreo
conjunto está operativo para emitir la información lateral de canal
de tal manera que la información lateral de canal son parámetros
ICLD o ICTD cuantificados y codificados, donde el canal original
seleccionado sirve como el canal real que va a procesarse, mientras
que el canal de downmix respectivo utilizado para calcular la
información lateral, tal como el primero, el segundo o una
combinación del primer y el segundo canal de downmix se utiliza como
el canal de referencia en el sentido de la técnica de
codificación/descodificación BCC.
Con referencia a la figura 4, se da una
implementación dirigida en energía simple del elemento 140. Este
dispositivo incluye un selector 44 de banda de frecuencia que
selecciona una banda de frecuencia del canal A y una banda de
frecuencia correspondiente del canal B. Después, en ambas bandas de
frecuencia, se calcula una energía por medio de un calculador 42 de
energía para cada ramificación. La implementación detallada del
calculador 42 de energía dependerá de si la señal de salida del
bloque 40 es una señal de subbanda o son coeficientes de frecuencia.
En otras implementaciones, en las que se calculan factores de escala
para banda de factor de escala, ya se pueden utilizar factores de
escala del primer y el segundo canal A, B como valores de energía
E_{A} y E_{B} o al menos como estimaciones de la energía. En un
dispositivo 44 de cálculo de factor de ganancia, se determina un
factor de ganancia g_{B} para la banda de frecuencia seleccionada
basándose en una cierta regla tal como la regla de determinación de
ganancia ilustrada en el bloque 44 de la figura 4. En este caso, el
factor de ganancia g_{B} puede utilizarse directamente para
ponderar muestras de dominio del tiempo o coeficientes de frecuencia
tal como se describirá posteriormente en la figura 5. Con este
objetivo, el factor de ganancia g_{B}, que es válido para la
banda de frecuencia seleccionada se utiliza como la información
lateral de canal para el canal B como el canal original
seleccionado. Este canal original seleccionado B no se transmitirá
al descodificador pero se representará por la información lateral
de canal paramétrica tal como se calcula por el calculador 14 en la
figura 1.
Ha de observarse en este momento que no es
necesario transmitir valores de ganancia como información lateral
de canal. También es suficiente transmitir valores dependientes de
frecuencia relacionados con la energía absoluta del canal original
seleccionado. Después, el descodificador tiene que calcular la
energía real del canal de downmix y el factor de ganancia basándose
en la energía de canal de downmix y la energía transmitida para el
canal B.
La figura 5 muestra una posible implementación
de una configuración de descodificador, en conexión con un
codificador de audio perceptivo basado en transformada. En
comparación con la figura 2, las funcionalidades del descodificador
de entropía y el cuantificador 50 inverso (figura 5) se incluirán en
el bloque 24 de la figura 2. La funcionalidad de los elementos 52a,
52b de conversión de frecuencia/tiempo (figura 5), sin embargo, se
implementará en el elemento 36 de la figura 2. El elemento 50 de la
figura 5 recibe una versión codificada de la primera o la segunda
señal de downmix Lc' o Rc'. En la salida del elemento 50, está
presente una versión al menos parcialmente descodificada del primer
y el segundo canal de downmix, que posteriormente se denomina canal
A. El canal A se introduce en un selector 54 de banda de frecuencia
para seleccionar una cierta banda de frecuencia del canal A. Esta
banda de frecuencia seleccionada se pondera utilizando un
multiplicador 56. El multiplicador 56 recibe, para multiplicar, un
cierto factor ganancia g_{B}, que se asigna a la banda de
frecuencia seleccionada, seleccionada por el selector 54 de banda
de frecuencia, que corresponde al selector 40 de banda de frecuencia
de la figura 4, en el lado del codificador. En la entrada del
conversor 52a de frecuencia tiempo existe, junto con otras bandas,
una representación de dominio de la frecuencia del canal A. En la
salida del multiplicador 56 y, en particular, en la entrada de los
medios 52b de conversión de frecuencia/tiempo, habrá una
representación de dominio de la frecuencia reconstruida del canal
B. Por lo tanto, en la salida del elemento 52a, habrá una
representación de dominio del tiempo para el canal A, mientras que,
en la salida del elemento 52b, habrá una representación de dominio
del tiempo del canal reconstruido B.
Ha de observarse en este momento que,
dependiendo de la cierta implementación, el canal de downmix
descodificado Lc o Rc no se reproduce en un descodificador mejorado
multicanal. En tal descodificador mejorado multicanal, los canales
de downmix descodificados sólo se utilizan para reconstruir los
canales originales. Los canales de downmix descodificados sólo se
reproducen en descodificadores sólo estéreo de escala inferior.
Con este objetivo, se hace referencia a la
figura 9, que muestra la implementación preferida de la presente
invención en un entorno envolvente/mp3. Un flujo de bits envolvente
mejorado mp3 se introduce en un descodificador 24 mp3 estándar, que
emite versiones descodificadas de los canales de downmix originales.
Estos canales de downmix pueden después reproducirse directamente
por medio de un descodificador de bajo nivel. Como alternativa,
estos dos canales se introducen en el dispositivo 32 de
descodificación de estéreo conjunto avanzado que también recibe los
datos de extensión multicanal, que preferiblemente se introducen en
campos de datos auxiliares en un flujo de bits que cumple con
mp3.
Posteriormente, se hace referencia a la figura 7
que muestra el agrupamiento del canal original seleccionado y el
respectivo canal de downmix o canal de downmix combinado. Con
respecto a esto, la columna derecha de la tabla en la figura 7
corresponde al canal A en la figura 3A, 3B, 4 y 5, mientras que la
columna en la parte media corresponde al canal B en estas figuras.
En la columna de izquierda de la figura 7, se expone explícitamente
la información lateral de canal respectiva. Según la tabla de la
figura 7, la información lateral de canal l_{i} para el canal
izquierdo original L se calcula utilizando el canal de downmix
izquierdo Lc. La información lateral de canal envolvente izquierdo
ls_{i} se determina por medio del canal envolvente izquierdo
seleccionado original Ls y el canal de downmix izquierdo Lc es el
portador. La información lateral de canal derecho r_{i} para el
canal derecho original R se determina utilizando el canal de
downmix derecho Rc. Adicionalmente, la información lateral de canal
para el canal envolvente derecho Rs se determina utilizando el canal
de downmix derecho Rc como el portador. Finalmente, la información
lateral de canal c_{i} para el canal central C se determina
utilizando el canal de downmix combinado, que se obtiene por medio
de una combinación del primer y el segundo canal de downmix, que
puede calcularse fácilmente tanto en un codificador como en un
descodificador y que no requiere ningún bit adicional para
transmisión.
Naturalmente, también se puede calcular la
información lateral de canal para el canal izquierdo por ejemplo
basándose en un canal de downmix combinado o incluso un canal de
downmix que se obtiene por una adición ponderada del primer y el
segundo canal de downmix tal como 0,7 Lc y 0,3 Rc, siempre que los
parámetros de ponderación sean conocidos para un descodificador o
se transmitan en consecuencia. Para la mayoría de las aplicaciones,
sin embargo se preferirá sólo derivar la información lateral de
canal para el canal central a partir del canal de downmix
combinado, es decir, a partir de una combinación del primer y el
segundo canal de downmix.
Para mostrar el potencial de ahorro de bits de
la presente invención, se da el siguiente ejemplo típico. En caso
de una señal de audio de cinco canales, un codificador normal
requiere una tasa de transmisión de bits de 64 kbits/s para cada
canal que asciende a una tasa de transmisión de bits total de 320
kbits/s para la señal de cinco canales. Las señales de estéreo
izquierda y derecha requieren una tasa de transmisión de bits de
128 kbits/s. La información lateral de canales para un canal está
entre 1,5 y 2 kbits/s. Por tanto, incluso en un caso en el que se
transmite información lateral de canal para cada uno de los cinco
canales, estos datos adicionales suman sólo 7,5 a 10 kbits/s. Por
tanto, el concepto inventivo permite la transmisión de una señal de
audio de cinco canales utilizando una tasa de transmisión de bits de
138 kbits/s (comparado con 320 (!) kbits/s) con buena calidad, ya
que el descodificador no utiliza la operación de desmatrizado
problemática. Probablemente aún más importante es el hecho de que
el concepto inventivo es totalmente compatible hacia atrás, ya que
cada uno de los reproductores mp3 existentes puede reproducir el
primer canal de downmix y el segundo canal de downmix para producir
una salida estéreo convencional.
Dependiendo del entorno de aplicación, los
métodos de la invención para construir o generar pueden
implementarse en hardware o software. La implementación puede ser
un medio de almacenamiento digital tal como un disco o CD que tiene
señales de control legibles electrónicamente, que puede actuar
conjuntamente con un sistema informático programable de tal manera
que se lleven a cabo los métodos de la invención. Expresado de
manera general, la invención, por lo tanto, también se refiere a un
producto de programa informático que tiene un código de programa
almacenado en un portador legible por máquina, adaptándose el código
de programa para realizar los métodos de la invención, cuando el
producto de programa informático se ejecuta en un ordenador. Dicho
de otro modo, la invención, por lo tanto, se refiere también a un
programa informático que tiene un código de programa para realizar
los métodos, cuando el programa informático se ejecuta en un
ordenador.
Claims (25)
1. Aparato para construir una señal de salida
multicanal, utilizando una señal de entrada e información lateral
paramétrica, incluyendo la señal de entrada un primer canal de
entrada (Lc) y un segundo canal de entrada (Rc) derivado a partir
de una señal multicanal original, teniendo la señal multicanal
original una pluralidad de canales, incluyendo la pluralidad de
canales al menos dos canales originales, que se definen como
ubicados en un lado de una posición del oyente considerada, en el
que un primer canal original es uno primero de los al menos dos
canales originales, y en el que un segundo canal original es uno
segundo de los al menos dos canales originales, y describiendo la
información lateral paramétrica interrelaciones entre canales
originales de la señal original multicanal, que comprende:
medios (322) para determinar un primer canal
base seleccionando uno del primer y el segundo canal de entrada o
una combinación del primer y el segundo canal de entrada, y para
determinar un segundo canal base seleccionando el otro del primer y
el segundo canal de entrada o una combinación diferente del primer
y el segundo canal de entrada, de tal manera que el segundo canal
base es diferente del primer canal base; y
medios (324) para sintetizar un primer canal de
salida utilizando la información lateral paramétrica y el primer
canal base para obtener un primer canal de salida sintetizado que
es una versión reproducida del primer canal original que se ubica
en un lado de la posición del oyente considerada, y para sintetizar
un segundo canal de salida utilizando la información lateral
paramétrica y el segundo canal base, siendo el segundo canal de
salida una versión reproducida del segundo canal original que se
ubica en el mismo lado de la posición del oyente considerada.
2. Aparato según la reivindicación 1, que
comprende además:
medios (320) para proporcionar una medida de
coherencia, dependiendo la medida de coherencia de una coherencia
entre un primer canal original y un segundo canal original,
incluyéndose el primer y el segundo canal originales en una señal
multicanal original;
en el que los medios (322) para determinar están
operativos para determinar el primer y el segundo canal base
diferentes entre si basándose en la medida de coherencia.
3. Aparato según la reivindicación 1, en el que
los al menos dos canales originales incluyen un canal original
izquierdo y un canal original envolvente izquierdo o un canal
original derecho y un canal original envolvente derecho.
4. Aparato según la reivindicación 1, en el que
una combinación del primer y el segundo canal de entrada
determinada para ser el segundo canal base es tal que uno de los
dos canales de entrada contribuye al segundo canal base más que el
otro canal de entrada.
5. Aparato según la reivindicación 2, en el que
la medida de coherencia es variable en el tiempo de tal manera que
los medios (320) para determinar están operativos para determinar
el segundo canal base como una combinación del primer canal de
entrada y el segundo canal de entrada, siendo la combinación
variable a lo largo del tiempo.
6. Aparato según la reivindicación 2, en el que
la información lateral paramétrica incluye la medida de coherencia,
determinándose la medida de coherencia utilizando el primer canal
original y el segundo canal original, en el que los medios (320)
para proporcionar están operativos para extraer la medida de
coherencia a partir de la información lateral paramétrica.
7. Aparato según la reivindicación 6, en el que
la señal de entrada tiene una secuencia de tramas y la información
lateral paramétrica incluye una secuencia de parámetros que incluye
la medida de coherencia, estando asociados los parámetros con las
tramas.
8. Aparato según la reivindicación 1, en el que
la señal original incluye además un canal central (C), y en el que
los medios (322) para determinar están operativos además para
calcular un tercer canal base utilizando el primer canal de entrada
y el segundo canal de entrada en partes iguales.
9. Aparato según la reivindicación 1, en el que
la información lateral paramétrica depende de la frecuencia y los
medios (324) para sintetizar están operativos para realizar una
síntesis dependiente de la frecuencia.
10. Aparato según la reivindicación 1, en el
que la información lateral paramétrica incluye parámetros de
codificación de indicación binaural (BCC) incluyendo parámetros de
diferencia de nivel entre canales y parámetros de retardo de tiempo
entre canales, y en el que los medios para sintetizar están
operativos para realizar una síntesis BCC utilizando un canal base
determinado por los medios para determinar cuando se sintetiza un
canal de salida.
11. Aparato según la reivindicación 2, en el
que los medios (322) para determinar están operativos para
determinar el primer canal base como uno del primer y el segundo
canal de entrada y para determinar el segundo canal base como una
combinación ponderada del primer y el segundo canal de entrada,
dependiendo un factor de ponderación de la medida de coherencia.
12. Aparato según la reivindicación 11, en el
que el factor de ponderación se determina según lo siguiente:
donde \alpha es el factor de
ponderación y donde A, B, C se determinan según lo
siguiente,
donde L, R, C se determinan según
lo
siguiente,
y donde k es la medida de
coherencia, y donde l es el primer canal de entrada y r es el
segundo canal de
entrada.
13. Aparato según la reivindicación 11, en el
que la medida de coherencia se da para una banda de frecuencia, y
en el que los medios para determinar están operativos para
determinar el segundo canal base para la banda de frecuencia.
14. Aparato según la reivindicación 11, en el
que la medida de coherencia se determina según lo siguiente:
donde cc(x, y) es la medida
de coherencia entre dos canales originales x, y, donde x_{i} es
una muestra en un momento de tiempo i del primer canal original, y
donde y_{i} es una muestra en un momento de tiempo i del segundo
canal
original.
15. Aparato según la reivindicación 1, en el que
los medios (322) para determinar están operativos para ajustar a
escala los canales de salida utilizando medidas de potencia
derivadas a partir de los canales originales, transmitiéndose las
medidas de potencia dentro de la información lateral
paramétrica.
16. Aparato según la reivindicación 11, en el
que los medios (322) para determinar están operativos para suavizar
el factor de ponderación a lo largo del tiempo y/o frecuencia.
17. Aparato según la reivindicación 1, en el
que la información lateral paramétrica incluye información de nivel
que representa una distribución de energía de los canales
originales en la señal original, y en el que los medios para
sintetizar están operativos para ajustar a escala los canales de
salida de tal manera que una suma de las energías de los canales de
salida es igual a una suma de las energías del primer canal de
entrada y el segundo canal de entrada.
18. Aparato según la reivindicación 17, en el
que los medios (324) para sintetizar están operativos para calcular
canales de salida en bruto basándose en canales base determinados y
la información de nivel y para ajustar a escala los canales de
salida en bruto de tal manera que una energía total de canales de
salida en bruto en escala es igual a una energía total del primer y
el segundo canal de entrada.
19. Aparato según la reivindicación 1, en el
que la señal de entrada incluye un canal izquierdo y un canal
derecho, y el canal original incluye un canal izquierdo frontal, un
canal envolvente izquierdo, un canal derecho frontal y un canal
envolvente derecho, y en el que los medios (322) para determinar
están operativos para determinar
el canal izquierdo como el canal base para una
síntesis del canal izquierdo frontal (L),
el canal derecho es el canal base para una
síntesis del canal derecho frontal (R),
una combinación del canal izquierdo y el canal
derecho como el canal base para el canal envolvente izquierdo (Ls)
o el canal envolvente derecho (Rs).
20. Aparato según la reivindicación 1,
en el que la señal de entrada incluye un canal
izquierdo y un canal derecho y la señal original incluye un canal
izquierdo frontal, un canal envolvente izquierdo, un canal derecho
frontal y un canal envolvente derecho, y en el que los medios para
determinar están operativos para determinar
el canal izquierdo como el canal base para una
síntesis del canal izquierdo frontal,
el canal derecho como el canal base para una
síntesis del canal envolvente derecho, y
una combinación del primer y el segundo canal de
entrada como el canal base para una síntesis del canal derecho
frontal o el canal envolvente izquierdo.
21. Método de construcción de una señal de
salida multicanal utilizando una señal de entrada e información
lateral paramétrica, incluyendo la señal de entrada un primer canal
de entrada y un segundo canal de entrada derivados a partir de una
señal multicanal original, teniendo la señal multicanal original una
pluralidad de canales, incluyendo la pluralidad de canales al menos
dos canales originales, que se definen como ubicados en un lado de
una posición del oyente considerada, en el que un primer canal
original es uno primero de los al menos dos canales originales, y
en el que un segundo canal original es uno segundo de los al menos
dos canales originales, y describiendo la información lateral
paramétrica interrelaciones entre canales originales de la señal
original multicanal, que comprende:
determinar (322) un primer canal base
seleccionando uno del primer y el segundo canal de entrada o una
combinación del primer y el segundo canal de entrada, y determinar
un segundo canal base seleccionado el otro del primer y el segundo
canal de entrada o una combinación diferente del primer y el
segundo canal de entrada, de tal manera que el segundo canal base es
diferente del primer canal base; y
sintetizar (324) un primer canal de salida
utilizando la información lateral paramétrica y el primer canal
base para obtener un primer canal de salida sintetizado que es una
versión reproducida del primer canal original que se ubica en un
lado de la posición del oyente considerada, y sintetizar un segundo
canal de salida utilizando la información lateral paramétrica y el
segundo canal base, siendo el segundo canal de salida una versión
reproducida del segundo canal original que se ubica en el mismo
lado de la posición del oyente considerada.
22. Aparato para generar una señal de downmix a
partir de una señal original multicanal, teniendo la señal de
downmix un número de canales que es inferior a un número de canales
originales, que comprende:
medios (12) para calcular un primer canal de
downmix y un segundo canal de downmix utilizando una regla de
downmix;
medios (14) para calcular información de nivel
paramétrica que representa una distribución de energía entre los
canales en la señal original multicanal;
medios (142) para determinar una medida de
coherencia entre dos canales originales, estando ubicados los dos
canales originales en un lado de una posición del oyente
considerada; y
medios (18) para formar una señal de salida
utilizando el primer y el segundo canal de downmix, la información
de nivel paramétrica y sólo al menos una medida de coherencia entre
dos canales originales ubicados en un lado o un valor derivado a
partir de al menos una medida de coherencia, pero no utilizando
ninguna medida de coherencia entre canales ubicados en diferentes
lados de la posición del oyente considerada.
23. Aparato según la reivindicación 22, que
comprende además medios (143) para determinar información de
retardo de tiempo entre dos canales originales ubicados en un lado
de la posición del oyente considerada; y
en el que los medios (18) para formar están
operativos para incluir sólo información de nivel de tiempo entre
dos canales originales ubicados en un lado de la posición del
oyente considerada pero no información de nivel de tiempo entre dos
canales originales ubicados en diferentes lados de la posición del
oyente considerada.
24. Método de generación de una señal de
downmix a partir de una señal original multicanal, teniendo la
señal de downmix un número de canales inferior al número de canales
originales, que comprende:
calcular (12) un primer canal de downmix y un
segundo canal de downmix utilizando una regla de downmix;
calcular (124) información de nivel paramétrica
que representa una distribución de energía entre los canales en la
señal original multicanal;
determinar (142) una medida de coherencia entre
dos canales originales, estando ubicados los dos canales originales
en un lado de una posición del oyente considerada; y
formar (18) una señal de salida utilizando el
primer y el segundo canal de downmix, la información de nivel
paramétrica y sólo al menos una medida de coherencia entre dos
canales originales ubicados en un lado o un valor derivado a partir
de la al menos una medida de coherencia, pero no utilizando ninguna
medida de coherencia entre canales ubicados en lados diferentes de
la posición del oyente considerada.
25. Programa informático que tiene un código de
programa para realizar el método de construcción de una señal
multicanal según la reivindicación 21 o el método de generación de
una señal de downmix según la reivindicación 24.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US762100 | 1985-08-02 | ||
US10/762,100 US7394903B2 (en) | 2004-01-20 | 2004-01-20 | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2306076T3 true ES2306076T3 (es) | 2008-11-01 |
Family
ID=34750329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05700983T Active ES2306076T3 (es) | 2004-01-20 | 2005-01-17 | Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix. |
Country Status (17)
Country | Link |
---|---|
US (1) | US7394903B2 (es) |
EP (1) | EP1706865B1 (es) |
JP (1) | JP4574626B2 (es) |
KR (1) | KR100803344B1 (es) |
CN (1) | CN1910655B (es) |
AT (1) | ATE393950T1 (es) |
AU (1) | AU2005204715B2 (es) |
BR (1) | BRPI0506533B1 (es) |
CA (1) | CA2554002C (es) |
DE (1) | DE602005006385T2 (es) |
ES (1) | ES2306076T3 (es) |
IL (1) | IL176776A (es) |
MX (1) | MXPA06008030A (es) |
NO (1) | NO337395B1 (es) |
PT (1) | PT1706865E (es) |
RU (1) | RU2329548C2 (es) |
WO (1) | WO2005069274A1 (es) |
Families Citing this family (197)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7454257B2 (en) * | 2001-02-08 | 2008-11-18 | Warner Music Group | Apparatus and method for down converting multichannel programs to dual channel programs using a smart coefficient generator |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US7644003B2 (en) * | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7447317B2 (en) | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7929708B2 (en) * | 2004-01-12 | 2011-04-19 | Dts, Inc. | Audio spatial environment engine |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
ATE430360T1 (de) | 2004-03-01 | 2009-05-15 | Dolby Lab Licensing Corp | Mehrkanalige audiodekodierung |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
US7646875B2 (en) * | 2004-04-05 | 2010-01-12 | Koninklijke Philips Electronics N.V. | Stereo coding and decoding methods and apparatus thereof |
CN1947172B (zh) * | 2004-04-05 | 2011-08-03 | 皇家飞利浦电子股份有限公司 | 方法、装置、编码器设备、解码器设备以及音频系统 |
DE602005006777D1 (de) * | 2004-04-05 | 2008-06-26 | Koninkl Philips Electronics Nv | Mehrkanal-codierer |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US20050273324A1 (en) * | 2004-06-08 | 2005-12-08 | Expamedia, Inc. | System for providing audio data and providing method thereof |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
RU2391714C2 (ru) * | 2004-07-14 | 2010-06-10 | Конинклейке Филипс Электроникс Н.В. | Преобразование аудиоканалов |
US7508947B2 (en) * | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
TWI393120B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式 |
JP4555299B2 (ja) * | 2004-09-28 | 2010-09-29 | パナソニック株式会社 | スケーラブル符号化装置およびスケーラブル符号化方法 |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
US7853022B2 (en) * | 2004-10-28 | 2010-12-14 | Thompson Jeffrey K | Audio spatial environment engine |
US20060093164A1 (en) * | 2004-10-28 | 2006-05-04 | Neural Audio, Inc. | Audio spatial environment engine |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
WO2006048817A1 (en) * | 2004-11-04 | 2006-05-11 | Koninklijke Philips Electronics N.V. | Encoding and decoding of multi-channel audio signals |
JP2008519306A (ja) * | 2004-11-04 | 2008-06-05 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 信号の組のエンコード及びデコード |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
WO2006060279A1 (en) * | 2004-11-30 | 2006-06-08 | Agere Systems Inc. | Parametric coding of spatial audio with object-based side information |
JP5017121B2 (ja) * | 2004-11-30 | 2012-09-05 | アギア システムズ インコーポレーテッド | 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化 |
KR100682904B1 (ko) | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
DE102005010057A1 (de) * | 2005-03-04 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms |
KR101271069B1 (ko) * | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
WO2006103586A1 (en) * | 2005-03-30 | 2006-10-05 | Koninklijke Philips Electronics N.V. | Audio encoding and decoding |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
EP1876586B1 (en) * | 2005-04-28 | 2010-01-06 | Panasonic Corporation | Audio encoding device and audio encoding method |
US8917874B2 (en) * | 2005-05-26 | 2014-12-23 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
EP1897084A2 (en) * | 2005-05-26 | 2008-03-12 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
JP4988717B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
EP1927102A2 (en) * | 2005-06-03 | 2008-06-04 | Dolby Laboratories Licensing Corporation | Apparatus and method for encoding audio signals with decoding instructions |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US8494667B2 (en) * | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007004830A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007010451A1 (en) * | 2005-07-19 | 2007-01-25 | Koninklijke Philips Electronics N.V. | Generation of multi-channel audio signals |
US20070055510A1 (en) | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
MX2008002760A (es) * | 2005-08-30 | 2008-04-07 | Lg Electronics Inc | Metodo para decodificar una senal de audio. |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
JP4859925B2 (ja) * | 2005-08-30 | 2012-01-25 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
EP1938662B1 (en) * | 2005-08-30 | 2016-09-28 | LG Electronics Inc. | Method, apparatus, computer-readable medium for decoding an audio signal |
CN101253556B (zh) * | 2005-09-02 | 2011-06-22 | 松下电器产业株式会社 | 能量整形装置以及能量整形方法 |
EP1761110A1 (en) * | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
JP5108772B2 (ja) | 2005-09-14 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
TWI462086B (zh) * | 2005-09-14 | 2014-11-21 | Lg Electronics Inc | 音頻訊號之解碼方法及其裝置 |
EP1943642A4 (en) * | 2005-09-27 | 2009-07-01 | Lg Electronics Inc | METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL |
TWI450603B (zh) * | 2005-10-04 | 2014-08-21 | Lg Electronics Inc | 音頻訊號處理方法及其系統與電腦可讀取媒體 |
US7646319B2 (en) * | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US8068569B2 (en) * | 2005-10-05 | 2011-11-29 | Lg Electronics, Inc. | Method and apparatus for signal processing and encoding and decoding |
US7751485B2 (en) * | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
CN101283400B (zh) * | 2005-10-05 | 2015-04-29 | Lg电子株式会社 | 信号处理的方法和装置以及编码和解码方法及其装置 |
US7696907B2 (en) * | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100857121B1 (ko) * | 2005-10-05 | 2008-09-05 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7672379B2 (en) * | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
JP4976304B2 (ja) * | 2005-10-07 | 2012-07-18 | パナソニック株式会社 | 音響信号処理装置、音響信号処理方法およびプログラム |
US8019611B2 (en) * | 2005-10-13 | 2011-09-13 | Lg Electronics Inc. | Method of processing a signal and apparatus for processing a signal |
EP1946308A4 (en) * | 2005-10-13 | 2010-01-06 | Lg Electronics Inc | METHOD AND APPARATUS FOR PROCESSING A SIGNAL |
US20080255859A1 (en) * | 2005-10-20 | 2008-10-16 | Lg Electronics, Inc. | Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof |
US7761289B2 (en) * | 2005-10-24 | 2010-07-20 | Lg Electronics Inc. | Removing time delays in signal paths |
JP2009514008A (ja) * | 2005-10-26 | 2009-04-02 | エルジー エレクトロニクス インコーポレイティド | マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置 |
US8027485B2 (en) * | 2005-11-21 | 2011-09-27 | Broadcom Corporation | Multiple channel audio system supporting data channel replacement |
KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
US8111830B2 (en) * | 2005-12-19 | 2012-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
KR101218776B1 (ko) * | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
KR100953643B1 (ko) * | 2006-01-19 | 2010-04-20 | 엘지전자 주식회사 | 미디어 신호 처리 방법 및 장치 |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
EP1989704B1 (en) * | 2006-02-03 | 2013-10-16 | Electronics and Telecommunications Research Institute | Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue |
KR100878816B1 (ko) * | 2006-02-07 | 2009-01-14 | 엘지전자 주식회사 | 부호화/복호화 장치 및 방법 |
ATE456261T1 (de) * | 2006-02-21 | 2010-02-15 | Koninkl Philips Electronics Nv | Audiokodierung und audiodekodierung |
JP5254808B2 (ja) * | 2006-02-23 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
KR100773560B1 (ko) * | 2006-03-06 | 2007-11-05 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
EP2000001B1 (en) * | 2006-03-28 | 2011-12-21 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for a decoder for multi-channel surround sound |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
ATE527833T1 (de) * | 2006-05-04 | 2011-10-15 | Lg Electronics Inc | Verbesserung von stereo-audiosignalen mittels neuabmischung |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US20090313029A1 (en) * | 2006-07-14 | 2009-12-17 | Anyka (Guangzhou) Software Technologiy Co., Ltd. | Method And System For Backward Compatible Multi Channel Audio Encoding and Decoding with the Maximum Entropy |
KR100763920B1 (ko) * | 2006-08-09 | 2007-10-05 | 삼성전자주식회사 | 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치 |
RU2454825C2 (ru) * | 2006-09-14 | 2012-06-27 | Конинклейке Филипс Электроникс Н.В. | Манипулирование зоной наилучшего восприятия для многоканального сигнала |
KR100891666B1 (ko) | 2006-09-29 | 2009-04-02 | 엘지전자 주식회사 | 믹스 신호의 처리 방법 및 장치 |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
US8504376B2 (en) * | 2006-09-29 | 2013-08-06 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
CN101529898B (zh) * | 2006-10-12 | 2014-09-17 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
CN101692703B (zh) * | 2006-10-30 | 2012-09-26 | 深圳创维数字技术股份有限公司 | 一种实现数字电视中图文电子节目指南信息的方法及装置 |
EP2092516A4 (en) * | 2006-11-15 | 2010-01-13 | Lg Electronics Inc | METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING |
CN101632117A (zh) * | 2006-12-07 | 2010-01-20 | Lg电子株式会社 | 用于解码音频信号的方法和装置 |
JP5209637B2 (ja) * | 2006-12-07 | 2013-06-12 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
WO2008100067A1 (en) * | 2007-02-13 | 2008-08-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
US8571852B2 (en) * | 2007-03-02 | 2013-10-29 | Telefonaktiebolaget L M Ericsson (Publ) | Postfilter for layered codecs |
US7933372B2 (en) * | 2007-03-08 | 2011-04-26 | Freescale Semiconductor, Inc. | Successive interference cancellation based on the number of retransmissions |
JP5213339B2 (ja) * | 2007-03-12 | 2013-06-19 | アルパイン株式会社 | オーディオ装置 |
GB0705328D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
EP2158587A4 (en) * | 2007-06-08 | 2010-06-02 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING AUDIO SIGNAL |
CN101681625B (zh) * | 2007-06-08 | 2012-11-07 | 杜比实验室特许公司 | 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
KR101464977B1 (ko) * | 2007-10-01 | 2014-11-25 | 삼성전자주식회사 | 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치 |
US8170218B2 (en) * | 2007-10-04 | 2012-05-01 | Hurtado-Huyssen Antoine-Victor | Multi-channel audio treatment system and method |
EP2046076B1 (en) * | 2007-10-04 | 2010-03-03 | Antoine-Victor Hurtado-Huyssen | Multi-channel audio treatment system and method |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
KR101438389B1 (ko) * | 2007-11-15 | 2014-09-05 | 삼성전자주식회사 | 오디오 매트릭스 디코딩 방법 및 장치 |
EP2212883B1 (en) * | 2007-11-27 | 2012-06-06 | Nokia Corporation | An encoder |
EP2238589B1 (en) * | 2007-12-09 | 2017-10-25 | LG Electronics Inc. | A method and an apparatus for processing a signal |
KR101439205B1 (ko) | 2007-12-21 | 2014-09-11 | 삼성전자주식회사 | 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치 |
KR101614160B1 (ko) * | 2008-07-16 | 2016-04-20 | 한국전자통신연구원 | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 |
ATE557387T1 (de) * | 2008-07-30 | 2012-05-15 | France Telecom | Rekonstruktion von mehrkanal-audiodaten |
KR101366997B1 (ko) * | 2008-07-31 | 2014-02-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 바이노럴 신호를 위한 신호생성 |
AU2015207815B2 (en) * | 2008-07-31 | 2016-10-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Signal generation for binaural signals |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
TWI559786B (zh) | 2008-09-03 | 2016-11-21 | 杜比實驗室特許公司 | 增進多聲道之再生 |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
JP5522920B2 (ja) * | 2008-10-23 | 2014-06-18 | アルパイン株式会社 | オーディオ装置及びオーディオ処理方法 |
ES2963744T3 (es) * | 2008-10-29 | 2024-04-01 | Dolby Int Ab | Protección de recorte de señal usando metadatos de ganancia de audio preexistentes |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
EP2394268B1 (en) * | 2009-04-08 | 2014-01-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing |
US20120045065A1 (en) * | 2009-04-17 | 2012-02-23 | Pioneer Corporation | Surround signal generating device, surround signal generating method and surround signal generating program |
JP2011002574A (ja) * | 2009-06-17 | 2011-01-06 | Nippon Hoso Kyokai <Nhk> | 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
WO2011000409A1 (en) * | 2009-06-30 | 2011-01-06 | Nokia Corporation | Positional disambiguation in spatial audio |
KR101615262B1 (ko) * | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
US8396576B2 (en) * | 2009-08-14 | 2013-03-12 | Dts Llc | System for adaptively streaming audio objects |
JP2011048101A (ja) * | 2009-08-26 | 2011-03-10 | Renesas Electronics Corp | 画素回路および表示装置 |
JP5345024B2 (ja) * | 2009-08-28 | 2013-11-20 | 日本放送協会 | 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム |
EP2309781A3 (en) * | 2009-09-23 | 2013-12-18 | Iosono GmbH | Apparatus and method for calculating filter coefficients for a predefined loudspeaker arrangement |
US8774417B1 (en) | 2009-10-05 | 2014-07-08 | Xfrm Incorporated | Surround audio compatibility assessment |
TWI413110B (zh) * | 2009-10-06 | 2013-10-21 | Dolby Int Ab | 以選擇性通道解碼的有效多通道信號處理 |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
US9305550B2 (en) * | 2009-12-07 | 2016-04-05 | J. Carl Cooper | Dialogue detector and correction |
FR2954640B1 (fr) | 2009-12-23 | 2012-01-20 | Arkamys | Procede d'optimisation de la reception stereo pour radio analogique et recepteur de radio analogique associe |
US8908874B2 (en) | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
US20120155650A1 (en) * | 2010-12-15 | 2012-06-21 | Harman International Industries, Incorporated | Speaker array for virtual surround rendering |
WO2012093352A1 (en) * | 2011-01-05 | 2012-07-12 | Koninklijke Philips Electronics N.V. | An audio system and method of operation therefor |
US9026450B2 (en) | 2011-03-09 | 2015-05-05 | Dts Llc | System for dynamically creating and rendering audio objects |
EP2523472A1 (en) * | 2011-05-13 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method and computer program for generating a stereo output signal for providing additional output channels |
BR112013033362B1 (pt) | 2011-07-04 | 2021-10-26 | Huawei Technologies Co., Ltd | Módulo de frequência de rádio que suporta múltiplas portadoras, estação de base e método de distribuição de portadoras |
JP5737077B2 (ja) * | 2011-08-30 | 2015-06-17 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
KR101842257B1 (ko) * | 2011-09-14 | 2018-05-15 | 삼성전자주식회사 | 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치 |
US9183842B2 (en) * | 2011-11-08 | 2015-11-10 | Vixs Systems Inc. | Transcoder with dynamic audio channel changing |
WO2013073810A1 (ko) * | 2011-11-14 | 2013-05-23 | 한국전자통신연구원 | 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법 |
US8711013B2 (en) * | 2012-01-17 | 2014-04-29 | Lsi Corporation | Coding circuitry for difference-based data transformation |
US9131313B1 (en) * | 2012-02-07 | 2015-09-08 | Star Co. | System and method for audio reproduction |
US9622014B2 (en) | 2012-06-19 | 2017-04-11 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
US9363603B1 (en) | 2013-02-26 | 2016-06-07 | Xfrm Incorporated | Surround audio dialog balance assessment |
EP2981956B1 (en) | 2013-04-05 | 2022-11-30 | Dolby International AB | Audio processing system |
US9613660B2 (en) | 2013-04-05 | 2017-04-04 | Dts, Inc. | Layered audio reconstruction system |
US8804971B1 (en) | 2013-04-30 | 2014-08-12 | Dolby International Ab | Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio |
US9666198B2 (en) | 2013-05-24 | 2017-05-30 | Dolby International Ab | Reconstruction of audio scenes from a downmix |
KR101761569B1 (ko) | 2013-05-24 | 2017-07-27 | 돌비 인터네셔널 에이비 | 오디오 현장의 코딩 |
EP3005353B1 (en) | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
CN110223702B (zh) | 2013-05-24 | 2023-04-11 | 杜比国际公司 | 音频解码系统和重构方法 |
WO2014187990A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
EP2830335A3 (en) * | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
EP2854133A1 (en) * | 2013-09-27 | 2015-04-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a downmix signal |
AU2014331094A1 (en) * | 2013-10-02 | 2016-05-19 | Stormingswiss Gmbh | Method and apparatus for downmixing a multichannel signal and for upmixing a downmix signal |
BR112016008426B1 (pt) | 2013-10-21 | 2022-09-27 | Dolby International Ab | Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador |
CN105981100B (zh) * | 2014-01-08 | 2020-02-28 | 杜比国际公司 | 用于改善对声场的高阶高保真度立体声响复制表示进行编码所需的边信息的编码的方法和装置 |
EP3095117B1 (en) * | 2014-01-13 | 2018-08-22 | Nokia Technologies Oy | Multi-channel audio signal classifier |
WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
JP6640849B2 (ja) * | 2014-10-31 | 2020-02-05 | ドルビー・インターナショナル・アーベー | マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード |
US9830927B2 (en) * | 2014-12-16 | 2017-11-28 | Psyx Research, Inc. | System and method for decorrelating audio data |
EP3107097B1 (en) * | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
EP3369257B1 (en) * | 2015-10-27 | 2021-08-18 | Ambidio, Inc. | Apparatus and method for sound stage enhancement |
CN117238300A (zh) * | 2016-01-22 | 2023-12-15 | 弗劳恩霍夫应用研究促进协会 | 使用帧控制同步来编码或解码多声道音频信号的装置和方法 |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
GB201718341D0 (en) * | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
GB2572650A (en) | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
GB2574239A (en) | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
DE102018127071B3 (de) * | 2018-10-30 | 2020-01-09 | Harman Becker Automotive Systems Gmbh | Audiosignalverarbeitung mit akustischer Echounterdrückung |
US11356791B2 (en) * | 2018-12-27 | 2022-06-07 | Gilberto Torres Ayala | Vector audio panning and playback system |
CN111615044B (zh) * | 2019-02-25 | 2021-09-14 | 宏碁股份有限公司 | 声音信号的能量分布修正方法及其系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2165370T3 (es) * | 1993-06-22 | 2002-03-16 | Thomson Brandt Gmbh | Metodo para obtener una matriz decodificadora multicanal. |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
US5912976A (en) * | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
JP4478220B2 (ja) * | 1997-05-29 | 2010-06-09 | ソニー株式会社 | 音場補正回路 |
JP3657120B2 (ja) * | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000214887A (ja) * | 1998-11-16 | 2000-08-04 | Victor Co Of Japan Ltd | 音声符号化装置、光記録媒体、音声復号装置、音声伝送方法及び伝送媒体 |
JP2002175097A (ja) * | 2000-12-06 | 2002-06-21 | Yamaha Corp | 音声信号のエンコード/圧縮装置およびデコード/伸長装置 |
KR100904985B1 (ko) * | 2001-02-07 | 2009-06-26 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 오디오 채널 변환 |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7292901B2 (en) * | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
KR100752482B1 (ko) * | 2001-07-07 | 2007-08-28 | 엘지전자 주식회사 | 멀티채널 스트림 기록 재생장치 및 방법 |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
TW569551B (en) * | 2001-09-25 | 2004-01-01 | Roger Wallace Dressler | Method and apparatus for multichannel logic matrix decoding |
CN1647156B (zh) | 2002-04-22 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备 |
EP2879299B1 (en) * | 2002-05-03 | 2017-07-26 | Harman International Industries, Incorporated | Multi-channel downmixing device |
JP2003333699A (ja) * | 2002-05-10 | 2003-11-21 | Pioneer Electronic Corp | マトリックス・サラウンドデコード装置 |
KR20040043743A (ko) * | 2002-11-19 | 2004-05-27 | 주식회사 디지털앤디지털 | 멀티채널 검색장치와 방법 |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
KR100663729B1 (ko) * | 2004-07-09 | 2007-01-02 | 한국전자통신연구원 | 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치 |
-
2004
- 2004-01-20 US US10/762,100 patent/US7394903B2/en active Active
-
2005
- 2005-01-17 WO PCT/EP2005/000408 patent/WO2005069274A1/en active IP Right Grant
- 2005-01-17 CN CN2005800028025A patent/CN1910655B/zh active Active
- 2005-01-17 KR KR1020067014353A patent/KR100803344B1/ko active IP Right Grant
- 2005-01-17 RU RU2006129940/09A patent/RU2329548C2/ru active
- 2005-01-17 AU AU2005204715A patent/AU2005204715B2/en active Active
- 2005-01-17 BR BRPI0506533A patent/BRPI0506533B1/pt active IP Right Grant
- 2005-01-17 MX MXPA06008030A patent/MXPA06008030A/es active IP Right Grant
- 2005-01-17 PT PT05700983T patent/PT1706865E/pt unknown
- 2005-01-17 DE DE602005006385T patent/DE602005006385T2/de active Active
- 2005-01-17 ES ES05700983T patent/ES2306076T3/es active Active
- 2005-01-17 EP EP05700983A patent/EP1706865B1/en active Active
- 2005-01-17 CA CA2554002A patent/CA2554002C/en active Active
- 2005-01-17 JP JP2006550000A patent/JP4574626B2/ja active Active
- 2005-01-17 AT AT05700983T patent/ATE393950T1/de active
-
2006
- 2006-07-10 IL IL176776A patent/IL176776A/en active IP Right Grant
- 2006-08-18 NO NO20063722A patent/NO337395B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
CN1910655A (zh) | 2007-02-07 |
JP2007519349A (ja) | 2007-07-12 |
EP1706865B1 (en) | 2008-04-30 |
PT1706865E (pt) | 2008-08-12 |
KR100803344B1 (ko) | 2008-02-13 |
US7394903B2 (en) | 2008-07-01 |
MXPA06008030A (es) | 2007-03-07 |
WO2005069274A1 (en) | 2005-07-28 |
NO20063722L (no) | 2006-10-19 |
BRPI0506533B1 (pt) | 2018-11-06 |
BRPI0506533A (pt) | 2007-02-27 |
AU2005204715A1 (en) | 2005-07-28 |
US20050157883A1 (en) | 2005-07-21 |
DE602005006385T2 (de) | 2009-05-28 |
CA2554002C (en) | 2013-12-03 |
RU2329548C2 (ru) | 2008-07-20 |
CN1910655B (zh) | 2010-11-10 |
AU2005204715B2 (en) | 2008-08-21 |
CA2554002A1 (en) | 2005-07-28 |
DE602005006385D1 (de) | 2008-06-12 |
ATE393950T1 (de) | 2008-05-15 |
IL176776A0 (en) | 2008-03-20 |
RU2006129940A (ru) | 2008-02-27 |
NO337395B1 (no) | 2016-04-04 |
IL176776A (en) | 2010-11-30 |
EP1706865A1 (en) | 2006-10-04 |
KR20060132867A (ko) | 2006-12-22 |
JP4574626B2 (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2306076T3 (es) | Aparato y metodo para construir una señal de salida multicanal o para generar una señal de downmix. | |
ES2278348T3 (es) | Codificacion/decodificacion multicanal compatible. | |
ES2387248T3 (es) | Aparato y procedimiento para generar una señal de salida multi-canal | |
ES2524428T3 (es) | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio | |
ES2293578T3 (es) | Aparato y metodo para generar un parametro de nivel y aparato y metodo para generar una representacion multicanal. | |
ES2297825T3 (es) | Cuantificacion dependiente de energia para la codificacion eficaz de parametros de audio espaciales. | |
ES2398573T3 (es) | Número reducido de decodificación de canales | |
TWI458365B (zh) | 用以產生電平參數之裝置及方法、用以產生多聲道表示之裝置及方法以及儲存參數表示之儲存媒體 |