ES2317297T3 - Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. - Google Patents
Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. Download PDFInfo
- Publication number
- ES2317297T3 ES2317297T3 ES05785586T ES05785586T ES2317297T3 ES 2317297 T3 ES2317297 T3 ES 2317297T3 ES 05785586 T ES05785586 T ES 05785586T ES 05785586 T ES05785586 T ES 05785586T ES 2317297 T3 ES2317297 T3 ES 2317297T3
- Authority
- ES
- Spain
- Prior art keywords
- envelope
- input
- signal
- channel
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007493 shaping process Methods 0.000 claims abstract description 22
- 230000002123 temporal effect Effects 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims description 76
- 230000015572 biosynthetic process Effects 0.000 claims description 55
- 238000003786 synthesis reaction Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 35
- 239000000203 mixture Substances 0.000 claims description 20
- 230000001052 transient effect Effects 0.000 claims description 19
- 238000002156 mixing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 11
- 238000012512 characterization method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims 4
- 230000003466 anti-cipated effect Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 22
- 230000002441 reversible effect Effects 0.000 description 14
- 230000001934 delay Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 230000001174 ascending effect Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Golf Clubs (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Electrophonic Musical Instruments (AREA)
- Television Systems (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
Método para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el método: caracterizar la envolvente temporal de entrada de la señal de audio de entrada; procesar la señal de audio de entrada para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada; y ajustar la señal de audio procesada basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.
Description
\global\parskip0.960000\baselineskip
Conformación de envolvente de sonido difuso para
esquemas de codificación de indicación binaural y similares.
El contenido de esta solicitud está relacionado
con el contenido de las siguientes solicitudes estadounidenses:
- \circ
- Solicitud estadounidense 2003/0026441 A1, presentada el 04/05/01
- \circ
- Solicitud estadounidense 2003/0035553 A1, presentada el 07/11/01;
- \circ
- US 2003/0219130 A1, presentada el 24/05/02;
- \circ
- US 2003/0236583 A1, presentada el 18/09/02;
- \circ
- US 2005/0180579 A1, presentada el 01/04/04;
- \circ
- US 2005/0058304 A1, presentada el 08/09/04;
- \circ
- US 205/0157883 A1, presentada el 20/01/04; y
- \circ
- US presentada en la misma fecha que esta solicitud.
El contenido de esta solicitud también está
relacionado con el contenido descrito en los siguientes
documentos:
- \circ
- F. Baumgarte y C. Faller, "Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003;
- \circ
- C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003; y
- \circ
- C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 117th Conv. Aud Eng. Soc., octubre de 2004.
La presente invención se refiere a la
codificación de señales de audio y a la síntesis posterior de
escenas auditivas a partir de los datos de audio codificados.
Cuando una persona oye una señal de audio (es
decir, sonidos) generados por una fuente de audio particular, la
señal de audio llegará normalmente a los oídos izquierdo y derecho
de la persona en dos tiempos diferentes y con dos niveles de audio
(por ejemplo, decibelios) diferentes, en el que estos diferentes
tiempos y niveles son en función de las diferencias en las
trayectorias a través de las que viaja la señal de audio para llegar
a los oídos izquierdo y derecho, respectivamente. El cerebro de la
persona interpreta estas diferencias de tiempo y nivel para dar a
la persona la percepción de que la señal de audio recibida se está
generando por una fuente de audio situada en una posición
particular (por ejemplo, dirección y distancia) con respecto a la
persona. Una escena auditiva es el efecto neto de una persona que
escucha simultáneamente señales de audio generadas por una o más
fuentes de audio diferentes situadas en una o más posiciones
diferentes con respecto a la persona.
La existencia de este procesamiento por el
cerebro puede usarse para sintetizar escenas auditivas, en el que
señales de audio de una o más fuentes de audio diferentes se
modifican intencionadamente para generar señales de audio izquierda
y derecha que dan la percepción de que las diferentes fuentes de
audio están ubicadas en diferentes posiciones con respecto al
oyente.
La figura 1 muestra un diagrama de bloques de
alto nivel de un sintetizador 100 de señales binaural convencional,
que convierte una única señal de fuente de audio (por ejemplo, una
señal mono) en las señales de audio izquierda y derecha de una
señal binaural, definiéndose una señal binaural como las dos señales
recibidas en los tímpanos de un oyente. Además de la señal de
fuente de audio, el sintetizador 100 recibe un conjunto de
indicaciones espaciales correspondientes a la posición deseada de
la fuente de audio con respecto al oyente. En implementaciones
típicas, el conjunto de indicaciones espaciales comprende un valor
de diferencia de nivel intercanal (ICLD) (que identifica la
diferencia de nivel de audio entre las señales de audio izquierda y
derecha tal como se reciben en los oídos izquierdo y derecho,
respectivamente) y un valor de diferencia de tiempo intercanal
(ICTD) (que identifica la diferencia de tiempo de llegada entre las
señales de audio izquierda y derecha tal como se reciben en los
oídos izquierdo y derecho, respectivamente). Además o como
alternativa, algunas técnicas de síntesis implican el modelado de
una función de transferencia dependiente de la dirección para el
sonido desde la fuente de señal hacia los tímpanos, también
denominada como la función de transferencia relacionada con la
cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of
Human Sound Localization, MIT Press, 1983.
Utilizando el sintetizador 100 de señales
binaural de la figura 1, la señal de audio mono generada por una
única fuente de sonido puede procesarse de tal manera que, cuando se
escucha mediante auriculares, la fuente de sonido está colocada
espacialmente aplicando un conjunto apropiado de indicaciones
espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal
de audio para cada oído. Véase, por ejemplo, D. R. Begault,
3-D Sound for Virtual Reality and Multimedia,
Academic Press, Cambridge, MA, 1994.
El sintetizador 100 de señales binaural de la
figura 1 genera el tipo más simple de escenas auditivas: aquellas
que tienen una única fuente de audio colocada con respecto al
oyente. Pueden generarse escenas auditivas más complejas que
comprenden dos o más fuentes de audio ubicadas en diferentes
posiciones con respecto al oyente utilizando un sintetizador de
escena auditiva que se implementa esencialmente utilizando múltiples
instancias del sintetizador de señales binaural, generando cada
instancia de sintetizador de señales binaural la señal binaural
correspondiente a una fuente de audio diferente. Puesto que cada
fuente de audio diferente tiene una ubicación diferente con
respecto al oyente, se usa un conjunto diferente de indicaciones
espaciales para generar la señal de audio binaural para cada fuente
de audio diferente.
El documento WO 2004/008806 A1 da a conocer un
esquema de codificación de audio. Para la codificación estéreo
binaural sólo se codifica un canal monoaural. Una capa adicional
conserva los parámetros para recuperar la señal izquierda y la
señal derecha. Un codificador enlaza información de transitorios
extraída de la señal codificada mono con capas multicanal
paramétricas para proporcionar un mayor rendimiento. Las posiciones
de los transitorios pueden o bien obtenerse directamente del flujo
de bits o bien estimarse a partir de otros parámetros codificados
tales como la etiqueta de conmutación de ventana en mp3. Los
parámetros incluyen la diferencia de nivel de señales de subbanda
correspondientes, la diferencia de tiempo o la diferencia de fase
de señales de subbanda correspondientes y un valor de
correlación.
Un objeto de la presente invención es
proporcionar un concepto mejorado de codificación y descodificación
de audio. Este objeto se consigue mediante un método para convertir
una señal de audio de entrada según la reivindicación 1, un aparato
para convertir una señal de audio de entrada según la reivindicación
23, un método para codificar C canales de audio de entrada según la
reivindicación 26, un aparato para codificar C canales de audio de
entrada según la reivindicación 28, un flujo de bits de audio
codificado según la reivindicación 31 o un código de programa
informático según la reivindicación 32.
Según una realización, la presente invención
consiste en un método y aparato para convertir una señal de audio
de entrada que tiene una envolvente temporal de entrada en una señal
de audio de salida que tiene una envolvente temporal de salida. La
envolvente temporal de entrada de la señal de audio de entrada se
caracteriza. La señal de audio de entrada se procesa para generar
una señal de audio procesada, en el que el procesamiento
descorrelaciona la señal de audio de entrada. La señal de audio
procesada se ajusta basándose en la envolvente temporal de entrada
caracterizada para generar la señal de audio de salida, en el que la
envolvente temporal de salida coincide sustancialmente con la
envolvente temporal de entrada.
Según otra realización, la presente invención es
un método y aparato para codificar C canales de audio de entrada
para generar E canal(es) de audio transmitido(s). Se
generan uno o más códigos de indicación para dos o más de los C
canales de entrada. Los C canales de entrada se mezclan
descendentemente (downmix) para generar el (los) E
canal(es) transmitido(s), siendo C>E\geq1. Uno o
más de los C canales de entrada y los E canal(es)
transmitido(s) se analiza para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido debe efectuar o no la conformación de la envolvente durante la descodificación del (de los) E canal(es) transmitido(s).
transmitido(s) se analiza para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido debe efectuar o no la conformación de la envolvente durante la descodificación del (de los) E canal(es) transmitido(s).
Según otra realización, la presente invención es
un flujo de bits de audio codificado, generado mediante el método
del párrafo anterior.
Según otra realización, la presente invención es
un flujo de bits de audio codificado que comprende E
canal(es) transmitido(s), uno o más códigos de
indicación y una etiqueta. Los uno o más códigos de indicación se
generan generando uno o más códigos de indicación para dos o más de
los C canales de entrada. El (los) E canal(es)
transmitido(s) se genera(n) mezclando descendentemente
los C canales de entrada, siendo C>E\geq1. La etiqueta se
genera analizando uno o más de los C canales de entrada y el (los) E
canal(es) transmitido(s), en el que la etiqueta
indica si un descodificador del (de los) E canal(es)
transmitido(s) debe efectuar o no la conformación de
envolvente durante la descodificación del (de los) E
canal(es) transmitido(s).
Otros aspectos, características y ventajas de la
presente invención resultarán más plenamente evidentes a partir de
la siguiente descripción detallada, las reivindicaciones adjuntas y
los dibujos adjuntos en los que los mismos números de referencia
identifican elementos similares o idénticos.
\global\parskip1.000000\baselineskip
La figura 1 muestra un diagrama de bloques de
alto nivel de un sintetizador de señales binaural convencional;
la figura 2 es un diagrama de bloques de un
sistema de procesamiento de audio de codificación de indicación
binaural (BCC) genérico;
la figura 3 muestra un diagrama de bloques de un
mezclador descendente que puede usarse para el mezclador
descendente de la figura 2;
la figura 4 muestra un diagrama de bloques de un
sintetizador BCC que puede usarse para el descodificador de la
figura 2;
la figura 5 muestra un diagrama de bloques del
estimador BCC de la figura 2 según una realización de la presente
invención;
la figura 6 ilustra la generación de datos de
ICTD e ICLD para audio de cinco canales;
la figura 7 ilustra la generación de datos ICC
para audio de cinco canales;
la figura 8 muestra un diagrama de bloques de
una implementación del sintetizador BCC de la figura 4 que puede
usarse en un descodificador BCC para generar una señal de audio
estereofónica o multicanal dada una señal s(n) de suma
transmitida individual más las indicaciones espaciales;
la figura 9 ilustra cómo ICTD e ICLD se
modifican dentro de una subbanda en función de la frecuencia;
la figura 10 muestra un diagrama de bloques que
representa al menos una parte de un descodificador BCC, según una
realización de la presente invención;
la figura 11 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 10
en el contexto del sintetizador BCC de la figura 4;
la figura 12 ilustra una aplicación a modo de
ejemplo alternativa del esquema de conformación de envolvente de la
figura 10 en el contexto del sintetizador BCC de la figura 4, en el
que la conformación de envolvente se aplica en el dominio de
tiempo;
las figuras 13(a) y (b) muestran posibles
implementaciones del TPA de la figura 12, en el que la conformación
de envolvente se aplica solamente a frecuencias superiores a la
frecuencia f_{TP} de corte;
la figura 14 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 10
en el contexto del esquema de síntesis ICC basado en reverberación
tardía descrito en US 2005/0180579 A1, presentada el 01/04/04;
la figura 15 muestra un diagrama de bloques que
representa al menos una parte de un descodificador BCC, según una
realización de la presente invención que es una alternativa al
esquema mostrado en la figura 10;
la figura 16 muestra un diagrama de bloques que
representa al menos una parte de un descodificador BCC, según una
realización de la presente invención que es una alternativa a los
esquemas mostrados en las figuras 10 y 15;
la figura 17 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 15
en el contexto del sintetizador BCC de la figura 4; y
las figuras 18(a)-(c) muestran diagramas
de bloques de las implementaciones posibles del TPA, ITP y TP de la
figura 17.
En la codificación de indicación binaural (BCC),
un codificador codifica C canales de audio de entrada para generar
E canales de audio transmitidos, siendo C>E\geq1. En
particular, dos o más de los C canales de entrada se proporcionan
en un dominio de frecuencia y se generan uno o más códigos de
indicación para cada una de una o más bandas de frecuencia
diferentes en los dos o más canales de entrada en el dominio de
frecuencia. Además, los C canales de entrada se mezclan
descendentemente para generar los E canales transmitidos. En algunas
implementaciones de mezclado descendente, al menos uno de los E
canales transmitidos está basado en dos o más de los C canales de
entrada y al menos uno de los E canales transmitidos está basado en
solamente uno solo de los C canales de entrada.
En una realización, un codificador BCC tiene dos
o más bancos de filtros, un estimador de código y un mezclador
descendente. Los dos o más bancos de filtros convierten dos o más de
los C canales de entrada de un dominio de tiempo a un dominio de
frecuencia. El estimador de código genera uno o más códigos de
indicación para cada una de una o más bandas de frecuencia
diferentes en los dos o más canales de entrada convertidos. El
mezclador descendente mezcla descendentemente los C canales de
entrada para generar los E canales transmitidos, siendo
C>E\geq1.
En la descodificación BCC, se descodifican E
canales de audio transmitidos para generar C canales de audio de
reproducción. En particular, para cada una de una o más bandas de
frecuencia diferentes, uno o más de los E canales transmitidos se
mezclan ascendentemente (upmix) en un dominio de frecuencia
para generar dos o más de los C canales de reproducción en el
dominio de frecuencia, siendo C>E\geq1. Uno o más códigos de
indicación se aplican a cada una de las una o más bandas de
frecuencia diferentes en los dos o más canales de reproducción en
el dominio de frecuencia para generar dos o más canales modificados,
y los dos o más canales modificados se convierten del dominio de
frecuencia a un dominio de tiempo. En algunas implementaciones de
mezcla ascendente, al menos uno de los C canales de reproducción
está basado en al menos uno de los E canales transmitidos y al
menos un código de indicación, y al menos uno de los C canales de
reproducción está basado en solamente uno solo de los E canales
transmitidos e independiente de cualquier código de indicación.
En una realización, un descodificador BCC tiene
un mezclador ascendente, un sintetizador y uno o más bancos de
filtros inversos. Para cada una de una o más bandas de frecuencia
diferentes, el mezclador ascendente mezcla ascendentemente uno o
más de los E canales transmitidos en un dominio de frecuencia para
generar dos o más de los C canales de reproducción en el dominio de
frecuencia, siendo C>E\geq1. El sintetizador aplica uno o más
códigos de indicación a cada una de las una o más bandas de
frecuencia diferentes en los dos o más canales de reproducción en
el dominio de frecuencia para generar dos o más canales modificados.
El uno o más bancos de filtros inversos convierten los dos o más
canales modificados del dominio de frecuencia a un dominio de
tiempo.
Dependiendo de la implementación particular, un
canal de reproducción dado puede basarse en un único canal
transmitido, en lugar de una combinación de dos o más canales
transmitidos. Por ejemplo, cuando hay solamente un canal
transmitido, cada uno de los C canales de reproducción está basado
en ese canal transmitido. En estas situaciones, la mezcla
ascendente corresponde a copiar el canal transmitido
correspondiente. Como tal, para aplicaciones en las que hay
solamente un canal transmitido, el mezclador ascendente puede
implementarse utilizando un replicador que copia el canal
transmitido para cada canal de reproducción.
Pueden incorporarse codificadores y/o
descodificadores BCC a diversos sistemas o aplicaciones entre los
que se incluyen, por ejemplo, grabadores/reproductores de vídeo
digital, grabadores/reproductores de audio digital, ordenadores,
transmisores/receptores de satélite, transmisores/receptores de
cable, transmisores/receptores de emisión terrestre, sistemas de
entretenimiento en casa y sistemas de cine.
La figura 2 es un diagrama de bloques de un
sistema 200 de procesamiento de audio de codificación de indicación
binaural (BCC) genérico que comprende un codificador 202 y un
descodificador 204. El codificador 202 incluye el mezclador 206
descendente y el estimador 208 BCC.
El mezclador 206 descendente convierte C canales
de audio de entrada x_{i}(n) en E canales de audio
transmitidos y_{i}(n), siendo C>E\geq1. En esta
memoria descriptiva, las señales expresadas utilizando la variable
n son señales en el dominio de tiempo, mientras que las
señales expresadas utilizando la variable k son señales en
el dominio de frecuencia. Dependiendo de la implementación
particular, se puede implementar el mezclado descendente o bien en
el dominio de tiempo o bien en el dominio de frecuencia. El
estimador 208 BCC genera códigos BCC a partir de los C canales de
audio de entrada y transmite estos códigos BCC como información
lateral o bien en banda o bien fuera de banda con respecto a los E
canales de audio transmitidos. Códigos BCC típicos incluyen uno o
más de datos de diferencia de tiempo intercanal (ICTD), de
diferencia de nivel intercanal (ICLD) y de correlación intercanal
(ICC) estimados entre ciertos pares de canales de entrada en
función de la frecuencia y el tiempo. La implementación particular
determinará entre qué pares particulares de canales de entrada se
estiman los códigos
BCC.
BCC.
Los datos ICC corresponden a la coherencia de
una señal binaural, que está relacionada con el ancho percibido de
la fuente de audio. Cuanto más ancha es la fuente de audio, más baja
es la coherencia entre los canales izquierdo y derecho de la señal
binaural resultante. Por ejemplo, la coherencia de la señal binaural
correspondiente a una orquesta dispersada por el escenario de un
auditorio es normalmente más baja que la coherencia de la señal
binaural correspondiente a un único violín que toca un solo. En
general, una señal de audio con coherencia más baja se percibe
habitualmente como más esparcida por el espacio auditivo. Como tal,
los datos ICC se refieren normalmente al ancho de fuente aparente y
en qué grado queda envuelto el oyente. Véase, por ejemplo, J.
Blauert, The Psychophysics of Human Sound Localization, MIT Press,
1983.
Dependiendo de la aplicación particular, los E
canales de audio transmitidos y los correspondientes códigos BCC
pueden transmitirse directamente al descodificador 204 o almacenarse
en algún tipo apropiado de dispositivo de almacenamiento para su
posterior acceso por el descodificador 204. Dependiendo de la
situación, el término "transmisión" se puede referir o bien a
la transmisión directa a un descodificador o al almacenamiento para
su posterior facilitación a un descodificador. Ya sea en un caso u
otro, el descodificador 204 recibe los canales de audio
transmitidos y la información lateral y efectúa una mezcla
ascendente y una síntesis BCC utilizando los códigos BCC para
convertir los E canales de audio transmitidos en más de E
(normalmente, aunque no necesariamente C) canales de audio de
reproducción \hat{x}_{i}(n) para la reproducción de
audio. Dependiendo de la implementación particular, la mezcla
ascendente puede efectuarse o bien en el dominio de tiempo o bien en
el dominio de frecuencia.
Además del procesamiento BCC mostrado en la
figura 2, un sistema de procesamiento de audio BCC genérico puede
incluir fases de codificación y descodificación adicionales, para
comprimir adicionalmente las señales de audio en el codificador y
luego descomprimir las señales de audio en el descodificador,
respectivamente. Estos códecs de audio pueden basarse en técnicas
de compresión/descompresión de audio convencionales, tales como las
basadas en modulación por código de impulso (PCM), PCM diferencial
(DPCM) o DPCM adaptativa (ADPCM).
Cuando el mezclador 206 descendente genera una
única señal de suma (es decir, E = 1), la codificación BCC puede
representar señales de audio multicanal a una tasa de transmisión de
bits sólo ligeramente superior a la que se requiere para
representar una señal de audio mono. Esto es así debido a que los
datos ICTD, ICLD e ICC estimados entre un par de canales contienen
aproximadamente dos órdenes de magnitud menos de información que
una forma de onda de audio.
No sólo es interesante la baja tasa de
transmisión de bits de la codificad BCC, sino también su aspecto de
compatibilidad hacia atrás. Una única señal de suma transmitida
corresponde a una mezcla descendente mono de la señal estéreo o
multicanal original. Para receptores que no soportan reproducción de
sonido estéreo o multicanal, escuchar la señal de suma transmitida
es un método válido para presentar el material de audio en equipos
de reproducción mono de bajo perfil. Por consiguiente, la
codificación BCC puede usarse también para mejorar los servicios
existentes que implican la entrega de material de audio mono hacia
audio multicanal. Por ejemplo, los sistemas de emisión de radio de
audio mono pueden mejorarse para la reproducción estéreo o
multicanal si la información lateral BCC puede incrustarse en el
canal de transmisión existente. Existen capacidades análogas cuando
se mezcla descendentemente audio multicanal en dos señales de suma
que corresponden a audio estéreo.
BCC procesa señales de audio con una cierta
resolución de tiempo y frecuencia. La resolución de frecuencia
usada está motivada en gran medida por la resolución de frecuencia
del sistema auditivo humano. La psicoacústica sugiere que la
percepción espacial se basa con la mayor probabilidad en una
representación de banda crítica de la señal de banda acústica. Esta
resolución de frecuencia se considera utilizando un banco de filtros
invertible (por ejemplo, basado en una transformada de Fourier
rápida (FFT) o un filtro de espejo en cuadratura (QMF)) con
subbandas con anchos de banda iguales o proporcionales al ancho de
banda crítico del sistema auditivo humano.
En implementaciones preferidas, la(s)
señal(es) de suma transmitida(s) contiene(n)
todas las componentes de señal de la señal de audio de entrada. El
objetivo es que cada componente de señal se mantenga plenamente. La
simple suma de los canales de audio de entrada da como resultado
frecuentemente amplificación o atenuación de las componentes de
señal. En otras palabras, la potencia de las componentes de señal en
una "simple" suma es frecuentemente más grande o más pequeña
que la suma de la potencia de la componente de señal correspondiente
de cada canal. Se puede usar una técnica de mezcla descendente que
ecualiza la señal de suma, de tal manera que la potencia de las
componentes de señal en la señal de suma es aproximadamente la misma
que la potencia correspondiente en todos los canales de
entrada.
La figura 3 muestra un diagrama de bloques de un
mezclador 300 descendente que puede usarse para el mezclador 206
descendente de la figura 2 según ciertas implementaciones del
sistema 200 BCC. El mezclador 300 descendente tiene un banco 302 de
filtros (FB) para cada canal de entrada x_{i}(n), un
bloque 304 de mezcla descendente, un bloque 306 de ajuste a
escala/retardo opcional y un FB 308 inverso (IFB) para cada canal
codificado y_{i}(n).
Cada banco 302 de filtros convierte cada trama
(por ejemplo 20 ms) de un canal de entrada digital
x_{i}(n) correspondiente en el dominio de tiempo en
un conjunto de coeficientes de entrada \tilde{x}_{i}(k)
en el dominio de frecuencia. El bloque 304 de mezcla descendente
mezcla descendentemente cada subbanda de C coeficientes de entrada
correspondientes en una subbanda correspondiente de E coeficientes
en el dominio de frecuencia mezclados descendentemente. La ecuación
(1) representa la mezcla descendente de la k-ésima subbanda de
coeficientes de entrada
(\tilde{x}_{1}(k),\tilde{x}_{2}(k),...,\tilde{x}_{C}(k))
para generar la k-ésima subbanda de coeficiente mezclados
descendentemente
(\hat{y}_{1}(k),\hat{y}_{2}(k),...,\hat{y}_{E}(k))
como sigue:
donde D_{CE} es un matriz de
mezcla descendente de C por E de valor
real.
El bloque 306 de ajuste a escala/retardo
opcional comprende un conjunto de multiplicadores 310, cada uno de
los cuales multiplica un coeficiente mezclado descendentemente
\hat{y}_{i}(k) correspondiente por un factor de ajuste a
escala e_{i}(k) para generar un coeficiente ajustado
a escala \tilde{y}_{i}(k) correspondiente. La motivación
para la operación de ajuste a escala es equivalente a la
ecualización generalizada para la mezcla descendente con factores
de ponderación arbitrarios para cada canal. Si los canales de
entrada son independientes, entonces la potencia
p_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente
en cada subbanda viene dada por la ecuación (2) como sigue:
donde \bar{D}_{CE} se obtiene
elevando al cuadrado cada elemento de matriz en la matriz D_{CE}
de mezcla descendente de C por E y p_{\tilde{x}_{i}(k)} es
la potencia de la subbanda k del canal de entrada
i.
Si las subbandas no son independientes, entonces
los valores de potencia p_{\tilde{y}_{i}(k)} de la señal
mezclada descendentemente serán más grandes o más pequeños que el
calculado utilizando la ecuación (2), debido a aplicaciones o
cancelaciones de señal cuando las componentes de señal están en
fase o fuera de fase, respectivamente. Para impedir esto, la
operación de mezcla descendente de la ecuación (1) se aplica en
subbandas seguida por la operación de ajuste a escala de los
multiplicadores 310. Los factores de ajuste a escala
e_{i}(k) (1\leqi\leqE) pueden obtenerse
utilizando la ecuación (3) como sigue:
donde p_{\tilde{y}_{i}(k)}
es la potencia de subbanda calculada por la ecuación (2) y
p_{\hat{y}_{i}(k)} es la potencia de la señal de subbanda
mezclada descendentemente \hat{y}_{i}(k)
correspondiente.
Además de o en lugar de proporcionar el ajuste a
escala opcional, el bloque 306 de ajuste a escala/retardo puede
aplicar opcionalmente retardos a las señales.
Cada banco 308 de filtros inversos convierte un
conjunto de coeficientes ajustados a escala
\tilde{y}_{i}(k) correspondientes en el dominio de
frecuencia en una trama de un canal transmitido digital
y_{i}(n) correspondiente.
Aunque la figura 3 muestra todos los C canales
de entrada convertidos al dominio de frecuencia para la posterior
mezcla descendente, en implementaciones alternativas, uno o más
(pero menos que C-1) de los C canales de entrada
podrían saltarse parte de o todo el procesamiento mostrado en la
figura 3 y transmitirse como un número equivalente de canales de
audio sin modificar. Dependiendo de la implementación particular,
estos canales de audio sin modificar podrían o no usarse por el
estimador 208 BCC de la figura 2 en la generación de los códigos BCC
transmitidos.
En una implementación del mezclador 300
descendente que genera una única señal de suma y(n),
E=1 y las señales \tilde{x}_{c}(k) de cada subbanda
de cada canal de entrada C se suman y luego se multiplican por un
factor e(k), según la ecuación (4) como sigue:
el factor e(k) viene dado
por la ecuación (5) como
sigue:
donde
p_{\tilde{x}_{c}}(k) es un valor estimativo temporal
de la potencia de \tilde{x}_{c}(k) en el índice de tiempo
k, y p_{\tilde{x}}(k) es un valor estimativo
temporal de la potencia de \sum^{C}_{c=1}
\tilde{x}_{c}(k). Las subbandas ecualizadas se transforman
de regreso al dominio de tiempo dando como resultado la señal de
suma y(n) que se transmite al descodificador
BCC.
La figura 4 muestra un día de bloques de un
sintetizador 400 BCC que puede usarse por el descodificador 204 de
la figura 2 según ciertas implementaciones del sistema 200 BCC. El
sintetizador 400 BCC tiene un banco 402 de filtros para cada canal
transmitido y_{i}(n), un bloque 404 de mezcla
ascendente, retardos 406, multiplicadores 408, bloque 410 de
correlación y un banco 412 de filtros inversos para cada canal de
reproducción \hat{x}_{i}(n).
Cada banco 402 de filtros convierte cada trama
de un canal transmitido digital y_{i}(n)
correspondiente en el dominio de tiempo en un conjunto de
coeficientes de entrada \tilde{y}_{i}(k) en el dominio de
frecuencia. El bloque 404 de mezcla ascendente mezcla
ascendentemente cada subbanda de E coeficientes de canal transmitido
correspondientes en una subbanda correspondiente de C coeficientes
en el dominio de frecuencia mezclados ascendentemente. La ecuación
(4) representa la mezcla ascendente de la k-ésima subbanda de
coeficientes de canal transmitidos
(\tilde{y}_{1}(k),\tilde{y}_{2}(k),...,\tilde{y}_{E}(k))
para generar la k-ésima subbanda de coeficientes mezclados
ascendentemente
(\tilde{s}_{1}(k),\tilde{s}_{2}(k),...,\tilde{s}_{C}(k))
como sigue:
donde U_{EC} es una matriz de
mezcla ascendente de E por C de valor real. Efectuar la mezcla
ascendente en el dominio de frecuencia permite que aplicar la
mezcla ascendente individualmente en cada subbanda
diferente.
Cada retardo 406 aplica un valor de retardo
d_{i}(k) basándose en un código BCC correspondiente
para datos ICTD para garantizar que los valores ICTD deseados
aparecen entre ciertos pares de canales de reproducción. Cada
multiplicador 408 aplica un factor de ajuste a escala
a_{i}(k) basándose en un código BCC correspondiente
para datos ICLD para garantizar que los valores ICLD deseados
aparecen entre ciertos pares de canales de reproducción. El bloque
410 de correlación efectúa una operación de descorrelación A
basándose en códigos BCC correspondientes para datos ICC para
garantizar que los valores ICC deseados aparecen entre ciertos pares
de canales de reproducción. Una descripción adicional de las
operaciones del bloque 410 de correlación puede encontrarse en la
solicitud de patente estadounidense Nº 10/155.437, presentada el
24/05/02 como Baumgarte 2-10.
La síntesis de valores ICLD puede ser menos
problemática que la síntesis de valores ICTD e ICC, puesto que la
síntesis ICLD implica meramente el ajuste a escala de señales de
subbanda. Puesto que las indicaciones ICL son las indicaciones
direccionales usadas más habitualmente, usualmente es más importante
que los valores ICLD se aproximen a los de la señal de audio
original. Como tal, los datos ICLD podrían estimarse entre todos
los pares de canales. Los factores de ajuste a escala
a_{i}(k) (1\leqi\leqC) para cada subbanda
se escogen preferiblemente de tal manera que la potencia de
subbanda de cada canal de reproducción se aproxime a la potencia
correspondiente del canal de audio de entrada original.
Un objetivo puede ser aplicar relativamente
pocas modificaciones de señal para sintetizar valores ICTD e ICC.
Como tal, los datos BCC podrían no incluir valores ICTD e ICC para
todos los pares de canales. En ese caso, el sintetizador 400 BCC
sintetizaría valores ICTD e ICC solamente entre ciertos pares de
canales.
Cada banco 412 de filtros inversos convierte un
conjunto de coeficientes sintetizados
\tilde{\hat{x}}_{i}(k) correspondientes en el dominio de
frecuencia en una trama de un canal de reproducción digital
\hat{x}_{i}(n) correspondiente.
Aunque la figura 4 muestra todos los E canales
transmitidos convertidos al dominio de frecuencia para la posterior
mezcla ascendente y procesamiento BCC, en implementaciones
alternativas, uno o más (pero no todos) los E canales transmitidos
podrían saltarse parte de o todo el procesamiento mostrado en la
figura 4. Por ejemplo, uno o más de los canales transmitidos pueden
ser canales sin modificar que no se someten a mezcla ascendente.
Además de ser uno o más de los C canales de reproducción, estos
canales sin modificar podrían, a su vez, aunque no tienen que,
usarse como canales de referencia a los que se aplica procesamiento
BCC para sintetizar uno o más de los otros canales de reproducción.
Ya sea en un caso u otro, tales canales sin modificar pueden
someterse a retardos para compensar el tiempo de procesamiento que
conlleva la mezcla ascendente y/o procesamiento BCC usado para
generar el resto de los canales de reproducción.
Obsérvese que, aunque la figura 4 muestra C
canales de reproducción sintetizados a partir de E canales
transmitidos, en el que C era también el número de canales de
entrada originales, la síntesis BCC no está limitada a ese número
de canales de reproducción. En general, el número de canales de
reproducción puede ser cualquier número de canales, incluyendo
números mayores o menores que C y posiblemente incluso situaciones
en las que el número de canales de reproducción es igual o menor
que el número de canales transmitidos.
Suponiendo una única señal de suma, BCC
sintetiza una señal de audio estéreo o multicanal de tal manera que
ICTD, ICLD, e ICC se aproximan a las indicaciones correspondientes
de la señal de audio original. A continuación se comenta el papel
de ICTD, ICLD, e ICC con respecto a los atributos de imagen espacial
auditivos.
El conocimiento acerca de la audición espacial
implica que para un evento auditivo, ICTD e ICC están relacionados
con la dirección percibida. Cuando se consideran respuestas
impulsivas binaurales en salas (BRIR) de una fuente, hay una
relación entre el ancho del evento auditivo y cómo queda envuelto el
oyente y los datos ICC estimados para partes tempranas y tardías de
las BRIR. Sin embargo, la relación entre ICC y estas propiedades
para señales generales (y no solo las BRIR) no es directa.
Las señales de audio estéreo y multicanal
contienen usualmente una mezcla compleja de señales de fuente
simultáneamente activas superpuestas por las componentes de señal
reflejada resultantes de la grabación en espacios cerrados o
agregadas por el técnico de grabación para crear artificialmente una
impresión espacial. Señales de diferentes fuentes y sus reflejos
ocupan diferentes regiones en el plano de
tiempo-frecuencia. Esto se refleja por ICTd, ICLD e
ICC, que varían en función del tiempo y la frecuencia. En este caso,
la relación entre ICTD, ICLD e ICC instantáneos y direcciones de
eventos auditivos e impresión espacial no es obvia. La estrategia de
ciertas realizaciones BCC es sintetizar ciegamente estas
indicaciones, de tal manera que se aproximen a las indicaciones
correspondientes de la señal de audio original.
Se utilizan bancos de filtros con subbandas de
anchos de banda iguales a dos veces el ancho de banda rectangular
equivalente (ERB). La escucha informal revela que la calidad de
audio BCC no mejora notablemente cuando se escoge una resolución de
frecuencia más alta. Una resolución de frecuencia más baja puede ser
deseable, puesto que da como resultado menos valores ICTD, ICLD e
ICC que necesitan transmitirse al descodificador y así una tasa de
transmisión de bits más baja.
Con respecto a la resolución de tiempo, ICTD,
ICLD e ICC se consideran normalmente a intervalos de tiempo
regulares. Se obtiene un rendimiento alto cuando ICTD, ICLD e ICC se
consideran aproximadamente cada 4 a 16 ms. Obsérvese que, a menos
que las indicaciones se consideren a intervalos de tiempo muy
cortos, el efecto de precedencia no se considera directamente.
Suponiendo un par clásico adelanto-retraso de
estímulos de sonido, si el adelanto y el retraso caen en un
intervalo de tiempo en el que solamente está sintetizado un conjunto
de indicaciones, entonces la dominancia de localización del
adelanto no se considera. A pesar de esto, BCC obtiene calidad de
audio reflejada en una puntuación MUSHRA promedio de aproximadamente
87 es decir, calidad de audio "excelente") en promedio y hasta
casi 100 para ciertas señales de audio.
La diferencia perceptivamente pequeña
frecuentemente obtenida entre la señal de referencia y la señal
sintetizada implica que las indicaciones relacionadas con un amplio
intervalo de atributos de imagen espacial auditivos se consideran
implícitamente al sintetizar ICTD, ICLD e ICC a intervalos de tiempo
regulares. A continuación se dan algunos argumentos de cómo ICTD,
ICLD e ICC pueden relacionarse con un intervalo de atributos de
imagen espacial auditivos.
A continuación se describe cómo se estiman ICTD,
ICLD e ICC. La tasa de transmisión de bits para la transmisión de
estas indicaciones espaciales (cuantificadas y codificadas) puede
ser de sólo unos pocos kb/s y, por tanto, con BCC, es posible
transmitir señales de audio estéreo y multicanal a tasas de
transmisión de bits próximas a la que se requiere para un único
canal de audio.
La figura 5 muestra un diagrama de bloques del
estimador 208 BCC de la figura 2, según una realización de la
presente invención. El estimador 208 BCC comprende bancos 502 de
filtros (FB), que pueden ser los mismos que los bancos 302 de
filtros de la figura 3 y el bloque 504 de estimación, que genera
indicaciones espaciales ICTD, ICLD e ICC para cada subbanda de
frecuencia diferente generada por los bancos 502 de filtros.
Se usan las siguientes medidas para ICTD, ICLD e
ICC para señales de subbanda \tilde{x}_{1}(k) y
\tilde{x}_{2}(k) correspondientes de dos canales de audio
(por ejemplo estéreo):
o ICTD [muestras]:
\vskip1.000000\baselineskip
\newpage
con un valor estimativo temporal de
la función de correlación cruzada normalizada dada por la ecuación
(8) como
sigue:
donde
y
p_{\tilde{x}_{1}\tilde{x}_{2}} (d,k) es un valor
estimativo temporal de la media de \tilde{x}_{1}(k –
d_{1})\tilde{x}_{2}(k
-d_{2}).
o ICLD [dB]:
o
ICC:
Obsérvese que se considera el valor absoluto de
la correlación cruzada normalizada y c_{12}(k) tiene
un intervalo de [0,1].
Cuando hay más de dos canales de entrada, es
normalmente suficiente definir ICTD e ICLD entre un canal de
referencia (por ejemplo, canal número 1) y los otros canales, tal
como se ilustra en la figura 6 para el caso de C = 5 canales, en el
que \tau_{1c}(k) y \DeltaL_{12}(k)
denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1
y el canal c.
En contraposición con ICTD e ICLD, ICC tiene
normalmente más grados de libertad. La ICC tal como se define puede
tener diferentes valores entre todos los pares de canales de entrada
posibles. Para C canales, hay C(C-1)/2 pares
de canales posibles; por ejemplo para 5 canales hay 10 pares de
canales como se ilustra en la figura 7(a). Sin embargo, tal
esquema requiere que, para cada subbanda en cada índice de tiempo,
se estimen y transmitan los valores ICC de
C(C-1)/2, dando como resultado una gran
complejidad computacional y alta tasa de transmisión de bits.
Alternativamente, para cada subbanda, ICTD e
ICLD determinan la dirección en la que se proporciona el evento
auditivo de la componente de señal correspondiente en la subbanda.
Un único parámetro ICC por subbanda puede por tanto usarse para
describir la coherencia global entre todos los canales de audio.
Pueden obtenerse buenos resultados estimando y transmitiendo
indicaciones ICC solamente entre los dos canales con la mayor
energía en cada subbanda en cada índice de tiempo. Esto está
ilustrado en la figura 7(b), en la que para los instantes de
tiempo k-1 y k, los pares de canales (3,4) y (1,2)
son los más fuertes, respectivamente. Una regla heurística puede
usarse para determinar ICC entre los otros pares de canales.
La figura 8 muestra un diagrama de bloques de
una implementación del sintetizador 400 BCC de la figura 4 que
puede usarse en un descodificador BCC para generar una señal de
audio estéreo o multicanal dada una señal de suma s(n)
transmitida individual más las indicaciones espaciales. La señal de
suma s(n) se descompone en subbandas, donde
\tilde{s}(k) denota una de tales subbandas. Para generar
las subbandas correspondientes de cada uno de los canales de
salida, se aplican retardos d_{c}, factores de ajuste a
escala a_{c}, y filtros h_{c} a la subbanda
correspondiente de la señal de suma. (Por simplicidad de notación,
el índice de tiempo k se ignora en los retardos, factores de
ajuste a escala y filtros). Las ICTD se sintetizan imponiendo
retardos, ICLD mediante ajuste a escala e ICC aplicando filtros de
descorrelación. El procesamiento mostrado en la figura 8 se aplica
independientemente a cada subbanda.
Los retardos d_{c} se determinan a
partir de las ICTD \tau_{1c}(k) según la ecuación (12) como
sigue:
El retardo para el canal de referencia
d_{1} se calcula de tal manera que la magnitud máxima de
los retardos d_{c} se minimiza. Cuanto menos se modifiquen
las señales de subbanda, menos peligro hay de que se presenten
artefactos. Si la tasa de toma de muestras de subbanda no
proporciona resolución de tiempo suficientemente alta para la
síntesis de ICTD, pueden imponerse retardos con mayor precisión
utilizando filtros de todo paso apropiados.
Con el fin de que las señales de subbanda de
salida tengan ICLD deseados \DeltaL_{12}(k) entre
el canal c y el canal de referencia 1, los factores de ganancia
a_{c} deben satisfacer la ecuación (13) como sigue:
Adicionalmente, las subbandas de salida
preferiblemente se normalizan, de tal manera que la suma de la
potencia de todos los canales de salida es igual a la potencia de
la señal de suma de entrada. Puesto que la potencia de señal
original total en cada subbanda se conserva en la señal de suma,
esta normalización da como resultado que la potencia de subbanda
absoluta para cada canal de salida se aproxima a la potencia
correspondiente de la señal de audio de entrada del codificador
original. Dadas estas restricciones, los factores de ajuste a
escala a_{c} vienen dados por la ecuación (14) como
sigue:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En ciertas realizaciones, el objetivo de la
síntesis ICC es reducir la correlación entre las subbandas después
que se hayan aplicado retardos y ajustes a escala, sin afectar a
ICTD e ICLD. Esto puede lograrse diseñando los filtros
h_{c} en la figura 8 de tal manera que ICTD e ICLD se
modifican eficazmente en función de la frecuencia de tal manera que
la variación promedio es cero en cada subbanda (banda crítica
auditiva).
La figura 9 ilustra cómo se modifican ICTD e
ICLD dentro de una subbanda en función de la frecuencia. La amplitud
de la modificación de ICTD e ICLD determina el grado de
descorrelación y se controla en función de ICC. Obsérvese que ICTD
se modifican suavemente (tal como en la figura 9(a)),
mientras que ICLD se modifican aleatoriamente (tal como en la
figura 9(b)). Se podrían modificar ICLD tan suavemente como
ICTD, pero esto daría como resultado más coloración de las señales
de audio resultantes.
Otro método para sintetizar ICC, particularmente
apropiado para síntesis ICC multicanal, se describe en más detalle
en C. Faller, "Parametric multi-channel audio
coding: Synthesis of coherence cues," IEEE Trans. on Speech and
Audio Proc., 2003. En función del tiempo y la frecuencia, se añaden
cantidades específicas de reverberación tardía artificial a cada
uno de los canales de salida para obtener una ICC deseada.
Adicionalmente, se puede aplicar modificación espectral de tal
manera que la envolvente espectral de la señal resultante se
aproxima a la envolvente espectral de la señalada de audio
original.
Otras técnicas de síntesis ICC relacionadas y no
relacionadas para señales estéreo (o pares de canales de audio) se
han presentado en E. Schuijers, W. Oomen, B. den Brinker, y J.
Breebaart, "Advances in parametric coding for
high-quality audio," en Preprint 114^{th} Conv.
Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J.
Roden, y L. Liljeryd, "Synthetic ambience in parametric stereo
coding," en Preprint 117^{th} Conv. Aud. Eng. Soc., mayo de
2004.
Como se ha descrito anteriormente, puede
implementarse BCC con más de un canal de transmisión. Se ha descrito
una variación de BCC que representa C canales de audio no como un
único canal (transmitido), sino como E canales, denotado BCC de C a
E. Hay (al menos) dos motivaciones para BCC de C a E:
- \circ
- BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas mono existentes para reproducción de audio estéreo o multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente BCC a través de la infraestructura mono existente, mientras que adicionalmente transmite la información lateral BCC. BCC de C a E es aplicable a codificación compatible hacia atrás de canal E de audio de canal C.
- \circ
- BCC de C a E introduce escalabilidad en cuanto a diferentes grados de reducción del número de canales trasmitidos. Se espera que cuantos más canales de audio se transmitan, mejor será la calidad de audio.
Detalles de procesamiento de señales para BCC de
C a E, tal como cómo definir las indicaciones de ICTD, ICLD e ICC,
se describen en US 2005/0157883, presentada el 20/01/04.
En ciertas implementaciones, la codificación BCC
implica algoritmos para la síntesis de ICTD, ICLD e ICC. Las
indicaciones ICC pueden sintetizarse por medio de descorrelación de
las componentes de señal en las subbandas correspondientes. Esto
puede hacerse mediante modificación dependiente de la frecuencia de
ICLD, modificación dependiente de la frecuencia de ICTD e ICLD,
filtrado de todo paso o con ideas relacionadas con algoritmos de
reverberación.
Cuando estas técnicas se aplican a señales de
audio, las características de envolvente temporal de las señales no
se conservan. Específicamente, cuando se aplican a transitorios, es
probable que la energía de señal instantánea se disperse durante un
cierto período de tiempo. Esto da como resultado artefactos tales
como "pre-ecos" o "transitorios
difuminados".
Un principio genérico de ciertas realizaciones
de la presente invención se refiere a la observación de que el
sonido sintetizado por un descodificador BCC no sólo debe tener
características espectrales que son similares a las del sonido
original, sino también asemejarse bastante a la envolvente temporal
del sonido original con el fin de tener características perceptivas
similares. En general, esto se logra en esquemas semejantes a BCC
incluyendo una síntesis ICLD dinámica que aplica una operación de
ajuste a escala variable en el tiempo para aproximarse a cada
envolvente temporal del canal de señal. Para el caso de señales
transitorias (ataques, instrumentos de percusión, etc.), la
resolución temporal de este proceso puede sin embargo no ser
suficiente para producir señales sintetizadas que se aproximen lo
suficiente a la envolvente temporal original. Esta sección describe
un número de enfoques para hacer esto con una resolución de tiempo
suficientemente fina.
Además, para codificadores BCC que no tienen
acceso a la envolvente temporal de la señales originales, la idea
es tomar en su lugar la envolvente temporal de la(s)
"señal(es) de suma" transmitida como una aproximación.
Como tal, no hay información lateral que sea necesario transmitir
del codificador BCC al descodificador BCC con el fin de transportar
tal información de envolvente. En resumen, la invención se basa en
el siguiente principio:
- \circ
- Los canales de audio transmitidos (es decir, "canal(es) de suma") - o combinaciones lineales de estos canales en las que puede basarse la síntesis BCC - se analizan por un extractor de envolvente temporal para obtener su envolvente temporal con una alta resolución de tiempo (por ejemplo, significativamente más fina que el tamaño de bloque BCC).
- \circ
- El posterior sonido sintetizado para cada canal de salida se conforma de tal manera que - incluso después de la síntesis ICC - coincide lo más posible con la envolvente temporal determinada por el extractor.
Esto garantiza que, incluso en el caso de
señales transitorias, el sonido de salida sintetizado no está
degradado significativamente por el proceso de síntesis
ICC/descorrelación de señal.
La figura 10 muestra un diagrama de bloques que
representa al menos una parte de un descodificador 1000 BCC, según
una realización de la presente invención. En la figura 10, el bloque
1002 representa el procesamiento de síntesis BCC que incluye, al
menos, síntesis ICC. El bloque 1002 de síntesis BCC recibe canales
1001 base y genera canales 1003 sintetizados. En ciertas
implementaciones, el bloque 1002 representa el procesamiento de los
bloques 406, 408 y 410 de la figura 4, en el que los canales 1001
base son las señales generadas por el bloque 404 de mezcla
ascendente y los canales 1003 sintetizados son las señales generadas
por el bloque 410 de correlación. La figura 10 representa el
procesamiento implementado para un canal 1001' base y su canal
sintetizado correspondiente. También se aplica un procesamiento
similar a cada uno de los demás canales base y su canal sintetizado
correspondiente.
El extractor 1004 de envolvente determina la
envolvente a temporal fina del canal 1001' base y el
extractor 1006 de envolvente determina la envolvente b
temporal fina del canal 1003' sintetizado. El ajustador 1008 de
envolvente inverso utiliza la envolvente b temporal del
extractor 1006 de envolvente para normalizar la envolvente (es
decir, "aplanar" la estructura fina temporal) del canal 1003'
sintetizado para producir una señal 1005' aplanada que tiene una
envolvente de tiempo plana (por ejemplo, uniforme). Dependiendo de
la implementación particular, el aplanamiento puede aplicarse o bien
antes o bien después de la mezcla ascendente. El ajustador 1010 de
envolvente utiliza la envolvente a temporal del extractor
1004 de envolvente para reimponer la envolvente de señal original
sobre la señal 1005' aplanada para generar la señal 1007' de salida
que tiene una envolvente temporal sustancialmente igual a la
envolvente temporal del canal 1001 base.
Dependiendo de la implementación, este
procesamiento de envolvente temporal (también denominado en la
presente memoria como "conformación de envolvente") puede
aplicarse a todo el canal sintetizado (como se muestra) o solamente
a la parte ortogonalizada (por ejemplo, parte de reverberación
tardía, parte descorrelacionada) del canal sintetizado (como se
describe más adelante). Además, dependiendo de la implementación, la
conformación de envolvente puede aplicarse o bien a señales en el
dominio de tiempo o bien de una forma dependiente de la frecuencia
(por ejemplo, en el que la envolvente temporal se estima y se impone
individualmente en diferencias frecuencias).
El ajustador 1008 de envolvente inverso y el
ajustador 1010 de envolvente pueden implementarse de diferentes
maneras. En un tipo de implementación, una envolvente de señal se
manipula mediante la multiplicación de las muestras en el dominio
de tiempo de la señal (o muestras espectrales/de subbanda) con una
función de modulación de amplitud variable en el tiempo (por
ejemplo, 1/b para el ajustador 1008 de envolvente inverso y
a para el ajustador 1010 de envolvente). Alternativamente,
una convolución/filtrado de la representación espectral de señal
sobre la frecuencia puede usarse de manera análoga a la usada en la
técnica anterior con el fin de conformar el ruido de cuantificación
de un codificador de audio de baja tasa de transmisión de bits. De
manera similar, la envolvente temporal de las señales puede
extraerse o bien directamente mediante análisis de la estructura de
tiempo de la señal o bien examinando la autocorrelación del espectro
de señal sobre la frecuencia.
La figura 11 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 10
en el contexto del sintetizador 400 BCC de la figura 4. En esta
realización, hay una única señal de suma s(n) transmitida,
las C señales base se generan replicando esa señal de suma y la
conformación de envolvente se aplica individualmente a subbandas
diferentes. En realizaciones alternativas, el orden de retardos,
ajuste a escala y otro procesamiento puede ser diferente. Además,
en realizaciones alternativas, la conformación de envolvente no
está restringida al procesamiento de cada subbanda
independientemente. Esto es así especialmente para implementaciones
basadas en convolución/filtrado, que aprovechan la covarianza sobre
bandas de frecuencia para obtener información en cuanto a la
estructura fina temporal de la señal.
En la figura 11(a), el analizador 1104 de
proceso temporal (TPA) es análogo al extractor 1004 de envolvente
de la figura 10 y cada procesador 1106 temporal (TP) es análogo a la
combinación de extractor 1006 de envolvente, ajustador 1008 de
envolvente inverso y ajustador 1010 de envolvente de la figura
10.
La figura 11(b) muestra un diagrama de
bloques de una posible implementación basada en el dominio de tipo
de TPA 1104 en la que las muestras de señal base se elevan al
cuadrado (1110) y luego se filtran paso bajo (1112) para
caracterizar la envolvente a temporal de la señal base.
La figura 11(c) muestra un diagrama de
bloques de una posible implementación basada en el dominio de tiempo
de TP 1106 en la que las muestras de señal sintetizadas se elevan
al cuadrado (1114) y luego se filtran paso bajo (1116) para
caracterizar la envolvente b temporal de la señal
sintetizada. Se genera un factor de ajuste a escala (por ejemplo,
sqrt(a/b)) (1118) y luego se aplica (1120) a la señal
sintetizada para generar una señal de salida que tiene una
envolvente temporal sustancialmente igual a la del canal base
original.
En implementaciones alternativas de TPA 1104 y
TP 1106, las envolventes temporales se caracterizan utilizando
operaciones de magnitud en lugar de elevando al cuadrado las
muestras de señal. En tales implementaciones, la proporción
a/b puede usarse como el factor de ajuste a escala sin tener
que aplicar la operación de raíz cuadrada.
Aunque la operación de ajuste a escala de la
figura 11(c) corresponde a una implementación basada en el
dominio de tiempo del procesamiento de TP, el procesamiento de TP
(así como el procesamiento de TPA y TP inverso (ITP)) puede
implementarse también utilizando señales en el dominio de
frecuencia, como en la realización de las figuras
17-18 (descrita posteriormente). Como tal, a los
efectos de esta memoria descriptiva, el término "función de
ajuste a escala" debe interpretarse como que abarca ya sea
operaciones en el dominio de tiempo o en el dominio de frecuencia,
tal como las operaciones de filtrado de las figuras 18(b) y
(c).
En general, TPA 1104 y TP 1106 están diseñados
preferiblemente de tal manera que no modifican la potencia de la
señal (es decir, la energía). Dependiendo de la implementación
particular, esta potencia de señal puede ser una potencia de señal
promedio de poca duración en cada canal, por ejemplo, basada en la
potencia de señal total por canal en el período de tiempo definido
por la ventana de síntesis o alguna otra medida apropiada de
potencia. Como tal, el ajuste a escala para síntesis de ICLD (por
ejemplo, utilizando multiplicadores 408) puede aplicarse antes o
después de la conformación de envolvente.
Obsérvese que en la figura 11(a), para
cada canal, hay dos salidas, aplicándose el procesamiento de TP a
solamente una de ellas. Esto refleja un esquema de síntesis ICC que
mezcla dos componentes de señal: señales sin modificar y señales
ortogonalizadas, en el que la proporción de componentes de señal sin
modificar y ortogonalizadas determina la ICC. En la realización
mostrada en la figura 11(a), se aplica TP a solamente la
componente de señal ortogonalizada, en el que los nodos 1108 de
suma recombinan las componentes de señal sin modificar con las
correspondientes componentes de señal ortogonalizadas, conformadas
temporalmente.
La figura 12 ilustra una aplicación a modo de
ejemplo alternativa del esquema de conformación de envolvente de la
figura 10 en el contexto del sintetizador 400 BCC de la figura 4, en
el que se aplica conformación de envolvente en el dominio de
tiempo. Tal realización puede garantizarse cuando la resolución de
tiempo de la representación espectral en la que se lleva a cabo la
síntesis ICTD, ICLD e ICC no es suficientemente alta para impedir
eficazmente "pre-ecos" imponiendo la envolvente
temporal deseada. Por ejemplo, éste puede ser el caso cuando se
implementa BCC con una transformada de Fourier de tiempo corto
(STFT).
Como se muestra en la figura 12(a), TPA
1204 y cada TP 1206 se implementan en el dominio de tiempo, en el
que la señal de banda completa se ajusta a escala de tal manera que
tiene la envolvente temporal deseada (por ejemplo, la envolvente
tal como se estima a partir de la señal de suma transmitida). Las
figuras 12(b) y (c) muestran implementaciones posibles de
TPA 1204 y TP 1026 que son análogas a las mostradas en las figuras
11(b) y (c).
En esta realización, se aplica procesamiento de
TP a la señal de salida, no solamente a las componentes de señal
ortogonalizadas. En realizaciones alternativas, puede aplicarse
procesamiento de TP basado en el dominio de tiempo solo a las
componentes de señal ortogonalizadas, si así se desea, en cuyo caso
las subbandas sin modificar y ortogonalizadas se convertirían al
dominio de tiempo con bancos de filtro inversos separados.
Puesto que el ajuste a escala de banda completa
de las señales de salida BCC puede dar como resultado artefactos,
la conformación de envolvente podría aplicarse solamente a
frecuencias especificadas, por ejemplo, frecuencias superiores a
una cierta frecuencia de corte f_{TP} por ejemplo 500 Hz.
Obsérvese que el intervalo de frecuencia para el análisis (TPA)
puede diferir del intervalo de frecuencias para la síntesis
(TP).
Las figuras 13(a) y (b) muestran
implementaciones posibles de TPA 1204 y TP 1206, en el que se aplica
conformación de envolvente solamente a frecuencias superiores a la
frecuencia de corte f_{TP}. En particular, la figura
13(a) muestra la adición del filtro 1302 paso alto, que
elimina mediante filtrado frecuencias inferiores a f_{TP}
antes de la caracterización de envolvente temporal. La figura
13(b) muestra la adición del banco 1304 de filtros de dos
bandas que tiene una frecuencia de corte f_{TP} entre las
dos subbandas, en el que solamente la parte de alta frecuencia se
conforma temporalmente. Luego el banco 1306 de filtros inversos de
dos bandas recombina la parte de baja frecuencia con la parte de
alta frecuencia conformada temporalmente para generar la señal de
salida.
La figura 14 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 10
en el contexto del esquema de síntesis ICC basado en reverberación
tardía descrito en US 2005/0180579, presentada el 01/04/04. En esta
realización, TPA 1404 y cada TP 1046 se aplican en el dominio de
tiempo, como en la figura 12 o la figura 13, pero en el que cada TP
1406 se aplica a la salida de un bloque 1402 de reverberación
tardía (LR) diferente.
La figura 15 muestra un diagrama de bloques que
representa al menos una parte de un descodificador 1500 BCC, según
una realización de la presente invención, que es una alternativa al
esquema mostrado en la figura 10. En la figura 15, el bloque 1502
de síntesis BCC, el extractor 1504 de envolvente y el ajustador 1510
de envolvente son análogos al bloque 1002 de síntesis BCC, al
extractor 1004 de envolvente y al ajustador 1010 de envolvente de
la figura 10. En la figura 15, sin embargo, el ajustador 1508 de
envolvente inverso se aplica antes de la síntesis BCC, en lugar de
después de la síntesis BCC, como en la figura 10. De Esta manera, el
ajustador 1508 de envolvente inverso aplana el canal base antes de
que se aplique la síntesis BCC.
La figura 16 muestra un diagrama de bloques que
representa al menos una parte de un descodificador 1600 BCC, según
una realización de la presente invención que es una alternativa a
los esquemas mostrados en las figuras 10 y 15. En la figura 16, el
extractor 1604 de envolvente y el ajustador 1610 de envolvente son
análogos al extractor 1504 de envolvente y al ajustador 1510 de
envolvente de la figura 15. En la realización de la figura 15 sin
embargo, el bloque 1602 de síntesis representa síntesis ICC basada
en reverberación tardía similar a la mostrada en la figura 16. En
este caso, se aplica conformación de envolvente solamente a la señal
de reverberación tardía sin correlacionar y el nodo 1612 de suma
agrega la señal de reverberación tardía, conformada temporalmente,
al canal base original (que ya tiene la envolvente temporal
deseada). Obsérvese que, en este caso, no necesita aplicarse un
ajustador de envolvente inverso, debido a que la señal de
reverberación tardía tiene una envolvente temporal aproximadamente
plana debido a su proceso de generación en el bloque 1602.
La figura 17 ilustra una aplicación a modo de
ejemplo del esquema de conformación de envolvente de la figura 15
en el contexto del sintetizador 400 BCC de la figura 4. En la figura
17, TPA 1704, TP 1708 inverso (ITP) y TP 1710 son análogos al
extractor 1504 de envolvente, al ajustador 1508 de envolvente
inverso y al ajustador 1510 de envolvente de la figura 15.
En esta realización basada en la frecuencia, la
conformación de envolvente de sonido difuso se implementa aplicando
una convolución a las divisiones de frecuencia del banco 402 de
filtros (por ejemplo, STET) a lo largo del eje de frecuencia. Se
hace referencia a la patente estadounidense 5.781.888 (Herre) y a la
patente estadounidense 5.812.971 (Herre).
La figura 18(a) muestra un diagrama de
bloques de una posible implementación del TPA 1704 de la figura 17.
En esta realización, TPA 1704 se implementa como una operación de
análisis de codificación predictiva lineal (LPC) que determina los
coeficientes de predicción óptimos para la serie de coeficientes
espectrales sobre la frecuencia. Tales técnicas de análisis LPC se
conocen bien, por ejemplo por la codificación de habla, y se
conocen muchos algoritmos para el cálculo eficaz de coeficientes
LPC, tales como el método de autocorrelación (que implica el
cálculo de la función de autocorrelación de la señal y una recursión
de Levinson-Durbin posterior). Como resultado de
este cálculo, están disponibles en la salida un conjunto de
coeficientes LPC que representan la envolvente temporal de
la
señal.
señal.
Las figuras 18(b) y (c) muestran
diagramas de bloque de posibles implementaciones de ITP 1708 y TP
1710 de la figura 17. En ambas implementaciones, los coeficientes
espectrales de la señal que va a procesarse se procesan en orden de
frecuencia (en aumento o en disminución), que está simbolizada en la
presente memoria mediante circuitos de conmutación giratorios,
convirtiendo estos coeficientes en un orden en serie para el
procesamiento mediante un proceso de filtrado predictivo (y de
vuelta otra vez después de este procesamiento). En el caso de ITP
1708, el filtrado predictivo calcula la predicción residual y de
esta manera "aplana" la envolvente de señal temporal. En el
caso de TP 1710, el filtro inverso reintroduce la envolvente
temporal representada por los coeficientes LPC a partir de TPA
1704.
Para el cálculo de la envolvente temporal de la
señal mediante TPA 1704, es importante eliminar la influencia de la
ventana de análisis del banco 402 de filtros, en caso de usarse tal
ventana. Esto puede lograrse o bien normalizando la envolvente
resultante por la forma de ventana de análisis (conocida) o
utilizando un banco de filtros de análisis separado que no emplea
una ventana de análisis.
La técnica basada en convolución/filtrado de la
figura 17 también puede aplicarse en el contexto del esquema de
conformación de envolvente de la figura 16, en el que el extractor
1604 de envolvente y el ajustador 1610 de envolvente están basados
en la TPA de la figura 18(a) y la TP de la figura
18(c), respectivamente.
Los descodificadores BCC pueden diseñarse para
habilitar/deshabilitar selectivamente la conformación de envolvente.
Por ejemplo, un descodificador BCC podría aplicar un esquema de
síntesis BCC convencional y habilitar la conformación de envolvente
cuando la envolvente temporal de la señal sintetizada fluctúa
suficientemente, de tal manera que los beneficios de conformación
de envolvente dominan con respecto a cualesquier artefactos que la
conformación de envolvente pueda generar. Este control de
habilitación/deshabilitación puede lograrse mediante:
(1) Detección de transitorios: Si se detecta un
transitorio, entonces se habilita el procesamiento de TP. La
detección de transitorios puede implementarse de manera anticipada
para conformar eficazmente no solamente el transitorio sino también
la señal poco antes y después del transitorio. Maneras posibles de
detectar transitorios incluyen:
- \circ
- observar la envolvente temporal de la(s) señal(es) de suma BCC transmitida(s) para determinar cuándo hay un incremento repentino de potencia que indica la presencia de un transitorio, y
- \circ
- examinar la ganancia del filtro (LPC) predictivo. Si la ganancia de predicción LPC excede un umbral especificado, puede suponerse que la señal es transitoria o altamente fluctuante. El análisis LPC se calcula en la autocorrelación del espectro.
(2) Detección de aleatoriedad: Hay escenarios en
los que la envolvente temporal fluctúa pseudoaleatoriamente. En tal
escenario, ningún transitorio podría detectarse, pero el
procesamiento de TP podría todavía aplicarse (por ejemplo, una
señal de aplausos densa corresponde a tal escenario).
Adicionalmente, en ciertas implementaciones, con
el fin de impedir artefactos posibles en señales tonales, el
procesamiento de TP no se aplica cuando la tonalidad de la (s)
señal(s) de suma transmitida(s) es alta.
Además, pueden usarse medidas similares en el
codificador BCC para detectar cuándo debe estar activo el
procesamiento de TP. Puesto que el codificador tiene acceso a todas
las señales de entrada originales, puede emplear algoritmos más
sofisticados (por ejemplo una parte del bloque 208 de estimación)
para tomar una decisión sobre cuándo debe habilitarse el
procesamiento de TP. El resultado de esta decisión (una etiqueta que
señala cuándo debe estar activo TP) puede transmitirse al
descodificador BCC (por ejemplo, como parte de la información
lateral de la figura 2).
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC en los que hay una
única señal de suma, la presente invención también puede
implementarse en el contexto de esquemas de codificación BCC que
tienen dos o más señales de suma. En este caso, la envolvente
temporal para cada señal de suma "base" diferente puede
estimarse antes de la aplicación de la síntesis BCC, y pueden
generarse diferentes canales de salida BCC basándose en diferentes
envolventes temporales, dependiendo de qué señales de suma se usaron
para sintetizar los diferentes canales de salida. Un canal de
salida que se sintetiza a partir de dos o más canales de suma
diferentes podría generarse basándose en una envolvente temporal
eficaz que tiene en cuenta (por ejemplo, mediante promediación
ponderada) los efectos relativos de los canales de suma
constituyentes.
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC que implican códigos de
ICTD, ICLD e ICC, la presente invención también puede implementarse
en el contexto de otros esquemas de codificación BCC que implican
solamente uno o dos de estos tres tipos de códigos (por ejemplo,
ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos
adicionales. Además, la secuencia de procesamiento de síntesis BCC
y conformación de envolvente puede variar en diferentes
implementaciones. Por ejemplo, cuando la conformación de envolvente
se aplica a señales en el dominio de frecuencia, como en las figuras
14 y 16, la conformación de envolvente podría implementarse
alternativamente después de la síntesis ICTD (en aquellas
realizaciones que emplean síntesis ICTD), pero antes de la síntesis
ICLD. En otras realizaciones, la conformación de envolvente podría
aplicarse a señales mezcladas ascendentemente antes de que se
aplique cualquier otra síntesis BCC.
Aunque la presente invención se ha descrito en
el contexto de esquemas de codificación BCC, la presente invención
también puede implementarse en el contexto de otros sistemas de
procesamiento de audio en los que se descorrelacionan señales de
audio u otro procesamiento de audio que necesite descorrelacionar
señales.
Aunque la presente invención se ha descrito en
el contexto de implementaciones en las que el codificador recibe la
señal de audio de entrada en el dominio de tiempo y genera señales
de audio transmitidas en el dominio de tiempo y el descodificador
recibe las señales de audio transmitidas en el dominio de tiempo y
genera señales de audio de reproducción en el dominio de tiempo, la
presente invención no está limitada de esta manera. Por ejemplo, en
otras implementaciones, cualquiera de una o más de la señales de
audio de entrada, transmitidas y de reproducción podrían
representarse en un dominio de frecuencia.
Pueden usarse codificadores y/o descodificadores
BCC junto con o incorporarse a una variedad de diferentes
aplicaciones o sistemas, entre los que se incluyen sistemas para
televisión o distribución de música electrónica, cines, emisión,
flujo continuo (streaming) y/o recepción. Estos incluyen
sistemas para codificar/descodificar transmisiones a través de, por
ejemplo, medios terrestres, por satélite, por cable, internet,
intranet o medios físicos (por ejemplo, discos compactos, discos
versátiles digitales, chips semiconductores, discos duros, tarjetas
de memoria y similares). También pueden usarse codificadores y/o
descodificadores BCC en juegos y sistemas de juego, entre los que
se incluyen, por ejemplo productos de software interactivos
diseñados para interactuar con un usuario para entretenimiento
(acción, juegos de rol, estrategia, aventura, simulaciones,
carreras, deportes, juegos recreativos, de cartas y juegos de mesa)
y/o educativos que pueden publicarse para múltiples máquinas,
plataformas o medios. Además, pueden incorporarse codificadores y/o
descodificadores BCC a grabadores/reproductores de audio o sistemas
de CD-ROM/DVD. También pueden incorporarse
codificadores y/o descodificadores BCC en aplicaciones de software
para PC que incorporan descodificación digital (por ejemplo,
reproductor, descodificador) y aplicaciones de software que
incorporan capacidades de codificación digital (por ejemplo,
codificador, ripper ("ripeador"), recodificador y
gestores de música).
La presente invención puede implementarse como
procesos basados en circuitos, entre los que se incluyen
implementaciones posibles como un único circuito integrado (tal
como un ASIC o un FPGA), un módulo de múltiples chips, una única
tarjeta o un paquete de circuitos de múltiples tarjetas. Como
resultará evidente para el experto en la técnica, varias funciones
de los elementos de circuito también pueden implementarse como
etapas de procesamiento en un programa de software. Tal software
puede emplearse por ejemplo en un procesador de señales digital,
microcontrolador u ordenador de propósito general.
La presente invención puede ser realizarse en
forma de métodos y aparatos para poner en práctica estos métodos.
La presente invención también puede realizarse en forma de código de
programa implementado en medios tangibles, tales como discos
flexibles, CD-ROM, discos duros o cualquier otro
medio de almacenamiento legible por la máquina, en el que, cuando
el código de programa se carga en y se ejecuta por una máquina, tal
como un ordenador, la máquina se convierte en un aparato para poner
en práctica la invención. La presente invención también puede
realizarse en forma de un código de programa, por ejemplo, o bien
almacenado en un medio de almacenamiento, cargado en y/o ejecutado
por una máquina, o bien transmitido por algún medio o portadora de
transmisión, tal como líneas o cableado eléctrico, por medio de
fibras ópticas o a través de radiación electromagnética, en el que,
cuando el código de programa se carga en y se ejecuta por una
máquina, tal como un ordenador, la máquina se convierte en un
aparato para poner en práctica la invención. Cuando se implementa en
un procesador de propósito general o multiuso, los segmentos de
código de programa se combinan con el procesador para proporcionar
un dispositivo único que opera de manera análoga a circuitos
lógicos específicos.
Se comprenderá además que los expertos en la
técnica pueden realizar diversos cambios en los detalles, materiales
y disposiciones de las partes que se han descrito e ilustrado con
el fin de explicar la naturaleza de esta invención, sin desviarse
del alcance de la invención tal como se expresa en las siguientes
reivindicaciones.
Aunque las etapas en las siguientes
reivindicaciones de método, si las hay, se citan en una secuencia
particular con un etiquetado correspondiente, a menos que las
menciones en las reivindicaciones impliquen de otra manera una
secuencia particular para implementar algunas o todas estas etapas,
no está previsto necesariamente que esas etapas se limiten a
implementarse en esa secuencia particular.
Claims (32)
1. Método para convertir una señal de audio de
entrada que tiene una envolvente temporal de entrada en una señal
de audio de salida que tiene una envolvente temporal de salida,
comprendiendo el método:
caracterizar la envolvente temporal de
entrada de la señal de audio de entrada;
procesar la señal de audio de entrada para
generar una señal de audio procesada, en el que el procesamiento
descorrelaciona la señal de audio de entrada; y
ajustar la señal de audio procesada basándose en
la envolvente temporal de entrada caracterizada para generar
la señal de audio de salida, en el que la envolvente temporal de
salida coincide sustancialmente con la envolvente temporal de
entrada.
2. Invención según la reivindicación 1, en la
que el procesamiento comprende síntesis de correlación intercanal
(ICC).
3. Invención según la reivindicación 2, en la
que la síntesis ICC es parte de la síntesis de codificación de
indicación binaural (BCC).
4. Invención según la reivindicación 3, en la
que la síntesis BCC comprende además al menos una síntesis de
diferencia de nivel intercanal (ICLD) y síntesis de diferencia de
tiempo intercanal (ICTD).
5. Invención según la reivindicación 2, en la
que la síntesis ICC comprende síntesis ICC de reverberación
tardía.
6. Invención según la reivindicación 1, en la
que el ajuste comprende:
caracterizar una envolvente temporal
procesada de la señal de audio procesada y
ajustar la señal de audio procesada basándose
tanto en la envolvente temporal procesada como en la de entrada
caracterizadas para generar la señal de audio de salida.
7. Invención según la reivindicación 6,
caracterizado porque el ajuste comprende:
generar una función de ajuste a escala basándose
en las envolventes temporales de entrada y procesada
caracterizadas; y aplicar la función de ajuste a escala a la
señal
\hbox{de audio procesada para generar la señal de audio de salida.}
8. Invención según la reivindicación 1, que
comprende además ajustar la señal de audio de entrada basándose en
la envolvente temporal de entrada caracterizada para generar
una señal de audio aplanada, en la que el procesamiento se aplica a
la señal de audio aplanada para generar la señal d audio
procesada.
9. Invención según la reivindicación 1, en la
que:
el procesamiento genera una señal procesada no
correlacionada y una señal procesada correlacionada; y
el ajuste se aplica a la señal procesada no
correlacionada para generar una señal procesada ajustada, en la
que
la señal de salida se genera sumando la señal
procesada ajustada y la señal procesada correlacionada.
10. Invención según la reivindicación 1, en la
que:
la caracterización se aplica solamente a
frecuencias especificadas de la señal de audio de entrada; y el
ajuste se aplica solamente a las frecuencias especificadas de la
señal de audio procesada.
11. Invención según la reivindicación 10, en la
que:
la caracterización se aplica solamente a
frecuencias de la señal de audio de entrada por encima de una
frecuencia de corte especificada; y
el ajuste se aplica solamente a frecuencias de
la señal de audio procesada por encima de la frecuencia de corte
especificada.
12. Invención según la reivindicación 1, en la
que cada uno de la caracterización, el procesamiento y el ajuste se
aplica a una señal en el dominio de frecuencia.
13. Invención según la reivindicación 12, en la
que cada uno de la caracterización, el procesamiento y el ajuste se
aplica individualmente a diferentes subbandas de señal.
14. Invención según la reivindicación 12, en la
que el dominio de frecuencia corresponde a una transformada de
Fourier rápida (FFT).
15. Invención según la reivindicación 12, en la
que el dominio de frecuencia corresponde a un filtro de espejo en
cuadratura (QMF).
16. Invención según la reivindicación 1, en la
que cada uno de la caracterización y el ajuste se aplica a una
señal en el dominio de tiempo.
17. Invención según la reivindicación 16, en la
que el procesamiento se aplica a una señal en el dominio de
frecuencia.
18. Invención según la reivindicación 17, en la
que el dominio de frecuencia corresponde a una transformada de
Fourier rápida (FFT).
19. Invención según la reivindicación 17, en la
que el dominio de frecuencia corresponde a un filtro de espejo en
cuadratura (QMF).
20. Invención según la reivindicación 1, que
comprende además determinar si se habilita o deshabilita la
caracterización y el ajuste.
21. Invención según la reivindicación 20, en el
que la determinación se basa en una etiqueta de
habilitación/deshabi-
litación generada por un codificador de audio que generó la señal de audio de entrada.
litación generada por un codificador de audio que generó la señal de audio de entrada.
22. Invención según la reivindicación 20, en el
que la determinación se basa en analizar la señal de audio de
entrada para detectar transitorios en la señal de audio de entrada,
de tal manera que la caracterización y el ajuste se habilitan si se
detecta la presencia de un transitorio.
23. Aparato para convertir una señal de audio
de entrada que tiene una envolvente temporal de entrada en una
señal de audio de salida que tiene una envolvente temporal de
salida, comprendiendo el aparato:
medios para la caracterización de la envolvente
temporal de entrada de la señal de audio de entrada;
medios para el procesamiento de la señal de
audio de entrada para generar una señal de audio procesada, en el
que los medios para el procesamiento están adaptados para
descorrelacionar la señal de audio de entrada; y
medios para el ajuste de la señal de audio
procesada, basándose en la envolvente temporal de entrada
caracterizada para generar la señal de audio de salida, en
el que la envolvente temporal de salida coincide sustancialmente
con la envolvente temporal de entrada.
24. Aparato según la reivindicación 23,
en el que los medios para la caracterización
incluyen un extractor de envolvente,
en el que los medios para el procesamiento
incluyen un sintetizador adaptado para procesar la señal de audio
de entrada; y
en el que los medios para el ajuste incluyen un
ajustador de envolvente adaptado para ajustar la señal de audio
procesada.
25. Invención según la reivindicación 24, en la
que
el aparato es un sistema seleccionado del grupo
que consiste en un reproductor de vídeo digital, un reproductor de
audio digital, un ordenador, un receptor de satélite, un receptor de
cable, un receptor de emisión terrestre, un sistema de
entretenimiento en casa y un sistema de cine; y
el sistema comprende el extractor de envolvente,
el sintetizador y el ajustador de envolvente.
26. Método para codificar C canales de audio de
entrada para generar E canal(es) de audio
transmitido(s), comprendiendo el método:
generar uno o más códigos de indicación para dos
o más de los C canales de entrada;
mezclar descendentemente los C canales de
entrada para generar el (los) E canal(es)
transmitido(s), siendo C > E \geq 1; y
analizar uno o más de los C canales de entrada y
el (los) E canal(es) transmitido(s) para generar una
etiqueta que indica si un descodificador del (de los) E
canal(es) transmitido(s) debe efectuar o no
conformación de envolvente durante la descodificación del (de los)
E canal(es) transmitido(s), incluyendo la etapa de
análisis la detección de transitorios de manera anticipada para la
conformación, en el descodificador, no solamente de un transitorio
sino también de una señal antes y después del transitorio,
ajustándose la etiqueta cuando se detecta un transitorio, o
incluyendo una detección de aleatoriedad para detectar si una
envolvente temporal está fluctuando de manera pseudoaleatoria,
ajustándose la etiqueta cuando una envolvente temporal está
fluctuando de manera pseudoaleatoria, o incluyendo una detección de
tonalidad para no ajustar la etiqueta cuando el (los) E
canal(es) transmitido(s) es(son)
tonal(es).
27. Invención según la reivindicación 26, en la
que la conformación de envolvente ajusta una envolvente temporal de
un canal descodificado generado por el descodificador para que
coincida sustancialmente con una envolvente temporal de un canal
transmitido correspondiente.
28. Aparato para la codificación de C canales
de audio de entrada para generar E canal(es) de audio
transmitido(s), comprendiendo el aparato:
medios para la generación de uno o más códigos
de indicación para dos o más de los C canales de entrada;
medios para mezclar descendentemente los C
canales de entrada para generar el (los) E canal(es)
transmitido(s), siendo C > E \geq 1; y
medios para el análisis de uno o más de los C
canales de entrada y el (los) E canal(es)
transmitido(s) para generar una etiqueta que indica si un
descodificador del (de los) E canal(es) transmitido(s)
debe efectuar conformación de envolvente durante la descodificación
del (de los) E canal(es) transmitido(s), incluyendo
los medios para el análisis la detección de transitorios de manera
anticipada para la conformación, en el descodificador, no solamente
de un transitorio sino también de una señal antes y después del
transitorio, ajustándose la etiqueta cuando se detecta un
transitorio, o incluyendo una detección de aleatoriedad para
detectar si una envolvente temporal está fluctuando de manera
pseudoaleatoria, ajustándose la etiqueta cuando una envolvente
temporal está fluctuando de manera pseudoaleatoria, o incluyendo una
detección de tonalidad para no ajustar la etiqueta cuando el (los)
E canal(es) transmitido(s) es(son)
tonal(es).
29. Aparato según la reivindicación 28,
en el que los medios para la generación incluyen
un estimador de código; y
en el que los medos para la mezcla descendente
incluyen un mezclador descendente.
30. Invención según la reivindicación 29, en la
que: el aparato es un sistema seleccionado del grupo que consiste
en un reproductor de vídeo digital, un reproductor de audio digital,
un ordenador, un receptor de satélite, un receptor de cable, un
receptor de emisión terrestre, un sistema de entretenimiento en casa
y un sistema de cine; y
el sistema comprende el estimador de código y el
mezclador descendente.
31. Flujo de bits de audio codificado generado
codificando C canales de audio de entrada para generar E
canal(es) de audio transmitido(s), en el que:
se generan uno o más códigos de indicación para
dos o más de los C canales de entrada;
los C canales de entrada se mezclan
descendentemente para generar E canal(es)
transmitido(s), siendo C > E \geq 1;
se genera una etiqueta analizando uno o más de
los C canales de entrada y los E canal(es)
transmitido(s), en el que la etiqueta indica si un
descodificador del (de los) E canal(es) transmitido(s)
debe efectuar o no conformación de envolvente durante la
descodificación del (de los) E canal(es)
transmitido(s), determinándose la etiqueta mediante la
detección de transitorios de manera anticipada para la conformación,
en el descodificador, no solamente de un transitorio, sino también
de una señal antes y después del transitorio, ajustándose la
etiqueta cuando se detecta un transitorio mediante una detección de
aleatoriedad para detectar si una envolvente temporal está
fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando
una envolvente temporal está fluctuando de manera pseudoaleatoria,
o mediante una detección de tonalidad para no ajustar la etiqueta
cuando el (los) E canal(es) transmitido(s)
es(son)
tonal(es); y
tonal(es); y
el (los) E canal(es)
transmitido(s), el uno o más códigos de indicación y la
etiqueta se codifican para dar el flujo de bits de audio
codificado.
32. Código de programa informático que tiene
instrucciones legibles por máquina para efectuar, cuando el código
de programa se ejecuta por una máquina, un método para convertir una
señal de audio de entrada según la reivindicación 1 o un método
para codificar C canales de audio de entrada según la reivindicación
26.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62040104P | 2004-10-20 | 2004-10-20 | |
US620401P | 2004-10-20 | ||
US6492 | 2004-12-07 | ||
US11/006,492 US8204261B2 (en) | 2004-10-20 | 2004-12-07 | Diffuse sound shaping for BCC schemes and the like |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2317297T3 true ES2317297T3 (es) | 2009-04-16 |
Family
ID=36181866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05785586T Active ES2317297T3 (es) | 2004-10-20 | 2005-09-12 | Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. |
Country Status (20)
Country | Link |
---|---|
US (2) | US8204261B2 (es) |
EP (1) | EP1803325B1 (es) |
JP (1) | JP4625084B2 (es) |
KR (1) | KR100922419B1 (es) |
CN (2) | CN101853660B (es) |
AT (1) | ATE413792T1 (es) |
AU (1) | AU2005299070B2 (es) |
BR (1) | BRPI0516392B1 (es) |
CA (1) | CA2583146C (es) |
DE (1) | DE602005010894D1 (es) |
ES (1) | ES2317297T3 (es) |
HK (1) | HK1104412A1 (es) |
IL (1) | IL182235A (es) |
MX (1) | MX2007004725A (es) |
NO (1) | NO339587B1 (es) |
PL (1) | PL1803325T3 (es) |
PT (1) | PT1803325E (es) |
RU (1) | RU2384014C2 (es) |
TW (1) | TWI330827B (es) |
WO (1) | WO2006045373A1 (es) |
Families Citing this family (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8260393B2 (en) | 2003-07-25 | 2012-09-04 | Dexcom, Inc. | Systems and methods for replacing signal data artifacts in a glucose sensor data stream |
US8010174B2 (en) | 2003-08-22 | 2011-08-30 | Dexcom, Inc. | Systems and methods for replacing signal artifacts in a glucose sensor data stream |
US20140121989A1 (en) | 2003-08-22 | 2014-05-01 | Dexcom, Inc. | Systems and methods for processing analyte sensor data |
DE102004043521A1 (de) * | 2004-09-08 | 2006-03-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes |
JPWO2006059567A1 (ja) * | 2004-11-30 | 2008-06-05 | 松下電器産業株式会社 | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 |
CN101151659B (zh) * | 2005-03-30 | 2014-02-05 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、设备、方法及其解码器、设备和方法 |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
EP1905004A2 (en) * | 2005-05-26 | 2008-04-02 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
KR101251426B1 (ko) * | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
AU2006266655B2 (en) * | 2005-06-30 | 2009-08-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007004831A1 (en) * | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US8082157B2 (en) * | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
JP5108767B2 (ja) * | 2005-08-30 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
JP5173811B2 (ja) * | 2005-08-30 | 2013-04-03 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号デコーディング方法及びその装置 |
US8577483B2 (en) * | 2005-08-30 | 2013-11-05 | Lg Electronics, Inc. | Method for decoding an audio signal |
EP1922722A4 (en) * | 2005-08-30 | 2011-03-30 | Lg Electronics Inc | METHOD FOR DECODING A SOUND SIGNAL |
US7788107B2 (en) * | 2005-08-30 | 2010-08-31 | Lg Electronics Inc. | Method for decoding an audio signal |
US8019614B2 (en) * | 2005-09-02 | 2011-09-13 | Panasonic Corporation | Energy shaping apparatus and energy shaping method |
EP1761110A1 (en) * | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
WO2007032648A1 (en) * | 2005-09-14 | 2007-03-22 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
KR100857111B1 (ko) * | 2005-10-05 | 2008-09-08 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7672379B2 (en) * | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7751485B2 (en) * | 2005-10-05 | 2010-07-06 | Lg Electronics Inc. | Signal processing using pilot based coding |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
ES2478004T3 (es) * | 2005-10-05 | 2014-07-18 | Lg Electronics Inc. | Método y aparato para decodificar una señal de audio |
US7646319B2 (en) * | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7653533B2 (en) * | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
US20070133819A1 (en) * | 2005-12-12 | 2007-06-14 | Laurent Benaroya | Method for establishing the separation signals relating to sources based on a signal from the mix of those signals |
KR100803212B1 (ko) * | 2006-01-11 | 2008-02-14 | 삼성전자주식회사 | 스케일러블 채널 복호화 방법 및 장치 |
US7752053B2 (en) * | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
ES2335246T3 (es) * | 2006-03-13 | 2010-03-23 | France Telecom | Sintesis y especializacion sonora conjunta. |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
WO2007111568A2 (en) * | 2006-03-28 | 2007-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for a decoder for multi-channel surround sound |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
CN101652810B (zh) * | 2006-09-29 | 2012-04-11 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
WO2008039041A1 (en) * | 2006-09-29 | 2008-04-03 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
EP2084901B1 (en) | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
US7555354B2 (en) * | 2006-10-20 | 2009-06-30 | Creative Technology Ltd | Method and apparatus for spatial reformatting of multi-channel audio content |
WO2008060111A1 (en) * | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
KR101062353B1 (ko) | 2006-12-07 | 2011-09-05 | 엘지전자 주식회사 | 오디오 신호의 디코딩 방법 및 그 장치 |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
EP2595152A3 (en) * | 2006-12-27 | 2013-11-13 | Electronics and Telecommunications Research Institute | Transkoding apparatus |
WO2008082276A1 (en) * | 2007-01-05 | 2008-07-10 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
CN101627425A (zh) * | 2007-02-13 | 2010-01-13 | Lg电子株式会社 | 用于处理音频信号的装置和方法 |
US20100121470A1 (en) * | 2007-02-13 | 2010-05-13 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP5355387B2 (ja) * | 2007-03-30 | 2013-11-27 | パナソニック株式会社 | 符号化装置および符号化方法 |
US8548615B2 (en) * | 2007-11-27 | 2013-10-01 | Nokia Corporation | Encoder |
WO2009075511A1 (en) * | 2007-12-09 | 2009-06-18 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
WO2009116280A1 (ja) * | 2008-03-19 | 2009-09-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法 |
KR101600352B1 (ko) * | 2008-10-30 | 2016-03-07 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 장치 및 방법 |
JP5524237B2 (ja) * | 2008-12-19 | 2014-06-18 | ドルビー インターナショナル アーベー | 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置 |
WO2010138311A1 (en) * | 2009-05-26 | 2010-12-02 | Dolby Laboratories Licensing Corporation | Equalization profiles for dynamic equalization of audio data |
JP5365363B2 (ja) * | 2009-06-23 | 2013-12-11 | ソニー株式会社 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
JP2011048101A (ja) * | 2009-08-26 | 2011-03-10 | Renesas Electronics Corp | 画素回路および表示装置 |
US8786852B2 (en) | 2009-12-02 | 2014-07-22 | Lawrence Livermore National Security, Llc | Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto |
WO2011104146A1 (en) | 2010-02-24 | 2011-09-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
CA3097372C (en) | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
KR20120004909A (ko) | 2010-07-07 | 2012-01-13 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
KR101429564B1 (ko) | 2010-09-28 | 2014-08-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법 |
EP2612321B1 (en) * | 2010-09-28 | 2016-01-06 | Huawei Technologies Co., Ltd. | Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal |
US9462387B2 (en) * | 2011-01-05 | 2016-10-04 | Koninklijke Philips N.V. | Audio system and method of operation therefor |
TWI450266B (zh) * | 2011-04-19 | 2014-08-21 | Hon Hai Prec Ind Co Ltd | 電子裝置及音頻資料的解碼方法 |
US9395304B2 (en) | 2012-03-01 | 2016-07-19 | Lawrence Livermore National Security, Llc | Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto |
JP5997592B2 (ja) * | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP2856776B1 (en) | 2012-05-29 | 2019-03-27 | Nokia Technologies Oy | Stereo audio signal encoder |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US20140379333A1 (en) * | 2013-02-19 | 2014-12-25 | Max Sound Corporation | Waveform resynthesis |
US9191516B2 (en) * | 2013-02-20 | 2015-11-17 | Qualcomm Incorporated | Teleconferencing using steganographically-embedded audio data |
WO2014210284A1 (en) | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
JP6242489B2 (ja) | 2013-07-29 | 2017-12-06 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法 |
RU2642386C2 (ru) | 2013-10-03 | 2018-01-24 | Долби Лабораторис Лайсэнзин Корпорейшн | Адаптивное генерирование рассеянного сигнала в повышающем микшере |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
RU2571921C2 (ru) * | 2014-04-08 | 2015-12-27 | Общество с ограниченной ответственностью "МедиаНадзор" | Способ фильтрации бинауральных воздействий в аудиопотоках |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
WO2017125559A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
CA2985019C (en) | 2016-02-17 | 2022-05-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
CN110800048B (zh) * | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
TWI687919B (zh) * | 2017-06-15 | 2020-03-11 | 宏達國際電子股份有限公司 | 音頻訊號處理方法、音頻定位系統以及非暫態電腦可讀取媒體 |
CN109326296B (zh) * | 2018-10-25 | 2022-03-18 | 东南大学 | 一种非自由场条件下的散射声有源控制方法 |
WO2020100141A1 (en) * | 2018-11-15 | 2020-05-22 | Boaz Innovative Stringed Instruments Ltd. | Modular string instrument |
KR102603621B1 (ko) * | 2019-01-08 | 2023-11-16 | 엘지전자 주식회사 | 신호 처리 장치 및 이를 구비하는 영상표시장치 |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3943879B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
SG49883A1 (en) | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5703999A (en) | 1992-05-25 | 1997-12-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
DE69734543T2 (de) | 1996-02-08 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
KR0175515B1 (ko) | 1996-04-15 | 1999-04-01 | 김광호 | 테이블 조사 방식의 스테레오 구현 장치와 방법 |
US6987856B1 (en) | 1996-06-19 | 2006-01-17 | Board Of Trustees Of The University Of Illinois | Binaural signal processing techniques |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US6236731B1 (en) | 1997-04-16 | 2001-05-22 | Dspfactory Ltd. | Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
MY121856A (en) * | 1998-01-26 | 2006-02-28 | Sony Corp | Reproducing apparatus. |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000151413A (ja) | 1998-11-10 | 2000-05-30 | Matsushita Electric Ind Co Ltd | オーディオ符号化における適応ダイナミック可変ビット割り当て方法 |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
EP1173925B1 (en) | 1999-04-07 | 2003-12-03 | Dolby Laboratories Licensing Corporation | Matrixing for lossless encoding and decoding of multichannels audio signals |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
JP4842483B2 (ja) | 1999-12-24 | 2011-12-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチチャネルオーディオ信号処理装置及び方法 |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
JP2001339311A (ja) | 2000-05-26 | 2001-12-07 | Yamaha Corp | オーディオ信号圧縮回路および伸長回路 |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
US6996521B2 (en) | 2000-10-04 | 2006-02-07 | The University Of Miami | Auxiliary channel masking in an audio signal |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US6885992B2 (en) * | 2001-01-26 | 2005-04-26 | Cirrus Logic, Inc. | Efficient PCM buffer |
US20030007648A1 (en) | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
JP2003044096A (ja) | 2001-08-03 | 2003-02-14 | Matsushita Electric Ind Co Ltd | マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム |
EP1421720A4 (en) * | 2001-08-27 | 2005-11-16 | Univ California | COCHLEAR IMPLANTS AND APPARATUSES / METHODS FOR IMPROVING AUDIO SIGNALS BY IMPLEMENTING FREQUENCY MODULATION AND AMPLITUDE (FAME) CODING STRATEGIES |
US6539957B1 (en) * | 2001-08-31 | 2003-04-01 | Abel Morales, Jr. | Eyewear cleaning apparatus |
CN1705980A (zh) | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
ES2268340T3 (es) | 2002-04-22 | 2007-03-16 | Koninklijke Philips Electronics N.V. | Representacion de audio parametrico de multiples canales. |
DE60326782D1 (de) | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
EP2879299B1 (en) | 2002-05-03 | 2017-07-26 | Harman International Industries, Incorporated | Multi-channel downmixing device |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
AU2003244932A1 (en) | 2002-07-12 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
EP1523863A1 (en) | 2002-07-16 | 2005-04-20 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2004008437A2 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US8437868B2 (en) | 2002-10-14 | 2013-05-07 | Thomson Licensing | Method for coding and decoding the wideness of a sound source in an audio scene |
KR101008520B1 (ko) | 2002-11-28 | 2011-01-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호 코딩 |
JP2004193877A (ja) | 2002-12-10 | 2004-07-08 | Sony Corp | 音像定位信号処理装置および音像定位信号処理方法 |
KR101049751B1 (ko) | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
US20060171542A1 (en) | 2003-03-24 | 2006-08-03 | Den Brinker Albertus C | Coding of main and side signal representing a multichannel signal |
CN100339886C (zh) * | 2003-04-10 | 2007-09-26 | 联发科技股份有限公司 | 可以检测声音信号的暂态位置的编码器及编码方法 |
CN1460992A (zh) * | 2003-07-01 | 2003-12-10 | 北京阜国数字技术有限公司 | 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组 |
US7343291B2 (en) | 2003-07-18 | 2008-03-11 | Microsoft Corporation | Multi-pass variable bitrate media encoding |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
US7672838B1 (en) | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,492 patent/US8204261B2/en active Active
-
2005
- 2005-09-12 EP EP05785586A patent/EP1803325B1/en active Active
- 2005-09-12 CA CA2583146A patent/CA2583146C/en active Active
- 2005-09-12 AU AU2005299070A patent/AU2005299070B2/en active Active
- 2005-09-12 CN CN2010101384551A patent/CN101853660B/zh active Active
- 2005-09-12 BR BRPI0516392A patent/BRPI0516392B1/pt active IP Right Grant
- 2005-09-12 KR KR1020077008796A patent/KR100922419B1/ko active IP Right Grant
- 2005-09-12 ES ES05785586T patent/ES2317297T3/es active Active
- 2005-09-12 RU RU2007118674/09A patent/RU2384014C2/ru active
- 2005-09-12 PT PT05785586T patent/PT1803325E/pt unknown
- 2005-09-12 MX MX2007004725A patent/MX2007004725A/es active IP Right Grant
- 2005-09-12 PL PL05785586T patent/PL1803325T3/pl unknown
- 2005-09-12 JP JP2007537134A patent/JP4625084B2/ja active Active
- 2005-09-12 DE DE602005010894T patent/DE602005010894D1/de active Active
- 2005-09-12 AT AT05785586T patent/ATE413792T1/de active
- 2005-09-12 CN CN2005800359507A patent/CN101044794B/zh active Active
- 2005-09-12 WO PCT/EP2005/009784 patent/WO2006045373A1/en active Application Filing
- 2005-10-11 TW TW094135353A patent/TWI330827B/zh active
-
2007
- 2007-03-21 NO NO20071492A patent/NO339587B1/no unknown
- 2007-03-27 IL IL182235A patent/IL182235A/en active IP Right Grant
- 2007-11-23 HK HK07112769A patent/HK1104412A1/xx unknown
-
2009
- 2009-08-31 US US12/550,519 patent/US8238562B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2317297T3 (es) | Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. | |
ES2323275T3 (es) | Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares. | |
ES2623365T3 (es) | Compactación de información secundaria para la codificación paramétrica de audio espacial | |
TWI427621B (zh) | 編碼聲音通道及解碼經傳輸之聲音通道之方法、裝置及機器可讀取媒體 | |
JP4856653B2 (ja) | 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング | |
BRPI0518507B1 (pt) | Informações auxiliares compactas para a codificação paramétrica de áudio espacial |