ES2317297T3 - Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. - Google Patents

Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. Download PDF

Info

Publication number
ES2317297T3
ES2317297T3 ES05785586T ES05785586T ES2317297T3 ES 2317297 T3 ES2317297 T3 ES 2317297T3 ES 05785586 T ES05785586 T ES 05785586T ES 05785586 T ES05785586 T ES 05785586T ES 2317297 T3 ES2317297 T3 ES 2317297T3
Authority
ES
Spain
Prior art keywords
envelope
input
signal
channel
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05785586T
Other languages
English (en)
Inventor
Eric Allamanche
Sascha Disch
Christof Faller
Jurgen Herre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Agere Systems LLC filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2317297T3 publication Critical patent/ES2317297T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Golf Clubs (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Television Systems (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

Método para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el método: caracterizar la envolvente temporal de entrada de la señal de audio de entrada; procesar la señal de audio de entrada para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada; y ajustar la señal de audio procesada basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.

Description

\global\parskip0.960000\baselineskip
Conformación de envolvente de sonido difuso para esquemas de codificación de indicación binaural y similares.
Antecedentes de la invención Referencia cruzada con solicitudes relacionadas
El contenido de esta solicitud está relacionado con el contenido de las siguientes solicitudes estadounidenses:
\circ
Solicitud estadounidense 2003/0026441 A1, presentada el 04/05/01
\circ
Solicitud estadounidense 2003/0035553 A1, presentada el 07/11/01;
\circ
US 2003/0219130 A1, presentada el 24/05/02;
\circ
US 2003/0236583 A1, presentada el 18/09/02;
\circ
US 2005/0180579 A1, presentada el 01/04/04;
\circ
US 2005/0058304 A1, presentada el 08/09/04;
\circ
US 205/0157883 A1, presentada el 20/01/04; y
\circ
US presentada en la misma fecha que esta solicitud.
El contenido de esta solicitud también está relacionado con el contenido descrito en los siguientes documentos:
\circ
F. Baumgarte y C. Faller, "Binaural Cue Coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003;
\circ
C. Faller y F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, nº 6, noviembre de 2003; y
\circ
C. Faller, "Coding of spatial audio compatible with different playback formats", Preprint 117th Conv. Aud Eng. Soc., octubre de 2004.
Campo de la invención
La presente invención se refiere a la codificación de señales de audio y a la síntesis posterior de escenas auditivas a partir de los datos de audio codificados.
Descripción de la técnica relacionada
Cuando una persona oye una señal de audio (es decir, sonidos) generados por una fuente de audio particular, la señal de audio llegará normalmente a los oídos izquierdo y derecho de la persona en dos tiempos diferentes y con dos niveles de audio (por ejemplo, decibelios) diferentes, en el que estos diferentes tiempos y niveles son en función de las diferencias en las trayectorias a través de las que viaja la señal de audio para llegar a los oídos izquierdo y derecho, respectivamente. El cerebro de la persona interpreta estas diferencias de tiempo y nivel para dar a la persona la percepción de que la señal de audio recibida se está generando por una fuente de audio situada en una posición particular (por ejemplo, dirección y distancia) con respecto a la persona. Una escena auditiva es el efecto neto de una persona que escucha simultáneamente señales de audio generadas por una o más fuentes de audio diferentes situadas en una o más posiciones diferentes con respecto a la persona.
La existencia de este procesamiento por el cerebro puede usarse para sintetizar escenas auditivas, en el que señales de audio de una o más fuentes de audio diferentes se modifican intencionadamente para generar señales de audio izquierda y derecha que dan la percepción de que las diferentes fuentes de audio están ubicadas en diferentes posiciones con respecto al oyente.
La figura 1 muestra un diagrama de bloques de alto nivel de un sintetizador 100 de señales binaural convencional, que convierte una única señal de fuente de audio (por ejemplo, una señal mono) en las señales de audio izquierda y derecha de una señal binaural, definiéndose una señal binaural como las dos señales recibidas en los tímpanos de un oyente. Además de la señal de fuente de audio, el sintetizador 100 recibe un conjunto de indicaciones espaciales correspondientes a la posición deseada de la fuente de audio con respecto al oyente. En implementaciones típicas, el conjunto de indicaciones espaciales comprende un valor de diferencia de nivel intercanal (ICLD) (que identifica la diferencia de nivel de audio entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente) y un valor de diferencia de tiempo intercanal (ICTD) (que identifica la diferencia de tiempo de llegada entre las señales de audio izquierda y derecha tal como se reciben en los oídos izquierdo y derecho, respectivamente). Además o como alternativa, algunas técnicas de síntesis implican el modelado de una función de transferencia dependiente de la dirección para el sonido desde la fuente de señal hacia los tímpanos, también denominada como la función de transferencia relacionada con la cabeza (HRTF). Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.
Utilizando el sintetizador 100 de señales binaural de la figura 1, la señal de audio mono generada por una única fuente de sonido puede procesarse de tal manera que, cuando se escucha mediante auriculares, la fuente de sonido está colocada espacialmente aplicando un conjunto apropiado de indicaciones espaciales (por ejemplo, ICLD, ICTD y/o HRTF) para generar la señal de audio para cada oído. Véase, por ejemplo, D. R. Begault, 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA, 1994.
El sintetizador 100 de señales binaural de la figura 1 genera el tipo más simple de escenas auditivas: aquellas que tienen una única fuente de audio colocada con respecto al oyente. Pueden generarse escenas auditivas más complejas que comprenden dos o más fuentes de audio ubicadas en diferentes posiciones con respecto al oyente utilizando un sintetizador de escena auditiva que se implementa esencialmente utilizando múltiples instancias del sintetizador de señales binaural, generando cada instancia de sintetizador de señales binaural la señal binaural correspondiente a una fuente de audio diferente. Puesto que cada fuente de audio diferente tiene una ubicación diferente con respecto al oyente, se usa un conjunto diferente de indicaciones espaciales para generar la señal de audio binaural para cada fuente de audio diferente.
El documento WO 2004/008806 A1 da a conocer un esquema de codificación de audio. Para la codificación estéreo binaural sólo se codifica un canal monoaural. Una capa adicional conserva los parámetros para recuperar la señal izquierda y la señal derecha. Un codificador enlaza información de transitorios extraída de la señal codificada mono con capas multicanal paramétricas para proporcionar un mayor rendimiento. Las posiciones de los transitorios pueden o bien obtenerse directamente del flujo de bits o bien estimarse a partir de otros parámetros codificados tales como la etiqueta de conmutación de ventana en mp3. Los parámetros incluyen la diferencia de nivel de señales de subbanda correspondientes, la diferencia de tiempo o la diferencia de fase de señales de subbanda correspondientes y un valor de correlación.
Un objeto de la presente invención es proporcionar un concepto mejorado de codificación y descodificación de audio. Este objeto se consigue mediante un método para convertir una señal de audio de entrada según la reivindicación 1, un aparato para convertir una señal de audio de entrada según la reivindicación 23, un método para codificar C canales de audio de entrada según la reivindicación 26, un aparato para codificar C canales de audio de entrada según la reivindicación 28, un flujo de bits de audio codificado según la reivindicación 31 o un código de programa informático según la reivindicación 32.
Sumario de la invención
Según una realización, la presente invención consiste en un método y aparato para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida. La envolvente temporal de entrada de la señal de audio de entrada se caracteriza. La señal de audio de entrada se procesa para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada. La señal de audio procesada se ajusta basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.
Según otra realización, la presente invención es un método y aparato para codificar C canales de audio de entrada para generar E canal(es) de audio transmitido(s). Se generan uno o más códigos de indicación para dos o más de los C canales de entrada. Los C canales de entrada se mezclan descendentemente (downmix) para generar el (los) E canal(es) transmitido(s), siendo C>E\geq1. Uno o más de los C canales de entrada y los E canal(es)
transmitido(s) se analiza para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido debe efectuar o no la conformación de la envolvente durante la descodificación del (de los) E canal(es) transmitido(s).
Según otra realización, la presente invención es un flujo de bits de audio codificado, generado mediante el método del párrafo anterior.
Según otra realización, la presente invención es un flujo de bits de audio codificado que comprende E canal(es) transmitido(s), uno o más códigos de indicación y una etiqueta. Los uno o más códigos de indicación se generan generando uno o más códigos de indicación para dos o más de los C canales de entrada. El (los) E canal(es) transmitido(s) se genera(n) mezclando descendentemente los C canales de entrada, siendo C>E\geq1. La etiqueta se genera analizando uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s), en el que la etiqueta indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no la conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s).
Breve descripción de los dibujos
Otros aspectos, características y ventajas de la presente invención resultarán más plenamente evidentes a partir de la siguiente descripción detallada, las reivindicaciones adjuntas y los dibujos adjuntos en los que los mismos números de referencia identifican elementos similares o idénticos.
\global\parskip1.000000\baselineskip
La figura 1 muestra un diagrama de bloques de alto nivel de un sintetizador de señales binaural convencional;
la figura 2 es un diagrama de bloques de un sistema de procesamiento de audio de codificación de indicación binaural (BCC) genérico;
la figura 3 muestra un diagrama de bloques de un mezclador descendente que puede usarse para el mezclador descendente de la figura 2;
la figura 4 muestra un diagrama de bloques de un sintetizador BCC que puede usarse para el descodificador de la figura 2;
la figura 5 muestra un diagrama de bloques del estimador BCC de la figura 2 según una realización de la presente invención;
la figura 6 ilustra la generación de datos de ICTD e ICLD para audio de cinco canales;
la figura 7 ilustra la generación de datos ICC para audio de cinco canales;
la figura 8 muestra un diagrama de bloques de una implementación del sintetizador BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estereofónica o multicanal dada una señal s(n) de suma transmitida individual más las indicaciones espaciales;
la figura 9 ilustra cómo ICTD e ICLD se modifican dentro de una subbanda en función de la frecuencia;
la figura 10 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención;
la figura 11 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador BCC de la figura 4;
la figura 12 ilustra una aplicación a modo de ejemplo alternativa del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador BCC de la figura 4, en el que la conformación de envolvente se aplica en el dominio de tiempo;
las figuras 13(a) y (b) muestran posibles implementaciones del TPA de la figura 12, en el que la conformación de envolvente se aplica solamente a frecuencias superiores a la frecuencia f_{TP} de corte;
la figura 14 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del esquema de síntesis ICC basado en reverberación tardía descrito en US 2005/0180579 A1, presentada el 01/04/04;
la figura 15 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención que es una alternativa al esquema mostrado en la figura 10;
la figura 16 muestra un diagrama de bloques que representa al menos una parte de un descodificador BCC, según una realización de la presente invención que es una alternativa a los esquemas mostrados en las figuras 10 y 15;
la figura 17 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 15 en el contexto del sintetizador BCC de la figura 4; y
las figuras 18(a)-(c) muestran diagramas de bloques de las implementaciones posibles del TPA, ITP y TP de la figura 17.
Descripción detallada
En la codificación de indicación binaural (BCC), un codificador codifica C canales de audio de entrada para generar E canales de audio transmitidos, siendo C>E\geq1. En particular, dos o más de los C canales de entrada se proporcionan en un dominio de frecuencia y se generan uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada en el dominio de frecuencia. Además, los C canales de entrada se mezclan descendentemente para generar los E canales transmitidos. En algunas implementaciones de mezclado descendente, al menos uno de los E canales transmitidos está basado en dos o más de los C canales de entrada y al menos uno de los E canales transmitidos está basado en solamente uno solo de los C canales de entrada.
En una realización, un codificador BCC tiene dos o más bancos de filtros, un estimador de código y un mezclador descendente. Los dos o más bancos de filtros convierten dos o más de los C canales de entrada de un dominio de tiempo a un dominio de frecuencia. El estimador de código genera uno o más códigos de indicación para cada una de una o más bandas de frecuencia diferentes en los dos o más canales de entrada convertidos. El mezclador descendente mezcla descendentemente los C canales de entrada para generar los E canales transmitidos, siendo C>E\geq1.
En la descodificación BCC, se descodifican E canales de audio transmitidos para generar C canales de audio de reproducción. En particular, para cada una de una o más bandas de frecuencia diferentes, uno o más de los E canales transmitidos se mezclan ascendentemente (upmix) en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. Uno o más códigos de indicación se aplican a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados, y los dos o más canales modificados se convierten del dominio de frecuencia a un dominio de tiempo. En algunas implementaciones de mezcla ascendente, al menos uno de los C canales de reproducción está basado en al menos uno de los E canales transmitidos y al menos un código de indicación, y al menos uno de los C canales de reproducción está basado en solamente uno solo de los E canales transmitidos e independiente de cualquier código de indicación.
En una realización, un descodificador BCC tiene un mezclador ascendente, un sintetizador y uno o más bancos de filtros inversos. Para cada una de una o más bandas de frecuencia diferentes, el mezclador ascendente mezcla ascendentemente uno o más de los E canales transmitidos en un dominio de frecuencia para generar dos o más de los C canales de reproducción en el dominio de frecuencia, siendo C>E\geq1. El sintetizador aplica uno o más códigos de indicación a cada una de las una o más bandas de frecuencia diferentes en los dos o más canales de reproducción en el dominio de frecuencia para generar dos o más canales modificados. El uno o más bancos de filtros inversos convierten los dos o más canales modificados del dominio de frecuencia a un dominio de tiempo.
Dependiendo de la implementación particular, un canal de reproducción dado puede basarse en un único canal transmitido, en lugar de una combinación de dos o más canales transmitidos. Por ejemplo, cuando hay solamente un canal transmitido, cada uno de los C canales de reproducción está basado en ese canal transmitido. En estas situaciones, la mezcla ascendente corresponde a copiar el canal transmitido correspondiente. Como tal, para aplicaciones en las que hay solamente un canal transmitido, el mezclador ascendente puede implementarse utilizando un replicador que copia el canal transmitido para cada canal de reproducción.
Pueden incorporarse codificadores y/o descodificadores BCC a diversos sistemas o aplicaciones entre los que se incluyen, por ejemplo, grabadores/reproductores de vídeo digital, grabadores/reproductores de audio digital, ordenadores, transmisores/receptores de satélite, transmisores/receptores de cable, transmisores/receptores de emisión terrestre, sistemas de entretenimiento en casa y sistemas de cine.
Procesamiento BCC genérico
La figura 2 es un diagrama de bloques de un sistema 200 de procesamiento de audio de codificación de indicación binaural (BCC) genérico que comprende un codificador 202 y un descodificador 204. El codificador 202 incluye el mezclador 206 descendente y el estimador 208 BCC.
El mezclador 206 descendente convierte C canales de audio de entrada x_{i}(n) en E canales de audio transmitidos y_{i}(n), siendo C>E\geq1. En esta memoria descriptiva, las señales expresadas utilizando la variable n son señales en el dominio de tiempo, mientras que las señales expresadas utilizando la variable k son señales en el dominio de frecuencia. Dependiendo de la implementación particular, se puede implementar el mezclado descendente o bien en el dominio de tiempo o bien en el dominio de frecuencia. El estimador 208 BCC genera códigos BCC a partir de los C canales de audio de entrada y transmite estos códigos BCC como información lateral o bien en banda o bien fuera de banda con respecto a los E canales de audio transmitidos. Códigos BCC típicos incluyen uno o más de datos de diferencia de tiempo intercanal (ICTD), de diferencia de nivel intercanal (ICLD) y de correlación intercanal (ICC) estimados entre ciertos pares de canales de entrada en función de la frecuencia y el tiempo. La implementación particular determinará entre qué pares particulares de canales de entrada se estiman los códigos
BCC.
Los datos ICC corresponden a la coherencia de una señal binaural, que está relacionada con el ancho percibido de la fuente de audio. Cuanto más ancha es la fuente de audio, más baja es la coherencia entre los canales izquierdo y derecho de la señal binaural resultante. Por ejemplo, la coherencia de la señal binaural correspondiente a una orquesta dispersada por el escenario de un auditorio es normalmente más baja que la coherencia de la señal binaural correspondiente a un único violín que toca un solo. En general, una señal de audio con coherencia más baja se percibe habitualmente como más esparcida por el espacio auditivo. Como tal, los datos ICC se refieren normalmente al ancho de fuente aparente y en qué grado queda envuelto el oyente. Véase, por ejemplo, J. Blauert, The Psychophysics of Human Sound Localization, MIT Press, 1983.
Dependiendo de la aplicación particular, los E canales de audio transmitidos y los correspondientes códigos BCC pueden transmitirse directamente al descodificador 204 o almacenarse en algún tipo apropiado de dispositivo de almacenamiento para su posterior acceso por el descodificador 204. Dependiendo de la situación, el término "transmisión" se puede referir o bien a la transmisión directa a un descodificador o al almacenamiento para su posterior facilitación a un descodificador. Ya sea en un caso u otro, el descodificador 204 recibe los canales de audio transmitidos y la información lateral y efectúa una mezcla ascendente y una síntesis BCC utilizando los códigos BCC para convertir los E canales de audio transmitidos en más de E (normalmente, aunque no necesariamente C) canales de audio de reproducción \hat{x}_{i}(n) para la reproducción de audio. Dependiendo de la implementación particular, la mezcla ascendente puede efectuarse o bien en el dominio de tiempo o bien en el dominio de frecuencia.
Además del procesamiento BCC mostrado en la figura 2, un sistema de procesamiento de audio BCC genérico puede incluir fases de codificación y descodificación adicionales, para comprimir adicionalmente las señales de audio en el codificador y luego descomprimir las señales de audio en el descodificador, respectivamente. Estos códecs de audio pueden basarse en técnicas de compresión/descompresión de audio convencionales, tales como las basadas en modulación por código de impulso (PCM), PCM diferencial (DPCM) o DPCM adaptativa (ADPCM).
Cuando el mezclador 206 descendente genera una única señal de suma (es decir, E = 1), la codificación BCC puede representar señales de audio multicanal a una tasa de transmisión de bits sólo ligeramente superior a la que se requiere para representar una señal de audio mono. Esto es así debido a que los datos ICTD, ICLD e ICC estimados entre un par de canales contienen aproximadamente dos órdenes de magnitud menos de información que una forma de onda de audio.
No sólo es interesante la baja tasa de transmisión de bits de la codificad BCC, sino también su aspecto de compatibilidad hacia atrás. Una única señal de suma transmitida corresponde a una mezcla descendente mono de la señal estéreo o multicanal original. Para receptores que no soportan reproducción de sonido estéreo o multicanal, escuchar la señal de suma transmitida es un método válido para presentar el material de audio en equipos de reproducción mono de bajo perfil. Por consiguiente, la codificación BCC puede usarse también para mejorar los servicios existentes que implican la entrega de material de audio mono hacia audio multicanal. Por ejemplo, los sistemas de emisión de radio de audio mono pueden mejorarse para la reproducción estéreo o multicanal si la información lateral BCC puede incrustarse en el canal de transmisión existente. Existen capacidades análogas cuando se mezcla descendentemente audio multicanal en dos señales de suma que corresponden a audio estéreo.
BCC procesa señales de audio con una cierta resolución de tiempo y frecuencia. La resolución de frecuencia usada está motivada en gran medida por la resolución de frecuencia del sistema auditivo humano. La psicoacústica sugiere que la percepción espacial se basa con la mayor probabilidad en una representación de banda crítica de la señal de banda acústica. Esta resolución de frecuencia se considera utilizando un banco de filtros invertible (por ejemplo, basado en una transformada de Fourier rápida (FFT) o un filtro de espejo en cuadratura (QMF)) con subbandas con anchos de banda iguales o proporcionales al ancho de banda crítico del sistema auditivo humano.
Mezcla descendente genérica
En implementaciones preferidas, la(s) señal(es) de suma transmitida(s) contiene(n) todas las componentes de señal de la señal de audio de entrada. El objetivo es que cada componente de señal se mantenga plenamente. La simple suma de los canales de audio de entrada da como resultado frecuentemente amplificación o atenuación de las componentes de señal. En otras palabras, la potencia de las componentes de señal en una "simple" suma es frecuentemente más grande o más pequeña que la suma de la potencia de la componente de señal correspondiente de cada canal. Se puede usar una técnica de mezcla descendente que ecualiza la señal de suma, de tal manera que la potencia de las componentes de señal en la señal de suma es aproximadamente la misma que la potencia correspondiente en todos los canales de entrada.
La figura 3 muestra un diagrama de bloques de un mezclador 300 descendente que puede usarse para el mezclador 206 descendente de la figura 2 según ciertas implementaciones del sistema 200 BCC. El mezclador 300 descendente tiene un banco 302 de filtros (FB) para cada canal de entrada x_{i}(n), un bloque 304 de mezcla descendente, un bloque 306 de ajuste a escala/retardo opcional y un FB 308 inverso (IFB) para cada canal codificado y_{i}(n).
Cada banco 302 de filtros convierte cada trama (por ejemplo 20 ms) de un canal de entrada digital x_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{x}_{i}(k) en el dominio de frecuencia. El bloque 304 de mezcla descendente mezcla descendentemente cada subbanda de C coeficientes de entrada correspondientes en una subbanda correspondiente de E coeficientes en el dominio de frecuencia mezclados descendentemente. La ecuación (1) representa la mezcla descendente de la k-ésima subbanda de coeficientes de entrada (\tilde{x}_{1}(k),\tilde{x}_{2}(k),...,\tilde{x}_{C}(k)) para generar la k-ésima subbanda de coeficiente mezclados descendentemente (\hat{y}_{1}(k),\hat{y}_{2}(k),...,\hat{y}_{E}(k)) como sigue:
1
donde D_{CE} es un matriz de mezcla descendente de C por E de valor real.
El bloque 306 de ajuste a escala/retardo opcional comprende un conjunto de multiplicadores 310, cada uno de los cuales multiplica un coeficiente mezclado descendentemente \hat{y}_{i}(k) correspondiente por un factor de ajuste a escala e_{i}(k) para generar un coeficiente ajustado a escala \tilde{y}_{i}(k) correspondiente. La motivación para la operación de ajuste a escala es equivalente a la ecualización generalizada para la mezcla descendente con factores de ponderación arbitrarios para cada canal. Si los canales de entrada son independientes, entonces la potencia p_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente en cada subbanda viene dada por la ecuación (2) como sigue:
2
donde \bar{D}_{CE} se obtiene elevando al cuadrado cada elemento de matriz en la matriz D_{CE} de mezcla descendente de C por E y p_{\tilde{x}_{i}(k)} es la potencia de la subbanda k del canal de entrada i.
Si las subbandas no son independientes, entonces los valores de potencia p_{\tilde{y}_{i}(k)} de la señal mezclada descendentemente serán más grandes o más pequeños que el calculado utilizando la ecuación (2), debido a aplicaciones o cancelaciones de señal cuando las componentes de señal están en fase o fuera de fase, respectivamente. Para impedir esto, la operación de mezcla descendente de la ecuación (1) se aplica en subbandas seguida por la operación de ajuste a escala de los multiplicadores 310. Los factores de ajuste a escala e_{i}(k) (1\leqi\leqE) pueden obtenerse utilizando la ecuación (3) como sigue:
3
donde p_{\tilde{y}_{i}(k)} es la potencia de subbanda calculada por la ecuación (2) y p_{\hat{y}_{i}(k)} es la potencia de la señal de subbanda mezclada descendentemente \hat{y}_{i}(k) correspondiente.
Además de o en lugar de proporcionar el ajuste a escala opcional, el bloque 306 de ajuste a escala/retardo puede aplicar opcionalmente retardos a las señales.
Cada banco 308 de filtros inversos convierte un conjunto de coeficientes ajustados a escala \tilde{y}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal transmitido digital y_{i}(n) correspondiente.
Aunque la figura 3 muestra todos los C canales de entrada convertidos al dominio de frecuencia para la posterior mezcla descendente, en implementaciones alternativas, uno o más (pero menos que C-1) de los C canales de entrada podrían saltarse parte de o todo el procesamiento mostrado en la figura 3 y transmitirse como un número equivalente de canales de audio sin modificar. Dependiendo de la implementación particular, estos canales de audio sin modificar podrían o no usarse por el estimador 208 BCC de la figura 2 en la generación de los códigos BCC transmitidos.
En una implementación del mezclador 300 descendente que genera una única señal de suma y(n), E=1 y las señales \tilde{x}_{c}(k) de cada subbanda de cada canal de entrada C se suman y luego se multiplican por un factor e(k), según la ecuación (4) como sigue:
4
el factor e(k) viene dado por la ecuación (5) como sigue:
5
donde p_{\tilde{x}_{c}}(k) es un valor estimativo temporal de la potencia de \tilde{x}_{c}(k) en el índice de tiempo k, y p_{\tilde{x}}(k) es un valor estimativo temporal de la potencia de \sum^{C}_{c=1} \tilde{x}_{c}(k). Las subbandas ecualizadas se transforman de regreso al dominio de tiempo dando como resultado la señal de suma y(n) que se transmite al descodificador BCC.
Síntesis BCC genérica
La figura 4 muestra un día de bloques de un sintetizador 400 BCC que puede usarse por el descodificador 204 de la figura 2 según ciertas implementaciones del sistema 200 BCC. El sintetizador 400 BCC tiene un banco 402 de filtros para cada canal transmitido y_{i}(n), un bloque 404 de mezcla ascendente, retardos 406, multiplicadores 408, bloque 410 de correlación y un banco 412 de filtros inversos para cada canal de reproducción \hat{x}_{i}(n).
Cada banco 402 de filtros convierte cada trama de un canal transmitido digital y_{i}(n) correspondiente en el dominio de tiempo en un conjunto de coeficientes de entrada \tilde{y}_{i}(k) en el dominio de frecuencia. El bloque 404 de mezcla ascendente mezcla ascendentemente cada subbanda de E coeficientes de canal transmitido correspondientes en una subbanda correspondiente de C coeficientes en el dominio de frecuencia mezclados ascendentemente. La ecuación (4) representa la mezcla ascendente de la k-ésima subbanda de coeficientes de canal transmitidos (\tilde{y}_{1}(k),\tilde{y}_{2}(k),...,\tilde{y}_{E}(k)) para generar la k-ésima subbanda de coeficientes mezclados ascendentemente (\tilde{s}_{1}(k),\tilde{s}_{2}(k),...,\tilde{s}_{C}(k)) como sigue:
6
donde U_{EC} es una matriz de mezcla ascendente de E por C de valor real. Efectuar la mezcla ascendente en el dominio de frecuencia permite que aplicar la mezcla ascendente individualmente en cada subbanda diferente.
Cada retardo 406 aplica un valor de retardo d_{i}(k) basándose en un código BCC correspondiente para datos ICTD para garantizar que los valores ICTD deseados aparecen entre ciertos pares de canales de reproducción. Cada multiplicador 408 aplica un factor de ajuste a escala a_{i}(k) basándose en un código BCC correspondiente para datos ICLD para garantizar que los valores ICLD deseados aparecen entre ciertos pares de canales de reproducción. El bloque 410 de correlación efectúa una operación de descorrelación A basándose en códigos BCC correspondientes para datos ICC para garantizar que los valores ICC deseados aparecen entre ciertos pares de canales de reproducción. Una descripción adicional de las operaciones del bloque 410 de correlación puede encontrarse en la solicitud de patente estadounidense Nº 10/155.437, presentada el 24/05/02 como Baumgarte 2-10.
La síntesis de valores ICLD puede ser menos problemática que la síntesis de valores ICTD e ICC, puesto que la síntesis ICLD implica meramente el ajuste a escala de señales de subbanda. Puesto que las indicaciones ICL son las indicaciones direccionales usadas más habitualmente, usualmente es más importante que los valores ICLD se aproximen a los de la señal de audio original. Como tal, los datos ICLD podrían estimarse entre todos los pares de canales. Los factores de ajuste a escala a_{i}(k) (1\leqi\leqC) para cada subbanda se escogen preferiblemente de tal manera que la potencia de subbanda de cada canal de reproducción se aproxime a la potencia correspondiente del canal de audio de entrada original.
Un objetivo puede ser aplicar relativamente pocas modificaciones de señal para sintetizar valores ICTD e ICC. Como tal, los datos BCC podrían no incluir valores ICTD e ICC para todos los pares de canales. En ese caso, el sintetizador 400 BCC sintetizaría valores ICTD e ICC solamente entre ciertos pares de canales.
Cada banco 412 de filtros inversos convierte un conjunto de coeficientes sintetizados \tilde{\hat{x}}_{i}(k) correspondientes en el dominio de frecuencia en una trama de un canal de reproducción digital \hat{x}_{i}(n) correspondiente.
Aunque la figura 4 muestra todos los E canales transmitidos convertidos al dominio de frecuencia para la posterior mezcla ascendente y procesamiento BCC, en implementaciones alternativas, uno o más (pero no todos) los E canales transmitidos podrían saltarse parte de o todo el procesamiento mostrado en la figura 4. Por ejemplo, uno o más de los canales transmitidos pueden ser canales sin modificar que no se someten a mezcla ascendente. Además de ser uno o más de los C canales de reproducción, estos canales sin modificar podrían, a su vez, aunque no tienen que, usarse como canales de referencia a los que se aplica procesamiento BCC para sintetizar uno o más de los otros canales de reproducción. Ya sea en un caso u otro, tales canales sin modificar pueden someterse a retardos para compensar el tiempo de procesamiento que conlleva la mezcla ascendente y/o procesamiento BCC usado para generar el resto de los canales de reproducción.
Obsérvese que, aunque la figura 4 muestra C canales de reproducción sintetizados a partir de E canales transmitidos, en el que C era también el número de canales de entrada originales, la síntesis BCC no está limitada a ese número de canales de reproducción. En general, el número de canales de reproducción puede ser cualquier número de canales, incluyendo números mayores o menores que C y posiblemente incluso situaciones en las que el número de canales de reproducción es igual o menor que el número de canales transmitidos.
"Diferencias perceptivamente relevantes" entre canales de audio
Suponiendo una única señal de suma, BCC sintetiza una señal de audio estéreo o multicanal de tal manera que ICTD, ICLD, e ICC se aproximan a las indicaciones correspondientes de la señal de audio original. A continuación se comenta el papel de ICTD, ICLD, e ICC con respecto a los atributos de imagen espacial auditivos.
El conocimiento acerca de la audición espacial implica que para un evento auditivo, ICTD e ICC están relacionados con la dirección percibida. Cuando se consideran respuestas impulsivas binaurales en salas (BRIR) de una fuente, hay una relación entre el ancho del evento auditivo y cómo queda envuelto el oyente y los datos ICC estimados para partes tempranas y tardías de las BRIR. Sin embargo, la relación entre ICC y estas propiedades para señales generales (y no solo las BRIR) no es directa.
Las señales de audio estéreo y multicanal contienen usualmente una mezcla compleja de señales de fuente simultáneamente activas superpuestas por las componentes de señal reflejada resultantes de la grabación en espacios cerrados o agregadas por el técnico de grabación para crear artificialmente una impresión espacial. Señales de diferentes fuentes y sus reflejos ocupan diferentes regiones en el plano de tiempo-frecuencia. Esto se refleja por ICTd, ICLD e ICC, que varían en función del tiempo y la frecuencia. En este caso, la relación entre ICTD, ICLD e ICC instantáneos y direcciones de eventos auditivos e impresión espacial no es obvia. La estrategia de ciertas realizaciones BCC es sintetizar ciegamente estas indicaciones, de tal manera que se aproximen a las indicaciones correspondientes de la señal de audio original.
Se utilizan bancos de filtros con subbandas de anchos de banda iguales a dos veces el ancho de banda rectangular equivalente (ERB). La escucha informal revela que la calidad de audio BCC no mejora notablemente cuando se escoge una resolución de frecuencia más alta. Una resolución de frecuencia más baja puede ser deseable, puesto que da como resultado menos valores ICTD, ICLD e ICC que necesitan transmitirse al descodificador y así una tasa de transmisión de bits más baja.
Con respecto a la resolución de tiempo, ICTD, ICLD e ICC se consideran normalmente a intervalos de tiempo regulares. Se obtiene un rendimiento alto cuando ICTD, ICLD e ICC se consideran aproximadamente cada 4 a 16 ms. Obsérvese que, a menos que las indicaciones se consideren a intervalos de tiempo muy cortos, el efecto de precedencia no se considera directamente. Suponiendo un par clásico adelanto-retraso de estímulos de sonido, si el adelanto y el retraso caen en un intervalo de tiempo en el que solamente está sintetizado un conjunto de indicaciones, entonces la dominancia de localización del adelanto no se considera. A pesar de esto, BCC obtiene calidad de audio reflejada en una puntuación MUSHRA promedio de aproximadamente 87 es decir, calidad de audio "excelente") en promedio y hasta casi 100 para ciertas señales de audio.
La diferencia perceptivamente pequeña frecuentemente obtenida entre la señal de referencia y la señal sintetizada implica que las indicaciones relacionadas con un amplio intervalo de atributos de imagen espacial auditivos se consideran implícitamente al sintetizar ICTD, ICLD e ICC a intervalos de tiempo regulares. A continuación se dan algunos argumentos de cómo ICTD, ICLD e ICC pueden relacionarse con un intervalo de atributos de imagen espacial auditivos.
Estimación de indicaciones espaciales
A continuación se describe cómo se estiman ICTD, ICLD e ICC. La tasa de transmisión de bits para la transmisión de estas indicaciones espaciales (cuantificadas y codificadas) puede ser de sólo unos pocos kb/s y, por tanto, con BCC, es posible transmitir señales de audio estéreo y multicanal a tasas de transmisión de bits próximas a la que se requiere para un único canal de audio.
La figura 5 muestra un diagrama de bloques del estimador 208 BCC de la figura 2, según una realización de la presente invención. El estimador 208 BCC comprende bancos 502 de filtros (FB), que pueden ser los mismos que los bancos 302 de filtros de la figura 3 y el bloque 504 de estimación, que genera indicaciones espaciales ICTD, ICLD e ICC para cada subbanda de frecuencia diferente generada por los bancos 502 de filtros.
Estimación de ICTD, ICLD e ICC para señales estéreo
Se usan las siguientes medidas para ICTD, ICLD e ICC para señales de subbanda \tilde{x}_{1}(k) y \tilde{x}_{2}(k) correspondientes de dos canales de audio (por ejemplo estéreo):
o ICTD [muestras]:
\vskip1.000000\baselineskip
7
\newpage
con un valor estimativo temporal de la función de correlación cruzada normalizada dada por la ecuación (8) como sigue:
8
donde
9
y p_{\tilde{x}_{1}\tilde{x}_{2}} (d,k) es un valor estimativo temporal de la media de \tilde{x}_{1}(k – d_{1})\tilde{x}_{2}(k -d_{2}).
o ICLD [dB]:
10
o ICC:
11
Obsérvese que se considera el valor absoluto de la correlación cruzada normalizada y c_{12}(k) tiene un intervalo de [0,1].
Estimación de ICTD, ICLD e ICC para señales de audio multicanal
Cuando hay más de dos canales de entrada, es normalmente suficiente definir ICTD e ICLD entre un canal de referencia (por ejemplo, canal número 1) y los otros canales, tal como se ilustra en la figura 6 para el caso de C = 5 canales, en el que \tau_{1c}(k) y \DeltaL_{12}(k) denotan ICTD e ICLD, respectivamente, entre el canal de referencia 1 y el canal c.
En contraposición con ICTD e ICLD, ICC tiene normalmente más grados de libertad. La ICC tal como se define puede tener diferentes valores entre todos los pares de canales de entrada posibles. Para C canales, hay C(C-1)/2 pares de canales posibles; por ejemplo para 5 canales hay 10 pares de canales como se ilustra en la figura 7(a). Sin embargo, tal esquema requiere que, para cada subbanda en cada índice de tiempo, se estimen y transmitan los valores ICC de C(C-1)/2, dando como resultado una gran complejidad computacional y alta tasa de transmisión de bits.
Alternativamente, para cada subbanda, ICTD e ICLD determinan la dirección en la que se proporciona el evento auditivo de la componente de señal correspondiente en la subbanda. Un único parámetro ICC por subbanda puede por tanto usarse para describir la coherencia global entre todos los canales de audio. Pueden obtenerse buenos resultados estimando y transmitiendo indicaciones ICC solamente entre los dos canales con la mayor energía en cada subbanda en cada índice de tiempo. Esto está ilustrado en la figura 7(b), en la que para los instantes de tiempo k-1 y k, los pares de canales (3,4) y (1,2) son los más fuertes, respectivamente. Una regla heurística puede usarse para determinar ICC entre los otros pares de canales.
Síntesis de indicaciones espaciales
La figura 8 muestra un diagrama de bloques de una implementación del sintetizador 400 BCC de la figura 4 que puede usarse en un descodificador BCC para generar una señal de audio estéreo o multicanal dada una señal de suma s(n) transmitida individual más las indicaciones espaciales. La señal de suma s(n) se descompone en subbandas, donde \tilde{s}(k) denota una de tales subbandas. Para generar las subbandas correspondientes de cada uno de los canales de salida, se aplican retardos d_{c}, factores de ajuste a escala a_{c}, y filtros h_{c} a la subbanda correspondiente de la señal de suma. (Por simplicidad de notación, el índice de tiempo k se ignora en los retardos, factores de ajuste a escala y filtros). Las ICTD se sintetizan imponiendo retardos, ICLD mediante ajuste a escala e ICC aplicando filtros de descorrelación. El procesamiento mostrado en la figura 8 se aplica independientemente a cada subbanda.
Síntesis de ICTD
Los retardos d_{c} se determinan a partir de las ICTD \tau_{1c}(k) según la ecuación (12) como sigue:
12
El retardo para el canal de referencia d_{1} se calcula de tal manera que la magnitud máxima de los retardos d_{c} se minimiza. Cuanto menos se modifiquen las señales de subbanda, menos peligro hay de que se presenten artefactos. Si la tasa de toma de muestras de subbanda no proporciona resolución de tiempo suficientemente alta para la síntesis de ICTD, pueden imponerse retardos con mayor precisión utilizando filtros de todo paso apropiados.
Síntesis de ICLD
Con el fin de que las señales de subbanda de salida tengan ICLD deseados \DeltaL_{12}(k) entre el canal c y el canal de referencia 1, los factores de ganancia a_{c} deben satisfacer la ecuación (13) como sigue:
13
Adicionalmente, las subbandas de salida preferiblemente se normalizan, de tal manera que la suma de la potencia de todos los canales de salida es igual a la potencia de la señal de suma de entrada. Puesto que la potencia de señal original total en cada subbanda se conserva en la señal de suma, esta normalización da como resultado que la potencia de subbanda absoluta para cada canal de salida se aproxima a la potencia correspondiente de la señal de audio de entrada del codificador original. Dadas estas restricciones, los factores de ajuste a escala a_{c} vienen dados por la ecuación (14) como sigue:
\vskip1.000000\baselineskip
14
\vskip1.000000\baselineskip
Síntesis ICC
En ciertas realizaciones, el objetivo de la síntesis ICC es reducir la correlación entre las subbandas después que se hayan aplicado retardos y ajustes a escala, sin afectar a ICTD e ICLD. Esto puede lograrse diseñando los filtros h_{c} en la figura 8 de tal manera que ICTD e ICLD se modifican eficazmente en función de la frecuencia de tal manera que la variación promedio es cero en cada subbanda (banda crítica auditiva).
La figura 9 ilustra cómo se modifican ICTD e ICLD dentro de una subbanda en función de la frecuencia. La amplitud de la modificación de ICTD e ICLD determina el grado de descorrelación y se controla en función de ICC. Obsérvese que ICTD se modifican suavemente (tal como en la figura 9(a)), mientras que ICLD se modifican aleatoriamente (tal como en la figura 9(b)). Se podrían modificar ICLD tan suavemente como ICTD, pero esto daría como resultado más coloración de las señales de audio resultantes.
Otro método para sintetizar ICC, particularmente apropiado para síntesis ICC multicanal, se describe en más detalle en C. Faller, "Parametric multi-channel audio coding: Synthesis of coherence cues," IEEE Trans. on Speech and Audio Proc., 2003. En función del tiempo y la frecuencia, se añaden cantidades específicas de reverberación tardía artificial a cada uno de los canales de salida para obtener una ICC deseada. Adicionalmente, se puede aplicar modificación espectral de tal manera que la envolvente espectral de la señal resultante se aproxima a la envolvente espectral de la señalada de audio original.
Otras técnicas de síntesis ICC relacionadas y no relacionadas para señales estéreo (o pares de canales de audio) se han presentado en E. Schuijers, W. Oomen, B. den Brinker, y J. Breebaart, "Advances in parametric coding for high-quality audio," en Preprint 114^{th} Conv. Aud. Eng. Soc., marzo de 2003 y J. Engdegard, H. Purnhagen, J. Roden, y L. Liljeryd, "Synthetic ambience in parametric stereo coding," en Preprint 117^{th} Conv. Aud. Eng. Soc., mayo de 2004.
BCC de C a E
Como se ha descrito anteriormente, puede implementarse BCC con más de un canal de transmisión. Se ha descrito una variación de BCC que representa C canales de audio no como un único canal (transmitido), sino como E canales, denotado BCC de C a E. Hay (al menos) dos motivaciones para BCC de C a E:
\circ
BCC con un canal de transmisión proporciona una trayectoria compatible hacia atrás para actualizar sistemas mono existentes para reproducción de audio estéreo o multicanal. Los sistemas actualizados transmiten la señal de suma mezclada descendentemente BCC a través de la infraestructura mono existente, mientras que adicionalmente transmite la información lateral BCC. BCC de C a E es aplicable a codificación compatible hacia atrás de canal E de audio de canal C.
\circ
BCC de C a E introduce escalabilidad en cuanto a diferentes grados de reducción del número de canales trasmitidos. Se espera que cuantos más canales de audio se transmitan, mejor será la calidad de audio.
Detalles de procesamiento de señales para BCC de C a E, tal como cómo definir las indicaciones de ICTD, ICLD e ICC, se describen en US 2005/0157883, presentada el 20/01/04.
Formación de sonido difuso
En ciertas implementaciones, la codificación BCC implica algoritmos para la síntesis de ICTD, ICLD e ICC. Las indicaciones ICC pueden sintetizarse por medio de descorrelación de las componentes de señal en las subbandas correspondientes. Esto puede hacerse mediante modificación dependiente de la frecuencia de ICLD, modificación dependiente de la frecuencia de ICTD e ICLD, filtrado de todo paso o con ideas relacionadas con algoritmos de reverberación.
Cuando estas técnicas se aplican a señales de audio, las características de envolvente temporal de las señales no se conservan. Específicamente, cuando se aplican a transitorios, es probable que la energía de señal instantánea se disperse durante un cierto período de tiempo. Esto da como resultado artefactos tales como "pre-ecos" o "transitorios difuminados".
Un principio genérico de ciertas realizaciones de la presente invención se refiere a la observación de que el sonido sintetizado por un descodificador BCC no sólo debe tener características espectrales que son similares a las del sonido original, sino también asemejarse bastante a la envolvente temporal del sonido original con el fin de tener características perceptivas similares. En general, esto se logra en esquemas semejantes a BCC incluyendo una síntesis ICLD dinámica que aplica una operación de ajuste a escala variable en el tiempo para aproximarse a cada envolvente temporal del canal de señal. Para el caso de señales transitorias (ataques, instrumentos de percusión, etc.), la resolución temporal de este proceso puede sin embargo no ser suficiente para producir señales sintetizadas que se aproximen lo suficiente a la envolvente temporal original. Esta sección describe un número de enfoques para hacer esto con una resolución de tiempo suficientemente fina.
Además, para codificadores BCC que no tienen acceso a la envolvente temporal de la señales originales, la idea es tomar en su lugar la envolvente temporal de la(s) "señal(es) de suma" transmitida como una aproximación. Como tal, no hay información lateral que sea necesario transmitir del codificador BCC al descodificador BCC con el fin de transportar tal información de envolvente. En resumen, la invención se basa en el siguiente principio:
\circ
Los canales de audio transmitidos (es decir, "canal(es) de suma") - o combinaciones lineales de estos canales en las que puede basarse la síntesis BCC - se analizan por un extractor de envolvente temporal para obtener su envolvente temporal con una alta resolución de tiempo (por ejemplo, significativamente más fina que el tamaño de bloque BCC).
\circ
El posterior sonido sintetizado para cada canal de salida se conforma de tal manera que - incluso después de la síntesis ICC - coincide lo más posible con la envolvente temporal determinada por el extractor.
Esto garantiza que, incluso en el caso de señales transitorias, el sonido de salida sintetizado no está degradado significativamente por el proceso de síntesis ICC/descorrelación de señal.
La figura 10 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1000 BCC, según una realización de la presente invención. En la figura 10, el bloque 1002 representa el procesamiento de síntesis BCC que incluye, al menos, síntesis ICC. El bloque 1002 de síntesis BCC recibe canales 1001 base y genera canales 1003 sintetizados. En ciertas implementaciones, el bloque 1002 representa el procesamiento de los bloques 406, 408 y 410 de la figura 4, en el que los canales 1001 base son las señales generadas por el bloque 404 de mezcla ascendente y los canales 1003 sintetizados son las señales generadas por el bloque 410 de correlación. La figura 10 representa el procesamiento implementado para un canal 1001' base y su canal sintetizado correspondiente. También se aplica un procesamiento similar a cada uno de los demás canales base y su canal sintetizado correspondiente.
El extractor 1004 de envolvente determina la envolvente a temporal fina del canal 1001' base y el extractor 1006 de envolvente determina la envolvente b temporal fina del canal 1003' sintetizado. El ajustador 1008 de envolvente inverso utiliza la envolvente b temporal del extractor 1006 de envolvente para normalizar la envolvente (es decir, "aplanar" la estructura fina temporal) del canal 1003' sintetizado para producir una señal 1005' aplanada que tiene una envolvente de tiempo plana (por ejemplo, uniforme). Dependiendo de la implementación particular, el aplanamiento puede aplicarse o bien antes o bien después de la mezcla ascendente. El ajustador 1010 de envolvente utiliza la envolvente a temporal del extractor 1004 de envolvente para reimponer la envolvente de señal original sobre la señal 1005' aplanada para generar la señal 1007' de salida que tiene una envolvente temporal sustancialmente igual a la envolvente temporal del canal 1001 base.
Dependiendo de la implementación, este procesamiento de envolvente temporal (también denominado en la presente memoria como "conformación de envolvente") puede aplicarse a todo el canal sintetizado (como se muestra) o solamente a la parte ortogonalizada (por ejemplo, parte de reverberación tardía, parte descorrelacionada) del canal sintetizado (como se describe más adelante). Además, dependiendo de la implementación, la conformación de envolvente puede aplicarse o bien a señales en el dominio de tiempo o bien de una forma dependiente de la frecuencia (por ejemplo, en el que la envolvente temporal se estima y se impone individualmente en diferencias frecuencias).
El ajustador 1008 de envolvente inverso y el ajustador 1010 de envolvente pueden implementarse de diferentes maneras. En un tipo de implementación, una envolvente de señal se manipula mediante la multiplicación de las muestras en el dominio de tiempo de la señal (o muestras espectrales/de subbanda) con una función de modulación de amplitud variable en el tiempo (por ejemplo, 1/b para el ajustador 1008 de envolvente inverso y a para el ajustador 1010 de envolvente). Alternativamente, una convolución/filtrado de la representación espectral de señal sobre la frecuencia puede usarse de manera análoga a la usada en la técnica anterior con el fin de conformar el ruido de cuantificación de un codificador de audio de baja tasa de transmisión de bits. De manera similar, la envolvente temporal de las señales puede extraerse o bien directamente mediante análisis de la estructura de tiempo de la señal o bien examinando la autocorrelación del espectro de señal sobre la frecuencia.
La figura 11 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador 400 BCC de la figura 4. En esta realización, hay una única señal de suma s(n) transmitida, las C señales base se generan replicando esa señal de suma y la conformación de envolvente se aplica individualmente a subbandas diferentes. En realizaciones alternativas, el orden de retardos, ajuste a escala y otro procesamiento puede ser diferente. Además, en realizaciones alternativas, la conformación de envolvente no está restringida al procesamiento de cada subbanda independientemente. Esto es así especialmente para implementaciones basadas en convolución/filtrado, que aprovechan la covarianza sobre bandas de frecuencia para obtener información en cuanto a la estructura fina temporal de la señal.
En la figura 11(a), el analizador 1104 de proceso temporal (TPA) es análogo al extractor 1004 de envolvente de la figura 10 y cada procesador 1106 temporal (TP) es análogo a la combinación de extractor 1006 de envolvente, ajustador 1008 de envolvente inverso y ajustador 1010 de envolvente de la figura 10.
La figura 11(b) muestra un diagrama de bloques de una posible implementación basada en el dominio de tipo de TPA 1104 en la que las muestras de señal base se elevan al cuadrado (1110) y luego se filtran paso bajo (1112) para caracterizar la envolvente a temporal de la señal base.
La figura 11(c) muestra un diagrama de bloques de una posible implementación basada en el dominio de tiempo de TP 1106 en la que las muestras de señal sintetizadas se elevan al cuadrado (1114) y luego se filtran paso bajo (1116) para caracterizar la envolvente b temporal de la señal sintetizada. Se genera un factor de ajuste a escala (por ejemplo, sqrt(a/b)) (1118) y luego se aplica (1120) a la señal sintetizada para generar una señal de salida que tiene una envolvente temporal sustancialmente igual a la del canal base original.
En implementaciones alternativas de TPA 1104 y TP 1106, las envolventes temporales se caracterizan utilizando operaciones de magnitud en lugar de elevando al cuadrado las muestras de señal. En tales implementaciones, la proporción a/b puede usarse como el factor de ajuste a escala sin tener que aplicar la operación de raíz cuadrada.
Aunque la operación de ajuste a escala de la figura 11(c) corresponde a una implementación basada en el dominio de tiempo del procesamiento de TP, el procesamiento de TP (así como el procesamiento de TPA y TP inverso (ITP)) puede implementarse también utilizando señales en el dominio de frecuencia, como en la realización de las figuras 17-18 (descrita posteriormente). Como tal, a los efectos de esta memoria descriptiva, el término "función de ajuste a escala" debe interpretarse como que abarca ya sea operaciones en el dominio de tiempo o en el dominio de frecuencia, tal como las operaciones de filtrado de las figuras 18(b) y (c).
En general, TPA 1104 y TP 1106 están diseñados preferiblemente de tal manera que no modifican la potencia de la señal (es decir, la energía). Dependiendo de la implementación particular, esta potencia de señal puede ser una potencia de señal promedio de poca duración en cada canal, por ejemplo, basada en la potencia de señal total por canal en el período de tiempo definido por la ventana de síntesis o alguna otra medida apropiada de potencia. Como tal, el ajuste a escala para síntesis de ICLD (por ejemplo, utilizando multiplicadores 408) puede aplicarse antes o después de la conformación de envolvente.
Obsérvese que en la figura 11(a), para cada canal, hay dos salidas, aplicándose el procesamiento de TP a solamente una de ellas. Esto refleja un esquema de síntesis ICC que mezcla dos componentes de señal: señales sin modificar y señales ortogonalizadas, en el que la proporción de componentes de señal sin modificar y ortogonalizadas determina la ICC. En la realización mostrada en la figura 11(a), se aplica TP a solamente la componente de señal ortogonalizada, en el que los nodos 1108 de suma recombinan las componentes de señal sin modificar con las correspondientes componentes de señal ortogonalizadas, conformadas temporalmente.
La figura 12 ilustra una aplicación a modo de ejemplo alternativa del esquema de conformación de envolvente de la figura 10 en el contexto del sintetizador 400 BCC de la figura 4, en el que se aplica conformación de envolvente en el dominio de tiempo. Tal realización puede garantizarse cuando la resolución de tiempo de la representación espectral en la que se lleva a cabo la síntesis ICTD, ICLD e ICC no es suficientemente alta para impedir eficazmente "pre-ecos" imponiendo la envolvente temporal deseada. Por ejemplo, éste puede ser el caso cuando se implementa BCC con una transformada de Fourier de tiempo corto (STFT).
Como se muestra en la figura 12(a), TPA 1204 y cada TP 1206 se implementan en el dominio de tiempo, en el que la señal de banda completa se ajusta a escala de tal manera que tiene la envolvente temporal deseada (por ejemplo, la envolvente tal como se estima a partir de la señal de suma transmitida). Las figuras 12(b) y (c) muestran implementaciones posibles de TPA 1204 y TP 1026 que son análogas a las mostradas en las figuras 11(b) y (c).
En esta realización, se aplica procesamiento de TP a la señal de salida, no solamente a las componentes de señal ortogonalizadas. En realizaciones alternativas, puede aplicarse procesamiento de TP basado en el dominio de tiempo solo a las componentes de señal ortogonalizadas, si así se desea, en cuyo caso las subbandas sin modificar y ortogonalizadas se convertirían al dominio de tiempo con bancos de filtro inversos separados.
Puesto que el ajuste a escala de banda completa de las señales de salida BCC puede dar como resultado artefactos, la conformación de envolvente podría aplicarse solamente a frecuencias especificadas, por ejemplo, frecuencias superiores a una cierta frecuencia de corte f_{TP} por ejemplo 500 Hz. Obsérvese que el intervalo de frecuencia para el análisis (TPA) puede diferir del intervalo de frecuencias para la síntesis (TP).
Las figuras 13(a) y (b) muestran implementaciones posibles de TPA 1204 y TP 1206, en el que se aplica conformación de envolvente solamente a frecuencias superiores a la frecuencia de corte f_{TP}. En particular, la figura 13(a) muestra la adición del filtro 1302 paso alto, que elimina mediante filtrado frecuencias inferiores a f_{TP} antes de la caracterización de envolvente temporal. La figura 13(b) muestra la adición del banco 1304 de filtros de dos bandas que tiene una frecuencia de corte f_{TP} entre las dos subbandas, en el que solamente la parte de alta frecuencia se conforma temporalmente. Luego el banco 1306 de filtros inversos de dos bandas recombina la parte de baja frecuencia con la parte de alta frecuencia conformada temporalmente para generar la señal de salida.
La figura 14 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 10 en el contexto del esquema de síntesis ICC basado en reverberación tardía descrito en US 2005/0180579, presentada el 01/04/04. En esta realización, TPA 1404 y cada TP 1046 se aplican en el dominio de tiempo, como en la figura 12 o la figura 13, pero en el que cada TP 1406 se aplica a la salida de un bloque 1402 de reverberación tardía (LR) diferente.
La figura 15 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1500 BCC, según una realización de la presente invención, que es una alternativa al esquema mostrado en la figura 10. En la figura 15, el bloque 1502 de síntesis BCC, el extractor 1504 de envolvente y el ajustador 1510 de envolvente son análogos al bloque 1002 de síntesis BCC, al extractor 1004 de envolvente y al ajustador 1010 de envolvente de la figura 10. En la figura 15, sin embargo, el ajustador 1508 de envolvente inverso se aplica antes de la síntesis BCC, en lugar de después de la síntesis BCC, como en la figura 10. De Esta manera, el ajustador 1508 de envolvente inverso aplana el canal base antes de que se aplique la síntesis BCC.
La figura 16 muestra un diagrama de bloques que representa al menos una parte de un descodificador 1600 BCC, según una realización de la presente invención que es una alternativa a los esquemas mostrados en las figuras 10 y 15. En la figura 16, el extractor 1604 de envolvente y el ajustador 1610 de envolvente son análogos al extractor 1504 de envolvente y al ajustador 1510 de envolvente de la figura 15. En la realización de la figura 15 sin embargo, el bloque 1602 de síntesis representa síntesis ICC basada en reverberación tardía similar a la mostrada en la figura 16. En este caso, se aplica conformación de envolvente solamente a la señal de reverberación tardía sin correlacionar y el nodo 1612 de suma agrega la señal de reverberación tardía, conformada temporalmente, al canal base original (que ya tiene la envolvente temporal deseada). Obsérvese que, en este caso, no necesita aplicarse un ajustador de envolvente inverso, debido a que la señal de reverberación tardía tiene una envolvente temporal aproximadamente plana debido a su proceso de generación en el bloque 1602.
La figura 17 ilustra una aplicación a modo de ejemplo del esquema de conformación de envolvente de la figura 15 en el contexto del sintetizador 400 BCC de la figura 4. En la figura 17, TPA 1704, TP 1708 inverso (ITP) y TP 1710 son análogos al extractor 1504 de envolvente, al ajustador 1508 de envolvente inverso y al ajustador 1510 de envolvente de la figura 15.
En esta realización basada en la frecuencia, la conformación de envolvente de sonido difuso se implementa aplicando una convolución a las divisiones de frecuencia del banco 402 de filtros (por ejemplo, STET) a lo largo del eje de frecuencia. Se hace referencia a la patente estadounidense 5.781.888 (Herre) y a la patente estadounidense 5.812.971 (Herre).
La figura 18(a) muestra un diagrama de bloques de una posible implementación del TPA 1704 de la figura 17. En esta realización, TPA 1704 se implementa como una operación de análisis de codificación predictiva lineal (LPC) que determina los coeficientes de predicción óptimos para la serie de coeficientes espectrales sobre la frecuencia. Tales técnicas de análisis LPC se conocen bien, por ejemplo por la codificación de habla, y se conocen muchos algoritmos para el cálculo eficaz de coeficientes LPC, tales como el método de autocorrelación (que implica el cálculo de la función de autocorrelación de la señal y una recursión de Levinson-Durbin posterior). Como resultado de este cálculo, están disponibles en la salida un conjunto de coeficientes LPC que representan la envolvente temporal de la
señal.
Las figuras 18(b) y (c) muestran diagramas de bloque de posibles implementaciones de ITP 1708 y TP 1710 de la figura 17. En ambas implementaciones, los coeficientes espectrales de la señal que va a procesarse se procesan en orden de frecuencia (en aumento o en disminución), que está simbolizada en la presente memoria mediante circuitos de conmutación giratorios, convirtiendo estos coeficientes en un orden en serie para el procesamiento mediante un proceso de filtrado predictivo (y de vuelta otra vez después de este procesamiento). En el caso de ITP 1708, el filtrado predictivo calcula la predicción residual y de esta manera "aplana" la envolvente de señal temporal. En el caso de TP 1710, el filtro inverso reintroduce la envolvente temporal representada por los coeficientes LPC a partir de TPA 1704.
Para el cálculo de la envolvente temporal de la señal mediante TPA 1704, es importante eliminar la influencia de la ventana de análisis del banco 402 de filtros, en caso de usarse tal ventana. Esto puede lograrse o bien normalizando la envolvente resultante por la forma de ventana de análisis (conocida) o utilizando un banco de filtros de análisis separado que no emplea una ventana de análisis.
La técnica basada en convolución/filtrado de la figura 17 también puede aplicarse en el contexto del esquema de conformación de envolvente de la figura 16, en el que el extractor 1604 de envolvente y el ajustador 1610 de envolvente están basados en la TPA de la figura 18(a) y la TP de la figura 18(c), respectivamente.
Realizaciones alternativas adicionales
Los descodificadores BCC pueden diseñarse para habilitar/deshabilitar selectivamente la conformación de envolvente. Por ejemplo, un descodificador BCC podría aplicar un esquema de síntesis BCC convencional y habilitar la conformación de envolvente cuando la envolvente temporal de la señal sintetizada fluctúa suficientemente, de tal manera que los beneficios de conformación de envolvente dominan con respecto a cualesquier artefactos que la conformación de envolvente pueda generar. Este control de habilitación/deshabilitación puede lograrse mediante:
(1) Detección de transitorios: Si se detecta un transitorio, entonces se habilita el procesamiento de TP. La detección de transitorios puede implementarse de manera anticipada para conformar eficazmente no solamente el transitorio sino también la señal poco antes y después del transitorio. Maneras posibles de detectar transitorios incluyen:
\circ
observar la envolvente temporal de la(s) señal(es) de suma BCC transmitida(s) para determinar cuándo hay un incremento repentino de potencia que indica la presencia de un transitorio, y
\circ
examinar la ganancia del filtro (LPC) predictivo. Si la ganancia de predicción LPC excede un umbral especificado, puede suponerse que la señal es transitoria o altamente fluctuante. El análisis LPC se calcula en la autocorrelación del espectro.
(2) Detección de aleatoriedad: Hay escenarios en los que la envolvente temporal fluctúa pseudoaleatoriamente. En tal escenario, ningún transitorio podría detectarse, pero el procesamiento de TP podría todavía aplicarse (por ejemplo, una señal de aplausos densa corresponde a tal escenario).
Adicionalmente, en ciertas implementaciones, con el fin de impedir artefactos posibles en señales tonales, el procesamiento de TP no se aplica cuando la tonalidad de la (s) señal(s) de suma transmitida(s) es alta.
Además, pueden usarse medidas similares en el codificador BCC para detectar cuándo debe estar activo el procesamiento de TP. Puesto que el codificador tiene acceso a todas las señales de entrada originales, puede emplear algoritmos más sofisticados (por ejemplo una parte del bloque 208 de estimación) para tomar una decisión sobre cuándo debe habilitarse el procesamiento de TP. El resultado de esta decisión (una etiqueta que señala cuándo debe estar activo TP) puede transmitirse al descodificador BCC (por ejemplo, como parte de la información lateral de la figura 2).
Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC en los que hay una única señal de suma, la presente invención también puede implementarse en el contexto de esquemas de codificación BCC que tienen dos o más señales de suma. En este caso, la envolvente temporal para cada señal de suma "base" diferente puede estimarse antes de la aplicación de la síntesis BCC, y pueden generarse diferentes canales de salida BCC basándose en diferentes envolventes temporales, dependiendo de qué señales de suma se usaron para sintetizar los diferentes canales de salida. Un canal de salida que se sintetiza a partir de dos o más canales de suma diferentes podría generarse basándose en una envolvente temporal eficaz que tiene en cuenta (por ejemplo, mediante promediación ponderada) los efectos relativos de los canales de suma constituyentes.
Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC que implican códigos de ICTD, ICLD e ICC, la presente invención también puede implementarse en el contexto de otros esquemas de codificación BCC que implican solamente uno o dos de estos tres tipos de códigos (por ejemplo, ICLD e ICC, pero no ICTD) y/o uno o más tipos de códigos adicionales. Además, la secuencia de procesamiento de síntesis BCC y conformación de envolvente puede variar en diferentes implementaciones. Por ejemplo, cuando la conformación de envolvente se aplica a señales en el dominio de frecuencia, como en las figuras 14 y 16, la conformación de envolvente podría implementarse alternativamente después de la síntesis ICTD (en aquellas realizaciones que emplean síntesis ICTD), pero antes de la síntesis ICLD. En otras realizaciones, la conformación de envolvente podría aplicarse a señales mezcladas ascendentemente antes de que se aplique cualquier otra síntesis BCC.
Aunque la presente invención se ha descrito en el contexto de esquemas de codificación BCC, la presente invención también puede implementarse en el contexto de otros sistemas de procesamiento de audio en los que se descorrelacionan señales de audio u otro procesamiento de audio que necesite descorrelacionar señales.
Aunque la presente invención se ha descrito en el contexto de implementaciones en las que el codificador recibe la señal de audio de entrada en el dominio de tiempo y genera señales de audio transmitidas en el dominio de tiempo y el descodificador recibe las señales de audio transmitidas en el dominio de tiempo y genera señales de audio de reproducción en el dominio de tiempo, la presente invención no está limitada de esta manera. Por ejemplo, en otras implementaciones, cualquiera de una o más de la señales de audio de entrada, transmitidas y de reproducción podrían representarse en un dominio de frecuencia.
Pueden usarse codificadores y/o descodificadores BCC junto con o incorporarse a una variedad de diferentes aplicaciones o sistemas, entre los que se incluyen sistemas para televisión o distribución de música electrónica, cines, emisión, flujo continuo (streaming) y/o recepción. Estos incluyen sistemas para codificar/descodificar transmisiones a través de, por ejemplo, medios terrestres, por satélite, por cable, internet, intranet o medios físicos (por ejemplo, discos compactos, discos versátiles digitales, chips semiconductores, discos duros, tarjetas de memoria y similares). También pueden usarse codificadores y/o descodificadores BCC en juegos y sistemas de juego, entre los que se incluyen, por ejemplo productos de software interactivos diseñados para interactuar con un usuario para entretenimiento (acción, juegos de rol, estrategia, aventura, simulaciones, carreras, deportes, juegos recreativos, de cartas y juegos de mesa) y/o educativos que pueden publicarse para múltiples máquinas, plataformas o medios. Además, pueden incorporarse codificadores y/o descodificadores BCC a grabadores/reproductores de audio o sistemas de CD-ROM/DVD. También pueden incorporarse codificadores y/o descodificadores BCC en aplicaciones de software para PC que incorporan descodificación digital (por ejemplo, reproductor, descodificador) y aplicaciones de software que incorporan capacidades de codificación digital (por ejemplo, codificador, ripper ("ripeador"), recodificador y gestores de música).
La presente invención puede implementarse como procesos basados en circuitos, entre los que se incluyen implementaciones posibles como un único circuito integrado (tal como un ASIC o un FPGA), un módulo de múltiples chips, una única tarjeta o un paquete de circuitos de múltiples tarjetas. Como resultará evidente para el experto en la técnica, varias funciones de los elementos de circuito también pueden implementarse como etapas de procesamiento en un programa de software. Tal software puede emplearse por ejemplo en un procesador de señales digital, microcontrolador u ordenador de propósito general.
La presente invención puede ser realizarse en forma de métodos y aparatos para poner en práctica estos métodos. La presente invención también puede realizarse en forma de código de programa implementado en medios tangibles, tales como discos flexibles, CD-ROM, discos duros o cualquier otro medio de almacenamiento legible por la máquina, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. La presente invención también puede realizarse en forma de un código de programa, por ejemplo, o bien almacenado en un medio de almacenamiento, cargado en y/o ejecutado por una máquina, o bien transmitido por algún medio o portadora de transmisión, tal como líneas o cableado eléctrico, por medio de fibras ópticas o a través de radiación electromagnética, en el que, cuando el código de programa se carga en y se ejecuta por una máquina, tal como un ordenador, la máquina se convierte en un aparato para poner en práctica la invención. Cuando se implementa en un procesador de propósito general o multiuso, los segmentos de código de programa se combinan con el procesador para proporcionar un dispositivo único que opera de manera análoga a circuitos lógicos específicos.
Se comprenderá además que los expertos en la técnica pueden realizar diversos cambios en los detalles, materiales y disposiciones de las partes que se han descrito e ilustrado con el fin de explicar la naturaleza de esta invención, sin desviarse del alcance de la invención tal como se expresa en las siguientes reivindicaciones.
Aunque las etapas en las siguientes reivindicaciones de método, si las hay, se citan en una secuencia particular con un etiquetado correspondiente, a menos que las menciones en las reivindicaciones impliquen de otra manera una secuencia particular para implementar algunas o todas estas etapas, no está previsto necesariamente que esas etapas se limiten a implementarse en esa secuencia particular.

Claims (32)

1. Método para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el método:
caracterizar la envolvente temporal de entrada de la señal de audio de entrada;
procesar la señal de audio de entrada para generar una señal de audio procesada, en el que el procesamiento descorrelaciona la señal de audio de entrada; y
ajustar la señal de audio procesada basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.
2. Invención según la reivindicación 1, en la que el procesamiento comprende síntesis de correlación intercanal (ICC).
3. Invención según la reivindicación 2, en la que la síntesis ICC es parte de la síntesis de codificación de indicación binaural (BCC).
4. Invención según la reivindicación 3, en la que la síntesis BCC comprende además al menos una síntesis de diferencia de nivel intercanal (ICLD) y síntesis de diferencia de tiempo intercanal (ICTD).
5. Invención según la reivindicación 2, en la que la síntesis ICC comprende síntesis ICC de reverberación tardía.
6. Invención según la reivindicación 1, en la que el ajuste comprende:
caracterizar una envolvente temporal procesada de la señal de audio procesada y
ajustar la señal de audio procesada basándose tanto en la envolvente temporal procesada como en la de entrada caracterizadas para generar la señal de audio de salida.
7. Invención según la reivindicación 6, caracterizado porque el ajuste comprende:
generar una función de ajuste a escala basándose en las envolventes temporales de entrada y procesada caracterizadas; y aplicar la función de ajuste a escala a la señal
\hbox{de audio procesada para generar la señal de audio
de salida.}
8. Invención según la reivindicación 1, que comprende además ajustar la señal de audio de entrada basándose en la envolvente temporal de entrada caracterizada para generar una señal de audio aplanada, en la que el procesamiento se aplica a la señal de audio aplanada para generar la señal d audio procesada.
9. Invención según la reivindicación 1, en la que:
el procesamiento genera una señal procesada no correlacionada y una señal procesada correlacionada; y
el ajuste se aplica a la señal procesada no correlacionada para generar una señal procesada ajustada, en la que
la señal de salida se genera sumando la señal procesada ajustada y la señal procesada correlacionada.
10. Invención según la reivindicación 1, en la que:
la caracterización se aplica solamente a frecuencias especificadas de la señal de audio de entrada; y el ajuste se aplica solamente a las frecuencias especificadas de la señal de audio procesada.
11. Invención según la reivindicación 10, en la que:
la caracterización se aplica solamente a frecuencias de la señal de audio de entrada por encima de una frecuencia de corte especificada; y
el ajuste se aplica solamente a frecuencias de la señal de audio procesada por encima de la frecuencia de corte especificada.
12. Invención según la reivindicación 1, en la que cada uno de la caracterización, el procesamiento y el ajuste se aplica a una señal en el dominio de frecuencia.
13. Invención según la reivindicación 12, en la que cada uno de la caracterización, el procesamiento y el ajuste se aplica individualmente a diferentes subbandas de señal.
14. Invención según la reivindicación 12, en la que el dominio de frecuencia corresponde a una transformada de Fourier rápida (FFT).
15. Invención según la reivindicación 12, en la que el dominio de frecuencia corresponde a un filtro de espejo en cuadratura (QMF).
16. Invención según la reivindicación 1, en la que cada uno de la caracterización y el ajuste se aplica a una señal en el dominio de tiempo.
17. Invención según la reivindicación 16, en la que el procesamiento se aplica a una señal en el dominio de frecuencia.
18. Invención según la reivindicación 17, en la que el dominio de frecuencia corresponde a una transformada de Fourier rápida (FFT).
19. Invención según la reivindicación 17, en la que el dominio de frecuencia corresponde a un filtro de espejo en cuadratura (QMF).
20. Invención según la reivindicación 1, que comprende además determinar si se habilita o deshabilita la caracterización y el ajuste.
21. Invención según la reivindicación 20, en el que la determinación se basa en una etiqueta de habilitación/deshabi-
litación generada por un codificador de audio que generó la señal de audio de entrada.
22. Invención según la reivindicación 20, en el que la determinación se basa en analizar la señal de audio de entrada para detectar transitorios en la señal de audio de entrada, de tal manera que la caracterización y el ajuste se habilitan si se detecta la presencia de un transitorio.
23. Aparato para convertir una señal de audio de entrada que tiene una envolvente temporal de entrada en una señal de audio de salida que tiene una envolvente temporal de salida, comprendiendo el aparato:
medios para la caracterización de la envolvente temporal de entrada de la señal de audio de entrada;
medios para el procesamiento de la señal de audio de entrada para generar una señal de audio procesada, en el que los medios para el procesamiento están adaptados para descorrelacionar la señal de audio de entrada; y
medios para el ajuste de la señal de audio procesada, basándose en la envolvente temporal de entrada caracterizada para generar la señal de audio de salida, en el que la envolvente temporal de salida coincide sustancialmente con la envolvente temporal de entrada.
24. Aparato según la reivindicación 23,
en el que los medios para la caracterización incluyen un extractor de envolvente,
en el que los medios para el procesamiento incluyen un sintetizador adaptado para procesar la señal de audio de entrada; y
en el que los medios para el ajuste incluyen un ajustador de envolvente adaptado para ajustar la señal de audio procesada.
25. Invención según la reivindicación 24, en la que
el aparato es un sistema seleccionado del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de emisión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y
el sistema comprende el extractor de envolvente, el sintetizador y el ajustador de envolvente.
26. Método para codificar C canales de audio de entrada para generar E canal(es) de audio transmitido(s), comprendiendo el método:
generar uno o más códigos de indicación para dos o más de los C canales de entrada;
mezclar descendentemente los C canales de entrada para generar el (los) E canal(es) transmitido(s), siendo C > E \geq 1; y
analizar uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s) para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), incluyendo la etapa de análisis la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio, o incluyendo una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o incluyendo una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son) tonal(es).
27. Invención según la reivindicación 26, en la que la conformación de envolvente ajusta una envolvente temporal de un canal descodificado generado por el descodificador para que coincida sustancialmente con una envolvente temporal de un canal transmitido correspondiente.
28. Aparato para la codificación de C canales de audio de entrada para generar E canal(es) de audio transmitido(s), comprendiendo el aparato:
medios para la generación de uno o más códigos de indicación para dos o más de los C canales de entrada;
medios para mezclar descendentemente los C canales de entrada para generar el (los) E canal(es) transmitido(s), siendo C > E \geq 1; y
medios para el análisis de uno o más de los C canales de entrada y el (los) E canal(es) transmitido(s) para generar una etiqueta que indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), incluyendo los medios para el análisis la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio, o incluyendo una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o incluyendo una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son) tonal(es).
29. Aparato según la reivindicación 28,
en el que los medios para la generación incluyen un estimador de código; y
en el que los medos para la mezcla descendente incluyen un mezclador descendente.
30. Invención según la reivindicación 29, en la que: el aparato es un sistema seleccionado del grupo que consiste en un reproductor de vídeo digital, un reproductor de audio digital, un ordenador, un receptor de satélite, un receptor de cable, un receptor de emisión terrestre, un sistema de entretenimiento en casa y un sistema de cine; y
el sistema comprende el estimador de código y el mezclador descendente.
31. Flujo de bits de audio codificado generado codificando C canales de audio de entrada para generar E canal(es) de audio transmitido(s), en el que:
se generan uno o más códigos de indicación para dos o más de los C canales de entrada;
los C canales de entrada se mezclan descendentemente para generar E canal(es) transmitido(s), siendo C > E \geq 1;
se genera una etiqueta analizando uno o más de los C canales de entrada y los E canal(es) transmitido(s), en el que la etiqueta indica si un descodificador del (de los) E canal(es) transmitido(s) debe efectuar o no conformación de envolvente durante la descodificación del (de los) E canal(es) transmitido(s), determinándose la etiqueta mediante la detección de transitorios de manera anticipada para la conformación, en el descodificador, no solamente de un transitorio, sino también de una señal antes y después del transitorio, ajustándose la etiqueta cuando se detecta un transitorio mediante una detección de aleatoriedad para detectar si una envolvente temporal está fluctuando de manera pseudoaleatoria, ajustándose la etiqueta cuando una envolvente temporal está fluctuando de manera pseudoaleatoria, o mediante una detección de tonalidad para no ajustar la etiqueta cuando el (los) E canal(es) transmitido(s) es(son)
tonal(es); y
el (los) E canal(es) transmitido(s), el uno o más códigos de indicación y la etiqueta se codifican para dar el flujo de bits de audio codificado.
32. Código de programa informático que tiene instrucciones legibles por máquina para efectuar, cuando el código de programa se ejecuta por una máquina, un método para convertir una señal de audio de entrada según la reivindicación 1 o un método para codificar C canales de audio de entrada según la reivindicación 26.
ES05785586T 2004-10-20 2005-09-12 Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares. Active ES2317297T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US62040104P 2004-10-20 2004-10-20
US620401P 2004-10-20
US6492 2004-12-07
US11/006,492 US8204261B2 (en) 2004-10-20 2004-12-07 Diffuse sound shaping for BCC schemes and the like

Publications (1)

Publication Number Publication Date
ES2317297T3 true ES2317297T3 (es) 2009-04-16

Family

ID=36181866

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05785586T Active ES2317297T3 (es) 2004-10-20 2005-09-12 Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares.

Country Status (20)

Country Link
US (2) US8204261B2 (es)
EP (1) EP1803325B1 (es)
JP (1) JP4625084B2 (es)
KR (1) KR100922419B1 (es)
CN (2) CN101853660B (es)
AT (1) ATE413792T1 (es)
AU (1) AU2005299070B2 (es)
BR (1) BRPI0516392B1 (es)
CA (1) CA2583146C (es)
DE (1) DE602005010894D1 (es)
ES (1) ES2317297T3 (es)
HK (1) HK1104412A1 (es)
IL (1) IL182235A (es)
MX (1) MX2007004725A (es)
NO (1) NO339587B1 (es)
PL (1) PL1803325T3 (es)
PT (1) PT1803325E (es)
RU (1) RU2384014C2 (es)
TW (1) TWI330827B (es)
WO (1) WO2006045373A1 (es)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260393B2 (en) 2003-07-25 2012-09-04 Dexcom, Inc. Systems and methods for replacing signal data artifacts in a glucose sensor data stream
US8010174B2 (en) 2003-08-22 2011-08-30 Dexcom, Inc. Systems and methods for replacing signal artifacts in a glucose sensor data stream
US20140121989A1 (en) 2003-08-22 2014-05-01 Dexcom, Inc. Systems and methods for processing analyte sensor data
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
JPWO2006059567A1 (ja) * 2004-11-30 2008-06-05 松下電器産業株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
CN101151659B (zh) * 2005-03-30 2014-02-05 皇家飞利浦电子股份有限公司 多通道音频编码器、设备、方法及其解码器、设备和方法
CN101138274B (zh) * 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
EP1905004A2 (en) * 2005-05-26 2008-04-02 LG Electronics Inc. Method of encoding and decoding an audio signal
KR101251426B1 (ko) * 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US8082157B2 (en) * 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
JP5108767B2 (ja) * 2005-08-30 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
JP5173811B2 (ja) * 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
EP1922722A4 (en) * 2005-08-30 2011-03-30 Lg Electronics Inc METHOD FOR DECODING A SOUND SIGNAL
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
WO2007032648A1 (en) * 2005-09-14 2007-03-22 Lg Electronics Inc. Method and apparatus for decoding an audio signal
KR100857111B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
ES2478004T3 (es) * 2005-10-05 2014-07-18 Lg Electronics Inc. Método y aparato para decodificar una señal de audio
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
ES2335246T3 (es) * 2006-03-13 2010-03-23 France Telecom Sintesis y especializacion sonora conjunta.
WO2007107670A2 (fr) * 2006-03-20 2007-09-27 France Telecom Procede de post-traitement d'un signal dans un decodeur audio
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
CN101652810B (zh) * 2006-09-29 2012-04-11 Lg电子株式会社 用于处理混合信号的装置及其方法
WO2008039041A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2084901B1 (en) 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
US7555354B2 (en) * 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101062353B1 (ko) 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
WO2008082276A1 (en) * 2007-01-05 2008-07-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
CN101627425A (zh) * 2007-02-13 2010-01-13 Lg电子株式会社 用于处理音频信号的装置和方法
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JP5355387B2 (ja) * 2007-03-30 2013-11-27 パナソニック株式会社 符号化装置および符号化方法
US8548615B2 (en) * 2007-11-27 2013-10-01 Nokia Corporation Encoder
WO2009075511A1 (en) * 2007-12-09 2009-06-18 Lg Electronics Inc. A method and an apparatus for processing a signal
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
JP5524237B2 (ja) * 2008-12-19 2014-06-18 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
JP5365363B2 (ja) * 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
JP2011048101A (ja) * 2009-08-26 2011-03-10 Renesas Electronics Corp 画素回路および表示装置
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
WO2011104146A1 (en) 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
CA3097372C (en) 2010-04-09 2021-11-30 Dolby International Ab Mdct-based complex prediction stereo coding
KR20120004909A (ko) 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101429564B1 (ko) 2010-09-28 2014-08-13 후아웨이 테크놀러지 컴퍼니 리미티드 디코딩된 다중채널 오디오 신호 또는 디코딩된 스테레오 신호를 포스트프로세싱하기 위한 장치 및 방법
EP2612321B1 (en) * 2010-09-28 2016-01-06 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
US9462387B2 (en) * 2011-01-05 2016-10-04 Koninklijke Philips N.V. Audio system and method of operation therefor
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2856776B1 (en) 2012-05-29 2019-03-27 Nokia Technologies Oy Stereo audio signal encoder
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US20140379333A1 (en) * 2013-02-19 2014-12-25 Max Sound Corporation Waveform resynthesis
US9191516B2 (en) * 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
WO2014210284A1 (en) 2013-06-27 2014-12-31 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
JP6242489B2 (ja) 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
RU2642386C2 (ru) 2013-10-03 2018-01-24 Долби Лабораторис Лайсэнзин Корпорейшн Адаптивное генерирование рассеянного сигнала в повышающем микшере
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
RU2571921C2 (ru) * 2014-04-08 2015-12-27 Общество с ограниченной ответственностью "МедиаНадзор" Способ фильтрации бинауральных воздействий в аудиопотоках
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2017125559A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
CA2985019C (en) 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
CN110800048B (zh) * 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
TWI687919B (zh) * 2017-06-15 2020-03-11 宏達國際電子股份有限公司 音頻訊號處理方法、音頻定位系統以及非暫態電腦可讀取媒體
CN109326296B (zh) * 2018-10-25 2022-03-18 东南大学 一种非自由场条件下的散射声有源控制方法
WO2020100141A1 (en) * 2018-11-15 2020-05-22 Boaz Innovative Stringed Instruments Ltd. Modular string instrument
KR102603621B1 (ko) * 2019-01-08 2023-11-16 엘지전자 주식회사 신호 처리 장치 및 이를 구비하는 영상표시장치

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4236039A (en) 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
US4815132A (en) 1985-08-30 1989-03-21 Kabushiki Kaisha Toshiba Stereophonic voice signal transmission system
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
DE69734543T2 (de) 1996-02-08 2006-07-20 Koninklijke Philips Electronics N.V. Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung
US5825776A (en) 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
KR0175515B1 (ko) 1996-04-15 1999-04-01 김광호 테이블 조사 방식의 스테레오 구현 장치와 방법
US6987856B1 (en) 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US5860060A (en) 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US5946352A (en) 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6108584A (en) 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
MY121856A (en) * 1998-01-26 2006-02-28 Sony Corp Reproducing apparatus.
US6021389A (en) 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000151413A (ja) 1998-11-10 2000-05-30 Matsushita Electric Ind Co Ltd オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2000152399A (ja) 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
EP1173925B1 (en) 1999-04-07 2003-12-03 Dolby Laboratories Licensing Corporation Matrixing for lossless encoding and decoding of multichannels audio signals
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
JP4842483B2 (ja) 1999-12-24 2011-12-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネルオーディオ信号処理装置及び方法
US6782366B1 (en) 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
JP2001339311A (ja) 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
US6996521B2 (en) 2000-10-04 2006-02-07 The University Of Miami Auxiliary channel masking in an audio signal
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) * 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP2003044096A (ja) 2001-08-03 2003-02-14 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム
EP1421720A4 (en) * 2001-08-27 2005-11-16 Univ California COCHLEAR IMPLANTS AND APPARATUSES / METHODS FOR IMPROVING AUDIO SIGNALS BY IMPLEMENTING FREQUENCY MODULATION AND AMPLITUDE (FAME) CODING STRATEGIES
US6539957B1 (en) * 2001-08-31 2003-04-01 Abel Morales, Jr. Eyewear cleaning apparatus
CN1705980A (zh) 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
ES2268340T3 (es) 2002-04-22 2007-03-16 Koninklijke Philips Electronics N.V. Representacion de audio parametrico de multiples canales.
DE60326782D1 (de) 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
EP2879299B1 (en) 2002-05-03 2017-07-26 Harman International Industries, Incorporated Multi-channel downmixing device
US6940540B2 (en) 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
AU2003244932A1 (en) 2002-07-12 2004-02-02 Koninklijke Philips Electronics N.V. Audio coding
EP1523863A1 (en) 2002-07-16 2005-04-20 Koninklijke Philips Electronics N.V. Audio coding
WO2004008437A2 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US8437868B2 (en) 2002-10-14 2013-05-07 Thomson Licensing Method for coding and decoding the wideness of a sound source in an audio scene
KR101008520B1 (ko) 2002-11-28 2011-01-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 코딩
JP2004193877A (ja) 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR101049751B1 (ko) 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
US20060171542A1 (en) 2003-03-24 2006-08-03 Den Brinker Albertus C Coding of main and side signal representing a multichannel signal
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
US7343291B2 (en) 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US20050069143A1 (en) 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7672838B1 (en) 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths

Also Published As

Publication number Publication date
KR100922419B1 (ko) 2009-10-19
US20090319282A1 (en) 2009-12-24
HK1104412A1 (en) 2008-01-11
PL1803325T3 (pl) 2009-04-30
IL182235A (en) 2011-10-31
MX2007004725A (es) 2007-08-03
WO2006045373A1 (en) 2006-05-04
CN101044794A (zh) 2007-09-26
NO20071492L (no) 2007-07-19
PT1803325E (pt) 2009-02-13
RU2007118674A (ru) 2008-11-27
AU2005299070B2 (en) 2008-12-18
ATE413792T1 (de) 2008-11-15
US8238562B2 (en) 2012-08-07
BRPI0516392B1 (pt) 2019-01-15
TW200627382A (en) 2006-08-01
US8204261B2 (en) 2012-06-19
JP2008517334A (ja) 2008-05-22
EP1803325A1 (en) 2007-07-04
CN101044794B (zh) 2010-09-29
EP1803325B1 (en) 2008-11-05
RU2384014C2 (ru) 2010-03-10
CN101853660B (zh) 2013-07-03
CN101853660A (zh) 2010-10-06
IL182235A0 (en) 2007-09-20
CA2583146C (en) 2014-12-02
DE602005010894D1 (de) 2008-12-18
JP4625084B2 (ja) 2011-02-02
BRPI0516392A (pt) 2008-09-02
NO339587B1 (no) 2017-01-09
US20060085200A1 (en) 2006-04-20
CA2583146A1 (en) 2006-05-04
KR20070061882A (ko) 2007-06-14
TWI330827B (en) 2010-09-21
AU2005299070A1 (en) 2006-05-04

Similar Documents

Publication Publication Date Title
ES2317297T3 (es) Conformacion de envolvente de sonido difuso para esquemas de codificacion de indicacion binaural y similares.
ES2323275T3 (es) Conformacion de envolvente temporal de canal individual para esquemas de codificacion de indicacion binaural y similares.
ES2623365T3 (es) Compactación de información secundaria para la codificación paramétrica de audio espacial
TWI427621B (zh) 編碼聲音通道及解碼經傳輸之聲音通道之方法、裝置及機器可讀取媒體
JP4856653B2 (ja) 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング
BRPI0518507B1 (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial