ES2323294T3 - Dispositivo de decodificacion con una unidad de decorrelacion. - Google Patents

Dispositivo de decodificacion con una unidad de decorrelacion. Download PDF

Info

Publication number
ES2323294T3
ES2323294T3 ES07119364T ES07119364T ES2323294T3 ES 2323294 T3 ES2323294 T3 ES 2323294T3 ES 07119364 T ES07119364 T ES 07119364T ES 07119364 T ES07119364 T ES 07119364T ES 2323294 T3 ES2323294 T3 ES 2323294T3
Authority
ES
Spain
Prior art keywords
signal
digital
sub
parameter
composite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES07119364T
Other languages
English (en)
Inventor
Dirk J. Breebaart
Steven L. J. D. E. Van De Par
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29255420&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2323294(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2323294T3 publication Critical patent/ES2323294T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

Aparato de decodificación para decodificar una señal de audio digital codificada que comprende al menos una primera y una segunda componente de señal de audio digital, que se han codificado a una señal (X) digital compuesta y una señal (P) de parámetro, comprendiendo el aparato de decodificación: - una unidad (210) de entrada para recibir una señal de transmisión, - una unidad (210) de demultiplexor para recuperar la señal digital compuesta y la señal de parámetro a partir de la señal de transmisión, - una unidad (401) de decorrelador para generar a partir de la señal digital compuesta una versión decorrelacionada de la señal digital compuesta, - una unidad (403) de matrizado para recibir la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta y generar a partir de las mismas una réplica de la primera y segunda componente de señal de audio digital, - siendo la réplica de la primera componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro, - siendo la réplica de la segunda componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro.

Description

Dispositivo de decodificacion con una unidad de decorrelación.
Campo de la invención
Esta invención se refiere a la decodificación de señales de audio y, más en particular, a la decodificación de señales de audio multicanal.
Antecedentes de la invención
Dentro del campo de la codificación de audio se desea en general codificar una señal de audio, por ejemplo para reducir la tasa de transmisión de bits para comunicar la señal, o el requisito de almacenamiento para almacenar la señal, sin comprometer en exceso la calidad de percepción de la señal de audio. Este es un problema importante cuando las señales de audio van a transmitirse a través de canales de comunicaciones de capacidad limitada o cuando van a almacenarse en un medio de almacenamiento que tiene una capacidad limitada.
Las soluciones anteriores en codificadores de audio que se han sugerido para reducir la tasa de transmisión de bits de material de programa estéreo incluyen:
"Estéreo intensivo". En este algoritmo, se representan altas frecuencias (normalmente por encima de 5 kHz) mediante una única señal de audio (por ejemplo, mono), combinada con factores de escala variables en el tiempo y dependientes de la frecuencia.
"Estéreo M/S". En este algoritmo, la señal se descompone en una señal suma (o media, o común) y una señal diferencia (o lado, o no común). Esta descomposición se combina a veces con análisis de componentes principales o factores de escala variables en el tiempo. Estas señales se codifican entonces de forma independiente, o bien mediante un codificador de transformada o codificador de forma de onda. La cantidad de reducción de información lograda por este algoritmo depende en gran medida de las propiedades espaciales de la señal de fuente. Por ejemplo, si la señal de fuente es monoaural, la señal diferencia es cero y puede descartarse. Sin embargo, si la correlación de las señales de audio izquierda y derecha es baja (que es el caso más frecuente), este esquema supone sólo cierta ventaja.
Las descripciones paramétricas de señales de audio han cobrado interés durante los últimos años, en especial en el campo de la codificación de audio. Se ha mostrado que transmitir parámetros (cuantificados) que describen señales de audio requiere sólo poca capacidad de transmisión para resintetizar una señal perceptiblemente igual en el extremo de recepción. Sin embargo, los codificadores de audio paramétricos actuales se centran en la codificación de señales monoaurales, y las señales estéreo se procesan con frecuencia como mono dual.
La solicitud de patente europea EP 1 107 232 da a conocer un procedimiento de codificación de una señal estéreo que tiene una componente L y una R, en la que la señal estéreo se representa por una de las componentes estéreo y fase de captura de información paramétrica y diferencias de nivel de la señal de audio. En el decodificador, la otra componente estéreo se recupera basándose en la componente estéreo codificada y la información paramétrica.
El documento GB-A-2353926 da a conocer la creación de un par de señales decorrelacionadas con filtros en peine complementarios.
Sumario de la invención
Un objeto de la presente invención es resolver el problema de proporcionar una decodificación de audio mejorada que produzca una alta calidad de percepción de la señal recuperada.
Según la invención, se proporciona un aparato de decodificación tal como se expone en la reivindicación 1. En las reivindicaciones dependientes se exponen realizaciones preferidas.
A modo de ejemplo, existe un procedimiento de codificación de una señal de audio, comprendiendo el procedimiento:
- generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,
- determinar un conjunto de parámetros espaciales indicativo de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y
- generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales.
El inventor ha observado que codificando una señal de audio multicanal como una señal de audio monoaural y un número de atributos espaciales que comprenden una medida de similitud de las formas de onda correspondientes, puede recuperarse la señal multicanal con una alta calidad de percepción. Una ventaja adicional del ejemplo es que proporciona una codificación eficaz de una señal multicanal, es decir una señal que comprende al menos un primer y segundo canal, por ejemplo una señal estéreo, una señal cuadrafónica, etc.
Por lo tanto, según un aspecto del ejemplo, se parametrizan atributos espaciales de señales de audio multicanal. Para aplicaciones generales de codificación de audio, transmitir estos parámetros combinados con sólo una señal de audio monoaural reduce en gran medida la capacidad de transmisión necesaria para transmitir la señal estéreo en comparación con codificadores de audio que procesan los canales de forma independiente, mientras se mantiene la impresión espacial original. Un problema importante es que aunque las personas reciben formas de onda de un objeto auditivo dos veces (una vez por el oído izquierdo y una vez por el oído derecho), sólo se percibe un único objeto auditivo en una posición determinada y con un tamaño determinado (o dispersión espacial).
Por tanto, parece innecesario describir señales de audio como dos o más formas de onda (independientes) y sería mejor describir el audio multicanal como un conjunto de objetos auditivos, cada uno con sus propiedades espaciales propias. Una dificultad que surge inmediatamente es el hecho de que es casi imposible separar de forma automática objetos auditivos individuales a partir de un conjunto dado de objetos auditivos, por ejemplo una grabación musical. Este problema puede evitarse no dividiendo el material de programa en objetos auditivos individuales, sino describiendo en su lugar los parámetros espaciales de forma que se parezca al procesamiento efectivo (periférico) del sistema auditivo. Cuando los atributos espaciales comprenden una medida de (di)similitud de las formas de onda correspondientes, se logra una codificación eficaz al tiempo que se mantiene un nivel de calidad de percepción alto.
En particular, la descripción paramétrica de audio multicanal presentada en este caso está relacionada con el modelo de procesamiento binaural presentado por Breebaart et al. Este modelo tiene por objeto describir el procesamiento de señal eficaz del sistema auditivo binaural. Para una descripción del modelo de procesamiento binaural por Breebaart et al., véase Breebaart, J., van de Par, S. y Kohlrausch, A. (2001a). Binaural processing model based on contralateral inhibition. I. Model setup. J. Acoust. Soc. Am., 110, 1074-1088; Breebaart, J., van de Par, S. y Kohlrausch, A. (2001b). Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters. J. Acoust. Soc. Am., 110, 1089-1104; y Breebaart, J., van de Par, S. y Kohlrausch, A. (2001c). Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters. J. Acoust. Soc. Am., 110, 1105-1117. A continuación se da una interpretación resumida que ayuda a comprender el ejemplo.
En un ejemplo preferido, el conjunto de parámetros espaciales incluye al menos una indicación de localización. Cuando los atributos espaciales comprenden una o más, preferiblemente dos, indicaciones de localización así como una medida de (di)similitud de las formas de onda correspondientes, se logra una codificación particularmente eficaz al tiempo que se mantiene un nivel de calidad de percepción particularmente alto.
El término indicación de localización comprende cualquier parámetro adecuado que incluye información acerca de la localización de objetos auditivos que contribuyen a la señal de audio, por ejemplo la orientación de y/o la distancia a un objeto auditivo.
En un ejemplo preferido, el conjunto de parámetros espaciales incluye al menos dos indicaciones de localización que comprenden una diferencia de nivel entre canales (interchannel level difference, ILD) y una seleccionada de una diferencia de tiempo entre canales (interchannel time difference, ITD) y una diferencia de fase entre canales (interchannel phase difference, IPD). Es interesante mencionar que la diferencia de nivel entre canales y la diferencia de tiempo entre canales se consideran como las indicaciones de localización más importantes en el plano
horizontal.
La medida de similitud de las formas de onda correspondientes al primer y segundo canales de audio puede ser cualquier función adecuada que describa cómo de similares o disimilares son las formas de onda correspondientes. Por lo tanto, la medida de similitud puede ser una función de similitud creciente, por ejemplo un parámetro determinado a partir de la (función de) correlación cruzada entre canales.
Según un ejemplo preferido, la medida de similitud corresponde a un valor de una función de correlación cruzada en un máximo de dicha función de correlación cruzada (también conocida como coherencia). La máxima correlación cruzada entre canales está relacionada en gran medida con la dispersión espacial de percepción (o compacidad) de una fuente de sonido, es decir proporciona información adicional que no se tiene en cuenta por las indicaciones de localización anteriores, proporcionando así un conjunto de parámetros con un bajo grado de redundancia de la información que incluyen y, por tanto, proporcionando una codificación eficaz.
Se observa que, de forma alternativa, pueden usarse otras medidas de similitud, por ejemplo una función creciente con la disimilitud de las formas de onda. Un ejemplo de una función de este tipo es 1-c, donde c es una correlación cruzada que puede asumir valores entre 0 y 1.
Según un ejemplo preferido, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.
Los inventores saben que es suficiente para describir atributos espaciales de cualquier señal de audio multicanal, especificar la ILD, ITD (o IPD) y la máxima correlación en función del tiempo y la frecuencia.
\global\parskip0.930000\baselineskip
En un ejemplo preferido adicional, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende
- dividir cada uno de los al menos dos canales de audio de entrada en pluralidades de bandas de frecuencia correspondientes;
- para cada una de la pluralidad de bandas de frecuencia determinar el conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada dentro de la banda de frecuencia correspondiente.
Por lo tanto, la señal de audio entrante se divide en varias señales limitadas por banda, que están (preferiblemente) separadas linealmente en una escala de tasa de transmisión ERB. Preferiblemente los filtros de análisis muestran una superposición parcial en el dominio de la frecuencia y/o del tiempo. El ancho de banda de estas señales depende de la frecuencia central, siguiendo la tasa de transmisión ERB. Posteriormente, preferiblemente para cada banda de frecuencia, se analizan las siguientes propiedades de las señales entrantes:
- la diferencia de nivel entre canales, o ILD, definida por los niveles relativos de la señal limitada por banda procedente de las señales izquierda y derecha,
- la diferencia de tiempo (o de fase) entre canales (ITD o IPD), definida por el retardo entre canales (o desplazamiento de fase) correspondiente a la posición del pico en la función de correlación cruzada entre canales, y
- la (di)similitud de las formas de onda que no puede tenerse en cuenta por las ITD o las ILD, que puede parametrizarse por la máxima correlación cruzada entre canales (es decir, el valor de la función de correlación cruzada normalizada en la posición del pico máximo, también conocida como coherencia).
Los tres parámetros descritos anteriormente varían con el tiempo; sin embargo, puesto que el sistema auditivo binaural es muy lento en su procesamiento, la tasa de actualización de estas propiedades es bastante baja (normalmente decenas de milisegundos).
Puede asumirse en este caso que las propiedades (lentamente) variables en el tiempo mencionadas anteriormente son las únicas propiedades de señal espacial de las que dispone el sistema auditivo binaural, y que a partir de estos parámetros dependientes de tiempo y frecuencia, el mundo auditivo percibido se reconstruye por niveles más altos del sistema auditivo.
Un ejemplo tiene por objeto describir una señal de audio multicanal mediante:
una señal monoaural, que consiste en una combinación determinada de las señales de entrada, y
un conjunto de parámetros espaciales: dos indicaciones de localización (ILD, e ITD o IPD) y un parámetro que describe la similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD y/o las ITD (por ejemplo, el máximo de la función de correlación cruzada) preferiblemente para cada ranura de tiempo/frecuencia. Preferiblemente, se incluyen parámetros espaciales para cada canal auditivo adicional.
Un problema importante de la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que está directamente relacionado con la capacidad de transmisión necesaria.
Según otro ejemplo más, la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en el que al menos uno de los errores de cuantificación introducidos se controla para depender de un valor de al menos uno de los parámetros espaciales determinados.
Por lo tanto, el error de cuantificación introducido por la cuantificación de los parámetros se controla según la sensibilidad del sistema auditivo humano a los cambios en estos parámetros. Esta sensibilidad depende en gran medida de los valores de los propios parámetros. De este modo, controlando el error de cuantificación para que dependa de los valores de los parámetros, se logra una codificación mejorada.
Una ventaja del ejemplo es que proporciona un desacoplamiento de parámetros de señal monoaurales y binaurales en codificadores de audio. Por consiguiente, las dificultades relacionadas con codificadores de audio estéreo se reducen en gran medida (tal como la audibilidad de ruido de cuantificación no correlacionado interauralmente en comparación con ruido de cuantificación correlacionado interauralmente, o inconsistencias de fase interaural en codificadores paramétricos que están codificando en modo mono dual).
Una ventaja adicional del ejemplo es que se logra una gran reducción de la tasa de transmisión de bits en codificadores de audio debido a una baja tasa de actualización y una baja resolución de frecuencia requerida para los parámetros espaciales. La tasa de transmisión de bits asociada para codificar los parámetros espaciales es normalmente 10 kbit/s o menos (véase la realización que se describe a continuación).
\global\parskip1.000000\baselineskip
Una ventaja adicional del ejemplo es que puede combinarse fácilmente con codificadores de audio existentes. El esquema propuesto produce una señal mono que puede codificarse y decodificarse con cualquier estrategia de codificación existente. Después de la decodificación monoaural, el sistema descrito en este caso regenera una señal multicanal estéreo con los atributos espaciales apropiados.
Puede usarse el conjunto de parámetros espaciales como una capa de mejora en codificadores de audio. Por ejemplo, una señal mono se transmite sólo si se permite una baja tasa de transmisión de bits, mientras que incluyendo la capa de mejora espacial el decodificador puede reproducir sonido estéreo.
Se observa que el ejemplo no está limitado a señales estéreo sino que puede aplicarse a cualquier señal multicanal que comprenda n canales (n>1). En particular, el ejemplo puede usarse para generar n canales a partir de una señal mono, si se transmiten (n-1) conjuntos de parámetros espaciales. En este caso, los parámetros espaciales describen cómo formar los n canales de audio diferentes a partir de la única señal mono.
El presente ejemplo puede implementarse de diferentes formas incluyendo el procedimiento descrito anteriormente y a continuación, un procedimiento de decodificación de una señal de audio codificada, un codificador, un decodificador, y medios de producción adicionales, produciendo cada uno, uno o más de los beneficios y ventajas descritos en conexión con el procedimiento mencionado en primer lugar, y teniendo cada uno, uno o más ejemplos preferidos correspondientes a los ejemplos preferidos descritos en conexión con el procedimiento mencionado en primer
lugar.
Se observa que las características del procedimiento descrito anteriormente y a continuación pueden implementarse en software y llevarse a cabo en un sistema de procesamiento de datos u otros medios de procesamiento producidos por la ejecución de instrucciones ejecutables por ordenador. Las instrucciones pueden ser medios de código de programa cargados en una memoria, tal como una RAM, a partir de un medio de almacenamiento o a partir de otro ordenador a través de una red informática. De forma alternativa, las características descritas pueden implementarse mediante circuitería cableada en lugar de en software o en combinación con software.
El ejemplo se refiere además a un codificador para la codificación de una señal de audio, comprendiendo el codificador:
- medios para generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,
- medios para determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y
- medios para generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales.
Se observa que los medios anteriores para generar una señal monoaural, los medios para determinar un conjunto de parámetros espaciales así como los medios para generar una señal codificada pueden implementarse mediante cualquier circuito o dispositivo adecuado, por ejemplo como microprocesadores programables de propósito general o especial, procesadores de señal digital (Digital Signal Processors, DSP), circuitos integrados de aplicación específica (Application Specific Integrated Circuits, ASIC), disposiciones lógicas programables (PLA, Programmable Logic Arrays), disposiciones de puertas programables en campo (Field Programmable Gate Arrays, FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.
El ejemplo se refiere además a un aparato para suministrar una señal de audio, comprendiendo el aparato:
- una entrada para recibir una señal de audio,
- un codificador según se describió anteriormente y a continuación para la codificación de la señal de audio para obtener una señal de audio codificada, y
- una salida para suministrar la señal de audio codificada.
El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como ordenadores fijos o portátiles, equipos de radiocomunicación fijos o portátiles u otros dispositivos de bolsillo o portátiles, tales como reproductores multimedia, dispositivos de grabación, etc. El término equipo de radiocomunicación portátil incluye todo equipo tal como teléfonos móviles, buscapersonas, comunicadores, es decir organizadores electrónicos, teléfonos inteligentes (smart phones), asistentes digitales personales (personal digital assistant, PDA), ordenadores de bolsillo, o similares.
La entrada puede comprender cualquier circuitería o dispositivo adecuado para recibir una señal de audio multicanal en forma analógica o digital, por ejemplo a través de una conexión cableada, tal como una línea de jack, a través de una conexión inalámbrica, por ejemplo una señal de radio, o en cualquier otra forma adecuada.
De forma similar, la salida puede comprender cualquier circuitería o dispositivo adecuado para suministrar la señal codificada. Ejemplos de tales salidas incluyen una interfaz de red para proporcionar la señal a una red informática, tal como una LAN, Internet, o similares, circuitería de comunicaciones para comunicar la señal a través de un canal de comunicaciones, por ejemplo, un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la salida puede comprender un dispositivo para almacenar una señal en un medio de almacenamiento.
El ejemplo se refiere además a una señal de audio codificada, comprendiendo la señal:
- una señal monoaural que comprende una combinación de al menos dos canales de audio, y
- un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada.
El ejemplo se refiere además a un medio de almacenamiento que tiene almacenado en el mismo una señal codificada de este tipo. En este caso, el término medio de almacenamiento comprende pero no está limitado a una cinta magnética, un disco óptico, un disco de vídeo digital (DVD), un disco compacto (CD o CD-ROM), un minidisc, un disco duro, un disco flexible, una memoria ferroeléctrica, una memoria de sólo lectura programable borrable eléctricamente (electrically erasable programmable read only memory, EEPROM), una memoria flash, una EPROM, una memoria de sólo lectura (read only memory, ROM), una memoria de acceso aleatorio estática (static random access memory, SRAM), una memoria de acceso aleatorio dinámica (dynamic random access memory, DRAM), una memoria de acceso aleatorio dinámica síncrona (synchronous dynamic random access memory, SDRAM), una memoria ferromagnética, almacenamiento óptico, dispositivos de carga acoplada, tarjetas inteligentes, una tarjeta PCMCIA,
etc.
El ejemplo se refiere además a un procedimiento de decodificación de una señal de audio codificada, comprendiendo el procedimiento:
- obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,
- obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y
- generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales.
El ejemplo se refiere además a un decodificador para decodificar una señal de audio codificada, comprendiendo el decodificador:
- medios para obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,
- medios para obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y
- medios para generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales.
Se observa que los medios anteriores pueden implementarse mediante cualquier circuito o dispositivo adecuado, por ejemplo como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.
El ejemplo se refiere además a un aparato para suministrar una señal de audio decodificada, comprendiendo el aparato:
- una entrada para recibir una señal de audio codificada,
- un decodificador según se describió anteriormente y a continuación para decodificar la señal de audio codificada para obtener una señal de salida multicanal,
- una salida para suministrar o reproducir la señal de salida multicanal.
El aparato puede ser cualquier equipo electrónico o parte de tal equipo según se describió anteriormente.
\newpage
La entrada puede comprender cualquier circuitería o dispositivo adecuado para recibir una señal de audio codificada. Ejemplos de tales entradas incluyen una interfaz de red para recibir la señal a través de una red informática, tal como una LAN, Internet, o similares, circuitería de comunicaciones para recibir la señal a través de un canal de comunicaciones, por ejemplo, un canal de comunicaciones inalámbricas, etc. En otros ejemplos, la entrada puede comprender un dispositivo para leer una señal a partir de un medio de almacenamiento.
De forma similar, la salida puede comprender cualquier circuitería o dispositivo adecuado para suministrar una señal multicanal en forma digital o analógica.
Breve descripción de los dibujos
Estos y otros aspectos serán evidentes y se dilucidarán a partir de lo siguiente con referencia a los dibujos en los que:
la figura 1 muestra un diagrama de flujo de un procedimiento de codificación de una señal de audio;
la figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación;
la figura 3 ilustra un procedimiento de filtro para su uso en la sintetización de la señal de audio; y
la figura 4 ilustra un decorrelador para su uso en la sintetización de la señal de audio.
Descripción detallada de las realizaciones
La figura 1 muestra un diagrama de flujo de un procedimiento de codificación de una señal de audio.
En una etapa S1 inicial, las señales L y R entrantes se dividen en señales paso banda (preferiblemente con un ancho de banda que aumenta con la frecuencia), indicadas por el número de referencia 101, tal que su parámetros puedan analizarse en función del tiempo. Un posible procedimiento para la partición en tiempo/frecuencia es usar ventanas de tiempo seguidas por una operación de transformada, pero también pueden usarse procedimientos continuos en el tiempo (por ejemplo, bancos de filtros). La resolución de frecuencia y tiempo de este proceso se adapta preferiblemente a la señal; para señales transitorias se prefiere una resolución de tiempo precisa (del orden de unos pocos milisegundos) y una resolución de frecuencia basta, mientras que para señales no transitorias se prefiere una resolución de frecuencia más precisa y una resolución de tiempo más basta (del orden de decenas de milisegundos). Posteriormente, en la etapa S2, se determina la diferencia de nivel (ILD) de señales de subbanda correspondientes; en la etapa S3 se determina la diferencia de tiempo (ITD o IPD) de señales de subbanda correspondientes; y en la etapa S4 se describe la cantidad de similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD o las ITD. El análisis de estos parámetros se comenta a continuación.
Etapa S2 Análisis de las ILD
La ILD se determina por la diferencia de nivel de la señales en un instante de tiempo determinado para una banda de frecuencia dada. Un procedimiento para determinar la ILD es medir el valor cuadrático medio (root mean square, rms) de la banda de frecuencia correspondiente de ambos canales de entrada y calcular la proporción de estos valores rms (expresados preferiblemente en dB).
Etapa S3 Análisis de las ITD
Las ITD se determinan por el alineamiento de tiempo o de fase que proporciona la mejor correspondencia entre las formas de onda de ambos canales. Un procedimiento para obtener la ITD es calcular la función de correlación cruzada entre dos señales de subbanda correspondientes y buscar el máximo. El retardo que corresponde a este máximo en la función de correlación cruzada puede usarse como valor de ITD. Un segundo procedimiento es calcular las señales analíticas de la subbanda izquierda y derecha (por ejemplo, calculando valores de fase y de envolvente) y usar la diferencia de fase (promedio) entre los canales como parámetro de IPD.
Etapa S4 Análisis de la correlación
La correlación se obtiene encontrando en primer lugar la ILD y la ITD que proporciona la mejor correspondencia entre las señales de subbanda correspondientes y posteriormente medir la similitud de las formas de onda después de la compensación para la ITD y/o ILD. Por tanto, en este marco de trabajo, la correlación se define como la similitud o disimilitud de señales de subbanda correspondientes que no pueden atribuirse a las ILD y/ o las ITD. Una medida adecuada para este parámetro es el valor máximo de la función de correlación cruzada (por ejemplo, el máximo de un conjunto de retardos). Sin embargo, también podrían usarse otras medidas, tales como la energía relativa de la señal diferencia después de compensación de ILD y/o ITD en comparación con la señal suma de subbandas correspondientes (preferiblemente compensadas también para las ILD y/o las ITD). Este parámetro de diferencia es básicamente una transformación lineal de la (máxima) correlación.
En las etapas S5, S6, y S7 posteriores, se cuantifican los parámetros determinados. Un problema importante de transmisión de parámetros es la precisión de la representación de parámetros (por ejemplo, el tamaño de errores de cuantificación), que está directamente relacionado con la capacidad de transmisión necesaria. En esta sección, se comentarán varias cuestiones con respecto a la cuantificación de los parámetros espaciales. La idea básica es basar los errores de cuantificación en las denominadas diferencias apenas apreciables (just-noticeable differences, JND) de las indicaciones espaciales. Para ser más específicos, el error de cuantificación viene determinado por la sensibilidad del sistema auditivo humano a los cambios en los parámetros. Puesto que la sensibilidad a los cambios en los parámetros depende en gran medida de los valores de los propios parámetros, se aplican los siguientes procedimientos para determinar las etapas de cuantificación discreta.
\vskip1.000000\baselineskip
Etapa S5 Cuantificación de las ILD
Se conoce a partir de la investigación psicoacústica que la sensibilidad a los cambios en la ILD depende de la propia ILD. Si la ILD se expresa en dB, pueden detectarse desviaciones de aproximadamente 1 dB a partir de una referencia de 0 dB, mientras que se requieren cambios del orden de 3 dB si la diferencia de nivel de referencia es de 20 dB. Por tanto, los errores de cuantificación pueden ser mayores si las señales de los canales izquierdo y derecho tienen una diferencia de nivel mayor. Por ejemplo, esto puede aplicarse midiendo en primer lugar la diferencia de nivel entre los canales, seguido por una transformación no lineal (compresiva) de la diferencia de nivel obtenida y posteriormente un proceso de cuantificación lineal, o usando una tabla de consulta para los valores de ILD disponibles que tienen una distribución no lineal. El ejemplo a continuación proporciona un ejemplo de una tabla de consulta de este tipo.
\vskip1.000000\baselineskip
Etapa S6 Cuantificación de las ITD
La sensibilidad a los cambios en las ITD de sujetos humanos puede caracterizarse como que tiene un umbral de fase constante. Esto significa que en términos de tiempos de retardo, las etapas de cuantificación para la ITD deben disminuir con la frecuencia. De forma alternativa, si la ITD se representa en forma de diferencias de fase, las etapas de cuantificación deberían ser independientes de la frecuencia. Un procedimiento para implementar esto es tomar una diferencia de fase fija como etapa de cuantificación y determinar el retardo de tiempo correspondiente para cada banda de frecuencia. Este valor de ITD se usa entonces como etapa de cuantificación. Otro procedimiento es transmitir diferencias de fase que siguen un esquema de cuantificación independiente de la frecuencia. También se conoce que por encima de una frecuencia determinada, el sistema auditivo humano no es sensible a las ITD en las formas de onda de estructura a pequeña escala. Este fenómeno puede aprovecharse transmitiendo sólo parámetros de ITD hasta una frecuencia determinada (normalmente 2 kHz).
Un tercer procedimiento de reducción de flujo de bits es incorporar etapas de cuantificación de ITD que dependen de la ILD y/o los parámetros de correlación de la misma subbanda. Para ILD grandes, las ITD pueden codificarse de forma menos precisa. Además, si la correlación es muy baja, se sabe que la sensibilidad humana a los cambios en la ITD se reduce. Por consiguiente, pueden aplicarse errores de cuantificación de ITD mayores si la correlación es pequeña. Un ejemplo extremo de esta idea es no transmitir las ITD en absoluto si la correlación está por debajo de un umbral determinado y/o si la ILD es lo suficientemente grande para la misma subbanda (normalmente alrededor de
20 dB).
\vskip1.000000\baselineskip
Etapa S7 Cuantificación de la correlación
El error de cuantificación de la correlación depende de (1) el propio valor de correlación y posiblemente (2) de la ILD. Los valores de correlación próximos a +1 se codifican con una precisión alta (por ejemplo, una etapa de cuantificación pequeña), mientras que los valores de correlación próximos a 0 se codifican con una precisión baja (una etapa de cuantificación grande). En la realización se da un ejemplo de un conjunto de valores de correlación distribuidos de manera no lineal. Una segunda posibilidad es usar etapas de cuantificación para la correlación que dependen de la ILD medida de la misma subbanda: para ILD grandes (es decir, un canal es dominante en términos de energía), los errores de cuantificación en la correlación se vuelven mayores. Un ejemplo extremo de este principio sería no transmitir valores de correlación para una subbanda determinada en absoluto si el valor absoluto de la ILD para esa subbanda supera un umbral determinado.
En la etapa S8, se genera una señal S monoaural a partir de las señales de audio entrantes, por ejemplo, como una señal suma de las componentes de señal entrantes, determinando una señal dominante, generando una señal de componente principal a partir de las componentes de señal entrantes, o similar. Este proceso usa preferiblemente los parámetros espaciales extraídos para generar la señal mono, es decir, alineando en primer lugar las formas de onda de subbanda que usan la ITD o la IPD antes de la combinación.
Finalmente, en la etapa S9, se genera una señal 102 codificada a partir de la señal monoaural y los parámetros determinados. De forma alternativa, la señal suma y los parámetros espaciales pueden comunicarse como señales separadas a través de los mismos o diferentes canales.
Se observa que el procedimiento anterior puede implementarse mediante una disposición correspondiente, por ejemplo implementarse como microprocesadores programables de propósito general o especial, procesadores de señal digital (DSP), circuitos integrados de aplicación específica (ASIC), disposiciones lógicas programables (PLA), disposiciones de puertas programables en campo (FPGA), circuitos electrónicos de propósito especial, etc., o una combinación de los mismos.
La figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación. El sistema comprende un codificador 201 y un decodificador 202 correspondiente. El decodificador 201 recibe una señal estéreo con dos componentes L y R y genera una señal 203 codificada que comprende una señal S suma y parámetros P espaciales que se comunican al decodificador 202. La señal 203 puede comunicarse a través de cualquier canal 204 de comunicaciones adecuado. Como alternativa o adicionalmente, la señal puede almacenarse en un medio 214 de almacenamiento extraíble, por ejemplo una tarjeta de memoria, que puede transferirse del codificador al decodifi-
cador.
El codificador 201 comprende módulos 205 y 206 de análisis para analizar parámetros espaciales de las señales L y R, respectivamente, entrantes, preferiblemente para cada ranura de tiempo/frecuencia. El codificador comprende además un módulo 207 de extracción de parámetros que genera parámetros espaciales cuantificados; y un módulo 208 de combinador que genera una señal suma (o dominante) consiste en una combinación determinada de las al menos dos señales de entrada. El codificador comprende además un módulo 209 de codificación que genera una señal 203 codificada resultante que comprende la señal monoaural y los parámetros espaciales. En un ejemplo, el módulo 209 realiza además una o más de las siguientes funciones: asignación de tasa de transmisión de bits, alineación de tramas, codificación sin pérdida, etc.
La síntesis (en el decodificador 202) se realiza aplicando los parámetros espaciales a la señal suma para generar señales de salida izquierda y derecha. Por lo tanto, el decodificador 202 comprende un módulo 210 de decodificación que realiza la operación inversa a la del módulo 209 y extrae la señal S suma y los parámetros P a partir de la señal 203 codificada. El decodificador comprende además un módulo 211 de síntesis que recupera las componentes L y R estéreo a partir de la señal suma (o dominante) y los parámetros espaciales.
En este ejemplo, la descripción del parámetro espacial se combina con un codificador de audio monoaural (canal único) para codificar una señal de audio estéreo. Debe observarse que aunque la realización descrita trabaja sobre señales estéreo, la idea general puede aplicarse a señales de audio de n canales, con n>1.
En los módulos 205 y 206 de análisis, las señales L y R izquierda y derecha entrantes, respectivamente, se dividen en diversas tramas de tiempo (por ejemplo, comprendiendo cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se dividen en ventanas con una ventana de Hanning de raíz cuadrada. Posteriormente, se calculan las FFT. Las frecuencias de FFT negativas se descartan y las FFT resultantes se subdividen en grupos (subbandas) de compartimentos de FFT. El número de compartimentos de FFT que se combinan en una subbanda g depende de la frecuencia: a frecuencias más altas se combinan más compartimentos que a frecuencias más bajas. En una realización, se agrupan los compartimentos de FFT correspondientes a aproximadamente 1,8 ERB (Equivalent Rectangular Bandwidth, ancho de banda rectangular equivalente), dando como resultado 20 subbandas para representar toda la gama de frecuencias audibles. El número resultante de compartimentos S[g] de FFT de cada subbanda posterior (comenzando en la frecuencia más baja) es
\text{S=[4 \ 4 \ 4 \ 5 \ 6 \ 8 \ 9 \ 12 \ 13 \ 17 \ 21 \ 25 \ 30 \ 38 \ 45 \ 55 \ 68 \ 82 \ 100 \ 477]}
Por tanto, las primeras tres subbandas contienen 4 compartimentos de FFT, la cuarta subbanda contiene 5 compartimentos de FFT, etc. Para cada subbanda, se calculan las ILD, ITD y la correlación (r) correspondientes. La ITD y la correlación se calculan simplemente ajustando todos los compartimentos de FFT que pertenecen a otros grupos a cero, multiplicando las FFT resultantes (limitadas por banda) de los canales izquierdo y derecho, seguido de una transformada inversa de FFT. Se busca un pico en la función de correlación cruzada resultante dentro de un retardo entre canales entre -64 y +63 muestras. El retardo interno correspondiente al pico se usa como valor de ITD, y el valor de la función de correlación cruzada en este pico se usa como la correlación entre canales de esta subbanda. Finalmente, la ILD se calcula simplemente tomando la proporción de potencia de los canales izquierdo y derecho para cada subbanda.
\newpage
En el módulo 208 de combinador, las subbandas izquierda y derecha se suman después de una corrección de fase (alineamiento temporal). Esta corrección de fase se sigue de la ITD calculada para esa subbanda y consiste en retardar la subbanda de canal izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2. El retardo se realiza en el dominio de la frecuencia mediante una modificación apropiada de los ángulos de fase de cada compartimento de FFT. Posteriormente, la señal suma se calcula añadiendo las versiones de fase modificada de las señales de subbanda izquierda y derecha. Finalmente, para compensar la adición no correlacionada o correlacionada, cada subbanda de la señal suma se multiplica por \surd(2/(1+ r)), siendo r la correlación de la subbanda correspondiente. Si es necesario, la señal suma puede convertirse al dominio del tiempo (1) insertando conjugadas complejas en frecuencias negativas, (2) inversa de FFT, (3) división en ventanas, y (4) superposición-adición.
En el módulo 207 de extracción de parámetros, se cuantifican los parámetros espaciales. Las ILD (en dB) se cuantifican al valor más cercano fuera del siguiente conjunto I:
\text{I=[-19 \ -16 \ -13 \ -10 \ -8 \ -6 \ -4 \ -2 \ 0 \ 2 \ 4 \ 6 \ 8 \ 10 \ 13 \ 16 \ 19]}
Las etapas de cuantificación de ITD se determinan mediante una diferencia de fase constante en cada subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia de tiempo que corresponde a 0,1 rad de la frecuencia central de subbanda se usa como etapa de cuantificación. Para frecuencias por encima de 2 kHz, no se transmite información de ITD.
Los valores r de correlación entre canales se cuantifican al valor más cercano del siguiente conjunto R:
\text{R=[1 \ 0,95 \ 0,9 \ 0,82 \ 0,75 \ 0,6 \ 0,3 0]}
Éste costará otros 3 bits por valor de correlación.
Si el valor absoluto de la ILD (cuantificada) de la subbanda actual vale 19 dB, no se transmiten ITD ni valores de correlación para esta subbanda. Si el valor de correlación (cuantificado) de una subbanda determinada vale cero, no se transmite valor de ITD para esa subbanda.
De esta forma, cada trama requiere un máximo de 233 bits para transmitir los parámetros espaciales. Con una longitud de trama de 1024 tramas, la máxima tasa de transmisión de bits para transmisión vale 10,25 kbit/s. Debe observarse que usando codificación entrópica o codificación diferencial, puede reducirse adicionalmente esta tasa de transmisión de bits.
El decodificador comprende un módulo 211 de síntesis en el que la señal estéreo se sintetiza a partir de la señal suma recibida y los parámetros espaciales. Por lo tanto, para el propósito de esta descripción se supone que el módulo de síntesis recibe una representación en el dominio de la frecuencia de la señal suma según se describió anteriormente. Esta representación puede obtenerse mediante operaciones de división en ventanas y de FFT de la forma de onda del dominio del tiempo. En primer lugar, la señal suma se copia a las señales de salida izquierda y derecha. Posteriormente, la correlación entre las señales izquierda y derecha se modifica con un decorrelador. En una realización preferida, se usa un decorrelador según se describe a continuación. Posteriormente, cada subbanda de la señal izquierda se retarda en -ITD/2, y la señal derecha se retarda en ITD/2 dada la ITD (cuantificada) correspondiente a esa subbanda. Finalmente, las subbandas izquierda y derecha se ajustan a escala según la ILD para esa subbanda. En una realización, la modificación anterior se realiza mediante un filtro según se describe a continuación. Para convertir las señales de salida al dominio del tiempo, se realizan las siguientes etapas: (1) insertar conjugadas complejas en frecuencias negativas, (2) inversa de FFT, (3) división en ventanas, y (4) superposición-adición.
La figura 3 ilustra un procedimiento de filtro para su uso en la sintetización de la señal de audio. En una etapa inicial 301, la señal x(t) de audio entrante se segmenta en un número de tramas. La etapa 301 de segmentación divide la señal en tramas x_{n}(t) de una longitud adecuada, por ejemplo en la gama de 500-5000 muestras, por ejemplo 1024 ó 2048 muestras.
Preferiblemente, la segmentación se realiza usando funciones de análisis de superposición y ventana de síntesis, eliminando así artefactos que pueden introducirse en los límites de trama (véase, por ejemplo, Princen, J. P., y Bradley, A. B.: "Analysis/synthesis filterbank design based on time domain aliasing cancellation", IEEE transactions on Acoustics, Speech and Signal processing, Vol. ASSP 34, 1986).
En la etapa 302, cada una de las tramas x_{n}(t) se transforma en el dominio de la frecuencia aplicando una transformación de Fourier, implementada preferiblemente como una transformada rápida de Fourier (FFT). La representación de frecuencia resultante de la n-ésima trama x_{n}(t) comprende un número de componentes X(k,n) de frecuencia en los que el parámetro n indica el número de trama y el parámetro k indica la componente de frecuencia o el compartimento de frecuencia correspondiente a una frecuencia \omega_{k}, 0<k<K. En general, las componentes X(k,n) del dominio de la frecuencia son números complejos.
\newpage
En la etapa 303, se determina el filtro deseado para la trama actual según los parámetros espaciales variables en el tiempo recibidos. El filtro deseado se expresa como una respuesta de filtro deseado que comprende un conjunto de K factores F(k,n) de ponderación complejos, 0<k<K, para la n-ésima trama. La respuesta F(k,n) de filtro puede representarse por dos números reales, es decir, su amplitud a(k,n) y su fase \varphi(k,n) según F(k,n) = a(k,n)\cdotexp[j \varphi(k,n)].
En el dominio de la frecuencia, las componentes de frecuencia filtradas son Y(k,n) = F(k,n)\cdotX(k,n), es decir, son el resultado de una multiplicación de las componentes X(k,n) de frecuencia de la señal de entrada con la respuesta F(k,n) de filtro. Como será evidente para un experto en la técnica, esta multiplicación en el dominio de la frecuencia corresponde a una convolución de la trama x_{n}(t) de señal de entrada con un filtro f_{n}(t) correspondiente.
En la etapa 304, la respuesta F(k,n) de filtro deseado se modifica antes de aplicarla a la trama X(k,n) actual. En particular, la respuesta F'(k,n) de filtro real que va a aplicarse se determina como una función de la respuesta F(k,n) de filtro deseado y de la información 308 acerca de tramas previas. Preferiblemente, esta información comprende la respuesta de filtro real y/o deseado de una o más tramas previas, según
F'(k,n) = a'(k,n) \cdot exp[j \varphi'(k,n)] = \Phi[F(k,n), F(k,n-1), F(k,n-2),..., F'(k,n-1), F'(k,n-2),...].
Por lo tanto, haciendo la respuesta de filtro real dependiente del histórico de respuestas de filtro previas, los artefactos introducidos por cambios en la respuesta de filtro entre tramas consecutivas pueden eliminarse de forma eficaz. Preferiblemente, la forma real de la función \Phi de transformada se selecciona para reducir artefactos de superposición-adición que resultan a partir de respuestas de filtro variables de forma dinámica.
Por ejemplo, la función \Phi de transformada puede ser una función de una única función de respuesta previa, por ejemplo F'(k,n) = \Phi_{1}[F(k,n), F(k,n-1)] o F'(k,n) = \Phi_{2}[F(k,n), F'(k,n-1)]. En otro ejemplo, la función de transformada puede comprender un promedio variable de un número de funciones de respuesta previa, por ejemplo una versión filtrada de funciones de respuesta previas, o similar. A continuación, se describen en mayor detalle ejemplos preferidos de la función \Phi de transformada.
En la etapa 305, la respuesta F'(k,n) de filtro real se aplica a la trama actual multiplicando las componentes X(k,n) de frecuencia de la trama actual de la señal de entrada con los factores F'(k,n) de respuesta de filtro correspondientes según Y(k,n) = F'(k,n)\cdotX(k,n).
En la etapa 306, las componentes Y(k,n) de frecuencia procesadas resultantes se transforman de vuelta al dominio del tiempo resultante en tramas y_{n}(t) filtradas. Preferiblemente, la transformada inversa se implementa como una transformada inversa rápida de Fourier (IFFT).
Finalmente, en la etapa 307, las tramas filtradas se recombinan a una señal y(t) filtrada por un procedimiento de superposición-adición. Una implementación eficaz de procedimiento de superposición-adición de este tipo se da a conocer en Bergmans, J. W. M.: "Digital baseband transmission and recording", Kluwer, 1996.
En un ejemplo, la función \Phi de transformada de la etapa 304 se implementa como un limitador de cambio de fase entre la trama actual y la previa. Según este ejemplo, se calcula el cambio \delta(k) de fase de cada componente F(k,n) de frecuencia en comparación con la modificación \varphi'(k,n-1) de fase real aplicada a la muestra previa de la componente de frecuencia correspondiente, es decir \delta(k) = \varphi(k,n) - \varphi'(k,n-1).
Posteriormente, la componente F(k,n) de fase del filtro deseado se modifica de una forma tal que se reduce el cambio de fase a lo largo de las tramas, si el cambio diera como resultado artefactos de superposición-adición. Según este ejemplo, esto se logra garantizando que la diferencia de fase real no supere un umbral c predeterminado, por ejemplo, simplemente recortando la diferencia de fase, según
1
El valor c de umbral puede ser una constante predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En un ejemplo, el umbral c puede no ser una constante sino por ejemplo una función del tiempo, de la frecuencia, y/o similar. Además, de forma alternativa al límite fuerte anterior para el cambio de fase, pueden usarse otras funciones de limitación de cambio de fase.
En general, en el ejemplo anterior, el cambio de fase deseado a lo largo de tramas de tiempo posteriores para componentes de frecuencia individuales se transforma mediante una función P(\delta(k)) de entrada-salida y la respuesta F'(k,n) de filtro real se da por
F'(k,n) = F'(k,n-1) \cdot exp[j P(\delta(k))]
Por otro lado, según este ejemplo, se introduce una función P de transformada del cambio de fase a lo largo de tramas de tiempo posteriores.
En otro ejemplo de la transformación de la respuesta de filtro, el procedimiento de limitación de fase se conduce por una medida de tonalidad adecuada, por ejemplo un procedimiento de predicción según se describe a continuación. Esto tiene la ventaja de que los saltos de fase entre tramas consecutivas que se producen en señales similares a ruido pueden excluirse a partir del procedimiento de limitación de cambio de fase. Esta es una ventaja, puesto que limitar tales saltos de fase en señales similares a ruido haría el sonido de la señal similar a ruido más tonal, lo que con frecuencia se percibe como sintético o metálico.
Según este ejemplo, se calcula un error de fase (k) = \varphi(k,n) - \varphi(k,n-1) - \omega_{k} \cdot h previsto. En este caso, \omega_{k} indica la frecuencia correspondiente a la k-ésima componente de frecuencia y h indica el tamaño del salto en las muestras. Aquí, el término tamaño del salto se refiere a la diferencia entre dos centros de ventana adyacentes, es decir la mitad de la longitud del análisis para ventanas simétricas. En lo que sigue, se supone que el error anterior está incluido en el intervalo [-\pi,+\pi].
Posteriormente, una medida P_{k} de predicción para la cantidad de capacidad de predicción de fase en el k-ésima compartimento de frecuencia se calcula según P_{k} = (\pi - |\theta(k)|)/\pi \in [0,1], donde |\cdot| indica el valor absoluto.
Por lo tanto, la medida P_{k} anterior entrega un valor entre 0 y 1 correspondiente a la cantidad de capacidad de predicción de fase en el k-ésima compartimento de frecuencia. Si P_{k} es cercano a 1, puede asumirse que la señal subyacente tiene un alto grado de tonalidad, es decir tiene una forma de onda sustancialmente sinusoidal. Para una señal de este tipo, los saltos de fase son fácilmente perceptibles, por ejemplo por el oyente de una señal de audio. De este modo, los saltos de fase deben eliminarse preferiblemente en este caso. Por otro lado, si el valor de P_{k} es cercano a 0, puede asumirse que la señal subyacente es ruidosa. Para señales ruidosas los saltos de fase no se perciben fácilmente y pueden, por tanto, permitirse.
Por consiguiente, la función de limitación de fase se aplica si P_{k} supera un umbral predeterminado, es decir P_{k} > A, lo que da como resultado la respuesta F'(k,n) de filtro real según
2
En este caso, A está limitada por los límites superior e inferior de P que son +1 y 0, respectivamente. El valor exacto de A depende de la implementación real. Por ejemplo, A puede seleccionarse entre 0,6 y 0,9.
Se entiende que, de forma alternativa, puede usarse cualquier otra medida adecuada para estimar la tonalidad. En otra realización más, el salto c de fase permitido descrito anteriormente puede hacerse dependiente de una medida de tonalidad adecuada, por ejemplo la medida P_{k} anterior, permitiendo así saltos de fase mayores si P_{k} es grande y viceversa.
La figura 4 ilustra un decorrelador para su uso en la sintetización de la señal de audio. El decorrelador comprende un filtro 401 pasa todo que recibe la señal x monoaural y un conjunto de parámetros P espaciales que incluyen la correlación r cruzada entre canales y un parámetro indicativo de la diferencia c de canal. Se observa que el parámetro c está relacionado con la diferencia de nivel entre canales mediante ILD = k\cdotlog(c), donde k es una constante, es decir ILD es proporcional al logaritmo de c.
Preferiblemente, el filtro pasa todo comprende un retardo dependiente de la frecuencia que proporciona un retardo relativamente más pequeño a altas frecuencias que a bajas frecuencias. Esto puede lograrse reemplazando un retardo fijo del filtro pasa todo con un filtro pasa todo que comprende un período de una compleja en fase de Schroeder (véase por ejemplo M.R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor., 16:85-89, 1970). El decorrelador comprende además un circuito 402 de análisis que recibe los parámetros espaciales a partir del decodificador y extrae la correlación r cruzada entre canales y la diferencia c de canal. El circuito 402 determina una matriz M(\alpha,\beta) de combinación según se describe a continuación. Las componentes de la matriz de combinación se alimentan a un circuito 403 de transformación que recibe además la señal x de entrada y la señal H\otimesx filtrada. El circuito 403 realiza una operación de combinación según
3
que da como resultado las señales de salida L y R.
\newpage
La correlación entre las señales L y R puede expresarse como un ángulo \alpha entre vectores que representa la señal L y R, respectivamente, en un espacio separado por las señales x y H\otimesx, según r=cos(a). Por consiguiente, cualquier par de vectores que muestre la distancia angular correcta presenta la correlación especificada.
Por lo tanto, una matriz M de combinación que transforma las señales x y H\otimesx en señales L y R con una correlación r predeterminada puede expresarse como sigue:
4
\vskip1.000000\baselineskip
Por tanto, la cantidad de señal filtrada mediante pasa todo depende de la correlación deseada. Además, la energía de la componente de señal pasa todo es la misma en ambos canales de salida (pero con un desplazamiento de fase de 180º).
Se observa que el caso en el que la matriz M viene dada por
5
\vskip1.000000\baselineskip
es decir, el caso en el que \alpha=90º correspondiente a señales de salida no correlacionadas (r=0), corresponde a un decorrelador de Lauridsen.
Para ilustrar un problema con la matriz de la ecuación (5), se supone una situación con un paneo en amplitud extremo hacia el canal izquierdo, es decir un caso en el que una señal determinada está presente sólo en el canal izquierdo. Se supone además que la correlación deseada entre las salidas es cero. En este caso, la salida del canal izquierdo de la transformación de la ecuación (3) con la matriz de combinación de la ecuación (5) produzca L=1/\surd2(x+H\otimesx). Por tanto, la salida consiste en la señal x original combinada con su versión filtrada mediante pasa todo H\otimesx.
Sin embargo, ésta es una situación no deseada, puesto que el filtro pasa todo normalmente deteriora la calidad de percepción de la señal. Además, la adición de la señal original y la señal filtrada da como resultado efectos de filtro en peine, tal como coloración percibida de la señal de salida. En este caso extremo supuesto, la mejor solución es que la señal de salida izquierda consista en la señal de entrada. De esta forma, la correlación de las dos señales de salida aún es cero.
En situaciones con diferencias de nivel más moderadas, la situación preferida es que el canal de salida de volumen más alto contiene relativamente más de la señal original, y el canal de salida de volumen más bajo contiene relativamente más de la señal filtrada. De este modo, en general, se prefiere maximizar la cantidad de la señal original presente en las dos salidas juntas, y minimizar la cantidad de la señal filtrada.
Según esta realización, esto se logra introduciendo una matriz de combinación diferente que incluye un giro común adicional:
6
\vskip1.000000\baselineskip
En este caso, \beta es un giro adicional, y C es una matriz de ajuste a escala que garantiza que la diferencia de nivel relativo entre las señales de salida es igual a c, es decir
\vskip1.000000\baselineskip
7
\newpage
Al sustituir la matriz de la ecuación (6) en la ecuación (3) se obtienen las señales de salida generadas por la operación de matrizado según esta realización:
8
Por lo tanto, las señales de salida L y R aún tienen una diferencia angular \alpha, es decir la correlación entre las señales L y R no se ve afectada por el ajuste a escala de las señales L y R según la diferencia de nivel deseada y el giro adicional por el ángulo \beta de la señal tanto L como R.
Como se mencionó con anterioridad, preferiblemente, la cantidad de la señal x original en la salida de L y R sumada debe maximizarse. Esta condición puede usarse para determinar el ángulo \beta, según
9
que produce la condición:
10
En resumen, esta solicitud describe una descripción paramétrica actuada psicoacústicamente, de los atributos espaciales de señales de audio multicanal. Esta descripción paramétrica permite fuertes reducciones en la tasa de transmisión de bits en codificadores de audio, puesto que sólo una señal monoaural ha de transmitirse, combinada con parámetros (cuantificados) que describen las propiedades espaciales de la señal. El decodificador puede formar la cantidad de canales de audio original aplicando los parámetros espaciales. Para audio estéreo de calidad próxima a CD, parece suficiente una tasa de transmisión de bits asociada con estos parámetros espaciales de 10 kbit/s o menos, para reproducir la impresión espacial correcta en el extremo de recepción. Esta tasa de transmisión de bits puede reducirse en escala adicionalmente reduciendo la resolución espectral y/o temporal de los parámetros espaciales y/o procesando los parámetros espaciales usando algoritmos de compresión sin pérdida.
Debe observarse que las realizaciones mencionadas anteriormente ilustran en lugar de limitar la invención, y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas.
Por ejemplo, la invención se ha descrito principalmente en conexión con una realización que usa las dos indicaciones de localización ILD e ITD/IPD. En realizaciones alternativas, pueden usarse otras indicaciones de localización. Además, en una realización, la ILD, la ITD/IPD, y la correlación cruzada entre canales puede determinarse como se describió anteriormente, pero sólo la correlación cruzada entre canales se transmite junto con la señal monoaural, reduciendo así adicionalmente la capacidad de almacenamiento/ancho de banda requerido para transmitir/almacenar la señal de audio. De forma alternativa, puede transmitirse la correlación cruzada entre canales y una de la ILD e ITD/TPD. En estas realizaciones, la señal se sintetiza a partir de la señal monoaural sólo en función de los parámetros transmitidos.
En las reivindicaciones, no debe interpretarse como que limita la reivindicación ningún símbolo de referencia colocado entre paréntesis. El término "comprendiendo/que comprende" no excluye la presencia de elementos o etapas diferentes de los enumerados en una reivindicación. El término "un" o "una" antes de un elemento no excluye la presencia de una pluralidad de tales elementos.
La invención puede implementarse por medio de hardware que comprende varios elementos distintos, y por medio de un ordenador programado de forma adecuada. En la reivindicación de dispositivo que enumera varios medios, pueden realizarse varios de estos medios por uno y el mismo producto de hardware. El mero hecho de que determinadas medidas se enumeren en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de estas medidas no pueda usarse para obtener ventaja.

Claims (11)

1. Aparato de decodificación para decodificar una señal de audio digital codificada que comprende al menos una primera y una segunda componente de señal de audio digital, que se han codificado a una señal (X) digital compuesta y una señal (P) de parámetro, comprendiendo el aparato de decodificación:
- una unidad (210) de entrada para recibir una señal de transmisión,
- una unidad (210) de demultiplexor para recuperar la señal digital compuesta y la señal de parámetro a partir de la señal de transmisión,
- una unidad (401) de decorrelador para generar a partir de la señal digital compuesta una versión decorrelacionada de la señal digital compuesta,
- una unidad (403) de matrizado para recibir la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta y generar a partir de las mismas una réplica de la primera y segunda componente de señal de audio digital,
- siendo la réplica de la primera componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro,
- siendo la réplica de la segunda componente de señal de audio digital una combinación lineal de la señal digital compuesta y la versión decorrelacionada de la señal digital compuesta, que usa coeficientes multiplicadores que dependen de la señal de parámetro.
2. Aparato de decodificación según la reivindicación 1, caracterizado porque la señal de parámetro comprende una primera componente (r) de señal de parámetro que es una medida de la similitud de formas de onda de las réplicas de las al menos primera y segunda señales de audio digital, correspondiendo dicha medida de similitud a un valor de una función de correlación cruzada entre las réplicas de dichas al menos primera y segunda componentes de señal de audio digital, siendo dicho valor sustancialmente igual al máximo de dicha función de correlación cruzada.
3. Aparato de decodificación según la reivindicación 2, caracterizado porque la señal de parámetro comprende una segunda componente (c) de señal de parámetro que es representativa de la diferencia de nivel relativo entre las réplicas de la primera y segunda componentes de señal de audio digital.
4. Aparato de decodificación según la reivindicación 3, caracterizado porque la unidad de matrizado es igual a
11
donde \beta es un valor de ángulo relacionado con la primera componente de señal de parámetro y C está relacionado con la segunda componente de señal de parámetro.
5. Aparato de decodificación según la reivindicación 4, caracterizado porque existe la siguiente relación entre \alpha y la primera componente de señal de parámetro:
12
donde r es el valor del máximo de la función de correlación cruzada.
6. Aparato de decodificación según la reivindicación 4, caracterizado porque C es una matriz 2x2 y existe la siguiente relación entre los coeficientes matriciales de C y la segunda componente (c) de señal de parámetro
13
\vskip1.000000\baselineskip
donde c es igual a la diferencia de nivel relativo entre dichas señales.
7. Aparato de decodificación según la reivindicación 4, caracterizado porque existe la siguiente relación entre \alpha y \beta:
14
8. Aparato de decodificación según cualquiera de las reivindicaciones anteriores, caracterizado porque la unidad de decorrelador está adaptada para retardar la señal digital compuesta para obtener la señal digital compuesta decorrelacionada.
9. Aparato de decodificación según la reivindicación 8, caracterizado porque el retardo es un retardo dependiente de la frecuencia.
10. Aparato de decodificación según una cualquiera de las reivindicaciones anteriores, caracterizado porque la señal digital compuesta es una señal de banda ancha dividida en una pluralidad de subseñales digitales compuestas, una para cada una de una pluralidad de bandas de frecuencia, estando dividida también la señal de parámetro en una pluralidad de subseñales de parámetro, una para cada una de la pluralidad de bandas de frecuencia,
- estando la unidad (401) de decorrelador adaptada para generar a partir de las subseñales digitales compuestas una versión decorrelacionada de las subseñales digitales compuestas,
- estando la unidad (403) de matrizado adaptada para recibir las subseñales digitales compuestas y la versión decorrelacionada de las subseñales digitales compuestas y generar a partir de las mismas una réplica de una pluralidad de subseñales para cada una de la primera y segunda componentes de señal de audio digital,
- siendo una subseñal de la primera componente de señal de audio digital una combinación lineal de una subseñal digital compuesta correspondiente y la versión decorrelacionada de la subseñal digital compuesta correspondiente, que usa coeficientes multiplicadores que dependen de una correspondiente de dichas subseñales de parámetro,
- siendo una subseñal de la segunda componente de señal de audio digital una combinación lineal de una subseñal digital compuesta correspondiente y la versión decorrelacionada de la subseñal digital compuesta correspondiente, que usa coeficientes multiplicadores que dependen de una correspondiente de dichas subseñales de parámetro,
- comprendiendo la disposición además una unidad (307) de transformación para transformar las subseñales de la primera y segunda componentes de señal de audio digital en dichas réplicas de dicha primera y segunda componentes de señal de audio digital.
11. Aparato de decodificación según la reivindicación 10, caracterizado porque las subseñales digitales compuestas están divididas en señales de tiempo consecutivas, una para cada uno de intervalos de tiempo consecutivos en el dominio del tiempo, estando divididas también las subseñales de parámetro en subseñales de parámetro de cada uno de los intervalos de tiempo consecutivos,
- estando además la unidad (401) de decorrelador adaptada para generar para cada intervalo de tiempo consecutivo y cada subseñal digital compuesta a partir de dichas subseñales digitales compuestas una versión decorrelacionada de dicha subseñal digital compuesta,
- estando además la unidad (403) de matrizado adaptada para generar para cada intervalo de tiempo consecutivo a partir de cada subseñal digital compuesta y su versión decorrelacionada de la misma en dicho intervalo, una réplica de una subseñal para cada una de la primera y segunda componentes de señal de audio digital,
- siendo una subseñal de la primera componente de señal de audio digital en dicho intervalo de tiempo una combinación lineal de una subseñal digital compuesta correspondiente en dicho intervalo de tiempo y la versión decorrelacionada de la subseñal digital compuesta correspondiente en dicho intervalo de tiempo, que usa coeficientes multiplicadores que dependen de la subseñal de parámetro para dicho intervalo de tiempo,
- siendo una subseñal de la segunda componente de señal de audio digital en dicho intervalo de tiempo una combinación lineal de una subseñal digital compuesta correspondiente en dicho intervalo de tiempo y la versión decorrelacionada de la subseñal digital compuesta correspondiente en dicho intervalo de tiempo, que usa coeficientes multiplicadores que dependen de la subseñal de parámetro para dicho intervalo de tiempo.
ES07119364T 2002-04-22 2003-04-22 Dispositivo de decodificacion con una unidad de decorrelacion. Expired - Lifetime ES2323294T3 (es)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
EP02076588 2002-04-22
EP02076588 2002-04-22
EP02077863 2002-07-12
EP02077863 2002-07-12
EP02079303 2002-10-14
EP02079303 2002-10-14
EP02079817 2002-11-20
EP02079817 2002-11-20

Publications (1)

Publication Number Publication Date
ES2323294T3 true ES2323294T3 (es) 2009-07-10

Family

ID=29255420

Family Applications (2)

Application Number Title Priority Date Filing Date
ES07119364T Expired - Lifetime ES2323294T3 (es) 2002-04-22 2003-04-22 Dispositivo de decodificacion con una unidad de decorrelacion.
ES03715237T Expired - Lifetime ES2300567T3 (es) 2002-04-22 2003-04-22 Representacion parametrica de audio espacial.

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES03715237T Expired - Lifetime ES2300567T3 (es) 2002-04-22 2003-04-22 Representacion parametrica de audio espacial.

Country Status (11)

Country Link
US (3) US8340302B2 (es)
EP (2) EP1500084B1 (es)
JP (3) JP4714416B2 (es)
KR (2) KR101016982B1 (es)
CN (1) CN1307612C (es)
AT (2) ATE385025T1 (es)
AU (1) AU2003219426A1 (es)
BR (2) BRPI0304540B1 (es)
DE (2) DE60326782D1 (es)
ES (2) ES2323294T3 (es)
WO (1) WO2003090208A1 (es)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
CN1307612C (zh) * 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
CN1761998B (zh) 2003-03-17 2010-09-08 皇家飞利浦电子股份有限公司 用于生成单声道信号的方法、部件、音频编码器和系统
FR2853804A1 (fr) * 2003-07-11 2004-10-15 France Telecom Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
CN1846253B (zh) * 2003-09-05 2010-06-16 皇家飞利浦电子股份有限公司 低比特率音频编码
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
WO2005083679A1 (en) * 2004-02-17 2005-09-09 Koninklijke Philips Electronics N.V. An audio distribution system, an audio encoder, an audio decoder and methods of operation therefore
DE102004009628A1 (de) 2004-02-27 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
JP4867914B2 (ja) * 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャンネルオーディオコーディング
CA2808226C (en) * 2004-03-01 2016-07-19 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
CN1938760B (zh) * 2004-04-05 2012-05-23 皇家飞利浦电子股份有限公司 多通道编码器
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
JP4934427B2 (ja) * 2004-07-02 2012-05-16 パナソニック株式会社 音声信号復号化装置及び音声信号符号化装置
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
WO2006006809A1 (en) 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
WO2006022308A1 (ja) 2004-08-26 2006-03-02 Matsushita Electric Industrial Co., Ltd. マルチチャネル信号符号化装置およびマルチチャネル信号復号装置
US8046217B2 (en) 2004-08-27 2011-10-25 Panasonic Corporation Geometric calculation of absolute phases for parametric stereo decoding
WO2006022190A1 (ja) 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
US8019087B2 (en) 2004-08-31 2011-09-13 Panasonic Corporation Stereo signal generating apparatus and stereo signal generating method
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
CN101015230B (zh) * 2004-09-06 2012-09-05 皇家飞利浦电子股份有限公司 音频信号增强
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
JP4809234B2 (ja) * 2004-09-17 2011-11-09 パナソニック株式会社 オーディオ符号化装置、復号化装置、方法、及びプログラム
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
WO2006047600A1 (en) 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
EP1817767B1 (en) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
RU2007120056A (ru) * 2004-11-30 2008-12-10 Мацусита Электрик Индастриал Ко. Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования
EP1817766B1 (en) 2004-11-30 2009-10-21 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
WO2006070760A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
WO2006070757A1 (ja) 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
ES2623551T3 (es) 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
PL1866912T3 (pl) 2005-03-30 2011-03-31 Koninl Philips Electronics Nv Kodowanie wielokanałowego sygnału audio
ATE470930T1 (de) * 2005-03-30 2010-06-15 Koninkl Philips Electronics Nv Skalierbare mehrkanal-audiokodierung
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
WO2006121101A1 (ja) 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006132857A2 (en) * 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
JP2009500669A (ja) * 2005-07-06 2009-01-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリック・マルチチャンネル復号化
US7830921B2 (en) 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR101492826B1 (ko) * 2005-07-14 2015-02-13 코닌클리케 필립스 엔.브이. 다수의 출력 오디오 채널들을 생성하기 위한 장치 및 방법과, 그 장치를 포함하는 수신기 및 오디오 재생 디바이스, 데이터 스트림 수신 방법, 및 컴퓨터 판독가능 기록매체
CN101248483B (zh) * 2005-07-19 2011-11-23 皇家飞利浦电子股份有限公司 多声道音频信号的生成
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
EP1905034B1 (en) * 2005-07-19 2011-06-01 Electronics and Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization
JP5113051B2 (ja) 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法
CN101233571B (zh) * 2005-07-29 2012-12-05 Lg电子株式会社 处理音频信号的方法和装置
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007027056A1 (en) 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
WO2007026763A1 (ja) 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
WO2007029412A1 (ja) * 2005-09-01 2007-03-15 Matsushita Electric Industrial Co., Ltd. マルチチャンネル音響信号処理装置
CN101356572B (zh) * 2005-09-14 2013-02-13 Lg电子株式会社 解码音频信号的方法和装置
KR100857105B1 (ko) 2005-09-14 2008-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
US8090587B2 (en) 2005-09-27 2012-01-03 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
US8019611B2 (en) 2005-10-13 2011-09-13 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
KR20070041398A (ko) * 2005-10-13 2007-04-18 엘지전자 주식회사 신호 처리 방법 및 신호 처리 장치
ES2587999T3 (es) * 2005-10-20 2016-10-28 Lg Electronics Inc. Procedimiento, aparato y soporte de registro legible por ordenador para decodificar una señal de audio multicanal
KR20080094710A (ko) 2005-10-26 2008-10-23 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
EP1971978B1 (en) * 2006-01-09 2010-08-04 Nokia Corporation Controlling the decoding of binaural audio signals
DE602006001051T2 (de) * 2006-01-09 2009-07-02 Honda Research Institute Europe Gmbh Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US8296155B2 (en) 2006-01-19 2012-10-23 Lg Electronics Inc. Method and apparatus for decoding a signal
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
CN103366747B (zh) * 2006-02-03 2017-05-17 韩国电子通信研究院 用于控制音频信号的渲染的设备和方法
CN101379552B (zh) * 2006-02-07 2013-06-19 Lg电子株式会社 用于编码/解码信号的装置和方法
WO2007091842A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
ES2391117T3 (es) 2006-02-23 2012-11-21 Lg Electronics Inc. Método y aparato para procesar una señal de audio
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
TWI483619B (zh) 2006-03-30 2015-05-01 Lg Electronics Inc 一種媒體訊號的編碼/解碼方法及其裝置
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
NO345590B1 (no) 2006-04-27 2021-05-03 Dolby Laboratories Licensing Corp Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP1862813A1 (en) * 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH A method for estimating the position of a sound source for online calibration of auditory cue to location transformations
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
CN101484935B (zh) * 2006-09-29 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
KR100987457B1 (ko) 2006-09-29 2010-10-13 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
CN101529721B (zh) 2006-10-20 2012-05-23 杜比实验室特许公司 使用复位的音频动态处理
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
CN101632117A (zh) 2006-12-07 2010-01-20 Lg电子株式会社 用于解码音频信号的方法和装置
KR101128815B1 (ko) 2006-12-07 2012-03-27 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2118887A1 (en) * 2007-02-06 2009-11-18 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
KR20090122221A (ko) * 2007-02-13 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
US20100106271A1 (en) 2007-03-16 2010-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP5291096B2 (ja) * 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
EP2560164A3 (en) * 2007-06-27 2013-04-17 Nec Corporation Signal control device, its system, method, and program
US8218775B2 (en) * 2007-09-19 2012-07-10 Telefonaktiebolaget L M Ericsson (Publ) Joint enhancement of multi-channel audio
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2076900A1 (en) * 2007-10-17 2009-07-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Audio coding using upmix
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
MX2011006248A (es) * 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
TWI441164B (zh) * 2009-06-24 2014-06-11 Fraunhofer Ges Forschung 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP2489040A1 (fr) * 2009-10-16 2012-08-22 France Telecom Decodage parametrique stereo optimise
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CN102696070B (zh) 2010-01-06 2015-05-20 Lg电子株式会社 处理音频信号的设备及其方法
JP5333257B2 (ja) 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
EP2532178A1 (en) * 2010-02-02 2012-12-12 Koninklijke Philips Electronics N.V. Spatial sound reproduction
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
WO2011104146A1 (en) * 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
US9628930B2 (en) * 2010-04-08 2017-04-18 City University Of Hong Kong Audio spatial effect enhancement
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
PL2609590T3 (pl) 2010-08-25 2015-10-30 Fraunhofer Ges Forschung Urządzenie do dekodowania sygnału zawierającego transjenty z użyciem jednostki łączenia i miksera
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
EP2740222B1 (en) 2011-08-04 2015-04-22 Dolby International AB Improved fm stereo radio receiver by using parametric stereo
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
JP6484605B2 (ja) * 2013-03-15 2019-03-13 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオーディオステムからの自動マルチチャネル音楽ミックス
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
CA2926243C (en) 2013-10-21 2018-01-23 Lars Villemoes Decorrelator structure for parametric reconstruction of audio signals
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
JP2017530579A (ja) * 2014-08-14 2017-10-12 レンセラール ポリテクニック インスティチュート 両耳統合相互相関自己相関メカニズム
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN111316353B (zh) * 2017-11-10 2023-11-17 诺基亚技术有限公司 确定空间音频参数编码和相关联的解码

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0454100A (ja) * 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
GB2252002B (en) * 1991-01-11 1995-01-04 Sony Broadcast & Communication Compression of video signals
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
GB2258781B (en) * 1991-08-13 1995-05-03 Sony Broadcast & Communication Data compression
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
DE19647399C1 (de) * 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
GB9726338D0 (en) 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
GB2353926B (en) 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
CN1307612C (zh) * 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备

Also Published As

Publication number Publication date
EP1881486B1 (en) 2009-03-18
JP2009271554A (ja) 2009-11-19
BRPI0304540B1 (pt) 2017-12-12
DE60326782D1 (de) 2009-04-30
JP5498525B2 (ja) 2014-05-21
KR20100039433A (ko) 2010-04-15
BR0304540A (pt) 2004-07-20
EP1881486A1 (en) 2008-01-23
KR101016982B1 (ko) 2011-02-28
US20130094654A1 (en) 2013-04-18
ATE426235T1 (de) 2009-04-15
AU2003219426A1 (en) 2003-11-03
KR100978018B1 (ko) 2010-08-25
WO2003090208A1 (en) 2003-10-30
US20090287495A1 (en) 2009-11-19
JP2005523480A (ja) 2005-08-04
JP4714416B2 (ja) 2011-06-29
EP1500084B1 (en) 2008-01-23
US8331572B2 (en) 2012-12-11
KR20040102164A (ko) 2004-12-03
US9137603B2 (en) 2015-09-15
US8340302B2 (en) 2012-12-25
EP1500084A1 (en) 2005-01-26
ATE385025T1 (de) 2008-02-15
ES2300567T3 (es) 2008-06-16
CN1647155A (zh) 2005-07-27
CN1307612C (zh) 2007-03-28
JP5101579B2 (ja) 2012-12-19
US20080170711A1 (en) 2008-07-17
DE60318835D1 (de) 2008-03-13
JP2012161087A (ja) 2012-08-23
DE60318835T2 (de) 2009-01-22

Similar Documents

Publication Publication Date Title
ES2323294T3 (es) Dispositivo de decodificacion con una unidad de decorrelacion.
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
Baumgarte et al. Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
TWI334736B (en) Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation
RU2409911C2 (ru) Декодирование бинауральных аудиосигналов
ES2316678T3 (es) Codificacion y descodificacion audio multicanal.
US8917874B2 (en) Method and apparatus for decoding an audio signal
ES2273216T3 (es) Codificacion de audio.
US9009057B2 (en) Audio encoding and decoding to generate binaural virtual spatial signals
ES2880343T3 (es) Codificación y descodificación optimizada de información de espacialización para la codificación y la descodificación paramétrica de una señal de audio multicanal
MX2012009785A (es) Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora.
US7343281B2 (en) Processing of multi-channel signals
ES2783975T3 (es) Codificación multicanal
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
ES2965084T3 (es) Determinación de correcciones a aplicar a una señal de audio multicanal, codificación y decodificación asociadas
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치