ES2300567T3 - Representacion parametrica de audio espacial. - Google Patents

Representacion parametrica de audio espacial. Download PDF

Info

Publication number
ES2300567T3
ES2300567T3 ES03715237T ES03715237T ES2300567T3 ES 2300567 T3 ES2300567 T3 ES 2300567T3 ES 03715237 T ES03715237 T ES 03715237T ES 03715237 T ES03715237 T ES 03715237T ES 2300567 T3 ES2300567 T3 ES 2300567T3
Authority
ES
Spain
Prior art keywords
signal
audio
channels
spatial
spatial parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03715237T
Other languages
English (en)
Inventor
Dirk J. Breebaart
Steven L. J. D. E. Van De Par
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29255420&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2300567(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2300567T3 publication Critical patent/ES2300567T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

Procedimiento para codificar una señal de audio, comprendiendo el procedimiento: - generar (S8) una señal monoaural que comprende una combinación de al menos dos canales (L, R) de audio de entrada, - determinar (S2, S3, S4) un conjunto de parámetros (ILD, ITD, C) espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro (C) que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, - generar (S5, S6, S7, S9) una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.

Description

Representación paramétrica de audio espacial.
Esta invención se refiere a la codificación de señales de audio y, más en particular, a la codificación de señales de audio multicanal.
Dentro del campo de la codificación de audio, en general se desea codificar una señal de audio, por ejemplo con el fin de reducir la tasa de bits para comunicar la señal o el requisito de almacenamiento para almacenar la señal, sin comprometer demasiado la calidad de percepción de la señal de audio. Esta es una cuestión importante cuando las señales de audio han de transmitirse a través de canales de comunicaciones de capacidad limitada o cuando han de almacenarse en un medio de almacenamiento que presenta una capacidad limitada.
Soluciones anteriores en codificadores de audio que se han sugerido para reducir la tasa de bits de material de programas estéreo incluyen:
"Estéreo de intensidad" (Intensity stereo). En este algoritmo, se representan altas frecuencias (normalmente superiores a 5 kHz) mediante una única señal de audio (es decir, mono), combinada con factores de escala variables en el tiempo y dependientes de la frecuencia.
"Estéreo M/S" (M/S stereo). En este algoritmo, la señal se descompone en una señal de suma (o central (mid), o común) y una de diferencia (o lateral (side), o no común). Esta descomposición se combina a veces con factores de escala variables en el tiempo o análisis de componentes principales. Estas señales se codifican entonces independientemente, bien mediante un codificador de transformada o codificador de forma de onda. La cantidad de reducción de información conseguida por este algoritmo depende considerablemente de las propiedades espaciales de la señal original. Por ejemplo, si la señal original es monoaural, la señal de diferencia es cero y puede descartarse. Sin embargo, si la correlación de las señales de audio izquierda y derecha es baja (lo que con frecuencia es el caso), este esquema ofrece sólo una pequeña ventaja.
Las descripciones paramétricas de señales de audio han adquirido interés durante los últimos años, especialmente en el campo de la codificación de audio. Se ha demostrado que transmitir parámetros (cuantificados) que describen señales de audio sólo requiere una pequeña capacidad de transmisión para volver a sintetizar una señal de igual percepción en el extremo receptor. Sin embargo, los codificadores de audio paramétricos actuales se centran en señales monoaurales de codificación, y las señales estéreo se procesan con frecuencia como mono duales.
La solicitud de patente europea 1 107 232 da a conocer un procedimiento para codificar una señal estéreo que tiene una componente L y R, en el que la señal estéreo se representa por una de las siguientes: diferencias de nivel y fase de captación de información paramétrica y componentes estéreo de la señal de audio. En el descodificador, la otra componente estéreo se recupera basándose en la componente estéreo codificada y la información paramétrica. El artículo "Efficient representation of spatial audio using perceptual parametrization" (Faller C et al, Proceedings of the 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics) da a conocer la generación de una señal binaural situando espacialmente las fuentes contenidas en una señal de suma monofónica, basándose la situación en un conjunto de parámetros espaciales en bandas criticas. El artículo "Subband coding of stereophonic digital audio signals" (Van der Waal R G et al, IEEE ICASSP 1991) da a conocer el aprovechamiento de la correlación izquierda-derecha en un códec subbanda.
Es un objeto de la presente invención solucionar el problema de proporcionar una codificación de audio mejorada que consiga una alta calidad de percepción de la señal recuperada.
Los problemas anteriores y otros se solucionan mediante un procedimiento para codificar una señal de audio tal como se expone en la reivindicación 1.
El inventor se ha dado cuenta de que codificando una señal de audio multicanal como una señal de audio monoaural y un número de atributos espaciales que comprenden una medida de similitud de las formas de onda correspondientes, la señal multicanal puede recuperarse con una alta calidad de percepción. Es otra ventaja de la invención el hecho de que proporciona una codificación eficaz de una señal multicanal, es decir una señal que comprende al menos un primer y un segundo canal, por ejemplo una señal estéreo, una señal cuadrafónica, etc.
Por tanto, según un aspecto de la invención, se parametrizan atributos espaciales de señales de audio multicanal. Para aplicaciones de codificación de audio generales, la transmisión de estos parámetros combinada con sólo una señal de audio monoaural reduce considerablemente la capacidad de transmisión necesaria para transmitir la señal estéreo en comparación con los codificadores de audio que procesan los canales de manera independiente, mientras se mantiene la impresión espacial original. Una cuestión importante es que aunque las personas reciben formas de onda de un objeto auditivo dos veces (una vez por el oído izquierdo y una vez por el oído derecho), sólo se percibe un único objeto auditivo en una posición determinada y con un cierto tamaño (o capacidad espacial de difundirse).
Por tanto, parece innecesario describir señales de audio como dos o más formas de onda (independientes) y sería mejor describir audio multicanal como un conjunto de objetos auditivos, cada uno con sus propiedades espaciales. Una dificultad que surge inmediatamente es el hecho de que es casi imposible separar automáticamente objetos auditivos individuales de un conjunto dado de objetos auditivos, por ejemplo una grabación musical. Este problema puede salvarse no dividiendo el material de programa en objetos auditivos individuales, sino más bien describiendo los parámetros espaciales de una manera que se parece al eficaz procesamiento (periférico) del sistema auditivo. Cuando los atributos espaciales comprenden una medida de (di)similitud de las formas de onda correspondientes, se consigue una codificación eficaz mientras se mantiene un alto nivel de calidad de percepción.
En particular, la descripción paramétrica de audio multicanal presentada en el presente documento se refiere al modelo de procesamiento binaural presentado por Breebaart et al. Este modelo pretende describir el eficaz procesamiento de señal del sistema auditivo binaural. Para una descripción del modelo de procesamiento binaural por Breebaart et al., véase Breebaart, J., van de Par, y Kohlrausch, A. (2001a). Binaural processing model based on contralateral inhibition. I. Model setup. J. Acoust. Soc. Am., 110, 1074-1088; Breebaart, J., van de Par, S. y Kohlrausch, A. (2001b). Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters. J. Acoust. Soc. Am., 110, 1089-1104; y Breebaart, J., van de Par, S. y Kohlrausch, A. (2001c). Binaural processing model based on contralateral inhibition. III. Dependence on temporal parameters.. J. Acoust. Soc. Am., 110, 1105-1117. A continuación se proporciona una breve interpretación que ayuda a entender la invención.
En una realización preferida, el conjunto de parámetros espaciales incluye al menos una indicación de posición. Cuando los atributos espaciales comprenden una o más, preferiblemente dos, indicaciones de posición así como una medida de (di)similitud de las formas de onda correspondientes, se consigue una codificación particularmente eficaz mientras se mantiene un nivel de calidad de percepción particularmente alto.
El término indicación de posición comprende cualquier parámetro adecuado que transmita información acerca de la posición de objetos auditivos que contribuyen a la señal de audio, por ejemplo la orientación de y/o la distancia con respecto a un objeto auditivo.
En una realización preferida de la invención, el conjunto de parámetros espaciales incluye al menos dos indicaciones de posición que comprenden una diferencia de nivel entre canales (ILD, interchannel level difference) y una seleccionada de entre una diferencia de tiempo entre canales (ITD, interchannel time difference) y una diferencia de fase entre canales (IPD, interchannel phase difference). Es interesante mencionar que la diferencia de nivel entre canales y la diferencia de tiempo entre canales se consideran como las indicaciones de posición más importantes en el plano horizontal.
La medida de similitud de las formas de onda correspondientes al primer y segundo canales de audio corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada (también conocido como coherencia). La correlación cruzada entre canales máxima está fuertemente relacionada con la capacidad de difusión espacial de percepción (o compacidad) de una fuente de sonido, es decir, proporciona información adicional que no se tiene en cuenta por las indicaciones de posición anteriores, proporcionando de este modo un conjunto de parámetros con un bajo grado de redundancia de la información transmitida por los mismos y, por tanto, proporcionando una codificación eficaz.
Según una realización preferida de la invención, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.
Es una idea de los inventores que es suficiente describir atributos espaciales de cualquier señal de audio multicanal especificando la ILD, ITD (o IPD) y la correlación máxima en función del tiempo y la frecuencia.
En otra realización preferida de la invención, la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende
- dividir cada uno de los al menos dos canales de audio de entrada en pluralidades correspondientes de bandas de frecuencia;
- para cada una de la pluralidad de bandas de frecuencia determinar el conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada en la banda de frecuencia correspondiente.
Por tanto, la señal de audio entrante se divide en varias señales de banda limitada, que (preferiblemente) están espaciadas linealmente a una escala de tasa de ERB. Preferiblemente, los filtros de análisis muestran un solapamiento parcial en el dominio de la frecuencia y/o tiempo. El ancho de banda de estas señales depende de la frecuencia central, siguiendo la tasa de ERB. Posteriormente, preferiblemente para cada banda de frecuencia, se analizan las propiedades siguientes de las señales entrantes:
- la diferencia de nivel entre canales, o ILD, definida por los niveles relativos de la señal de banda limitada procedente de las señales izquierda y derecha,
- la diferencia de tiempo (o fase) entre canales (ITD o IPD), definida por el retardo (o desplazamiento de fase) entre canales correspondiente a la posición del pico en la función de correlación cruzada entre canales, y
- la (di)similitud de las formas de onda que no puede tenerse en cuenta por las ITD o ILD, que puede parametrizarse por la correlación cruzada entre canales máxima (es decir, el valor de la función de correlación cruzada normalizada en la posición del pico máximo, también conocido como coherencia).
Los tres parámetros descritos anteriormente varían a lo largo del tiempo; sin embargo, puesto que el sistema auditivo binaural es muy lento en su procesamiento, la tasa de actualización de estas propiedades es bastante baja (normalmente decenas de milisegundos).
En este caso puede suponerse que las propiedades que (lentamente) varían en el tiempo mencionadas anteriormente son las únicas propiedades de señal espaciales que tiene a su disposición el sistema auditivo binaural, y que a partir de estos parámetros dependientes del tiempo y la frecuencia, el entorno auditivo percibido se reconstruye por niveles superiores del sistema auditivo.
Una cuestión importante en la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que directamente está relacionada con la capacidad de transmisión necesaria.
Según otra realización preferida más de la invención, la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en la que al menos uno de los errores de cuantificación introducidos se controla para que dependa de un valor de al menos uno de los parámetros espaciales determinados.
Por tanto, el error de cuantificación introducido por la cuantificación de los parámetros se controla según la sensibilidad del sistema auditivo humano a cambios en estos parámetros. Esta sensibilidad depende considerablemente de los valores de los propios parámetros. Por tanto, controlando el error de cuantificación para que dependa de los valores de los parámetros, se consigue una codificación mejorada.
Es una ventaja de la invención el hecho de que proporciona un desacoplamiento de parámetros de señal monoaural y binaural en codificadores de audio. Por tanto, se reducen considerablemente las dificultades relacionadas con los codificadores de audio estéreo (tales como la audibilidad de ruido de cuantificación no correlacionado de manera interaural en comparación con el ruido de cuantificación correlacionado de manera interaural, o inconsistencias de fase interaural en codificadores paramétricos que codifican en modo mono dual).
Es otra ventaja de la invención el hecho de que se consigue una reducción considerable de la tasa de bits en codificadores de audio debido a una tasa de actualización baja y a una resolución de frecuencia baja, requeridas para los parámetros espaciales. La tasa de bits asociada para codificar los parámetros espaciales es normalmente de 10 kbits/s o inferior (véase la realización descrita más adelante).
Es otra ventaja de la invención el hecho de que puede combinarse fácilmente con codificadores de audio existentes. El esquema propuesto produce una señal mono que puede codificarse y descodificarse con cualquier estrategia de codificación existente. Tras la descodificación monoaural, el sistema descrito en el presente documento regenera una señal multicanal estéreo con los atributos espaciales apropiados.
El conjunto de parámetros espaciales puede utilizarse como una capa de mejora en codificadores de audio. Por ejemplo, una señal mono se transmite si sólo se permite una tasa de bits baja, mientras que incluyendo la capa de mejora espacial el descodificador puede reproducir sonido estéreo.
Se indica que la invención no está limitada a señales estéreo sino que puede aplicarse a cualquier señal multicanal que comprenda n canales (n>1).En particular, la invención puede usarse para generar n canales a partir de una señal mono, si se transmiten (n-1) conjuntos de parámetros espaciales. En este caso, los parámetros espaciales describen cómo formar los n canales de audio diferentes a partir de la única señal mono.
Se indica que las características del procedimiento descrito anteriormente y a continuación pueden implementarse en software y llevarse a cabo en un sistema de procesamiento de datos u otros medios de procesamiento mediante la ejecución de instrucciones ejecutables por ordenador. Las instrucciones pueden ser medios de código de programa cargados en una memoria, tal como una memoria RAM, desde un medio de almacenamiento o desde otro ordenador a través de una red informática. De manera alternativa, las características descritas pueden implementarse mediante un conjunto de circuitos cableados en lugar de software o en combinación con software.
La invención se refiere además a un codificador para codificar una señal de audio tal como se expone en la reivindicación 8.
Se indica que los medios anteriores para generar una señal monoaural, los medios para determinar un conjunto de parámetros espaciales así como los medios para generar una señal codificada pueden implementarse mediante cualquier dispositivo o circuito adecuado, por ejemplo como microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.
La invención se refiere además a un aparato para suministrar una señal de audio, comprendiendo el aparato:
- una entrada para recibir una señal de audio,
- un codificador tal como se describe anteriormente y a continuación para codificar la señal de audio para obtener una señal de audio codificada, y
- una salida para suministrar la señal de audio codificada.
El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como ordenadores fijos o portátiles, un equipo de comunicación por radio portátil o fijo u otros dispositivos portátiles o de bolsillo, tales como reproductores multimedia, dispositivos de grabación, etc. El término equipo de comunicación por radio portátil incluye todos los equipos tales como teléfonos móviles, localizadores personales, comunicadores, es decir organizadores electrónicos, teléfonos inteligentes, asistentes digitales personales (PDA), ordenadores de bolsillo, o similares.
La entrada puede comprender cualquier dispositivo o conjunto de circuitos adecuado para recibir una señal de audio multicanal en formato digital o analógico, por ejemplo a través de una conexión por cable, tal como una línea de jack, a través de una conexión inalámbrica, por ejemplo una señal de radio, o de cualquier otra manera adecuada.
De forma similar, la salida puede comprender cualquier dispositivo o conjunto de circuitos adecuado para suministrar la señal codificada. Ejemplos de tales salidas incluyen una interfaz de red para proporcionar la señal a una red informática, tales como una red LAN, Internet, o similar, un conjunto de circuitos de comunicaciones para comunicar la señal a través de un canal de comunicaciones, por ejemplo un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la salida puede comprender un dispositivo para almacenar una señal en un medio de almacenamiento.
La invención se refiere además a una señal de audio codificada, tal como se expone en la reivindicación 10.
La invención se refiere además a un medio de almacenamiento que tiene almacenada en el mismo una señal codificada de este tipo. En el presente documento, el término medio de almacenamiento comprende, pero no está limitado a, una cinta magnética, un disco óptico, un disco de vídeo digital (DVD), un disco compacto (CD o CD-ROM), un minidisco, un disco duro, un disquete, una memoria ferroeléctrica, una memoria de sólo lectura, eléctricamente programable y borrable (EEPROM), una memoria flash, una memoria EPROM, una memoria de sólo lectura (ROM), una memoria estática de acceso aleatorio (SRAM), una memoria dinámica de acceso aleatorio (DRAM), una memoria dinámica sincrónica de acceso aleatorio (SDRAM), una memoria ferromagnética, almacenamiento óptico, dispositivos de carga acoplada, tarjetas inteligentes, una tarjeta PCMCIA, etc.
La invención se refiere además a un procedimiento para descodificar una señal de audio codificada tal como se expone en la reivindicación 12.
La invención se refiere además a un descodificador para descodificar una señal de audio codificada tal como se expone en la reivindicación 13.
Se indica que los medios anteriores pueden implementarse mediante cualquier dispositivo o circuito adecuado, tales como por ejemplo microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.
La invención se refiere además a un aparato para suministrar una señal de audio descodificada, comprendiendo el aparato:
- una entrada para recibir una señal de audio codificada,
- un descodificador tal como se describe anteriormente y a continuación para descodificar la señal de audio codificada para obtener una señal de salida multicanal,
- una salida para suministrar o reproducir la señal de salida multicanal.
El aparato puede ser cualquier equipo electrónico o parte de tal equipo, tal como se describió anteriormente.
La entrada puede comprender cualquier dispositivo o conjunto de circuitos adecuado para recibir una señal de audio codificada. Ejemplos de tales entradas incluyen una interfaz de red para recibir la señal a través de una red informática, tales como una red LAN, Internet, o similar, un conjunto de circuitos de comunicaciones para recibir la señal a través de un canal de comunicaciones, por ejemplo un canal de comunicaciones inalámbricas, etc. En otras realizaciones, la entrada puede comprender un dispositivo para leer una señal a partir de un medio de almacenamiento.
De manera similar, la salida puede comprender cualquier dispositivo o conjunto de circuitos adecuado para suministrar una señal multicanal en un formato analógico o digital.
Estos y otros aspectos de la invención resultarán evidentes y se aclararán a partir de las realizaciones descritas a continuación con referencia a los dibujos en los que:
la figura 1 muestra un diagrama de flujo de un procedimiento para codificar una señal de audio según una realización de la invención;
la figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación según una realización de la invención;
la figura 3 ilustra un procedimiento de filtrado para su uso para sintetizar la señal de audio;
y
la figura 4 ilustra un descorrelador para su uso para sintetizar la señal de audio.
La figura 1 muestra un diagrama de flujo de un procedimiento para codificar una señal de audio según una realización de la invención.
En una etapa S1 inicial, las señales L y R entrantes se dividen en señales pasabanda (preferiblemente con un ancho de banda que aumenta con la frecuencia), indicado con el número 101 de referencia, de modo que sus parámetros pueden analizarse en función del tiempo. Un posible procedimiento para la división en tiempo/frecuencia es usar la aplicación de una función ventana en el tiempo seguido por una operación de transformada, aunque también podrían utilizarse procedimientos continuos en el tiempo (por ejemplo, bancos de filtros). La resolución de tiempo y frecuencia de este proceso está adaptada preferiblemente a la señal; para señales transitorias se prefiere una resolución de tiempo precisa (del orden de algunos milisegundos) y una resolución de frecuencia aproximada, mientras que para señales no transitorias se prefiere una resolución de frecuencia más precisa y una resolución de tiempo más aproximada (del orden de décimas de milisegundos). Posteriormente, en la etapa S2, se determina la diferencia de nivel (ILD) de señales subbanda correspondientes; en la etapa S3 se determina la diferencia de tiempo (ITD o IPD) de señales subbanda correspondientes; y en la etapa S4 se describe la magnitud de similitud o disimilitud de las formas de onda que no pueden tenerse en cuenta por las ILD o ITD. El análisis de estos parámetros se explica a continuación.
Etapa S2
Análisis de las ILD
La ILD se determina por la diferencia de nivel de las señales en una cierta instancia de tiempo para una banda de frecuencia dada. Un procedimiento para determinar la ILD es medir el valor de la raíz cuadrática media (rms) de la banda de frecuencia correspondiente de ambos canales de entrada y calcular la relación de estos valores de rms (expresados preferiblemente en dB).
Etapa S3
Análisis de las ITD
Las ITD se determinan por la alienación de tiempo o fase que proporciona la mejor correspondencia entre las formas de onda de ambos canales. Un procedimiento para obtener la ITD es calcular la función de correlación cruzada entre dos señales subbanda correspondientes y buscar el valor máximo. El retardo que corresponde a este valor máximo en la función de correlación cruzada puede utilizarse como el valor ITD. Un segundo procedimiento es calcular las señales analíticas de la subbanda izquierda y derecha (es decir, calcular los valores de la envolvente y de fase) y usar la diferencia de fase (media) entre los canales como parámetro IPD.
Etapa S4
Análisis de la correlación
La correlación se obtiene hallando en primer lugar la ILD y la ITD que proporciona la mejor correspondencia entre las señales subbanda correspondientes y posteriormente medir la similitud de las formas de onda tras la compensación de la ITD y/o ILD. Por tanto, en este contexto, la correlación se define como la similitud o disimilitud de señales subbanda correspondientes que no puede atribuirse a las ILD y/o ITD. Una medida adecuada para este parámetro es el valor máximo de la función de correlación cruzada (es decir, el valor máximo a lo largo de un conjunto de retardos).
Sin embargo, no según la invención, también podrían utilizarse otras medidas, tales como la energía relativa de la señal de diferencia tras la compensación de ILD y/o ITD en comparación con la señal de suma de subbandas correspondientes (preferiblemente también compensadas con respecto a las ILD y/o ITD). Este parámetro de diferencia es básicamente una transformación lineal de la correlación (máxima).
En las etapas S5, S6 y S7 posteriores, se cuantifican los parámetros determinados. Una cuestión importante para la transmisión de parámetros es la precisión de la representación de parámetros (es decir, el tamaño de los errores de cuantificación), que está directamente relacionada con la capacidad de transmisión necesaria. En esta sección, se tratarán diversas cuestiones con respecto a la cuantificación de los parámetros espaciales. La idea básica es basar los errores de cuantificación en denominadas diferencias casi perceptibles (JND, just-noticeable differences) de las identificaciones espaciales. Para ser más específicos, el error de cuantificación se determina por la sensibilidad del sistema auditivo humano a los cambios en los parámetros. Debido a que la sensibilidad a los cambios en los parámetros depende considerablemente de los valores de los propios parámetros, se aplican los siguientes procedimientos para determinar los escalones de cuantificación discretos.
Etapa S5
Cuantificación de las ILD
A partir de la investigación psicoacústica se sabe que la sensibilidad a los cambios en la ILD depende de la propia ILD. Si la ILD se expresa en dB, pueden detectarse desviaciones de aproximadamente 1 dB con respecto a una referencia de 0 dB, mientras que se requieren cambios del orden de 3 dB si la diferencia respecto al nivel de referencia asciende a 20 dB. Por tanto, los errores de cuantificación pueden ser mayores si las señales de los canales izquierdo y derecho tienen una diferencia de nivel mayor. Por ejemplo, esto puede aplicarse midiendo en primer lugar la diferencia de nivel entre los canales, seguido por una transformación (compresiva) no lineal de la diferencia de nivel obtenida y posteriormente un proceso de cuantificación lineal, o utilizando una tabla de consulta de los valores de ILD disponibles que tie-
nen una distribución no lineal. La realización posterior proporciona un ejemplo de una tabla de consulta de este tipo.
Etapa S6
Cuantificación de las ITD
La sensibilidad a los cambios en las ITD de sujetos humanos puede caracterizarse por presentar un umbral de fase constante. Esto significa que, en términos de tiempos de retardo, los escalones de cuantificación para la ITD deberían disminuir con la frecuencia. De manera alternativa, si la ITD se representa en forma de diferencias de fase, los escalones de cuantificación deberían ser independientes de la frecuencia. Un procedimiento para implementar esto es tomar una diferencia de fase fija como escalón de cuantificación y determinar el retardo de tiempo correspondiente para cada banda de frecuencia. Este valor ITD se usa entonces como etapa de cuantificación. Otro procedimiento es transmitir diferencias de fase que siguen un esquema de cuantificación independiente de la frecuencia. También se conoce que, por encima de una cierta frecuencia, el sistema auditivo humano no es sensible a las ITD en las formas de onda de estructura fina. Este fenómeno puede aprovecharse transmitiendo sólo parámetros ITD hasta una cierta frecuencia (normalmente 2 kHz).
Un tercer procedimiento de reducción del flujo de bits es incorporar escalones de cuantificación de ITD que dependen de los parámetros de correlación y/o de ILD de la misma subbanda. Para ILD grandes, las ITD pueden codificarse con menos precisión. Además, si la correlación es muy baja, se sabe que la sensibilidad humana a los cambios en la ITD es reducida. Por tanto, si la correlación es pequeña pueden aplicarse errores de cuantificación de ITD más grandes. Un ejemplo extremo de esta idea es no transmitir ITD si la correlación está por debajo de un cierto umbral y/o si la ILD es suficientemente grande para la misma subbanda (normalmente de aproximadamente 20 dB).
Etapa S7
Cuantificación de la correlación
El error de cuantificación de la correlación depende de (1) el propio valor de correlación y, posiblemente, (2) de la ILD. Valores de correlación próximos a +1 se codifican con una precisión alta (es decir, un escalón de cuantificación pequeño), mientras que valores de correlación próximos a 0 se codifican con una precisión baja (un escalón de cuantificación grande). En la realización se da un ejemplo de un conjunto de valores de correlación distribuidos de manera no lineal. Una segunda posibilidad es utilizar escalones de cuantificación para la correlación que dependen de la ILD medida de la misma subbanda: para ILD grandes (es decir, un canal es dominante en cuanto a la energía), los errores de cuantificación en la correlación se hacen más grandes. Un ejemplo extremo de este principio sería no transmitir ningún valor de correlación para una cierta subbanda si el valor absoluto de la ILD para esa subbanda está más allá de un cierto umbral.
En la etapa S8, se genera una señal S monoaural a partir de las señales de audio entrantes, por ejemplo como una señal de suma de las componentes de señal entrante, determinando una señal dominante, generando una señal de componente principal a partir de las componentes de señal entrante, o similar. Este proceso usa preferiblemente los parámetros espaciales extraídos para generar la señal mono, es decir, alineando en primer lugar las formas de onda de subbanda usando la ITD o IPD antes de la combinación.
Finalmente, en la etapa S9, se genera una señal 102 codificada a partir de la señal monoaural y los parámetros determinados. De manera alternativa, la señal de suma y los parámetros espaciales pueden comunicarse como señales separadas a través del mismo canal o canales diferentes.
Se indica que el procedimiento anterior puede implementarse mediante una disposición correspondiente, por ejemplo implementada como microprocesadores programables de uso general, o especial, procesadores de señales digitales (DSP), circuitos integrados para aplicaciones específicas (ASIC), arreglos lógicos programables (PLA), arreglos de puertas programables de campo (FPGA), circuitos electrónicos de uso especial, etc. o una combinación de los mismos.
La figura 2 muestra un diagrama de bloques esquemático de un sistema de codificación según una realización de la invención. El sistema comprende un codificador 201 y un descodificador 202 correspondiente. El descodificador 201 recibe una señal estéreo con dos componentes L y R y genera una señal 203 codificada que comprende una señal S de suma y parámetros P espaciales que se comunican al descodificador 202. La señal 203 puede comunicarse a través de cualquier canal 204 de comunicaciones. Alternativa o adicionalmente, la señal puede almacenarse en un medio 214 de almacenamiento extraíble, por ejemplo una tarjeta de memoria, que puede transferirse del codificador al descodificador.
El codificador 201 comprende módulos 205 y 206 de análisis para analizar parámetros espaciales de las señales L y R entrantes, preferiblemente para cada ranura de tiempo/frecuencia. El codificador comprende además un módulo 207 de extracción de parámetros que genera parámetros espaciales cuantificados; y un módulo 208 de combinación que genera una señal de suma (o dominante) que consiste en una determinada combinación de las al menos dos señales de entrada. El codificador comprende además un módulo 209 de codificación que genera una señal 203 codificada resultante que comprende la señal monoaural y los parámetros espaciales. En una realización, el módulo 209 realiza además una o más de las funciones siguientes: asignación de tasa de bits, sincronización de tramas, codificación sin pérdida, etc.
La síntesis (en el descodificador 202) se realiza aplicando los parámetros espaciales a la señal de suma para generar señales de salida izquierda y derecha. Por lo tanto, el descodificador 202 comprende un módulo 210 de descodificación que realiza la operación inversa del módulo 209 y extrae la señal S de suma y los parámetros P a partir de la señal 203 codificada. El descodificador comprende además un módulo 211 de síntesis que recupera las componentes L y R estéreo a partir de la señal de suma (o dominante) y los parámetros espaciales.
En esta realización, la descripción de los parámetros espaciales se combina con un codificador de audio monoaural (de canal único) para codificar una señal de audio estéreo. Debería indicarse que aunque la realización descrita funciona sobre señales estéreo, la idea general puede aplicarse a señales de audio de n canales, con n>1.
En los módulos 205 y 206 de análisis, las señales L y R entrantes izquierda y derecha, respectivamente, se dividen en diversas tramas de tiempo (por ejemplo, comprendiendo cada una 2048 muestras a una tasa de muestreo de 44,1 kHz) y se les aplica una función ventana con una ventana de Hanning de raíz cuadrada. Posteriormente, se calculan las FFT. Las frecuencias de FFT negativas se descartan y las FFT resultantes se subdividen en grupos (subbandas) de intervalos (bins) FFT. El número de intervalos FFT que se combinan en una subbanda g depende de la frecuencia: a frecuencias más altas se combinan más intervalos que a frecuencias más bajas. En una realización, se agrupan intervalos FFT correspondientes a aproximadamente 1,8 ERB (Equivalent Rectangular Bandwidth, ancho de banda rectangular equivalente), dando como resultado 20 subbandas para representar todo el rango de frecuencias audible. El número resultante de intervalos FFT S[g] de cada subbanda posterior (empezando a la frecuencia más baja) es
S = [4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]
Por tanto, las primeras tres subbandas contienen 4 intervalos FFT, la cuarta subbanda contiene 5 intervalos FFT, etc. Para cada subbanda, se calculan la ILD, ITD correspondiente y la correlación (r). La ITD y la correlación se calculan simplemente poniendo a cero todos los intervalos FFT que pertenecen a otros grupos, multiplicando las FFT (de banda limitada) resultantes de los canales izquierdo y derecho, seguido por una transformada FFT inversa. Se explora la función de correlación cruzada resultante para buscar un pico dentro de un retardo entre canales entre -64 y +63 muestras. El retardo interno correspondiente al pico se usa como valor de ITD, y el valor de la función de correlación cruzada en este pico se usa como correlación entre canales de esta subbanda. Finalmente, la ILD se calcula simplemente tomando la relación de potencia de los canales izquierdo y derecho para cada subbanda.
En el módulo 208 de combinación, las subbandas izquierda y derecha se suman tras una corrección de fase (alienación temporal). Esta corrección de fase se deriva de la ITD calculada para esa subbanda y consiste en retardar la subbanda de canal izquierdo con ITD/2 y la subbanda de canal derecho con -ITD/2. El retardo se realiza en el dominio de la frecuencia mediante una modificación apropiada de los ángulos de fase de cada intervalo FFT. Posteriormente, se calcula la señal de suma sumando las versiones de fase modificada de las señales de subbanda izquierda y derecha. Finalmente, para compensar la adición no correlacionada o correlacionada, cada subbanda de la señal de suma se multiplica por sqrt(2/(1+r)), siendo r la correlación de la subbanda correspondiente. En caso necesario, la señal de suma puede convertirse al dominio del tiempo (1) insertando conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de función ventana, y (4) overlap-add (solapamiento y suma).
En el módulo 207 de extracción de parámetros, se cuantifican los parámetros espaciales. Las ILD (en dB) se cuantifican al valor más próximo del conjunto I siguiente:
I = [-19 -16 -13 -10 -8 -6 -4 -2 0 2 4 6 8 10 13 16 19]
Los escalones de cuantificación de ITD se determinan mediante una diferencia de fase constante en cada subbanda de 0,1 rad. Por tanto, para cada subbanda, la diferencia de tiempo que corresponde a 0,1 rad de la frecuencia central de subbanda se usa como escalón de cuantificación. Para frecuencias por encima de 2 kHz, no se transmite información de ITD.
Los valores r de correlación entre canales se cuantifican al valor más próximo del conjunto R siguiente:
R = [1 0,95 0,9 0,82 0,75 0,6 0,3 0]
Esto costará otros 3 bits por cada valor de correlación.
Si el valor absoluto de la ILD (cuantificado) de la subbanda actual asciende a 19 dB, no se transmiten valores de correlación ni de ITD para esta subbanda. Si el valor de correlación (cuantificado) de una cierta subbanda asciende a cero, no se transmite ningún valor de ITD para esa subbanda.
De este modo, cada trama requiere un máximo de 233 bits para transmitir los parámetros espaciales. Con una longitud de trama de 1024 tramas, la tasa de bits máxima para la transmisión asciende a 10,25 kbit/s. Debería indicarse que usando codificación de entropía o codificación diferencial, esta tasa de bits puede reducirse adicional-
mente.
El descodificador comprende un módulo 211 de síntesis en el que se sintetiza la señal estéreo a partir de la señal de suma recibida y los parámetros espaciales. Por tanto, para esta descripción se supone que el módulo de síntesis recibe una representación en el dominio de la frecuencia de la señal de suma tal como se describió anteriormente. Esta representación puede obtenerse mediante operaciones de función ventana y de FFT de la forma de onda en el dominio del tiempo. En primer lugar, se copia la señal de suma a las señales de salida izquierda y derecha. Posteriormente, se modifica la correlación entre las señales izquierda y derecha con un descorrelador . En una realización preferida, se usa un descorrelador tal como se describe a continuación. Posteriormente, se retarda cada subbanda de la señal izquierda en -ITD/2, y se retarda la señal derecha en ITD/2, dada la ITD (cuantificada) correspondiente a esa subbanda. Finalmente se ajustan a escala las subbandas izquierda y derecha según la ILD para esa subbanda. En una realización, la modificación anterior se realiza mediante un filtro tal como se describe a continuación. Para convertir las señales de salida en el dominio del tiempo, se realizan las etapas siguientes: (1) insertar conjugados complejos a frecuencias negativas, (2) FFT inversa, (3) aplicación de función ventana y (4) overlap- add.
La figura 3 ilustra un procedimiento de filtrado para su uso para sintetizar la señal de audio. En una etapa 301 inicial, la señal de audio entrante x(t) se segmenta en un número de tramas. La etapa 301 de segmentación divide la señal en tramas x_{n}(t) de una longitud adecuada, por ejemplo en el intervalo de 500-5000 muestras, por ejemplo 1024 o 2048 muestras.
Preferiblemente, la segmentación se realiza usando funciones ventana de síntesis y análisis de solapamiento, suprimiendo así artefactos que pueden introducirse en los límites de trama (véase por ejemplo Princen, J. P., y Bradley, A. B.: "Analysis/synthesis filterbank design based on time domain aliasing cancellation", IEEE transactions on Acoustics, Speech and Signal processing, Vol. ASSP 34, 1986).
En la etapa 302, cada una de las tramas x_{n}(t) se transforma al dominio de frecuencia aplicando una transformada de Fourier, implementada preferiblemente como una transformada rápida de Fourier (FFT). La representación de frecuencia resultante de la enésima trama x_{n}(t) comprende un número de componentes X(k,n) de frecuencia, donde el parámetro n indica el número de tramas y el parámetro k indica la componente de frecuencia o intervalo de frecuencia correspondiente a una frecuencia \omega_{k}, 0<k<K. En general, las componentes X(k,n) en el dominio de la frecuencia son números complejos.
En la etapa 303, se determina el filtro deseado para la trama actual según los parámetros espaciales variables en el tiempo recibidos. El filtro deseado se expresa como una respuesta de filtro deseado que comprende un conjunto de K factores F(k,n), de peso complejos, 0<k<K, para la enésima trama. La respuesta F(k,n) de filtro puede representarse por dos números reales, es decir su amplitud a(k,n) y su fase \varphi(k,n) según F(k,n) = a(k,n)\cdotexp[j\varphi(k,n)].
En el dominio de la frecuencia, las componentes de frecuencia filtradas son Y(k,n) = F(k,n)\cdotX(k,n), es decir resultan de una multiplicación de las componentes X(k,n) de frecuencia de la señal de entrada con la respuesta F(k,n) de filtro. Tal como resultará evidente para un experto en la técnica, esta multiplicación en el dominio de la frecuencia corresponde a una convolución de la trama x_{n}(t) de señal de entrada con un filtro f_{n}(t) correspondiente.
En la etapa 304, la respuesta F(k,n) de filtro deseada se modifica antes de aplicarla a la trama X(k,n) actual. En particular, la respuesta F'(k,n) de filtro real que ha de aplicarse se determina en función de la respuesta F(k,n) de filtro deseado y de información 308 acerca de tramas previas. Preferiblemente, esta información comprende la respuesta de filtro deseado y/o real de una o más tramas previas, según
1
Por tanto, haciendo que la respuesta de filtro real sea dependiente del historial de las respuestas de filtro previas, pueden suprimirse de manera eficaz los artefactos introducidos por cambios en la respuesta de filtro entre tramas consecutivas. Preferiblemente, la forma real de la función \Phi de transformada se selecciona para reducir artefactos por overlap-add que resultan de respuestas de filtro dinámicamente variables.
Por ejemplo, la función \Phi de transformada puede ser una función de una única función de respuesta previa, por ejemplo F'(k,n) = \Phi_{1}[F(k,n), F(k,n-1)] o F'(k,n) = \Phi_{2}[F(k,n), F'(k,n-1)]. En otra realización, la función de transformada puede comprender un promedio flotante sobre un número de funciones de respuesta previas, por ejemplo una versión filtrada de funciones de respuesta previas, o similares. Las realizaciones preferidas de la función \Phi de transformada se describirán con más detalle a continuación.
En la etapa 305, la respuesta F'(k,n) de filtro real se aplica a la trama actual multiplicando las componentes X(k,n) de frecuencia de la trama actual de la señal de entrada por los factores F'(k,n) de respuesta de filtro correspondientes según Y(k,n) = F'(k,n)\cdotX(k,n).
En la etapa 306, las componentes Y(k,n) de frecuencia procesadas resultantes se transforman de nuevo en el dominio del tiempo dando como resultado tramas y_{n}(t) filtradas. Preferiblemente, la transformada inversa se implementa como una transformada rápida de Fourier inversa (IFFT).
Finalmente, en la etapa 307, las tramas filtradas se recombinan para obtener una señal y(t) filtrada mediante un procedimiento de overlap-add. Una implementación eficaz de un procedimiento de overlap-add de este tipose describe en "Digital baseband transmission and recording", Kluwer, 1996 de Bergmans J. W. M.
En una realización, la función \Phi de transformada de la etapa 304 se implementa como un limitador de cambio de fase entre la trama actual y la previa. Según esta realización, se calcula el cambio \delta(k) de fase de cada componente F(k,n) de frecuencia en comparación con la modificación \varphi'(k,n-1) de fase real aplicada a la muestra previa de la componente de frecuencia correspondiente, es decir \delta(k) = \varphi(k,n)- \varphi'(k,n-1).
Posteriormente, se modifica la componente de fase del filtro F(k,n) deseado de modo que se reduce el cambio de fase a lo largo de las tramas, en caso de que el cambio diera como resultado artefactos de overlap-add. Según esta realización, esto se consigue garantizando que la diferencia de fase real no supera un umbral c predeterminado, por ejemplo simplemente cortando la diferencia de fase, según
2
El valor c de umbral puede ser una constante predeterminada, por ejemplo entre \pi/8 y \pi/3 rad. En una realización, el umbral c puede no ser una constante sino por ejemplo en función del tiempo, frecuencia, y/o similar. Además, alternativamente al límite estricto anterior para el cambio de fase, pueden usarse otras funciones de limitación del cambio de fase.
En general, en la realización anterior, el cambio de fase deseado a lo largo de las tramas de tiempo posteriores para componentes de frecuencia individuales se transforma por una función P(\delta(k)) de entrada-salida y la respuesta F'(k,n) de filtro real viene dada por
3
Por tanto, según esta realización, se introduce una función P de transformada del cambio de fase a lo largo de tramas de tiempo posteriores.
En otra realización de la transformación de la respuesta de filtro, el procedimiento de limitación de fase se conduce por una medida adecuada de tonalidad, por ejemplo un procedimiento de predicción tal como se describe a continuación. Esto tiene la ventaja de que los saltos de fase entre tramas consecutivas que se producen en señales de tipo ruido pueden excluirse del procedimiento de limitación de cambio de fase según la invención. Esto es una ventaja, puesto que limitar tales saltos de fase en señales de tipo ruido haría que la señal de tipo ruido sonase más tonal lo que con frecuencia se percibe como sintético o metálico.
Según esta realización, se calcula un error \theta(k) = \varphi(k,n)- \varphi(k,n-1)-\omega_{k}\cdoth de fase predicho. En este caso, \omega_{k} indica la frecuencia correspondiente a la componente de frecuencia k-ésima y h indica el tamaño de salto en las muestras. En este caso, el término tamaño de salto se refiere a la diferencia entre dos centros de ventana adyacentes, es decir la mitad de la longitud de análisis para ventanas simétricas. A continuación se supone que el error anterior se incluye en el intervalo [-\pi,+\pi].
Posteriormente, se calcula una medida P_{k} de predicción para la magnitud de predictibilidad de fase en el intervalo de frecuencia k-ésimo según P_{k} = (\pi - |\theta(k)|)/\pi \in [0,1], donde | \cdot | indica el valor absoluto.
Por tanto, la medida P_{k} anterior proporciona un valor entre 0 y 1 correspondiente a la magnitud de predictibilidad de fase en el intervalo de frecuencia k-ésimo. Si P_{k} es próxima a 1, puede suponerse que la señal subyacente tiene un alto grado de tonalidad, es decir, tiene una forma de onda sustancialmente sinusoidal. Para una señal de este tipo, los saltos de fase son fácilmente perceptibles, por ejemplo por el oyente de una señal de audio. Por tanto, los saltos de fase deberían eliminarse preferiblemente en este caso. Por otro lado, si el valor de P_{k} es próximo a 0, puede suponerse que la señal subyacente es ruidosa. Para las señales ruidosas, los saltos de fase no se perciben fácilmente y, por tanto, pueden permitirse.
Por consiguiente, se aplica la función de limitación de fase si P_{k} supera un umbral predeterminado, es decir P_{k} > A, dando como resultado la respuesta F'(k,n) de filtro real según
4
En este caso, A está limitado por los límites superior e inferior de P, que son +1 y 0, respectivamente. El valor exacto de A depende de la implementación real. Por ejemplo, A puede seleccionarse entre 0,6 y 0,9.
Se entiende que, alternativamente, puede usarse cualquier otra medida adecuada para estimar la tonalidad. En otra realización más, el salto c de fase permitido descrito anteriormente puede hacerse dependiente de una medida adecuada de tonalidad, por ejemplo la medida P_{k} anterior, permitiendo así saltos de fase más grandes si P_{k} es grande y viceversa.
La figura 4 ilustra un descorrelador para su uso para sintetizar la señal de audio. El descorrelador comprende un filtro 401 de todo paso que recibe la señal x monoaural y un conjunto de parámetros P espaciales que incluyen la correlación r cruzada entre canales y un parámetro indicativo de la diferencia c de canal. Se indica que el parámetro c está relacionado con la diferencia de nivel entre canales por ILD = k\cdotlog(c), donde k es una constante, es decir ILD es proporcional al logaritmo de c.
Preferiblemente, el filtro de todo paso comprende un retardo dependiente de la frecuencia que proporciona un retardo relativamente menor a altas frecuencias que a bajas frecuencias. Esto puede conseguirse sustituyendo un retardo fijo del filtro de todo paso por un filtro de todo paso que comprende un periodo de un complejo de fase de Schroeder (véase por ejemplo M.R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor., 16:85-89, 1970). El descorrelador comprende además un circuito 402 de análisis que recibe los parámetros espaciales desde el descodificador y extrae la correlación r cruzada entre canales y la diferencia c de canal. El circuito 402 determina una matriz M(\alpha,\beta) de mezcla tal como se describirá a continuación. Las componentes de la matriz de mezcla se alimentan al circuito 403 de transformación que además recibe la señal x de entrada y la señal H\otimesx filtrada. El circuito 403 realiza una operación de mezcla según
5
dando como resultado las señales L y R de salida.
La correlación entre las señales L y R puede expresarse como un ángulo \alpha entre vectores que representan la señal L y R, respectivamente, en un espacio definido por las señales x y H\otimesx, según r = cos(\alpha). Por consiguiente, cualquier par de vectores que muestre la distancia angular correcta tiene la correlación especificada.
Por tanto, una matriz M de mezcla que transforma las señales x y H\otimesx en señales L y R con una correlación r predeterminada puede expresarse como sigue:
6
Así, la cantidad de señal sometida al filtro de todo paso depende de la correlación deseada. Además, la energía de la componente de señal de todo paso es la misma en ambos canales de salida) aunque con un desplazamiento de fase de 180º).
Se indica que el caso en el que la matriz M viene dada por
7
es decir, el caso en que \alpha = 90º correspondiente a señales (r = 0) de salida no correlacionadas, corresponde a un descorrelador de Lauridsen.
Para ilustrar un problema con la matriz de la ecuación (5), se supone una situación con una amplitud extrema que va hacia el canal izquierdo, es decir un caso en el que una cierta señal está presente sólo en el canal izquierdo. También se supone que la correlación deseada entre las salidas es cero. En este caso, la salida del canal izquierdo de la transformación de la ecuación (3) con la matriz de mezcla de la ecuación (5) proporciona 8 Por tanto, la salida consiste en la señal x original combinada con su versión H\otimesx sometida a filtro de todo paso.
Sin embargo, esta es una situación no deseada, puesto que el filtro de todo paso deteriora habitualmente la calidad de percepción de la señal. Además, la suma de la señal original y la señal filtrada da como resultado efectos de filtro de peine, tal como la coloración percibida de la señal de salida. En este caso extremo supuesto, la mejor solución sería que la señal de salida izquierda consistiera en la señal de entrada. De esta forma la correlación de las dos señales de salida seguiría siendo cero.
En situaciones con más diferencias de nivel moderadas, la situación preferida es que el canal de salida más fuerte contenga relativamente más de la señal original, y que el canal de salida más débil contenga relativamente más de la señal filtrada. Por tanto, en general, se prefiere maximizar la cantidad de la señal original presente en las dos salidas de manera conjunta, y minimizar la cantidad de la señal filtrada.
Según esta realización, esto se consigue introduciendo una matriz de mezcla diferente que incluye una rotación común adicional:
9
En este caso, \beta es una rotación adicional y C es una matriz escalar que garantiza que la diferencia de nivel relativa entre las señales de salida es igual a c, es decir
10
La inserción de la matriz de la ecuación (6) en la ecuación (3) proporciona las señales de salida generadas por la operación de aplicar una matriz según esta realización:
11
Por tanto, las señales L y R de salida aún tienen una diferencia \alpha angular, es decir, la correlación entre las señales L y R no se ve afectada por el ajuste a escala de las señales L y R según la diferencia de nivel deseada y la rotación adicional por el ángulo \beta tanto de la señal L como de la R.
Tal como se mencionó anteriormente, preferiblemente, debería maximizarse la cantidad de la señal x original en la salida sumada de L y R. Esta condición puede usarse para determinar el ángulo \beta, según
12
que proporciona la condición:
13
En resumen, esta solicitud describe una descripción paramétrica de los atributos espaciales de señales de audio multicanal, basada en la psicoacústica. Esta descripción paramétrica permite reducciones considerables de la tasa de bits en codificadores de audio, puesto que sólo ha de transmitirse una señal monoaural, combinada con parámetros (cuantificados) que describen las propiedades espaciales de la señal. El descodificador puede formar la cantidad original de canales de audio aplicando los parámetros espaciales. Para audio estéreo de calidad próxima a CD, una tasa de bits asociada con estos parámetros espaciales de 10 kbit/s o inferior parece suficiente para reproducir la impresión espacial correcta en el extremo receptor. Adicionalmente, esta escala de bits puede ajustarse a escala de manera descendente reduciendo la resolución espectral y/o temporal de los parámetros espaciales y/o procesando los parámetros espaciales utilizando algoritmos de compresión sin pérdida.
Debería observarse que las realizaciones mencionadas anteriormente ilustran en vez de limitar la invención, y que los expertos en la técnica podrán diseñar muchas realizaciones alternativas sin apartarse del alcance de las reivindicaciones adjuntas.
Por ejemplo, la invención se ha descrito principalmente en conexión con una realización utilizando las dos indicaciones de posición ILD e ITD/IPD. En realizaciones alternativas, pueden usarse otras indicaciones de posición. Además, en una realización, la ILD, la ITD/IPD y la correlación cruzada entre canales pueden determinarse tal como se describió anteriormente, aunque sólo se transmite la correlación cruzada entre canales junto con la señal monoaural, reduciendo así adicionalmente el ancho de banda/capacidad de almacenamiento requeridos para transmitir/almacenar la señal de audio. De manera alternativa, puede transmitirse la correlación cruzada entre canales y una de ILD e ITD/TPD. En estas realizaciones, la señal se sintetiza sólo a partir la señal monoaural basándose en los parámetros transmitidos.
En las reivindicaciones, cualquier símbolo de referencia entre paréntesis no debería interpretarse como limitativo de la reivindicación. El término "comprender" no excluye la presencia de elementos o etapas diferentes a las enumeradas en una reivindicación. El término "un" o "una" precediendo a un elemento no excluye la presencia de una pluralidad de elementos tales.
La invención puede implementarse por medio de hardware que comprende diversos elementos distintos y por medio de un ordenador programado de forma adecuada. En la reivindicación del dispositivo que enumera diversos medios, varios de estos medios pueden realizarse mediante uno y el mismo elemento de hardware. El mero hecho de que ciertas medidas se enumeren en reivindicaciones diferentes entre sí no indica que no pueda usarse de forma ventajosa una combinación de estas medidas.

Claims (14)

1. Procedimiento para codificar una señal de audio, comprendiendo el procedimiento:
- generar (S8) una señal monoaural que comprende una combinación de al menos dos canales (L, R) de audio de entrada,
- determinar (S2, S3, S4) un conjunto de parámetros (ILD, ITD, C) espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro (C) que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada,
- generar (S5, S6, S7, S9) una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales
caracterizado porque
la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
2. Procedimiento según la reivindicación 1, en el que la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende determinar un conjunto de parámetros espaciales en función del tiempo y la frecuencia.
3. Procedimiento según la reivindicación 2, en el que la etapa de determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales comprende
- dividir cada uno de los al menos dos canales de audio de entrada en pluralidades correspondientes de bandas de frecuencia;
- para cada una de la pluralidad de bandas de frecuencia determinar el conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada en la banda de frecuencia correspondiente.
4. Procedimiento según una cualquiera de las reivindicaciones 1 a 3, en el que el conjunto de parámetros espaciales incluye al menos una indicación de posición.
5. Procedimiento según la reivindicación 4, en el que el conjunto de parámetros espaciales incluye al menos dos indicaciones de posición que comprenden una diferencia de nivel entre canales y una seleccionada de entre una diferencia de tiempo entre canales y una diferencia de fase entre canales.
6. Procedimiento según la reivindicación 4 ó 5, en el que la medida de similitud comprende información que no puede tenerse en cuenta por las indicaciones de posición.
7. Procedimiento según una cualquiera de las reivindicaciones 1 a 6, en el que la etapa de generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales comprende generar un conjunto de parámetros espaciales cuantificados, introduciendo cada uno un error de cuantificación correspondiente relativo al parámetro espacial determinado correspondiente, en el que al menos uno de los errores de cuantificación introducidos se controla para que dependa de un valor de al menos uno de los parámetros espaciales determinados.
8. Codificador para codificar una señal de audio, comprendiendo el codificador:
- medios para generar una señal monoaural que comprende una combinación de al menos dos canales de audio de entrada,
- medios para determinar un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, y
- medios para generar una señal codificada que comprende la señal monoaural y el conjunto de parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
9. Aparato para suministrar una señal de audio, comprendiendo el aparato:
una entrada para recibir una señal de audio,
un codificador según la reivindicación 8 para codificar la señal de audio para obtener una señal de audio codificada, y
una salida para suministrar la señal de audio codificada.
10. Señal de audio codificada, comprendiendo la señal: una señal monoaural que comprende una combinación de al menos dos canales de audio, y
un conjunto de parámetros espaciales indicativos de propiedades espaciales de los al menos dos canales de audio de entrada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio de entrada, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
11. Medio de almacenamiento que tiene almacenada en el mismo una señal codificada según la reivindicación 10.
12. Procedimiento para descodificar una señal de audio codificada, comprendiendo el procedimiento:
obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio,
obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y
generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
13. Descodificador para descodificar una señal de audio codificada, comprendiendo el descodificador
medios para obtener una señal monoaural a partir de la señal de audio codificada, comprendiendo la señal monoaural una combinación de al menos dos canales de audio, y
medios para obtener un conjunto de parámetros espaciales a partir de la señal de audio codificada, incluyendo el conjunto de parámetros espaciales un parámetro que representa una medida de similitud de formas de onda de los al menos dos canales de audio, y
medios para generar una señal de salida multicanal a partir de la señal monoaural y los parámetros espaciales, caracterizado porque la medida de similitud corresponde a un valor de una función de correlación cruzada a un valor máximo de dicha función de correlación cruzada.
14. Aparato para suministrar una señal de audio descodificada, comprendiendo el aparato:
una entrada para recibir una señal de audio codificada,
un descodificador según la reivindicación 13 para descodificar la señal de audio codificada para obtener una señal de salida multicanal, y
una salida para suministrar o reproducir la señal de salida multicanal.
ES03715237T 2002-04-22 2003-04-22 Representacion parametrica de audio espacial. Expired - Lifetime ES2300567T3 (es)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
EP02076588 2002-04-22
EP02076588 2002-04-22
EP02077863 2002-07-12
EP02077863 2002-07-12
EP02079303 2002-10-14
EP02079303 2002-10-14
EP02079817 2002-11-20
EP02079817 2002-11-20

Publications (1)

Publication Number Publication Date
ES2300567T3 true ES2300567T3 (es) 2008-06-16

Family

ID=29255420

Family Applications (2)

Application Number Title Priority Date Filing Date
ES07119364T Expired - Lifetime ES2323294T3 (es) 2002-04-22 2003-04-22 Dispositivo de decodificacion con una unidad de decorrelacion.
ES03715237T Expired - Lifetime ES2300567T3 (es) 2002-04-22 2003-04-22 Representacion parametrica de audio espacial.

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES07119364T Expired - Lifetime ES2323294T3 (es) 2002-04-22 2003-04-22 Dispositivo de decodificacion con una unidad de decorrelacion.

Country Status (11)

Country Link
US (3) US8340302B2 (es)
EP (2) EP1881486B1 (es)
JP (3) JP4714416B2 (es)
KR (2) KR101016982B1 (es)
CN (1) CN1307612C (es)
AT (2) ATE426235T1 (es)
AU (1) AU2003219426A1 (es)
BR (2) BRPI0304540B1 (es)
DE (2) DE60326782D1 (es)
ES (2) ES2323294T3 (es)
WO (1) WO2003090208A1 (es)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
AU2003216682A1 (en) * 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
ES2355240T3 (es) 2003-03-17 2011-03-24 Koninklijke Philips Electronics N.V. Procesamiento de señales de múltiples canales.
FR2853804A1 (fr) * 2003-07-11 2004-10-15 France Telecom Procede de decodage d'un signal permettant de reconstituer une scene sonore et dispositif de decodage correspondant
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
CN1922654A (zh) * 2004-02-17 2007-02-28 皇家飞利浦电子股份有限公司 音频分发系统、音频编码器、音频解码器及其操作方法
DE102004009628A1 (de) * 2004-02-27 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Beschreiben einer Audio-CD und Audio-CD
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
CA2808226C (en) * 2004-03-01 2016-07-19 Dolby Laboratories Licensing Corporation Multichannel audio coding
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
WO2005098824A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
EP1600791B1 (en) * 2004-05-26 2009-04-01 Honda Research Institute Europe GmbH Sound source localization based on binaural signals
US7756713B2 (en) 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
KR100663729B1 (ko) 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
EP1779385B1 (en) * 2004-07-09 2010-09-22 Electronics and Telecommunications Research Institute Method and apparatus for encoding and decoding multi-channel audio signal using virtual source location information
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
KR20070051864A (ko) 2004-08-26 2007-05-18 마츠시타 덴끼 산교 가부시키가이샤 멀티 채널 신호 부호화 장치 및 멀티 채널 신호 복호 장치
JP4936894B2 (ja) 2004-08-27 2012-05-23 パナソニック株式会社 オーディオデコーダ、方法及びプログラム
WO2006022190A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
KR20070056081A (ko) 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
DE102004042819A1 (de) 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
KR101158709B1 (ko) * 2004-09-06 2012-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 강화
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
WO2006030754A1 (ja) * 2004-09-17 2006-03-23 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、復号化装置、方法、及びプログラム
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
BRPI0518278B1 (pt) 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP5017121B2 (ja) * 2004-11-30 2012-09-05 アギア システムズ インコーポレーテッド 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
BRPI0516658A (pt) * 2004-11-30 2008-09-16 Matsushita Electric Ind Co Ltd aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
DE602005017660D1 (de) 2004-12-28 2009-12-24 Panasonic Corp Audiokodierungsvorrichtung und audiokodierungsmethode
EP1818910A4 (en) * 2004-12-28 2009-11-25 Panasonic Corp SCALABLE CODING DEVICE AND SCALABLE CODING METHOD
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
JP4887288B2 (ja) * 2005-03-25 2012-02-29 パナソニック株式会社 音声符号化装置および音声符号化方法
EP1866911B1 (en) * 2005-03-30 2010-06-09 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
CN101185117B (zh) * 2005-05-26 2012-09-26 Lg电子株式会社 解码音频信号的方法和装置
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US20080212784A1 (en) * 2005-07-06 2008-09-04 Koninklijke Philips Electronics, N.V. Parametric Multi-Channel Decoding
US8050915B2 (en) 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
US8626503B2 (en) 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
WO2007007263A2 (en) * 2005-07-14 2007-01-18 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP1905034B1 (en) * 2005-07-19 2011-06-01 Electronics and Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
PL1905006T3 (pl) * 2005-07-19 2014-02-28 Koninl Philips Electronics Nv Generowanie wielokanałowych sygnałów audio
US7706905B2 (en) 2005-07-29 2010-04-27 Lg Electronics Inc. Method for processing audio signal
KR100857102B1 (ko) * 2005-07-29 2008-09-08 엘지전자 주식회사 인코딩된 오디오 신호 생성 및 처리 방법
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
WO2007027056A1 (en) 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
WO2007029412A1 (ja) * 2005-09-01 2007-03-15 Matsushita Electric Industrial Co., Ltd. マルチチャンネル音響信号処理装置
EP1946295B1 (en) 2005-09-14 2013-11-06 LG Electronics Inc. Method and apparatus for decoding an audio signal
CN101351839B (zh) * 2005-09-14 2012-07-04 Lg电子株式会社 解码音频信号的方法和装置
EP1943642A4 (en) * 2005-09-27 2009-07-01 Lg Electronics Inc METHOD AND DEVICE FOR CODING / DECODING A MULTI-CHANNEL AUDIO SIGNAL
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
WO2007043844A1 (en) 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for processing a signal
EP1946307A4 (en) * 2005-10-13 2010-01-06 Lg Electronics Inc METHOD AND DEVICE FOR SIGNAL PROCESSING
WO2007046659A1 (en) 2005-10-20 2007-04-26 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
CN101297353B (zh) * 2005-10-26 2013-03-13 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
JP4944902B2 (ja) * 2006-01-09 2012-06-06 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
DE602006001051T2 (de) * 2006-01-09 2009-07-02 Honda Research Institute Europe Gmbh Bestimmung des entsprechenden Messfensters zur Schallquellenortung in Echoumgebungen
KR101366291B1 (ko) 2006-01-19 2014-02-21 엘지전자 주식회사 신호 디코딩 방법 및 장치
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
WO2007091850A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
CN101385077B (zh) * 2006-02-07 2012-04-11 Lg电子株式会社 用于编码/解码信号的装置和方法
BRPI0706488A2 (pt) 2006-02-23 2011-03-29 Lg Electronics Inc método e aparelho para processar sinal de áudio
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
JP2009532712A (ja) 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
KR101200615B1 (ko) 2006-04-27 2012-11-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
EP1862813A1 (en) * 2006-05-31 2007-12-05 Honda Research Institute Europe GmbH A method for estimating the position of a sound source for online calibration of auditory cue to location transformations
US8150702B2 (en) 2006-08-04 2012-04-03 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
RU2551797C2 (ru) 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN101479786B (zh) * 2006-09-29 2012-10-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
WO2008051347A2 (en) 2006-10-20 2008-05-02 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP4838361B2 (ja) 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
CA2670864C (en) 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2008069584A2 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
US8553891B2 (en) 2007-02-06 2013-10-08 Koninklijke Philips N.V. Low complexity parametric stereo decoder
EP2111618A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
JP2010521866A (ja) * 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP5291096B2 (ja) * 2007-06-08 2013-09-18 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
CN102436822B (zh) * 2007-06-27 2015-03-25 日本电气株式会社 信号控制装置及其方法
CN101802907B (zh) * 2007-09-19 2013-11-13 爱立信电话股份有限公司 多信道音频的联合增强
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
BRPI1004215B1 (pt) 2009-04-08 2021-08-17 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para upmixagem de sinal de áudio downmix utilizando uma atenuação de valor de fase
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP2489040A1 (fr) * 2009-10-16 2012-08-22 France Telecom Decodage parametrique stereo optimise
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
KR101341536B1 (ko) * 2010-01-06 2013-12-16 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5333257B2 (ja) 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
EP2532178A1 (en) * 2010-02-02 2012-12-12 Koninklijke Philips Electronics N.V. Spatial sound reproduction
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
CA2790956C (en) * 2010-02-24 2017-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
US9628930B2 (en) * 2010-04-08 2017-04-18 City University Of Hong Kong Audio spatial effect enhancement
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN102314882B (zh) * 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
RU2573774C2 (ru) * 2010-08-25 2016-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
JP5775637B2 (ja) 2011-08-04 2015-09-09 ドルビー・インターナショナル・アーベー パラメトリック・ステレオを使った改善されたfmステレオ電波受信機
KR101816506B1 (ko) 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
US10219093B2 (en) * 2013-03-14 2019-02-26 Michael Luna Mono-spatial audio processing to provide spatial messaging
WO2014151092A1 (en) * 2013-03-15 2014-09-25 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
KR20230020553A (ko) 2013-04-05 2023-02-10 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
MX354832B (es) 2013-10-21 2018-03-21 Dolby Int Ab Estructura de decorrelador para la reconstruccion parametrica de señales de audio.
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
WO2016025812A1 (en) 2014-08-14 2016-02-18 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
WO2019091575A1 (en) * 2017-11-10 2019-05-16 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0454100A (ja) * 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
GB2252002B (en) * 1991-01-11 1995-01-04 Sony Broadcast & Communication Compression of video signals
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
GB2258781B (en) * 1991-08-13 1995-05-03 Sony Broadcast & Communication Data compression
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
DE19647399C1 (de) 1996-11-15 1998-07-02 Fraunhofer Ges Forschung Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
GB9726338D0 (en) 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
GB2353926B (en) * 1999-09-04 2003-10-29 Central Research Lab Ltd Method and apparatus for generating a second audio signal from a first audio signal
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.

Also Published As

Publication number Publication date
WO2003090208A1 (en) 2003-10-30
JP2012161087A (ja) 2012-08-23
KR101016982B1 (ko) 2011-02-28
EP1881486B1 (en) 2009-03-18
CN1307612C (zh) 2007-03-28
US8331572B2 (en) 2012-12-11
KR20040102164A (ko) 2004-12-03
BRPI0304540B1 (pt) 2017-12-12
JP5498525B2 (ja) 2014-05-21
JP5101579B2 (ja) 2012-12-19
DE60326782D1 (de) 2009-04-30
KR100978018B1 (ko) 2010-08-25
US8340302B2 (en) 2012-12-25
US20130094654A1 (en) 2013-04-18
KR20100039433A (ko) 2010-04-15
JP2005523480A (ja) 2005-08-04
JP2009271554A (ja) 2009-11-19
US20080170711A1 (en) 2008-07-17
ATE426235T1 (de) 2009-04-15
DE60318835D1 (de) 2008-03-13
ES2323294T3 (es) 2009-07-10
EP1881486A1 (en) 2008-01-23
AU2003219426A1 (en) 2003-11-03
CN1647155A (zh) 2005-07-27
US9137603B2 (en) 2015-09-15
BR0304540A (pt) 2004-07-20
ATE385025T1 (de) 2008-02-15
DE60318835T2 (de) 2009-01-22
US20090287495A1 (en) 2009-11-19
EP1500084A1 (en) 2005-01-26
EP1500084B1 (en) 2008-01-23
JP4714416B2 (ja) 2011-06-29

Similar Documents

Publication Publication Date Title
ES2300567T3 (es) Representacion parametrica de audio espacial.
KR101021076B1 (ko) 신호 합성
ES2316678T3 (es) Codificacion y descodificacion audio multicanal.
ES2682073T3 (es) Codificación conjunta paramétrica de fuentes de audio
US7542896B2 (en) Audio coding/decoding with spatial parameters and non-uniform segmentation for transients
EP0519055B2 (en) Decoder for variable-number of channel presentation of multidimensional sound fields
RU2376655C2 (ru) Зависящее от энергии квантование для эффективного кодирования пространственных параметров звука
NO344093B1 (no) Kompatibel flerkanal-koding/dekoding.
US20120134511A1 (en) Multichannel audio coder and decoder
EP1606797A1 (en) Processing of multi-channel signals
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
Bosi MPEG audio compression basics
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치