ES2306235T3 - Codificacion de audio multicanal compatible estereo. - Google Patents

Codificacion de audio multicanal compatible estereo. Download PDF

Info

Publication number
ES2306235T3
ES2306235T3 ES05798859T ES05798859T ES2306235T3 ES 2306235 T3 ES2306235 T3 ES 2306235T3 ES 05798859 T ES05798859 T ES 05798859T ES 05798859 T ES05798859 T ES 05798859T ES 2306235 T3 ES2306235 T3 ES 2306235T3
Authority
ES
Spain
Prior art keywords
parameters
spatial
stereo
signal
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05798859T
Other languages
English (en)
Inventor
Heiko Purnhagen
Jeroen Breebaart
Erik Schuijers
Lars Villemoes
Jonas Roden
Jonas Engdegard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Coding Technologies Sweden AB
Original Assignee
Koninklijke Philips Electronics NV
Coding Technologies Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV, Coding Technologies Sweden AB filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2306235T3 publication Critical patent/ES2306235T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transceivers (AREA)

Abstract

Descodificador (200) de audio multicanal para procesar una representación (202) paramétrica, en el que la representación (202) paramétrica comprende un parámetro (206) de estéreo que describe propiedades espaciales de un downmix estéreo de la señal multicanal e información sobre uno o más parámetros (204) espaciales que describen propiedades espaciales de una señal multicanal, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, en el que la información sobre el uno o más parámetros (204) espaciales y el parámetro (206) de estéreo, cuando se combinan utilizando una regla de combinación, da como resultado uno o más parámetros (210) espaciales, comprendiendo el descodificador: un reconstructor (208) de parámetros para combinar el parámetro (206) de estéreo y la información sobre el uno o más parámetros (204) espaciales utilizando la regla de combinación para obtener el uno o más parámetros (210) espaciales.

Description

Codificación de audio multicanal compatible estéreo.
La presente invención se refiere a codificación de audio multicanal y en particular a un concepto de generación y utilización de una representación paramétrica de una señal de audio multicanal que es totalmente compatible hacia atrás para entornos de reproducción de estéreo paramétrico.
La presente invención se refiere a codificación de representaciones multicanal de señales de audio utilizando parámetros de audio espacial de una manera que es compatible con codificación de señales estéreo de 2 canales utilizando parámetros de estéreo paramétrico. La presente invención enseña nuevos métodos para codificación eficaz tanto de parámetros de audio espacial como de parámetros de estéreo paramétrico y para embeber los parámetros codificados en un flujo de bits de una manera compatible hacia atrás. En particular su objetivo es minimizar la tasa de bits global para los parámetros de estéreo paramétrico y audio espacial en el flujo de bits compatible hacia atrás sin comprometer la calidad del estéreo descodificado o señal de audio multicanal. Cuando una calidad ligeramente comprometida de la señal estéreo descodificada es aceptable, puede reducirse aún más la tasa de bits global.
Últimamente, las técnicas de reproducción de audio multicanal están volviéndose cada vez más importantes. Teniendo como objetivo una transmisión eficaz de señales de audio multicanal que presentan 5 o más canales de audio separados, se han desarrollado varias maneras de comprimir una señal multicanal o estéreo. Enfoques recientes para la codificación paramétrica de señales de audio multicanal (estéreo paramétrico (PS, parametric stereo), codificación de indicación binaural (BCC, Binaural Cue Coding) etc.) representan una señal de audio multicanal por medio de una señal de downmix (podría ser monofónica o comprender varios canales) e información lateral paramétrica, también denominada "indicaciones espaciales", caracterizando su fase de sonido espacial percibida.
Un dispositivo de codificación multicanal recibe en general, como entrada, al menos dos canales, y emite uno o más canales portadores y datos paramétricos. Los datos paramétricos se obtienen de tal manera que, en un descodificador, puede calcularse una aproximación de la señal multicanal original. Normalmente, el(los) canal (canales) portador(es) incluirá(n) muestras de subbanda, coeficientes espectrales, muestras de dominio de tiempo, etc., que proporcionan una representación comparativamente precisa de la señal subyacentes, mientras que los datos paramétricos no incluyen tales muestras de coeficientes espectrales sino que incluyen parámetros de control para controlar un cierto algoritmo de reconstrucción en su lugar. Tal reconstrucción podría comprender ponderación por multiplicación, desplazamiento de tiempo, desplazamiento de frecuencia, desplazamiento de fase, etc. Por tanto, los datos paramétricos, incluyen sólo una representación comparativamente imprecisa de la señal o el canal asociado.
La técnica de codificación de indicación binaural (BCC) se describe en varias publicaciones, como en "Binaural Cue Coding applied to Stereo and Multi-Channel Audio Compression", C. Faller, F. Baumgarte, artículo de convención AES 5574, mayo de 2002, Munich, en las 2 publicaciones de ICASSP "Estimation of auditory spatial cues for binaural cue coding", y "Binaural Cue Coding: a normal an efficient representation of spatial audio", ambas escritas por C. Faller y F. Baumgarte, Orlando, FL, mayo de 2002.
En la codificación BCC, varios canales de entrada de audio se convierten en una representación espectral utilizando una transformada basada en DFT (transformada discreta de Fourier, Discrete Fourier Transform) con ventanas superpuestas. El espectro uniforme resultante se divide entonces en particiones no superpuestas. Cada partición presenta un ancho de banda proporcional al ancho de banda rectangular equivalente (ERB, equivalent rectangular bandwidth). Entonces, se estiman parámetros espaciales denominados ICLD (diferencia de nivel entre canales, Inter-Channel Level Difference) e ICTD (diferencia de tiempo entre canales, Inter-Channel Time Difference) para cada partición. El parámetro ICLD describe una diferencia de nivel entre dos canales y el parámetro ICTD describe la diferencia de tiempo (desfase) entre dos señales de diferentes canales. Las diferencias de nivel y las diferencias de tiempo se dan normalmente para cada canal con respecto a un canal de referencia. Tras la obtención de estos parámetros, los parámetros se cuantifican y finalmente se codifican para su transmisión.
Aunque los parámetros ICLD e ICTD representan los parámetros de localización de fuente de sonido más importantes, puede mejorarse una representación espacial utilizando estos parámetros introduciendo parámetros adicionales.
Una técnica relacionada, denominada "estéreo paramétrico" describe la codificación paramétrica de una señal estéreo de dos canales basándose en una señal mono transmitida más información lateral de parámetros. Se introducen tres tipos de parámetros espaciales, denominados diferencia de intensidad entre canales (IID, inter-channel intensity difference), diferencias de fase entre canales (IPD, inter-channel phase differences) y coherencia entre canales (IC, inter-channel coherence). La extensión del conjunto de parámetros espaciales con un parámetro de coherencia (parámetro de correlación) permite una parametrización de la "difusividad" espacial o "compacidad" espacial percibidas de la fase de sonido. El estéreo paramétrico se describe con más detalle en: "Parametric Coding of stereo audio", J.'Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers (2005) Eurasip, J. Applied Signal Proc. 9, páginas 1305 a 1322)'', en "High-Quality Parametric Spatial Audio Coding at Low Bitrates", J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, 116ª convención AES, preimpresión 6072, Berlín, mayo de 2004, y en "Low Complexity Parametric Stereo Coding", E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard, 116ª convención AES, preimpresión 6073, Berlín, mayo de 2004.
Tal como se mencionó anteriormente, últimamente se han desarrollado sistemas para codificación de estéreo paramétrico así como para codificación de audio espacial. Como en estéreo paramétrico se representa una señal de audio estéreo de dos canales por medio de una señal de audio de downmix mono e información lateral adicional que lleva parámetros de estéreo (véase PCT/SE02/01372 "Efficient and scalable Parametric Stereo Coding for Low Bitrate Audio Coding Applications"), un descodificador de estéreo legado reconstruye una señal estéreo de dos canales a partir de la señal mono y la información lateral.
En esquemas de codificación de audio espacial, se representa una señal de audio envolvente multicanal por medio de una señal de audio de downmix estéreo o mono e información lateral adicional que lleva parámetros de audio espacial. Un ejemplo ampliamente conocido es la configuración de canales 5.1 utilizada para sistemas de entretenimiento para el hogar.
Un descodificador de audio espacial legado reconstruye la señal multicanal 5.1 basándose en la señal mono o estéreo y los parámetros espaciales de audio adicionales.
Normalmente las señales de downmix empleadas en sistemas de codificación de audio espacial o estéreo paramétrico se codifican adicionalmente, utilizando técnicas de codificación de audio perceptiva de baja tasa de bits (tal como MPEG AAC) para reducir adicionalmente el ancho de banda de transmisión requerido para la transmisión de los diferentes tipos de señales. Además, la señal de downmix se combina normalmente con la información lateral de audio espacial o de estéreo paramétrico en un flujo de bits de una manera que garantiza la compatibilidad hacia atrás con descodificadores legados, es decir, con descodificadores que no están operativos para procesar los parámetros de audio espacial o estéreo paramétrico. De esta manera, un descodificador de audio legado sólo reconstruye la señal de downmix estéreo o mono transmitida. Cuando se utiliza un descodificador que implementa estéreo paramétrico o codificación de audio espacial, el descodificador también recuperará la información lateral embebida en el flujo de bits y reconstruirá la señal completa envolvente de canales 5.1 o estéreo de dos canales.
Cuando se utiliza codificación de audio espacial basándose en una señal de downmix mono es deseable además aumentar la compatibilidad hacia atrás proporcionando una señal de tal manera que no sólo un descodificador de audio perceptivo legado pueda obtener la señal de downmix mono, sino que adicionalmente sea posible para un descodificador de estéreo paramétrico que no soporta descodificación de audio espacial una descodificación de estéreo paramétrico de tal flujo de bits. Para conseguir este objetivo, es necesario incluir ambas informaciones, la información lateral de estéreo paramétrico y la información lateral de audio espacial en el flujo de bits. Este enfoque obvio lleva a una cantidad indeseablemente alta de información lateral dentro del flujo de bits. Esto significaría para un escenario en el que tiene que mantenerse una tasa de bits máxima total para transmitir la señal mono y la información lateral, que un aumento en la información lateral llevaría a menos tasa de datos disponible para el downmix mono codificado de manera perceptiva, lo que obviamente reduce la calidad de audio de la señal de downmix mono descodificada.
Otro enfoque de la técnica anterior de incluir simultáneamente tanto los parámetros de audio espacial y de estéreo paramétrico como la información lateral, requiere un conjunto de parámetros de audio espacial que están estructurados de tal manera que un subconjunto de estos parámetros permite reconstruir una señal estéreo de dos canales a partir de la señal de downmix mono. Este subconjunto se embebe como información lateral paramétrica dentro del flujo de bits de una manera compatible con flujos de bits de estéreo paramétrico, mientras que los parámetros de audio espacial restantes que no pertenecen al subconjunto se embeben en información lateral de audio espacial en el flujo de bits compatible con codificadores de audio espacial. En el lado del descodificador, un descodificador que implementa sólo estéreo paramétrico reconstruirá una señal estéreo de dos canales basándose en el subconjunto de parámetros que están embebidos como información lateral de estéreo paramétrico. Por otro lado, un descodificador que implementa audio espacial recuperará el subconjunto de estéreo paramétrico y los parámetros de audio espacial restantes. Con este conjunto completo de parámetros espaciales, puede reconstruirse la señal multicanal.
Sin embargo, este enfoque presenta la desventaja de que compromete la calidad de audio de o bien la reconstrucción de estéreo paramétrico compatible hacia atrás o bien la reconstrucción multicanal. Esto es evidente, puesto que en el primer caso, el subconjunto de parámetros que también se utilizan como parámetros de audio espacial describe la interrelación entre dos canales de una señal 5.1. La elección más natural sería el canal izquierdo frontal (l) y el derecho frontal (r), lo que, sin embargo, puede diferir sustancialmente de los valores correctos para la relación de los canales izquierdo (l0) y derecho (r0) de un downmix estéreo. En el segundo caso, los valores correctos de un downmix estéreo forman dicho subconjunto, lo que significa que se utilizan para describir una interrelación entre el canal izquierdo frontal y el derecho frontal de una señal envolvente multicanal. Esto, sin embargo, puede llevar a una imperfección significativa de la reconstrucción de audio espacial debido a la cuantificación de los parámetros, que se requiere con el fin de embeberlos en el flujo de bits de una manera compatible multicanal.
Es el objeto de la presente invención proporcionar un concepto para crear y utilizar una representación paramétrica de una señal de audio multicanal que permita una representación más eficaz que apenas comprometa la calidad de una reconstrucción de estéreo paramétrico o la calidad de una reconstrucción de audio espacial.
Este objeto se consigue mediante un descodificador de audio multicanal según la reivindicación 1 o un codificador de audio según la reivindicación 11.
\newpage
La presente invención se basa en el descubrimiento de que puede obtenerse eficazmente una representación paramétrica de una señal de audio multicanal que presenta parámetros adecuados para utilizarse junto con una señal de downmix monofónico de una manera compatible hacia atrás cuando se utiliza un combinador de parámetros para generar la representación paramétrica combinando un conjunto de parámetros espaciales y un parámetro de estéreo dando como resultado una representación paramétrica que presenta un parámetro de estéreo utilizable por el descodificador y una información sobre el conjunto de parámetros espaciales que representa, junto con el parámetro de estéreo utilizable por el descodificador, el conjunto de parámetros espaciales.
Utilizando una interrelación entre los parámetros espaciales y los parámetros de estéreo que están describiendo un downmix estéreo de la misma señal multicanal de audio descrita también por los parámetros espaciales, se puede predecir de manera ventajosa un subconjunto de los parámetros espaciales basándose en los parámetros de estéreo paramétrico.
Puesto que la señal estéreo de dos canales descrita por los parámetros de estéreo representa alguna forma de una downmix estéreo de la señal multicanal 5.1, hay dependencias entre los parámetros de estéreo del sistema de estéreo paramétrico y los parámetros espaciales del sistema de codificación de audio espacial, tal como se mencionó anteriormente. La presente invención utiliza estos parámetros de estéreo en combinación con un subconjunto de los parámetros de audio espacial para predecir los valores de los parámetros de audio espacial restantes no incluidos en dicho subconjunto. Entonces, sólo es necesario transmitir la diferencia entre los valores predicho y real de los parámetros de audio espacial que no están en el subconjunto. La entropía de esta diferencia (es decir el error de predicción) es normalmente inferior a la entropía del propio parámetro real. Esto puede utilizarse por un sistema que emplea la presente invención y algún tipo de codificación de entropía posterior. Tal sistema requiere menos tasa de bits de información lateral para los parámetros de estéreo paramétrico y audio espacial que un sistema que simplemente embebería todos los parámetros de manera independiente. Ha de observarse que al mismo tiempo, tal sistema que emplea la presente invención no compromete ni la calidad de la reconstrucción de estéreo paramétrico ni la calidad de la reconstrucción de audio espacial.
Como el objetivo es proporcionar una representación paramétrica que sea compatible hacia atrás con descodificaciones de estéreo paramétrico; se prefiere que los parámetros correctos que representan el downmix estéreo se utilicen para no comprometer la calidad de la señal estéreo de dos canales reconstruida a partir de un descodificador de estéreo paramétrico. Sin embargo, en una realización alternativa de la presente invención, se emplea una pequeña modificación de los parámetros de estéreo paramétrico en el codificador, basándose en los parámetros espaciales estimados, con el fin de mejorar el rendimiento de la predicción de parámetros para los parámetros de audio espacial. Está claro que esta modificación de los parámetros de estéreo paramétrico (PS) lleva a calidad ligeramente reducida de la señal estéreo reconstruida por un descodificador que sólo implementa descodificación de estéreo paramétrico. Mediante esta realización de la presente invención, la calidad de la señal de audio espacial reconstruida permanece no afectada por la modificación de parámetros PS, mientras que se reduce la tasa de bits global requerida para la información lateral espacial y de PS embebida en un flujo de bits compatible.
En una realización preferida de la presente invención, se utiliza un codificador para obtener una representación paramétrica de una señal de audio multicanal que genera un flujo de bits, en la que se embeben parámetros de audio espacial así como parámetros de estéreo paramétrico de un downmix estéreo de la señal multicanal de una manera compatible completamente hacia atrás. Es decir, un descodificador de estéreo paramétrico que puede procesar sólo parámetros de estéreo paramétrico, podrá reconstruir una señal estéreo de alta calidad utilizando los parámetros de estéreo paramétrico. Además, el codificador de la invención sustituye algunos de los parámetros espaciales por una representación diferencial de los parámetros espaciales reales y una predicción del parámetro espacial, mientras que la predicción del parámetro espacial se basa en los parámetros de estéreo y en un conjunto de los parámetros de audio espacial no sustituidos. Puesto que tanto la representación de parámetros de audio espacial como los parámetros de representación de estéreo paramétrico describen diferencias de nivel y correlación entre pares de canales, existe una interrelación entre los parámetros de audio espacial y los parámetros de estéreo, puesto que ambos se obtienen a partir de la misma base de datos, es decir la señal multicanal. Por lo tanto, utilizando la diferencia entre la predicción y el valor real para la transmisión, puede ahorrarse tasa de bits, puesto que las diferencias normalmente presentan una entropía que es mucho menor que la entropía del parámetro de audio espacial subyacente. Cuando la predicción es perfecta, la diferencia de la predicción y el valor real es obviamente cero, lo que significa que como representación de los parámetros espaciales sustituidos sólo tienen que transmitirse o almacenarse valores cero dentro de la representación paramétrica, que es lo más ventajoso cuando se realizan etapas de codificación de entropía adicionales sobre la representación, tal como es normalmente el caso.
Utilizando el concepto descrito anteriormente, un codificación o descodificador de la invención presenta la ventaja obvia de que a pesar de la transmisión compatible hacia atrás de parámetros de audio espacial y estéreo paramétrico sin pérdida de precisión, puede disminuirse la tasa de bits en comparación con un escenario en el que los parámetros de audio espacial y los parámetros estéreo paramétrico se transmiten simplemente de manera independiente dentro de un flujo de bits.
En una realización adicional de la presente invención, se aplica un pequeño cambio a los parámetros de estéreo paramétrico antes de la predicción de los parámetros espaciales y la transmisión de los parámetros espaciales alterados. Esto presenta la gran ventaja de que puede mejorarse la estabilidad de la predicción mediante un pequeño cambio de los parámetros de estéreo paramétrico y, por lo tanto, puede disminuirse adicionalmente la tasa de bits global. El coste es una pequeña degradación en la calidad de un upmix estéreo reconstruido utilizando los parámetros de estéreo modificados, puesto que los parámetros de estéreo paramétrico realmente óptimos se cambian dentro del proceso de codificación.
En una realización adicional de la presente invención, un codificador de audio de la invención comprende un elemento de downmix espacial para generar una señal monofónica a partir de una señal multicanal introducida en el codificador. La señal monofónica se comprime adicionalmente mediante un codificador de audio, utilizando por ejemplo compresión de audio perceptiva, para disminuir adicionalmente la tasa de transmisión que la señal de downmix monofónico utiliza durante la transmisión. Un generador de flujo de bits genera finalmente un flujo de bits para combinar la señal mono, los parámetros de audio espacial y los parámetros de estéreo paramétrico en un único flujo de bits compatible estéreo paramétrico.
En una realización adicional de la presente invención, un codificador o descodificador paramétrico comprende una unidad de control, permitiendo una disminución adicional de la tasa de bits requerida. Esto se consigue comparando la tasa de bits que necesita la representación diferencial de los parámetros espaciales generada utilizando la diferencia del parámetro espacial real y una predicción del mismo con la tasa de bits necesaria para codificar directamente los parámetros espaciales. La codificación se realiza por medio de un procedimiento de codificación de dos etapas, que comprende en primer lugar, la codificación diferencial del tiempo y/o la frecuencia de cada parámetro individualmente, y una codificación de entropía posterior (utilizando por ejemplo un codificador Huffman, un codificador aritmético o un codificador de segmentos en blanco (run-length)). Este proceso aprovecha la predictabilidad (o redundancia) para cada parámetro basándose en su propia historia (comparado con la predicción a través de conjuntos de parámetros tal como se describió anteriormente). En los casos en los que la codificación predictiva diferencial da como resultado una tasa de bits superior, puede ahorrarse tasa de bits adicional transmitiendo directamente los parámetros espaciales para tramas de tiempo dadas. La decisión, cuya estrategia se eligió, puede o bien transmitirse dentro del flujo de bits que va a procesarse en el lado del descodificador o bien el descodificador puede decidir sin notificación qué estrategia se había utilizado originariamente aplicando algoritmos de detección apropiados.
Tal como ya se mencionó, una señal generada según la presente invención presenta la gran ventaja de ser compatible hacia atrás para un descodificador de estéreo paramétrico y además albergar la información requerida para la reproducción de una señal (envolvente) espacial completa cuando se transmite a un descodificador de la invención.
Por lo tanto, un descodificador de la invención que recibe los parámetros de estéreo paramétrico y los parámetros de audio espacial puede reconstruir un conjunto completo de parámetros espaciales aplicando la misma predicción y transformación inversa de los parámetros de audio espacial transmitidos de manera diferencial para obtener el conjunto completo de parámetros de audio espacial que representan la propiedad espacial de una señal multicanal a partir de un flujo de bits de la invención.
Dicho de otro modo, la regla de combinación utilizada para combinar los parámetros de estéreo paramétrico y los parámetros de audio espacial recibidos para reconstruir un conjunto completo de parámetros espaciales es la inversa de la regla aplicada en un lado de codificador. En el caso de codificación diferencial tal como se mencionó anteriormente, esto significaría que en primer lugar se calcula la predicción del parámetro deseado utilizando uno o más de los parámetros de estéreo paramétrico y uno o más de los parámetros de audio espacial recibidos. Entonces se calcula la suma entre el valor predicho y el valor transmitido, siendo esta suma el parámetro deseado del conjunto completo de parámetros espaciales.
En una realización adicional de la presente invención, un descodificador de la invención puede reconstruir también una representación estéreo de la señal multicanal utilizando los parámetros de estéreo paramétrico de alta calidad. Esto presenta la gran ventaja de que puede configurarse un descodificador de la invención según las necesidades, es decir, cuando sólo esté disponible un entorno sólo de reproducción estéreo, puede reproducirse una señal estéreo de alta calidad mediante un descodificador de la invención, mientras que, cuando esté a mano un entorno de reproducción multicanal, la representación multicanal de la señal puede reproducirse para permitir la escucha agradable para sonido envolvente.
En una realización adicional de la presente invención, un codificador de la invención está comprendido dentro de un transmisor o grabador de audio, permitiendo el almacenamiento o la transmisión con ahorro de tasa de bits de una señal de audio, que puede reproducirse con excelente calidad o bien como una señal estéreo o bien como señal envolvente completa.
En una realización adicional de la presente invención, un descodificador de la invención está comprendido dentro de un receptor o reproductor de audio, permitiendo recibir o reproducir señales utilizando diferentes configuraciones de altavoces, en la que la señal de audio puede reproducirse en la representación que mejor se ajusta al entorno de reproducción existente.
En resumen, la presente invención comprende las siguientes propiedades ventajosas:
- codificación compatible de señales de audio multicanal, que incluye,
en el lado del codificador, someter a downmix la señal multicanal para dar una representación de un canal,
en el lado del codificador dada dicha señal multicanal, definición de los parámetros que representan la señal multicanal,
en el lado del codificador dada dicha señal multicanal, definición de los parámetros que representan un downmix estéreo de la señal multicanal,
en el lado del codificador, embeber ambos conjuntos de parámetros de una manera eficaz en tasa de bits y compatible hacia atrás en un flujo de bits,
en el lado del descodificador, extraer los parámetros embebidos de un flujo de bits,
en el lado del descodificador, reconstruir los parámetros que representan una señal multicanal a partir de los parámetros extraídos del flujo de bits,
en el lado del descodificador, reconstruir las señales de salida multicanal dados los parámetros reconstruidos a partir de los datos del flujo de bits, y dicha señal sometida a downmix;
- embeber los parámetros que representan un downmix estéreo en el flujo de bits, de tal manera que puede descodificarse mediante un método de descodificación (legado) que sólo soporta descodificación de estéreo paramétrico;
- dividir el conjunto de parámetros que representan la señal multicanal en un primer subconjunto y un segundo subconjunto;
- predecir los valores en dicho primer subconjunto de parámetros basándose en dicho segundo subconjunto de parámetros y basándose en los parámetros que representan un downmix estéreo de la señal multicanal;
- un mecanismo de control que selecciona automáticamente si el primer subconjunto de parámetros se codifica directamente o si sólo se codifican las diferencias con respecto a los valores de parámetros predichos;
- modificación de los parámetros que representan un downmix estéreo, en la que tanto los parámetros originales que representan la señal multicanal como los parámetros originales que representan el downmix estéreo se utilizan como base para obtener los parámetros modificados;
- una tabla de consulta que se utiliza para encontrar dichos valores de parámetros predichos;
- una función polinómica que se utiliza para encontrar dichos valores de parámetros predichos;
- una función matemática obtenida a partir del método empleado para generar el downmix estéreo que se utiliza para encontrar dichos valores de parámetros predichos.
\vskip1.000000\baselineskip
A continuación se describen realizaciones preferidas de la presente invención haciendo referencia a los dibujos adjuntos, en los que
la figura 1 muestra un diagrama de bloques de un codificador de la invención;
la figura 2 muestra un flujo de bits generado según la presente invención;
la figura 3 muestra una realización adicional de un codificador de la invención;
la figura 4 muestra detalles del codificador de la invención de la figura 3;
la figura 5 muestra un descodificador de la invención;
la figura 6 muestra una realización preferida de un descodificador multicanal de la invención;
la figura 7 muestra detalles del descodificador multicanal de la figura 6;
la figura 8 ilustra la compatibilidad hacia atrás de una señal de la invención;
la figura 9 muestra un transmisor o grabador de audio que presenta un codificador de la invención;
la figura 10 muestra un receptor o reproductor de audio que presenta un descodificador multicanal de la invención; y
la figura 11 muestra un sistema de transmisión.
\vskip1.000000\baselineskip
Las realizaciones descritas a continuación son meramente ilustrativas para los principios de la presente invención para codificación compatible de estéreo paramétrico mejorada de audio espacial. Se entiende que para otros expertos en la técnica serán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento. Por lo tanto, se pretende quedar limitado sólo por el alcance de las reivindicaciones de patente siguientes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
La figura 1 muestra un codificador 10 de la invención para obtener una representación 12 paramétrica de una señal de audio multicanal. El codificador 10 comprende un calculador 14 de parámetros espaciales, un calculador 16 de parámetros de estéreo y un combinador 18 de parámetros.
El calculador 14 de parámetros espaciales calcula un conjunto de parámetros 20 espaciales que describen las propiedades especiales de una señal multicanal. El calculador 16 de parámetros de estéreo calcula parámetros 22 de estéreo que describen propiedades espaciales de un downmix estéreo de la señal multicanal. El conjunto de parámetros 20 espaciales y los parámetros 22 de estéreo se transfieren al combinador 18 de parámetros para obtener la representación 12 paramétrica, que comprende un parámetro 24 de estéreo utilizable por el descodificador y una información sobre el conjunto de parámetros 26 espaciales.
La figura 2 muestra un ejemplo para un flujo de bits compatible hacia atrás que es la representación paramétrica de una señal de audio multicanal según se produce mediante un codificador de la invención según la figura 1. El flujo de bits comprende una sección 30 de parámetros de estéreo y una sección 32 de parámetros espaciales. La sección 30 de parámetros de estéreo presenta una cabecera 34 de estéreo al comienzo de la sección 30 de parámetros de estéreo, seguida por dos parámetros 36a y 36b de estéreo utilizables por el descodificador, que se utilizarían por un descodificador de estéreo paramétrico para reconstruir la señal estéreo. Un descodificador que pueda procesar parámetros de estéreo paramétrico sólo identificaría los parámetros 36a y 36b de estéreo paramétrico por la información comprendida en la cabecera 34 de estéreo.
La sección 32 de audio espacial comienza con una cabecera 38 espacial y comprende cuatro parámetros 40a a 40d de audio espacial. Un descodificador multicanal según la presente invención utilizaría los parámetros 40a a 40d espaciales identificándolos con la ayuda de la cabecera 38 espacial así como los parámetros 36a y 36b de estéreo tal como se identifican por la cabecera 34 de estéreo. Tal como se indica en la figura 2, el parámetro 40a espacial consume menos tasa de bits que los parámetros 40b a 40d espaciales. En el ejemplo mostrado en la figura 2, el parámetro 40a espacial se representa por la diferencia del parámetro espacial original subyacente, y un parámetro espacial predicho obtenido utilizando uno o más de los parámetros 36a o 36b de estéreo y uno o más de los parámetros 40b a 40d de audio espacial. Por lo tanto, un descodificador multicanal de la invención necesitaría utilizar tanto los parámetros 36a y 36b de estéreo como los parámetros 40b a 40d espaciales para reconstruir el parámetro espacial que subyace a la información sobre el parámetro 40a espacial que se transmite en el flujo de bits.
La figura 3 muestra una realización preferida de un codificador 52 de la invención para obtener una representación paramétrica de una señal 50 de audio multicanal, que presenta tres canales, un canal izquierdo l, un canal derecho r y un canal central c.
El codificador 52 de la invención comprende un elemento 54 de downmix espacial, un estimador 56 de parámetros espaciales, un elemento 58 de downmix estéreo, un estimador 60 de parámetros de estéreo paramétrico, un codificador 62 de audio, un combinador 64 de parámetros (bloque de codificación de unión) y un calculador 66 de flujo de bits (multiplexor).
El elemento 54 de downmix espacial, el estimador 56 de parámetros espaciales y el elemento 58 de downmix estéreo reciben como una entrada la señal 50 multicanal. El elemento 54 de downmix espacial crea una señal 68 de downmix monofónico a partir de la señal 50 multicanal, el estimador 56 de parámetros espaciales obtiene parámetros 70 espaciales que describen propiedades espaciales de la señal multicanal, y el elemento 58 de downmix estéreo crea una señal 72 de downmix estéreo a partir de la señal 50 multicanal.
La señal 72 de downmix estéreo se introduce al estimador 60 de parámetros de estéreo paramétrico, que obtiene parámetros 74 de estéreo a partir de la señal de downmix estéreo que describen propiedades espaciales de la señal 72 de downmix estéreo. La señal 68 de downmix monofónico se introduce en el codificador 62 de audio que obtiene un flujo 76 de bits de audio que representa la señal 68 de downmix monofónico por medio de codificación, utilizando por ejemplo técnicas de codificación de audio perceptiva. El combinador 64 de parámetros recibe como una entrada los parámetros 70 espaciales así como los parámetros 74 de estéreo paramétrico y obtiene como una salida parámetros 78 de estéreo utilizables por el descodificador (información lateral de estéreo paramétrico) e información sobre los parámetros 80 espaciales (información lateral espacial) sustituyendo conjuntos de parámetros espaciales por la diferencia de una predicción de los parámetros espaciales y los propios parámetros espaciales. Esto se describirá con más detalle mediante la siguiente figura.
El calculador 66 de flujo de bits recibe finalmente como una entrada el flujo 76 de bits de audio, la información sobre el conjunto de parámetros 80 espaciales y los parámetros 78 de estéreo utilizables por el descodificador y combina dicha entrada en un flujo 82 de bits compatible estéreo paramétrico que podría comprender por ejemplo segmentos de parámetros tal como se detalla en la figura 2.
El calculador 66 de flujo de bits puede ser un simple multiplexor. Sin embargo, también pueden implementarse otros medios para combinar las tres entradas en un flujo de bits compatible para obtener un flujo de bits según la presente invención.
Dicho de otro modo, la figura 3 ilustra un codificador que toma una señal de audio multicanal, que comprende los canales l, r, y c, como entrada y genera un flujo de bits compatible que permite la descodificación mediante un descodificador espacial así como descodificación compatible hacia atrás mediante un descodificador PS. El downmix espacial toma la señal multicanal l, r, c y genera una señal de downmix mono m. Esta señal puede codificarse entonces mediante un codificador de audio perceptivo opcional para producir un flujo de bits de audio compacto que representa la señal mono. La estimación de parámetros espaciales toma la señal multicanal l, r, c como entrada y genera un conjunto de parámetros espaciales cuantificados. Estos parámetros pueden estar en función del tiempo y de la frecuencia. El downmix a estéreo produce un downmix l0, r0 estéreo de 2 canales de la señal multicanal, por ejemplo utilizando las ecuaciones de downmix ITU-R o enfoques alternativos. La estimación de parámetros de estéreo paramétrico (PS) toma este downmix estéreo como entrada y genera un conjunto de parámetros PS cuantificados, que pueden estar en función del tiempo y de la frecuencia. El bloque de codificación de unión toma tanto el parámetro espacial como el parámetro PS como entrada y produce la información lateral de estéreo paramétrico (información lateral PS) y la información lateral espacial. Finalmente, un multiplexor toma el flujo de bits de audio y los flujos de bits de información lateral tanto espacial como PS como entrada y embebe la información lateral de tal manera en el flujo de bits que es posible la descodificación compatible hacia atrás mediante un descodificador legado (que implementa sólo PS).
La figura 4 detalla el combinador 64 de parámetros mostrado en la figura 3. El combinador 64 de parámetros presenta un divisor 90 de parámetros, un modificador 92 de parámetros de estéreo paramétrico, un predictor 94 de parámetros espaciales, un combinador 96, una unidad 98 de control, un ensamblador 100 de parámetros espaciales y un primer codificador 102 diferencial, un segundo codificador 104 diferencial, un tercer codificador 106a diferencial y un cuarto codificador 106b diferencial.
El combinador 64 de parámetros recibe como entrada parámetros 70 espaciales y los parámetros 74 de estéreo paramétrico. Los parámetros 74 de estéreo paramétrico se introducen en el modificador 92 de parámetros de estéreo paramétrico en una primera entrada del mismo, y los parámetros 70 espaciales se introducen en el modificador 92 de parámetros de estéreo paramétrico en una segunda entrada.
Los parámetros 70 espaciales se introducen además en el divisor 90 de parámetros. El modificador 92 de parámetros de estéreo paramétrico es un dispositivo opcional, que puede utilizarse para obtener parámetros 110 de estéreo utilizables por el descodificador modificando los parámetros 74 de estéreo paramétrico utilizando información de los parámetros 70 espaciales.
El divisor 90 de parámetros divide los parámetros 70 espaciales en un primer subconjunto 112 de los parámetros espaciales y en un segundo subconjunto 114 de los parámetros espaciales, donde el primer subconjunto 112 es el subconjunto de los parámetros espaciales que pueden sustituirse por una predicción diferencial dentro la representación paramétrica final de la señal multicanal.
Como la predicción de los parámetros dentro del primer subconjunto se realiza utilizando los parámetros 110 de estéreo utilizables por el descodificador y el segundo subconjunto 114 de los parámetros espaciales, tanto los parámetros 110 utilizables por el descodificador como el segundo subconjunto 114 de parámetros espaciales se introducen en el predictor 94 de parámetros espaciales. El predictor 94 de parámetros espaciales obtiene parámetros 116 predichos utilizando los parámetros 110 de estéreo paramétrico utilizables por el descodificador y el segundo subconjunto 114 de los parámetros espaciales. Los parámetros 116 predichos son una predicción de los parámetros del primer subconjunto 112 y han de compararse con los parámetros del primer subconjunto 112.
Por lo tanto, se calcula la diferencia de los parámetros 116 predichos y el primer subconjunto 112 de parámetros para cada parámetro mediante el combinador 96, que es tal que obtiene parámetros 118 de diferencia. El primer subconjunto 112 de parámetros se introduce en el tercer codificador 106a diferencial que codifica de manera diferencial el primer subconjunto de parámetros aplicando codificación diferencial o bien en tiempo o bien en frecuencia. Los parámetros 118 diferenciales se introducen en el cuarto codificador 106b diferencial.
Según la realización preferida de la presente invención mostrada en la figura 4, la representación codificada de manera diferencial del primer subconjunto 112 se compara con la representación codificada de manera diferencial de los parámetros 118 diferenciales mediante la unidad 98 de control para estimar qué representación requiere más bits dentro de un flujo de bits. La unidad 98 de control controla un conmutador 120, para suministrar esa representación del primer subconjunto 112 al ensamblador 100 de parámetros espaciales que requiere menos bits, mientras que la información cuya representación se utilizó se transfiere adicionalmente desde la unidad 98 de control al ensamblador 100 de parámetros espaciales.
El segundo subconjunto 114 de los parámetros espaciales también se codifica de manera diferencial mediante el segundo codificador 104 diferencial, y la representación codificada de manera diferencial del segundo subconjunto 114 se introduce en el ensamblador 100 de parámetros espaciales, que es tal que tiene la información completa sobre los parámetros 70 espaciales. El ensamblador 100 de parámetros espaciales obtiene finalmente la información sobre los parámetros 80 espaciales reensamblando las representaciones del primer subconjunto 112 y el segundo subconjunto 114 en la información sobre el conjunto de parámetros 80 espaciales que alberga la información completa sobre los parámetros 70 espaciales.
\global\parskip0.900000\baselineskip
La información final sobre el conjunto de parámetros 80 espaciales, por lo tanto, comprende un segundo subconjunto de parámetros espaciales que no se modifican a pesar de una codificación diferencial del mismo y una representación del primer subconjunto de parámetros espaciales, que puede o bien ser directamente la representación codificada de manera diferencial del primer subconjunto 112 o bien una representación codificada de manera diferencial de parámetros 118 diferenciales, dependiendo de qué representación requiera menos tasas de bits.
Los parámetros 78 de estéreo paramétrico utilizables por el descodificador que se obtienen mediante un combinador 64 de parámetros de la invención, se obtienen mediante el primer codificador 102 diferencial. El primer codificador 102 diferencial recibe como una entrada los parámetros 110 de estéreo paramétrico modificados y obtiene los parámetros 78 de estéreo paramétrico utilizables por el descodificador codificando de manera diferencial los parámetros 110 de estéreo paramétrico modificados.
Dicho de otro modo, la figura 4 ilustra el bloque de codificación de unión que toma tanto el parámetro espacial como el parámetro PS como entrada y genera tanto la información lateral espacial como la información lateral PS. Un bloque de modificación de parámetros PS opcional toma tanto el parámetro espacial como el parámetro PS como entrada y genera un parámetro PS modificado. Esto permite conseguir mejor predicción del parámetro espacial a expensas de comprometer la calidad de la señal estéreo de 2 canales reconstruida a partir del parámetro PS modificado. Si no se emplea el bloque de modificación de parámetros PS, el parámetro PS entrante sirve directamente como entrada al bloque de predicción de parámetros espaciales y a la codificación PS. El conjunto de parámetros PS (modificados) puede codificarse utilizando codificación de diferencial de tiempo (dt) o diferencial de frecuencia (df), es decir, codificación de diferencias de parámetros posteriores en la dirección del tiempo o la frecuencia respectivamente, y codificación Huffman, es decir, codificación de entropía sin pérdidas, con el fin de minimizar el número de bits requeridos para representar el conjunto de parámetros. El bloque de división de parámetros separa el conjunto de parámetros espaciales en un segundo subconjunto que se codifica directamente y un primer subconjunto complementario que contiene todos los parámetros restantes y que puede codificarse utilizando predicción de parámetros. El bloque de predicción de parámetros espaciales toma el segundo subconjunto del parámetro espacial y el parámetro PS (modificado) como entrada y calcula valores predichos para el primer subconjunto del parámetro espacial. Estos valores predichos se restan entonces de los valores reales de los parámetros espaciales en el primer subconjunto, dando como resultado un conjunto de valores de error de predicción.
El segundo subconjunto de parámetros puede codificarse utilizando codificación de diferencial de tiempo o frecuencia y codificación Huffman con el fin de minimizar el número de bits requeridos para representar el subconjunto de parámetros. El primer subconjunto de parámetros puede codificarse utilizando codificación de diferencial de tiempo o frecuencia y codificación Huffman con el fin de minimizar el número de bits requeridos para representar el subconjunto de parámetros. Los valores de error de predicción para el primer subconjunto de parámetros pueden codificarse utilizando codificación de diferencial de tiempo o frecuencia y codificación Huffman con el fin de minimizar el número de bits requeridos para representar el subconjunto de parámetros. Un bloque de control selecciona si el primer subconjunto de parámetros debería codificarse directamente o si el error de predicción debería codificarse con el fin de minimizar el número de bits requeridos para representar el primer subconjunto de parámetros. Esta selección puede realizarse individualmente para cada parámetro en el subconjunto. La decisión de selección real puede o bien transmitirse como información lateral en el flujo de bits o bien puede basarse en reglas que son parte de la predicción de parámetros espaciales. En este último caso, esta decisión no tiene que transmitirse como información lateral. Finalmente, un multiplexor combina todos los datos codificados para formar la información lateral espacial.
Para utilizar el concepto inventivo de codificación o descodificación, son posibles diferentes implementaciones de la predicción de los parámetros. En general, se tiene la posibilidad de utilizar una tabla de consulta diseñada de manera apropiada para obtener una predicción del primer subconjunto de los parámetros espaciales a partir de los parámetros de estéreo y el segundo subconjunto de los parámetros espaciales o se podría aplicar como alternativa una función analítica para obtener los parámetros predichos basándose en el conocimiento de procesos de downmix específicos y la manera en que se obtienen los parámetros espaciales y los parámetros de estéreo. Los siguientes párrafos dan una visión general de algunos ejemplos específicos para conseguir una predicción apropiada.
Esta visión general se basa en una señal multicanal que presenta tres canales,
- l: izquierdo,
- c: central,
- r: derecho,
que ha de considerarse sólo como un ejemplo. Los principios presentados obviamente se aplican de manera correspondiente también a otras configuraciones de canales. Por ejemplo, en caso de una configuración de canales 5.1, el canal izquierdo frontal y el envolvente izquierdo pueden combinarse utilizando un módulo de estéreo paramétrico para formar la señal izquierda (l), el canal derecho frontal y el envolvente derecho pueden combinarse utilizando un módulo de estéreo paramétrico para formar la señal derecha (r), y el canal central y el de mejora de bajas frecuencias pueden combinarse utilizando un módulo de estéreo paramétrico para formar la señal central (c).
\global\parskip1.000000\baselineskip
\vskip1.000000\baselineskip
La siguiente descripción trata el bloque de predicción de parámetros espaciales con más detalle. Los 2 canales de la señal de downmix estéreo se denotan:
\vskip1.000000\baselineskip
l_{0}: downmix izquierdo,
r_{0}: downmix derecho,
y el downmix mono se denota
m: downmix mono.
\vskip1.000000\baselineskip
El bloque de predicción emite valores predichos \hat{s}_{1},...,\hat{s}_{K} de los primeros K parámetros espaciales cuantificados s_{1},...,s_{K} (es decir, un primer subconjunto de los parámetros espaciales), dados los parámetros p_{1}, p_{2} PS modificados o no modificados cuantificados y un segundo subconjunto s_{K+1}, s_{K+2},...,s_{N} de los parámetros espaciales cuantificados restantes.
En el sentido más general, consiste en una función tabulada (tabla de consulta)
1
La señal de diferencia es entonces igual al error de predicción
2
Un primer método de diseño es permitir dejar que F sea una función tabulada o un polinomio multivariable elegido para minimizar el error de predicción en el sentido de mínimos cuadrados a lo largo de una gran base de datos de parámetros. Como alternativa, F puede elegirse para minimizar la tasa de bits resultante requerida para representar el primer subconjunto de parámetros espaciales, donde se utiliza una gran base de datos de parámetros como datos de entrenamiento para encontrar la F óptima en este sentido. Antes del uso en la unidad de predicción, una operación de redondeo o cuantificación puede seguir a tal función tabulada o polinomio con el fin de producir resultados enteros.
Un caso especial importante de esto es el uso de una predicción lineal si F es un polinomio de grado uno.
Una segunda clase de diseños de predictor son los que tienen en cuenta la estructura de parámetros reales utilizada. En la realización preferida de la invención, K=2 y N=4, y los parámetros transmiten información según:
\vskip1.000000\baselineskip
p_{1}: iid_l0_r0 diferencia de intensidad entre canales (IID) entre los canales l_{0} y r_{0};
p_{2}: icc_l0_r0 coherencia entre canales o correlación cruzada (ICC) entre los canales l_{0} y r_{0};
s_{1}: iid_l_r diferencia de intensidad entre canales (IID) entre los canales l y r;
s_{2}: icc_l_r coherencia entre canales o correlación cruzada (ICC) entre los canales l y r;
s_{3}: iid_lr_c diferencia de intensidad entre canales (IID) entre los canales l+r y c;
s_{4}: icc_lr_c coherencia entre canales o correlación cruzada (ICC) entre los canales l+r y c.
\vskip1.000000\baselineskip
El primer ejemplo de un diseño de este tipo es un caso especial del diseño de predictor lineal anterior y consiste simplemente en establecer
3
Este predictor sencillo tiene la ventaja de que da como resultado un error de predicción más estable (en lugar de un error de predicción mínimo) que es bastante adecuado para la codificación de diferencial de tiempo o diferencial de frecuencia de dicho error de predicción. Esto se cumple para todos los predictores como polinomios mencionados anteriormente.
El segundo ejemplo se basa en la suposición de que el downmix estéreo se produce mediante
4
con una ganancia de canal central conocida q, (normalmente 1 ó 1/\sqrt{2}). Todas las señales l, r, c normalmente son vectores de longitud finita que resultan de un intervalo de tiempo y frecuencia de muestras de subbanda de un análisis de banco de filtros modulado complejo de señales de tiempo. Para vectores complejos x, y, el producto interior complejo y la norma cuadrada se definen mediante
\vskip1.000000\baselineskip
5
\vskip1.000000\baselineskip
donde el asterisco denota conjugación compleja. Se asume entonces que las versiones lineales y no cuantificadas de los parámetros IID se obtienen mediante
6
Para los parámetros ICC, en el caso de correlación cruzada, las fórmulas son
7
En el caso de coherencia, las operaciones de valor real se sustituyen con operaciones de valor absoluto (magnitud compleja) en las fórmulas (7).
Suponiendo para mayor simplicidad que <l,c>=<r,c>=0, se deduce que L_{0}=L+q^{2}C y R_{0}=R+q^{2}C, lo que puede insertarse en la primera fórmula de (6). Resolviendo dos ecuaciones con dos incógnitas, se obtienen entonces las siguientes estimaciones de X=L/C e Y=R/C a partir de P_{1} y S_{3},
8
Cuando ambos valores en la fórmula (8) son positivos, la estimación de S_{1} se forma como \hat{S}_{1} = \sqrt{\hat{X}/\hat{Y}}. En este caso, los valores de parámetros lineales requeridos se obtienen descuantificando los parámetros enteros dados y se obtiene entonces la estimación \hat{s}_{1} mediante la cuantificación de \hat{S}_{1}.
Cuando es aceptable una calidad ligeramente comprometida de la señal estéreo descodificada, puede reducirse adicionalmente la tasa de bits global empleando modificación de los parámetros de estéreo paramétrico. El objetivo de esta modificación es conseguir una predicción más estable del primer subconjunto de parámetros espaciales y error de predicción reducido. Puede considerarse como un medio para estabilizar los cálculos anteriores. El caso más extremo de una modificación de parámetros de este tipo sería utilizar p_{1}'=s_{1}, p_{2}'=s_{2} donde p_{1}', p_{2}' denotan los parámetros de estéreo paramétrico modificados. Puesto que esta operación de modificación de parámetros se lleva a cabo sólo en el lado del codificador, no es necesario tener cuidado especial en el lado del descodificador.
Un enfoque más general incorpora la potencia completa y la información de estructura de correlación disponible en P_{1}, P_{2}, S_{3}, S_{4} a través de las fórmulas (6) y (7) para obtener estimaciones de S_{1} y S_{2}. Por la invarianza de escala de los parámetros, no hay pérdida de generalidad al suponer para fines de cálculo que C=1. Entonces con las definiciones
9
surge el siguiente sistema de ecuaciones:
10
Las incógnitas de interés para la estimación de L, R, p y a, b son incógnitas adicionales. Este sistema de ecuaciones (indeterminado) puede utilizarse como guía para una multitud de fórmulas de predicción, dependiendo de la selección de restricciones sobre el par a, b. Por ejemplo, la primera y la tercera ecuación de (10) implican
11
por lo que los cálculos que llevan a las fórmulas (8) corresponden al caso en el que P_{1}^{2}b=a. De manera más general, un parámetros heurístico \gamma defines una restricción sobre el par a, b a través de \gamma=P_{1}^{2}b-a.
Se resalta de nuevo que los esquemas de predicción anteriores son sólo ejemplos para posibles esquemas de predicción que pueden implementarse tanto en un lado de codificador como en un lado de descodificador.
La figura 5 muestra un descodificador 200 de audio multicanal de la invención para procesar una representación 202 paramétrica.
La representación 202 paramétrica comprende información sobre un conjunto de parámetros 204 espaciales que describen las propiedades espaciales de una señal multicanal y parámetros 206 de estéreo utilizables por el descodificador que describen propiedades espaciales de un downmix estéreo de la señal multicanal. El descodificador 200 de audio multicanal de la invención presenta un reconstructor 208 de parámetros para combinar los parámetros 206 de estéreo utilizables por el descodificador y la información sobre el conjunto de parámetros espaciales para obtener parámetros 210 espaciales.
La figura 6 muestra una realización de un descodificador 220 de audio multicanal según la presente invención. El descodificador 220 de audio multicanal presenta un elemento 222 de descomposición (demultiplexor) de flujo de bits, un descodificador 224 de audio, un reconstructor 226 de parámetros (descodificador de unión) y un elemento 228 de upmix.
El elemento 222 de descomposición de flujo de bits recibe un flujo 230 de bits compatible hacia atrás que comprende un flujo 231 de bits de audio, información sobre un conjunto de parámetros 232 espaciales y parámetros 234 de estéreo utilizables por el descodificador (información lateral PS). El elemento de descomposición de flujo de bits descompone o demultiplexa el flujo 230 de bits compatible hacia atrás para obtener el flujo 231 de bits de audio, la información sobre el conjunto de parámetros 232 espaciales y los parámetros 234 de estéreo utilizables por el descodificador. El descodificador 224 de audio recibe el flujo 231 de bits de audio como entrada y obtiene una señal 236 de downmix monofónico a partir del flujo 231 de bits de audio.
El reconstructor 226 de parámetros recibe la información sobre el conjunto de parámetros 232 espaciales y los parámetros 234 de estéreo utilizables por el descodificador como una entrada. El reconstructor 226 de parámetros combina la información sobre el conjunto de parámetros espaciales y los parámetros de estéreo utilizables por el descodificador para obtener un conjunto de parámetros 238 espaciales que sirven como una entrada al elemento 228 de upmix, que recibe además la señal 236 de downmix monofónico como segunda entrada. Basándose en los parámetros 238 espaciales y en la señal 236 de downmix monofónico, el elemento 228 de upmix obtiene una reconstrucción de una señal 240 multicanal en su salida.
Por lo tanto, la figura 6 ilustra un descodificador de audio espacial que toma un flujo de bits compatible como entrada y genera la señal de audio multicanal, que comprende los canales l, r, y c. En primer lugar, un demultiplexor toma el flujo de bits compatible como entrada y lo descompone en un flujo de bits de audio y la información lateral tanto espacial como PS. Si se aplicó codificación de audio perceptiva a la señal mono, un descodificador de audio correspondiente toma el flujo de bits de audio como entrada y genera la señal de audio mono m descodificada, sometida a distorsión ya que se introduce mediante el códec de audio perceptivo. El bloque de descodificación de unión toma la información lateral tanto espacial como PS como entrada y reconstruye los parámetros espaciales. Finalmente, la reconstrucción espacial toma la señal mono m descodificada y los parámetros espaciales como entrada y reconstruye la señal de audio multicanal.
La figura 7 da una descripción detallada del reconstructor 226 de parámetros utilizado por el descodificador 220 de audio multicanal. El reconstructor 226 de parámetros comprende un desensamblador 250 de parámetros espaciales, una unidad 252 de control, un predictor 254 de parámetros espaciales, un ensamblador 256 de parámetros espaciales y un primer descodificador 258 diferencial, a segundo descodificador 260 diferencial, un tercer codificador 262a diferencial, y un cuarto descodificador 262b diferencial.
El desensamblador 250 de parámetros espaciales recibe la información sobre el conjunto de parámetros 232 espaciales como una entrada y obtiene un primer subconjunto 266 y un segundo subconjunto 268 a partir de la información sobre el conjunto de parámetros 232 de audio espacial. El primer subconjunto 266 comprende los parámetros que están representados posiblemente por una representación diferencial predictiva realizada sobre el lado del codificador, y el segundo subconjunto 268 comprende un subconjunto de la información sobre el conjunto de parámetros espaciales que se transmiten no modificados dentro del flujo de bits.
Además, la unidad 252 de control recibe opcionalmente información de control desde el desensamblador de parámetros espaciales, indicando si se ha utilizado una representación diferencial predictiva durante la codificación o no. Esta información es opcional en el sentido de que la unidad 252 de control podría obtener como alternativa, utilizando algoritmos apropiados, si tal predicción se ha realizado o no sin tener acceso a un parámetro de indicación.
El segundo subconjunto 268 de parámetros se introduce en el segundo descodificador 260 diferencial, que descodifica de manera diferencial el segundo subconjunto para obtener un segundo subconjunto de parámetros 270 espaciales.
El primer descodificador 258 diferencial recibe como una entrada los parámetros 234 de estéreo utilizables por el descodificador, para obtener parámetros 272 de estéreo paramétrico a partir de la representación codificada. El predictor 254 de parámetros espaciales opera de la misma manera que su parte complementaria en el lado del codificador, por lo tanto recibe como una primera entrada los parámetros 272 de estéreo paramétrico y como una segunda entrada el segundo subconjunto de parámetros 270 espaciales para obtener parámetros 274 predichos.
La unidad 252 de control controla dos posibles trayectorias de datos diferentes para el primer subconjunto de la información sobre el conjunto de parámetros espaciales. Cuando la unidad 252 de control indica que el primer subconjunto de la información del conjunto de parámetros espaciales no se ha transmitido utilizando codificación diferencial predictiva, la unidad 252 de control conduce los conmutadores 278a y 278b de tal manera que el primer subconjunto 266 se introduce en el tercer descodificador 262a diferencial para obtener un primer subconjunto del conjunto de parámetros 280 espaciales sin aplicar predicción inversa. El primer subconjunto de parámetros 280 espaciales se introduce entonces en el ensamblador 256 de parámetros espaciales en una segunda entrada del mismo.
Sin embargo, si la unidad 252 de control indica parámetros predichos de manera diferencial, el primer subconjunto 266 de la información del conjunto de parámetros espaciales se introduce en el cuarto descodificador 262b diferencial para obtener una representación predicha de manera diferencial del primer subconjunto 266 en una salida 282 del descodificador diferencial. Entonces se calcula la suma de la representación diferencial y los parámetros 274 predichos mediante un sumador 284, invirtiendo por tanto la operación de predicción diferencial realizada sobre un lado de codificador. Como resultado, el primer conjunto de parámetros 280 espaciales está disponible en la segunda entrada del ensamblador 256 de parámetros espaciales. El ensamblador 256 de parámetros espaciales combina el primer conjunto de parámetros 280 espaciales y el segundo conjunto de parámetros 270 espaciales para proporcionar un conjunto completo de parámetros 290 espaciales en su salida, que es la base de una reconstrucción multicanal de una señal codificada.
En resumen, la figura 7 ilustra el bloque de descodificación de unión que toma tanto la información lateral espacial como la información lateral PS como entrada y reconstruye el parámetro espacial. Un demultiplexor separa la información lateral espacial en un segundo subconjunto codificado de parámetro espacial y un primer subconjunto codificado de parámetro espacial e información de control. El bloque de descodificación toma el segundo subconjunto codificado de parámetro espacial como entrada y reconstruye este subconjunto de parámetros. Esto incluye descodificación Huffman y descodificación de diferencial de tiempo (dt) o diferencial de frecuencia en caso de que se emplease tal codificación en el codificador. El bloque de descodificación toma la información lateral PS como entrada y reconstruye el parámetro PS (modificado). El bloque de predicción de parámetros espaciales toma el segundo subconjunto del parámetro espacial y el parámetro PS (modificado) como entrada y calcula valores predichos para el primer subconjunto del parámetro espacial de la misma manera que lo hace su parte complementaria en el codificador. El bloque de control determina qué decisión de selección tomó su parte complementaria, el bloque de control en el codificador. Dependiendo de esta selección, el primer subconjunto codificado de parámetro espacial o bien se descodifica directamente o bien se descodifica teniendo en cuenta la predicción. En ambos casos, esto incluye descodificación Huffman y descodificación de diferencial de tiempo o frecuencia en caso de que se emplease tal codificación en el codificador. En caso de que el bloque de control determinase que no se utilizó ninguna predicción, la salida del bloque de descodificación se toma como el primer subconjunto reconstruido de parámetro espacial. Si no, la salida del bloque de descodificación contiene los valores de error de predicción que se añaden entonces a los valores de parámetros predichos según se generan mediante la predicción de parámetros espaciales con el fin de obtener los valores originales del primer subconjunto de parámetros espaciales. Finalmente, el primer y segundo subconjuntos reconstruidos de parámetros espaciales are funden para formar el conjunto completo de parámetros espaciales.
La figura 8 ilustra cómo se procesa un flujo de bits de la invención compatible mediante un descodificador de estéreo paramétrico legado para obtener un upmix estéreo de una señal para resaltar la gran ventaja de la completa compatibilidad hacia atrás del concepto inventivo.
Un descodificador 300 de estéreo paramétrico recibe un flujo 302 de bits compatible como entrada. El descodificador 300 de estéreo paramétrico comprende un demultiplexor 304, un descodificador 306 de audio, un descodificador 308 diferencial y un elemento 310 de upmix. El demultiplexor 304 obtiene un flujo 312 de bits de audio y parámetros 314 de estéreo paramétrico utilizables por el descodificador a partir del flujo 302 de bits compatible.
Como el descodificador 300 de estéreo paramétrico no puede operar sobre parámetros de audio espacial, el demultiplexor 304 simplemente ignora los parámetros de audio espacial comprendidos dentro del flujo 302 de bits compatible, por ejemplo saltando campos de cabecera y secciones de datos asociadas dentro del flujo de bits no conocidas para el descodificador. El flujo 312 de bits de audio se introduce en el descodificador 306 de audio que obtiene una señal 316 de downmix monofónico mientras que los parámetros 314 de estéreo utilizables por el descodificador se descodifican de manera diferencial mediante el descodificador 308 diferencial para obtener parámetros 318 de estéreo paramétrico. La señal 316 de downmix monofónico y los parámetros 318 de estéreo paramétrico se introducen en el elemento 310 de upmix, que obtiene una señal 320 de upmix estéreo utilizando la señal 316 de downmix monofónico y los parámetros 318 de estéreo paramétrico.
Dicho de otro modo, la figura 8 ilustra un descodificador de estéreo paramétrico (PS) que toma un flujo de bits compatible como entrada y genera una señal de audio estéreo de 2 canales, que comprende los canales l0 y r0. En primer lugar, un demultiplexor toma el flujo de bits compatible como entrada y lo descompone en un flujo de bits de audio y la información lateral PS. Puesto que la información lateral espacial estaba embebida en el flujo de bits compatible de una manera compatible hacia atrás, esto no afecta al demultiplexor. Si se aplicó codificación de audio perceptiva a la señal mono, un descodificador de audio correspondiente toma el flujo de bits de audio como entrada y genera la señal de audio mono m descodificada, sometida a distorsión puesto que se introduce mediante el códec de audio perceptivo. El bloque de descodificación PS toma la información lateral PS como entrada y reconstruye el parámetro PS. Esto incluye descodificación Huffman y descodificación de diferencial de tiempo (dt) o diferencial de frecuencia (df) en caso de que se emplease tal codificación en el codificador. Finalmente, la reconstrucción PS toma la señal mono m descodificada y los parámetros PS como entrada y reconstruye la señal estéreo de 2 canales.
La figura 9 muestra un transmisor o grabador 330 de audio de la invención que presenta un codificador 10 de audio, una interfaz 332 de entrada y una interfaz 334 de salida.
Puede suministrarse una señal de audio en la interfaz 332 de entrada del transmisor/grabador 330. La señal de audio se codifica mediante un codificador 10 de la invención dentro del transmisor/grabador y la representación codificada se emite en la interfaz 334 de salida del transmisor/grabador 330. La representación codificada puede transmitirse o almacenarse entonces sobre un medio de almacenamiento.
La figura 10 muestra un receptor o reproductor 340 de audio de la invención, que presenta un descodificador 180 de audio de la invención, una entrada 342 de flujo de bits y una salida 344 de audio.
Puede introducirse un flujo de bits en la entrada 342 del receptor/reproductor 340 de audio de la invención. El flujo de bits se descodifica entonces mediante el descodificador 180 y la señal descodificada se emite o reproduce en la salida 344 del receptor/ reproductor 340 de audio de la invención.
La figura 11 muestra un sistema de transmisión que comprende un transmisor 330 de la invención y un receptor 340 de la invención.
La entrada de señal de audio en la interfaz 332 de entrada del transmisor 330 se codifica y transfiere desde la salida 334 del transmisor 330 a la entrada 342 del receptor 340. El receptor descodifica la señal de audio y reproduce o emite la señal de audio sobre su salida 344.
Resumiendo el concepto inventivo, se puede decir que la presente invención se refiere a la codificación de representaciones multicanal de señales de audio que utiliza parámetros de audio espacial de una manera que es compatible con la codificación de señales estéreo de 2 canales que utiliza parámetros de estéreo paramétrico. La presente invención enseña nuevos métodos para la codificación eficaz tanto de parámetros de audio espacial como de parámetros de estéreo paramétrico y para embeber los parámetros codificados en un flujo de bits de una manera compatible hacia atrás. En particular, su objetivo es minimizar la tasa de bits global para los parámetros de estéreo paramétrico y audio espacial en un flujo de bits compatible hacia atrás sin comprometer la calidad de la señal multicanal de audio o estéreo descodificada. Sin embargo, cuando es aceptable una calidad ligeramente comprometida de la señal estéreo descodificada, la tasa de bits global puede reducirse adicionalmente.
Aunque los flujos de bits que describen la compatibilidad hacia atrás de la señal de la invención y la generación de los mismos no comprenden parámetros que describen la señal de downmix monofónico, por supuesto tales parámetros puede incorporarse fácilmente en el flujo de bits mostrado.
Pueden predecirse números arbitrarios de los parámetros de audio espacial utilizando parámetros de estéreo paramétrico si se puede obtener una regla apropiada para predecir los parámetros. Por lo tanto, las reglas de predicción detalladas dadas anteriormente deben entenderse sólo como ejemplos. Está claro que otras reglas de predicción pueden llevar al mismo efecto de ahorro de bits y, por lo tanto, la presente invención no está limitada de ninguna manera a utilizar una de las reglas de predicción descritas anteriormente.
Aunque en los ejemplos de los codificadores de la invención dados existe un elemento 58 de downmix de estéreo paramétrico que obtiene un downmix estéreo de una señal multicanal, en implementaciones prácticas, puede omitirse el elemento de downmix estéreo, si se conoce la regla de downmix y, por lo tanto, cuando los parámetros de estéreo paramétrico pueden obtenerse directamente a partir de la señal multicanal.
En las implementaciones dadas, la señal de downmix monofónico se codifica adicionalmente mediante un codificador de audio o se descodifica en un lado de descodificador. La codificación y descodificación es opcional, es decir omitir una compresión adicional de la señal de downmix monofónico también proporcionará codificadores y descodificadores de la invención que incorporan el concepto inventivo.
La unidad de control dentro de los codificadores y descodificadores de la invención puede omitirse y se puede tomar una decisión general de representar subconjuntos de parámetros espaciales mediante parámetros predichos diferenciales con el provecho de ahorrar la unidad de control y al coste de aceptar una tasa de bits ligeramente superior para los casos extraños, cuando la representación predicha diferencial no ahorra tasa de bits de transmisión.
Aunque, dentro de los ejemplos dados, los codificadores adicionales aplicados en las trayectorias de señal se denominan sólo codificadores diferenciales o descodificadores diferenciales, se entiende que también puede utilizarse cualquier otro codificador o descodificador apropiado adecuado para comprimir los parámetros, especialmente una combinación de un descodificador o codificador diferencial y un descodificador o codificador Huffman. Tal combinación se utiliza de una manera que, en primer lugar, los parámetros se codifican de manera diferencial y luego los parámetros codificados de manera diferencial se codifican según Huffman, lo que finalmente da como resultado una representación paramétrica que utiliza tasas de bits inferiores, puesto que la representación predicha de manera diferencial en general presenta entropía inferior que los parámetros espaciales subyacentes a los mismos.
\vskip1.000000\baselineskip
Resumiendo las ideas de la invención, la presente invención enseña lo siguiente:
En un primer aspecto, un método para la codificación compatible de señales de audio multicanal, caracterizado por: en el lado del codificador, someter a downmix la señal multicanal para dar una representación de un canal; en el lado del codificador dada dicha señal multicanal, define parámetros que representan la señal multicanal; en el lado del codificador dada dicha señal multicanal, definir parámetros que representan un downmix estéreo de la señal multicanal; en el lado del codificador, embeber ambos conjuntos de parámetros de una manera compatible hacia atrás y eficaz en tasa de bits en un flujo de bits; en el lado del descodificador, extraer los parámetros embebidos de un flujo de bits; en el lado del descodificador, reconstruir parámetros que representan una señal multicanal a partir de los parámetros extraídos del flujo de bits; en el lado del descodificador, reconstruir las señales de salida multicanal dados los parámetros a partir de los datos del flujo de bits, y dicha señal sometida a downmix.
Como un segundo aspecto, un método según el primer aspecto, caracterizado por embeber los parámetros que representan un downmix estéreo en el flujo de bits, de tal manera que pueden descodificarse mediante un método de descodificación (legado) que sólo soporta descodificación de estéreo paramétrico.
Como un tercer aspecto, un método según el primer aspecto, caracterizado por dividir el conjunto de parámetros que representan la señal multicanal en un primer subconjunto y un segundo subconjunto.
Como un cuarto aspecto, un método según el tercer aspecto, caracterizado por una predicción de los valores en dicho primer subconjunto de parámetros basándose en dicho segundo subconjunto de parámetros y basándose en los parámetros que representan un downmix estéreo de la señal multicanal.
Como un quinto aspecto, un método según el cuarto aspecto, caracterizado por un método de control que selecciona automáticamente si el primer subconjunto de parámetros se codifica directamente o si sólo se codifican las diferencias con respecto a los valores de parámetros predichos.
Como un sexto aspecto, un método según el tercer aspecto, caracterizado por la modificación de los parámetros que presentan un downmix estéreo, en el que se utilizan tanto los parámetros originales que representan la señal multicanal como los parámetros originales que representan el downmix estéreo como base para obtener los parámetros modificados.
Como un séptimo aspecto, un método según el cuarto aspecto, caracterizado por una tabla de consulta que se utiliza para encontrar dichos valores de parámetros predichos.
Como un octavo aspecto, un método según el cuarto aspecto, en el que en el cuarto aspecto se utiliza una función polinómica para encontrar dichos valores de parámetros predichos.
Como un noveno aspecto, un método según el cuarto aspecto, caracterizado por una función matemática obtenida a partir de método empleado para generar el downmix estéreo que se utiliza para encontrar dichos valores de parámetros predichos.
Como un décimo aspecto, un aparato para codificar una representación de una señal de audio multicanal, caracterizado por: medios para someter a downmix la señal multicanal para dar una representación de un canal; medios para definir parámetros que representan la señal multicanal; medios para definir parámetros que representan un downmix estéreo de la señal multicanal; medios para embeber ambos conjuntos de parámetros de una manera compatible hacia atrás y eficaz en tasa de bits en un flujo de bits.
Como un undécimo aspecto, un aparato para reconstruir una señal multicanal basándose en una señal sometida a downmix y conjuntos de parámetros correspondientes, caracterizado por: medios para extraer los conjuntos de parámetros embebidos en un flujo de bits; medios para reconstruir parámetros que representan una señal multicanal a partir de los parámetros extraídos del flujo de bits; medios para reconstruir la señal de salida multicanal dado el conjunto de parámetros reconstruido a partir de los datos del flujo de bits, y dicha señal sometida a downmix.
Dependiendo de ciertos requisitos de implementación de los métodos de la invención, los métodos de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, en particular un disco, DVD o un CD que presente señales de control legibles electrónicamente almacenadas sobre el mismo, que actúe conjuntamente con un sistema informático programable de tal manera que se realizan los métodos de la invención. Por lo tanto, en general, la presente invención es un producto de programa informático con un código de programa almacenado sobre un portador legible por máquina, estando operativo el código de programa para realizar los métodos de la invención cuando el producto de programa informático se ejecuta en un ordenador. Dicho de otro modo, los métodos de la invención son, por lo tanto, un programa informático que presenta un código de programa para realizar al menos uno de los métodos de la invención cuando el programa informático se ejecuta en un ordenador.
Aunque lo anterior se ha mostrado y descrito en particular con referencia a realizaciones particulares de la misma, los expertos en la técnica entenderán que pueden realizarse otros cambios diversos en la forma y los detalles sin apartarse del alcance de la misma. Ha de entenderse que pueden realizarse diversos cambios a la hora de adaptarse a diferentes realizaciones sin apartarse del alcance de la invención que se define en las reivindicaciones.

Claims (27)

1. Descodificador (200) de audio multicanal para procesar una representación (202) paramétrica, en el que la representación (202) paramétrica comprende un parámetro (206) de estéreo que describe propiedades espaciales de un downmix estéreo de la señal multicanal e información sobre uno o más parámetros (204) espaciales que describen propiedades espaciales de una señal multicanal, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, en el que la información sobre el uno o más parámetros (204) espaciales y el parámetro (206) de estéreo, cuando se combinan utilizando una regla de combinación, da como resultado uno o más parámetros (210) espaciales, comprendiendo el descodificador:
un reconstructor (208) de parámetros para combinar el parámetro (206) de estéreo y la información sobre el uno o más parámetros (204) espaciales utilizando la regla de combinación para obtener el uno o más parámetros (210) espaciales.
2. Descodificador (200) de audio multicanal según la reivindicación 1, en el que la regla de combinación es de tal manera que la combinación comprende una sustitución de un primer subconjunto de parámetros de la información sobre el uno o más parámetros (204) espaciales por parámetros de sustitución obtenidos combinando el parámetro (206) de estéreo y el primer subconjunto de los parámetros.
3. Descodificador (200) de audio multicanal según la reivindicación 2, en el que la regla de combinación es de tal manera que se obtiene un parámetro de sustitución mediante una combinación lineal del parámetro correspondiente del primer subconjunto de parámetros y de una predicción del mismo parámetro, en el que la predicción se obtiene utilizando parámetros de un segundo subconjunto de las informaciones sobre el uno o más parámetros (204) espaciales y el parámetro (206) de estéreo, combinándolos utilizando una regla de predicción.
4. Descodificador (200) de audio multicanal según la reivindicación 3, en el que la regla de predicción es de tal manera que la predicción se obtiene utilizando el parámetro (206) de estéreo.
5. Descodificador (200) de audio multicanal según la reivindicación 4, en el que la regla de predicción es de tal manera que el parámetro (206) de estéreo se utiliza como la predicción del parámetro espacial.
6. Descodificador (200) de audio multicanal según una de las reivindicaciones anteriores, en el que el parámetro (206) de estéreo comprende un primer parámetros P_{1} que describe una diferencia de intensidad entre los canales del downmix estéreo y un segundo parámetro P_{2} que describe una correlación entre los canales del downmix estéreo;
en el que el segundo subconjunto de parámetros comprende un parámetro S_{3} que describe una diferencia de intensidad entre una suma de un canal izquierdo y un canal derecho de la señal multicanal y un canal central de la señal multicanal; y
en el que la regla de predicción es de tal manera que un parámetro S_{1} del primer subconjunto de parámetros, describiendo el parámetro una diferencia de intensidad entre el canal izquierdo y el canal derecho de la señal multicanal, se predice mediante un parámetro \hat{S}_{1} de predicción según las siguientes fórmulas:
12
donde
13
7. Descodificador (200; 220) de audio multicanal según una de las reivindicaciones anteriores, en el que el reconstructor (226) de parámetros comprende además una unidad (252) de decisión para decidir si el primer subconjunto de parámetros se sustituye por parámetros de sustitución o no.
8. Descodificador (200; 220) de audio multicanal según una de las reivindicaciones anteriores, que comprende además un elemento (222) de descomposición de flujo de bits para descomponer una representación del parámetro (234) de estéreo y representación de la información sobre el uno o más parámetros (232) espaciales de un flujo (230) de bits, en el que el flujo (230) de bits es compatible hacia atrás para poder procesarse por dispositivos de estéreo paramétrico legados.
9. Descodificador (200; 220) de audio multicanal según la reivindicación 8, que comprende además un descodificador de entropía y un descodificador (258, 260, 262a, 262b) diferencial para obtener el parámetro (272) de estéreo y la información sobre el uno o más parámetros (266, 268) espaciales a partir de la representación del parámetro (234) de estéreo y de la representación de la información sobre el uno o más parámetros (232) espaciales.
10. Descodificador (220) de audio multicanal según la reivindicación 8 ó 9, en el que el elemento (222) de descomposición de flujo de bits está operativo además para descomponer una señal (236) de downmix monofónico del flujo de bits, siendo la señal (236) de downmix monofónica un downmix monofónico de la señal multicanal; y
que comprende además un elemento (228) de upmix para obtener una reconstrucción de la señal (240) multicanal utilizando la señal (236) de downmix y el uno o más parámetros (238).
11. Descodificador (220) de audio multicanal según la reivindicación 10, que comprende además un descodificador (224) de audio para obtener la señal (236) de downmix monofónico a partir de una representación codificada de la señal (231) de downmix monofónico descompuesta del flujo (230) de bits.
12. Codificador (10) para obtener una representación (12) paramétrica de una señal de audio multicanal, presentando la representación (12) paramétrica parámetros adecuados para utilizarse junto con una señal de downmix monofónico, comprendiendo el codificador (10):
un calculador (14) de parámetros espaciales para calcular uno o más parámetros (20) espaciales que describen propiedades espaciales de la señal multicanal;
un calculador (16) de parámetros de estéreo para calcular un parámetro (22) de estéreo que describe propiedades espaciales de una señal de downmix estéreo obtenida a partir de la señal multicanal; y
un combinador (18) de parámetros para generar la representación (12) paramétrica combinando el uno o más parámetros (20) espaciales y los parámetros (22) de estéreo utilizando una regla de combinación, en el que el combinador (18) de parámetros está operativo para utilizar una regla de combinación que da como resultado un parámetro (24) de estéreo utilizable por el descodificador y una información sobre el uno o más parámetros (26) espaciales, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, que representa, junto con el parámetro (24) de estéreo utilizable por el descodificador, el uno o más parámetros (20) espaciales.
13. Codificador (10; 52) según la reivindicación 12, en el que el calculador (16) de parámetros de estéreo comprende además un elemento (58) de downmix estéreo para obtener la señal (72) de downmix estéreo a partir de la señal (50) multicanal.
14. Codificador (10; 52) según las reivindicaciones 12 ó 13, que comprende además un elemento (54) de downmix espacial para obtener la señal (68) de downmix monofónico a partir de la señal (50) multicanal.
15. Codificador (10; 52) según una de las reivindicaciones 12 a 14, que comprende además un calculador (66) de flujo de bits para obtener un flujo (82) de bits que comprende la representación paramétrica y el downmix monofónico de una manera que es compatible hacia atrás con descodificadores de estéreo paramétrico legados.
16. Codificador según la reivindicación 14 ó 15, en el que el elemento (54) de downmix espacial comprende además un codificador (62) de audio para la compresión de la señal (68) de downmix monofónico utilizando una regla de compresión.
17. Método para procesar una representación paramétrica, en el que la representación paramétrica comprende un parámetro (206) de estéreo que describe propiedades espaciales de un downmix estéreo de la señal multicanal e información sobre uno o más parámetros espaciales que describen propiedades espaciales de una señal multicanal, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, en el que la información sobre el uno o más parámetros espaciales y los parámetros de estéreo, cuando se combinan utilizando una regla de combinación, da como resultado el uno o más parámetros espaciales, comprendiendo el método:
combinar el parámetro de estéreo y la información sobre el uno o más parámetros espaciales utilizando la regla de combinación para obtener el uno o más parámetros espaciales.
18. Método para obtener una representación paramétrica de una señal de audio multicanal, presentando la representación paramétrica parámetros adecuados para utilizarse junto con una señal de downmix monofónico, comprendiendo el método:
calcular uno o más parámetros espaciales que describen propiedades espaciales de la señal multicanal;
calcular un parámetro de estéreo que describe propiedades espaciales de una señal de downmix estéreo obtenida a partir de la señal multicanal; y
generar la representación paramétrica combinando el uno o más parámetros espaciales y el parámetro de estéreo utilizando una regla de combinación, en el que utilizar la regla de combinación da como resultado un parámetro de estéreo utilizable por el descodificador e información sobre el uno o más parámetros espaciales, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, que representa, junto con el parámetro de estéreo utilizable por el descodificador, el uno o más parámetros espaciales.
19. Representación paramétrica de una señal de audio multicanal, presentando la representación paramétrica parámetros adecuados para utilizarse junto con una señal de downmix monofónico, en el que la representación paramétrica presenta un parámetro de estéreo utilizable por el descodificador que describe propiedades espaciales de un downmix estéreo de la señal multicanal e información sobre uno o más parámetros espaciales generados combinando uno o más parámetros espaciales que describen propiedades espaciales de la señal de audio multicanal y el parámetro de estéreo, dependiendo la información sobre uno o más parámetros espaciales del parámetro de estéreo, de tal manera que la información sobre el uno o más parámetros espaciales representa, junto con el parámetro de estéreo utilizable por el descodificador, el uno o más parámetros espaciales.
20. Medio de almacenamiento legible por ordenador que presenta almacenado sobre el mismo una representación paramétrica de una señal de audio multicanal según la reivindicación 19.
21. Transmisor o grabador (330) de audio que presenta un codificador para obtener una representación paramétrica de una señal de audio multicanal según la reivindicación 12.
22. Receptor o reproductor (340) de audio que presenta un descodificador (200) de audio multicanal según la reivindicación 1.
23. Método de transmisión o grabación de audio, presentando el método un método para obtener una representación paramétrica de una señal de audio multicanal según la reivindicación 18.
24. Método de recepción o reproducción de audio, presentando el método un método para procesar una representación paramétrica según la reivindicación 17.
25. Sistema de transmisión que presenta un transmisor (330) y un receptor (340);
presentando el transmisor (330) un codificador para obtener una representación paramétrica de una señal de audio multicanal según la reivindicación 12; y
presentando el receptor (340) un descodificador de audio multicanal según la reivindicación 1.
26. Método de transmisión y recepción, incluyendo el método un método de transmisión que presenta un método para obtener una representación paramétrica de una señal de audio multicanal según la reivindicación 18 y un método de recepción, que presenta un método para procesar una representación paramétrica según la reivindicación 17.
27. Programa informático para realizar, cuando se ejecuta en un ordenador, un método según cualquiera de las reivindicaciones 17, 18, 23, 24 ó 26 de método.
ES05798859T 2004-11-02 2005-10-31 Codificacion de audio multicanal compatible estereo. Active ES2306235T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE0402650A SE0402650D0 (sv) 2004-11-02 2004-11-02 Improved parametric stereo compatible coding of spatial audio
SE0402650 2004-11-02

Publications (1)

Publication Number Publication Date
ES2306235T3 true ES2306235T3 (es) 2008-11-01

Family

ID=33448766

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05798859T Active ES2306235T3 (es) 2004-11-02 2005-10-31 Codificacion de audio multicanal compatible estereo.

Country Status (13)

Country Link
US (2) US7916873B2 (es)
EP (1) EP1784819B1 (es)
JP (1) JP4616349B2 (es)
KR (1) KR100936498B1 (es)
CN (1) CN101036183B (es)
AT (1) ATE393951T1 (es)
DE (1) DE602005006424T2 (es)
ES (1) ES2306235T3 (es)
HK (1) HK1106606A1 (es)
RU (1) RU2381570C2 (es)
SE (1) SE0402650D0 (es)
TW (1) TWI330825B (es)
WO (1) WO2006048226A1 (es)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
CA3035175C (en) 2004-03-01 2020-02-25 Mark Franklin Davis Reconstructing audio signals with multiple decorrelation techniques
PL1769491T3 (pl) * 2004-07-14 2010-03-31 Koninl Philips Electronics Nv Przekształcanie kanałów audio
US7945447B2 (en) * 2004-12-27 2011-05-17 Panasonic Corporation Sound coding device and sound coding method
BRPI0519454A2 (pt) * 2004-12-28 2009-01-27 Matsushita Electric Ind Co Ltd aparelho de codificaÇço reescalonÁvel e mÉtodo de codificaÇço reescalonÁvel
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2007004830A1 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
EP1913578B1 (en) 2005-06-30 2012-08-01 LG Electronics Inc. Method and apparatus for decoding an audio signal
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101233571B (zh) * 2005-07-29 2012-12-05 Lg电子株式会社 处理音频信号的方法和装置
JP5113049B2 (ja) * 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
US7987097B2 (en) * 2005-08-30 2011-07-26 Lg Electronics Method for decoding an audio signal
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP4859925B2 (ja) * 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
KR100857107B1 (ko) * 2005-09-14 2008-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
KR100857113B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
WO2007040349A1 (en) * 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing
US7742913B2 (en) 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
JP5161109B2 (ja) * 2006-01-19 2013-03-13 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置
BRPI0707136A2 (pt) * 2006-01-19 2011-04-19 Lg Electronics Inc método e aparelho para processamento de um sinal de mìdia
US8560303B2 (en) * 2006-02-03 2013-10-15 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
KR101294022B1 (ko) 2006-02-03 2013-08-08 한국전자통신연구원 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
CA2637722C (en) 2006-02-07 2012-06-05 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
ES2339888T3 (es) * 2006-02-21 2010-05-26 Koninklijke Philips Electronics N.V. Codificacion y decodificacion de audio.
JP5254808B2 (ja) 2006-02-23 2013-08-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
EP1999745B1 (en) * 2006-03-30 2016-08-31 LG Electronics Inc. Apparatuses and methods for processing an audio signal
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
EP2036204B1 (en) * 2006-06-29 2012-08-15 LG Electronics Inc. Method and apparatus for an audio signal processing
CN101485094B (zh) * 2006-07-14 2012-05-30 安凯(广州)软件技术有限公司 最大熵意义下后向兼容多通道音频编码与解码方法和系统
US20080235006A1 (en) * 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
WO2008039045A1 (en) * 2006-09-29 2008-04-03 Lg Electronics Inc., Apparatus for processing mix signal and method thereof
KR100891668B1 (ko) 2006-10-12 2009-04-02 엘지전자 주식회사 믹스 신호 처리 방법 및 장치
JP5232791B2 (ja) 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
KR100891672B1 (ko) 2006-10-12 2009-04-03 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100891669B1 (ko) 2006-12-01 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
KR100891671B1 (ko) 2006-12-01 2009-04-03 엘지전자 주식회사 믹스신호 제어 방법 및 장치
JP5270566B2 (ja) 2006-12-07 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
KR101062353B1 (ko) 2006-12-07 2011-09-05 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
KR20080052813A (ko) * 2006-12-08 2008-06-12 한국전자통신연구원 채널별 신호 분포 특성을 반영한 오디오 코딩 장치 및 방법
WO2008096313A1 (en) * 2007-02-06 2008-08-14 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
CN101647060A (zh) * 2007-02-13 2010-02-10 Lg电子株式会社 处理音频信号的方法和装置
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
TWI374671B (en) 2007-07-31 2012-10-11 Realtek Semiconductor Corp Audio encoding method with function of accelerating a quantization iterative loop process
KR101505831B1 (ko) 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
EP2232486B1 (en) * 2008-01-01 2013-07-17 LG Electronics Inc. A method and an apparatus for processing an audio signal
ES2391801T3 (es) * 2008-01-01 2012-11-30 Lg Electronics Inc. Procedimiento y aparato para procesar una señal de audio
KR101444102B1 (ko) * 2008-02-20 2014-09-26 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
EP2111062B1 (en) 2008-04-16 2014-11-12 LG Electronics Inc. A method and an apparatus for processing an audio signal
CN102007532B (zh) 2008-04-16 2013-06-19 Lg电子株式会社 用于处理音频信号的方法和装置
KR101061128B1 (ko) * 2008-04-16 2011-08-31 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101629862B1 (ko) * 2008-05-23 2016-06-24 코닌클리케 필립스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
KR101614160B1 (ko) 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
US8346380B2 (en) * 2008-09-25 2013-01-01 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
US8258849B2 (en) * 2008-09-25 2012-09-04 Lg Electronics Inc. Method and an apparatus for processing a signal
US8479015B2 (en) * 2008-10-17 2013-07-02 Oracle International Corporation Virtual image management
KR101499785B1 (ko) 2008-10-23 2015-03-09 삼성전자주식회사 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법
US20110311063A1 (en) * 2009-03-13 2011-12-22 Fransiscus Marinus Jozephus De Bont Embedding and extracting ancillary data
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
WO2011045549A1 (fr) * 2009-10-16 2011-04-21 France Telecom Decodage parametrique stereo optimise
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US9236047B2 (en) 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
KR101748756B1 (ko) * 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
WO2012176084A1 (en) * 2011-06-24 2012-12-27 Koninklijke Philips Electronics N.V. Audio signal processor for processing encoded multi - channel audio signals and method therefor
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
KR101662680B1 (ko) * 2012-02-14 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치
JP6163545B2 (ja) 2012-06-14 2017-07-12 ドルビー・インターナショナル・アーベー 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
KR101434206B1 (ko) 2012-07-25 2014-08-27 삼성전자주식회사 신호 복호화 장치
KR102173422B1 (ko) * 2012-11-15 2020-11-03 가부시키가이샤 엔.티.티.도코모 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
US9191516B2 (en) * 2013-02-20 2015-11-17 Qualcomm Incorporated Teleconferencing using steganographically-embedded audio data
BR122021009025B1 (pt) 2013-04-05 2022-08-30 Dolby International Ab Método de decodificação para decodificar dois sinais de áudio e decodificador para decodificar dois sinais de áudio
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
WO2014191793A1 (en) * 2013-05-28 2014-12-04 Nokia Corporation Audio signal encoder
TWI774136B (zh) 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
CN117037810A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
RU2648632C2 (ru) 2014-01-13 2018-03-26 Нокиа Текнолоджиз Ой Классификатор многоканального звукового сигнала
KR101500972B1 (ko) * 2014-03-05 2015-03-12 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US9848275B2 (en) * 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US9674598B2 (en) 2014-04-15 2017-06-06 Fairchild Semiconductor Corporation Audio accessory communication with active noise cancellation
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
WO2023088560A1 (en) * 2021-11-18 2023-05-25 Nokia Technologies Oy Metadata processing for first order ambisonics
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9105987A (pt) 1990-09-19 1993-02-02 Philips Nv Portador de registro no qual foram registrados um arquivo de dados principais e um arquivo de controle,processo e dispositivo para registrar um arquivo de dados principais e um arquivo de controle num portador de registro,e dispositivo para ter um portador de registro
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
CN1705980A (zh) 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
EP1500082B1 (en) * 2002-04-22 2007-02-14 Koninklijke Philips Electronics N.V. Signal synthesizing
BR0305555A (pt) * 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
WO2004072956A1 (en) 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding
ATE487213T1 (de) * 2003-03-17 2010-11-15 Koninkl Philips Electronics Nv Verarbeitung von mehrkanalsignalen
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals

Also Published As

Publication number Publication date
RU2381570C2 (ru) 2010-02-10
DE602005006424D1 (de) 2008-06-12
DE602005006424T2 (de) 2009-05-28
US7916873B2 (en) 2011-03-29
US20110211703A1 (en) 2011-09-01
CN101036183B (zh) 2011-06-01
WO2006048226A1 (en) 2006-05-11
US8654985B2 (en) 2014-02-18
SE0402650D0 (sv) 2004-11-02
JP2008519301A (ja) 2008-06-05
EP1784819B1 (en) 2008-04-30
TWI330825B (en) 2010-09-21
EP1784819A1 (en) 2007-05-16
JP4616349B2 (ja) 2011-01-19
HK1106606A1 (en) 2008-03-14
US20060133618A1 (en) 2006-06-22
RU2007120634A (ru) 2008-12-10
ATE393951T1 (de) 2008-05-15
TW200627379A (en) 2006-08-01
KR20070051915A (ko) 2007-05-18
CN101036183A (zh) 2007-09-12
KR100936498B1 (ko) 2010-01-13

Similar Documents

Publication Publication Date Title
ES2306235T3 (es) Codificacion de audio multicanal compatible estereo.
US10433091B2 (en) Compatible multi-channel coding-decoding
TWI406267B (zh) 一種音頻解碼器、一種用於對多音頻物件信號進行解碼的方法、以及執行該方法的具有程式碼的程式
ES2740104T3 (es) Codificación de audio jerárquica multicanal con información lateral compacta
JP4603037B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
ES2899286T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
ES2454670T3 (es) Generación de una señal multicanal codificada y decodificación de una señal multicanal codificada
ES2297825T3 (es) Cuantificacion dependiente de energia para la codificacion eficaz de parametros de audio espaciales.
ES2914474T3 (es) Método de decodificación de una señal de audio estéreo codificada usando una dirección de predicción variable
ES2378734T3 (es) Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal
KR20150040997A (ko) 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법
ES2856423T3 (es) Decodificador de señal de audio MPEG-SAOC, codificador de señal de audio MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC, procedimiento para proporcionar una representación de señal de mezcla descendente usando decodificación MPEG-SAOC, y programa informático que usa un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
CN113614827A (zh) 用于预测性译码中的低成本错误恢复的方法和设备