ES2255678T3 - Codificacion de audio parametrica. - Google Patents

Codificacion de audio parametrica.

Info

Publication number
ES2255678T3
ES2255678T3 ES03739586T ES03739586T ES2255678T3 ES 2255678 T3 ES2255678 T3 ES 2255678T3 ES 03739586 T ES03739586 T ES 03739586T ES 03739586 T ES03739586 T ES 03739586T ES 2255678 T3 ES2255678 T3 ES 2255678T3
Authority
ES
Spain
Prior art keywords
common
channels
frequencies
audio signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03739586T
Other languages
English (en)
Inventor
Steven L. J. D. E. Van De Par
Armin G. Kohlrausch
Albertus C. Den Brinker
Erik G. P. Schuijers
Nicolle H. Van Schijndel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2255678T3 publication Critical patent/ES2255678T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

Método para codificar (11) una señal (I, D) de audio de al menos dos canales, comprendiendo dicho método: - determinar (110) frecuencias comunes (fcom) en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio, y - representar (111) elementos sinusoides respectivos en los respectivos canales en una frecuencia común dada mediante una representación de la frecuencia (fcom) común dada y una representación de las amplitudes (A, A) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.

Description

Codificación de audio paramétrica.
La presente invención se refiere a la codificación de audio paramétrica.
Heiko Purnhagen, "Advances in parametric audio coding", Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (Taller sobre las aplicaciones del procesamiento de señales en audio y acústica), New Paltz, Nueva York, Oct. 17-20, 1999 da a conocer que la modelización paramétrica proporciona una representación eficiente de las señales de audio generales y se utiliza en una codificación de audio a una frecuencia de bits muy baja. Está basada en la descomposición de una señal de audio en elementos que se describen mediante modelos de fuente adecuados y se representan mediante parámetros de los modelos (como frecuencia y amplitud de un tono puro). Los modelos de percepción se usan en la descomposición de la señal y en la codificación de los parámetros de los modelos.
Un objeto de la invención es proporcionar una parametrización ventajosa de una señal de audio multicanal (por ejemplo estéreo). Para este fin, la invención proporciona un método de codificación, un codificador, una señal de audio codificada, un medio de almacenamiento, un método de decodificación, y un decodificador, tal como se define en las reivindicaciones independientes. En las reivindicaciones dependientes se definen realizaciones ventajosas.
Se observa que la codificación audio estéreo tal como se conoce en la técnica anterior. Por ejemplo, los dos canales izquierdo (I) y derecho (D) pueden codificarse de manera independiente. Esto puede realizarse mediante dos codificadores independientes dispuestos en paralelo o multiplexando en el tiempo en un codificador. Normalmente pueden codificarse los dos canales de manera más eficiente usando una correlación de canales cruzado (e irrelevancias) en la señal. Se hace referencia al estándar de audio MPEG-2 (ISO/IEC 13818-3, páginas 5, 6) que da a conocer una codificación estéreo "joint" (doble canal). La codificación estéreo "joint" aprovecha la redundancia entre los canales izquierdo y derecho para reducir la frecuencia de bits de audio. Son posibles dos formas de codificación estéreo "joint": estéreo MS y estéreo de intensidad. El estéreo MS se basa en la codificación de la señal de suma (I+D) y de diferencia (I-D) en lugar de los canales izquierdo (I) y derecho (D). La codificación por intensidad se basa en retener en altas frecuencias únicamente la envolvente de la energía de los canales derecho (D) e izquierdo (I). La aplicación directa del principio de codificación estéreo MS en la codificación paramétrica en lugar de en la codificación de subbanda resultaría en una señal de suma parametrizada y una señal de diferencia parametrizada. La formación de la señal de suma y de la señal de diferencia antes de la codificación puede dar lugar a la generación de elementos de frecuencia adicionales en la señal de audio que va a codificarse, lo que reduce la eficiencia de la codificación paramétrica. La aplicación directa del principio de codificación estéreo de intensidad en un esquema de codificación paramétrica resultaría en una parte de baja frecuencia con canales codificados independientemente y una parte de alta frecuencia que incluye únicamente la envolvente de energía de los canales derecho e izquierdo.
Según un primer aspecto de la invención, se determinan frecuencias comunes en los al menos dos canales de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales, y elementos sinusoidales respectivos en canales respectivos en una frecuencia común dada se representan mediante una representación de la frecuencia común dada, y una representación de las amplitudes respectivas de los elementos sinusoidales respectivos en la frecuencia común dada. Este aspecto se basa en la observación de que una frecuencia dada generada por una fuente dada tiene una alta probabilidad para tener un elemento en cada uno de los canales. Estos elementos de señales tendrán su frecuencia en común. Esto es cierto porque las transformaciones de señales que pueden ocurrir en la transmisión desde la fuente de sonido mediante equipos de grabación hasta el oyente normalmente no afectarán a los elementos de frecuencia de manera diferencial en varios o en todos los canales. Por tanto, pueden representarse elementos comunes en los varios canales de señal mediante una frecuencia única, común. Las amplitudes (y fases) respectivas de los elementos respectivos en los canales respectivos pueden ser diferentes. Por tanto, al codificar los sinusoides con una frecuencia común y una representación de las amplitudes respectivas, se consigue una codificación de compresión eficiente de la señal de audio; sólo se necesita un parámetro para codificar una frecuencia común dada (que ocurre en varios canales). Además, tal parametrización se aplica ventajosamente con un modelo psicoacústico adecuado.
Una vez que se ha encontrado una frecuencia común, pueden representarse los otros parámetros que describen los elementos en cada canal respectivo. Por ejemplo, para una señal estéreo que está representada con elementos sinusoidales, pueden codificarse la media y la diferencia de las amplitudes (y opcionalmente las respectivas fases). En una realización adicional se codifica la mayor amplitud en el flujo de audio codificado junto con una amplitud de diferencia, en la que el signo de la amplitud de diferencia puede determinar el canal dominante para esta frecuencia.
Ya que es probable que exista cierto grado de correlación entre los canales izquierdo y derecho, puede usarse una codificación de entropía de los parámetros sinusoidales que resultaría en una codificación más eficiente de la señal estéreo. Además, puede eliminarse la información irrelevante dentro de la representación de elementos comunes, por ejemplo, las diferencias interaurales de fase en altas frecuencias son inaudibles y pueden ajustarse a cero.
Es posible codificar cualquier frecuencia que ocurre en los canales como una frecuencia común. Si una frecuencia que ocurre en un canal no ocurre en otro canal, la representación de la amplitud debe codificarse entonces de modo que resulte en una amplitud cero para el canal en el que no ocurre la frecuencia.
Pueden representarse también frecuencias no comunes como sinusoides independientes en los canales respectivos. Las frecuencias no comunes pueden codificarse en un bloque de parámetros independiente. Es posible además producir un primer bloque de parámetros que incluya frecuencias comunes que son comunes a todos los canales, un segundo bloque de parámetros que incluye frecuencias que son comunas a un subconjunto (predeterminado) de todos los canales, un tercer bloque de parámetros que incluye frecuencias que son comunes a un subconjunto (predeterminado) adicional de todos los canales, y así hasta un último bloque de parámetros que incluye las frecuencias que ocurren en un único canal y que se codifican de manera independiente.
Una frecuencia común puede representarse como un valor de frecuencia absoluto, pero también como una frecuencia que cambia con el tiempo, por ejemplo, una primera derivada \partialf/\partialt. Además, las frecuencias comunes pueden codificarse diferencialmente con relación a otras frecuencias comunes.
Las frecuencias comunes pueden encontrarse estimando las frecuencias considerando dos o más canales al mismo tiempo.
En una primera realización se determinan las frecuencias de manera independiente para los canales respectivos, seguido de una etapa de comparación para determinar las frecuencias comunes. La determinación de las frecuencias que ocurren en los canales respectivos puede realizarse mediante un logaritmo matching-pursuit convencional (véase por ejemplo S.G. Mallat y Z. Zhang, "Matching pursuits with time-frequency dictionaries", IEEE trans. on Signal Processing, Vol. 41, Nº 12, págs 3397-3415) o ajuste de amplitud de picos (véase por ejemplo R. McAulay y T. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation", IEEE Trans. ASSP, Vol. 34, Nº 4, págs. 744-754, Agosto 1986).
En una segunda realización para determinar las frecuencias comunes se utiliza un algoritmo matching pursuit combinado. Por ejemplo, se combinan representaciones respectivas de potencia o energía de los al menos dos canales para obtener una representación común. Se determinan entonces las frecuencias comunes basándose en la representación común. Preferiblemente, se añaden los espectros de potencia de los al menos dos canales para obtener un espectro de potencia común. Se usa un logaritmo matching pursuit convencional para determinar las frecuencias en este espectro de adición. Las frecuencias que se encuentran en este espectro de potencia añadido se determinan como frecuencias comunes.
En una tercera realización para determinar las frecuencias comunes, se usa el ajuste de amplitud de picos en los espectros de potencia de adición. Las frecuencias de los máximos que se encuentran en este espectro de potencia común pueden usarse como las frecuencias comunes. También podrían añadirse espectros de potencia logarítmica en lugar de espectros de potencia lineal.
Preferiblemente, se codifica también la fase de los elementos respectivos de la frecuencia común. Pueden incluirse en la señal audio codificada una fase común, que puede ser la fase promedio de las fases en los canales o la fase del canal con la mayor amplitud y una fase de diferencia (intercanal). Ventajosamente, la fase de diferencia sólo se codifica hasta una frecuencia umbral dada (por ejemplo 1,5 kHz o 2 kHz). Para frecuencias superiores a este umbral no se codifica ninguna fase de diferencia. Esto es posible sin reducir la calidad de manera significativa, porque la sensibilidad humana para las diferencias interaurales de fase es baja para frecuencias superiores a este umbral. Por tanto, un parámetro de fase de diferencia no es necesario para frecuencias superiores al umbral dado. Al decodificar puede asumirse que el parámetro de fase delta sea cero para frecuencias superiores al umbral. El decodificador se dispone para recibir tales señales. Por encima de la frecuencia umbral el decodificador no espera ningún código para las fases de diferencia. Dado que las fases de diferencia en la realización práctica no están dotadas de un identificador, es importante que el decodificador sepa cuando esperar fases de diferencia y cuando no. Además, ya que el oído humano es menos sensible a grandes diferencias de intensidad interaural, las amplitudes delta que son mayores que cierto umbral, por ejemplo, 10 dB, pueden asumirse infinitas. Por consiguiente, tampoco en este caso deben codificarse las diferencias interaurales de fase.
Las frecuencias en canales diferentes que difieran menos que un umbral dado pueden representarse mediante una frecuencia común. En este caso se supone que las frecuencias que difieren se originan a partir de la misma frecuencia fuente. En las realizaciones prácticas el umbral está relacionado con la exactitud del algoritmo "matching pursuit" o de ajuste de amplitud de picos.
En las realizaciones prácticas, la parametrización según la invención se emplea en base a tramas.
La invención puede aplicarse a cualquier señal de audio, incluyendo señales de voz.
Estos y otros aspectos de la invención serán obvios a partir de lo que se comprenderá con referencia a los dibujos adjuntos.
En los dibujos:
la figura 1 muestra un codificador según una realización de la invención;
la figura 2 muestra una posible implementación del codificador de la figura 1;
la figura 3 muestra una implementación alternativa del codificador de la figura 1, y
la figura 4 muestra un sistema según una realización de la invención.
Los dibujos únicamente muestran aquellos elementos que son necesarios para comprender las realizaciones de la invención.
La figura 1 muestra un codificador 11 según una realización de la invención. Una señal de audio multicanal se introduce en el codificador. En esta realización la señal de audio multicanal es una señal de audio estéreo que tiene un canal izquierdo I y un canal derecho D. El codificador 11 tiene dos entradas: una entrada para la señal del canal izquierdo I y otra entrada para la señal del canal derecho D. Alternativamente, el codificador tiene una entrada para ambos canales I y D que se proporcionan en ese caso en forma multiplexada al codificador 11. El codificador 11 extrae sinusoides de ambos canales y determina las frecuencias comunes f_{com}. El resultado del proceso de codificación realizado en el codificador 11 es una señal de audio codificada. La señal de audio codificada incluye las frecuencias comunes f_{com} y por cada frecuencia común f_{com} una representación de las amplitudes respectivas en los canales respectivos, por ejemplo en forma de una amplitud A máxima o promedio y una amplitud \DeltaA de diferencia (delta).
En lo siguiente se describe cómo pueden determinarse las frecuencias comunes, una primera realización que usa un matching pursuit y una segunda realización que usa un ajuste de amplitud de picos.
Una realización que usa "matching pursuit"
Este método es una extensión de los algoritmos de matching pursuit existentes. Los matching pursuit son bien conocidos en la técnica. Un matching pursuit es un algoritmo iterativo. Proyecta la señal sobre un elemento de un diccionario de correspondencias escogido a partir de un diccionario redundante de formas de onda de tiempo-frecuencia. La proyección se resta de la señal para ser aproximada en la siguiente iteración. De este modo, en los algoritmos de matching pursuit existentes la parametrización es realizada determinando por iteraciones un pico del espectro de potencia "proyectado" de una trama de la señal de audio, obteniendo la amplitud óptima y la fase que corresponden a la frecuencia del pico y extrayendo el sinusoide correspondiente de la trama que se está analizando. Este proceso se repite de manera iterativa hasta que se obtiene una parametrización satisfactoria de la señal de audio. Para obtener frecuencias comunes en una señal de audio multicanal, se suman los espectros de potencia de los canales izquierdo y derecho y se determinan los picos de este espectro de potencia de adición. Se usan estas frecuencias de picos para determinar las amplitudes óptimas y opcionalmente las fases de los canales izquierdo y derecho (o más).
El algoritmo de matching pursuit multicanal según una realización práctica de la invención comprende la etapa de separar la señal multicanal en tramas solapadas de corta duración (por ejemplo 10 ms) y aplicar de manera iterativa las siguientes etapas sobre cada una de las tramas hasta que se alcance un criterio de parada:
1. Se calculan los espectros de potencia de cada uno de los canales de la trama multicanal
2. Se suman los espectros de potencia para obtener un espectro de potencia común
3. Se determina la frecuencia a la que el espectro de potencia común "proyectado" es máximo
4. Se determinan, para la frecuencia determinada en la etapa 3, la amplitud y la fase de las sinusoides que mejor se ajustan y se almacenan todos estos parámetros. Se codifican estos parámetros usando las frecuencias comunes en combinación con una representación de las amplitudes respectivas, aprovechando por tanto las correlaciones e irrelevancias de canales cruzados.
5. Se restan las sinusoides de las correspondientes tramas multicanal actuales para obtener una señal residual actualizada que sirve como la siguiente trama multicanal en la etapa 1.
Realización que usa "ajuste de amplitud de picos"
Alternativamente puede usarse ajuste de amplitud de picos, incluyendo por ejemplo las etapas siguientes:
1. Se calculan los espectros de potencia de cada uno de los canales de la trama multicanal
2. Se suman los espectros de potencia para obtener un espectro de potencia común
3. Se determinan las frecuencias correspondientes a todos los picos que quedan dentro del espectro de potencia
4. Se obtienen, para estas frecuencias determinadas, las mejores amplitudes y las mejores fases.
La figura 2 muestra una posible implementación del codificador de la figura 1, que usa un espectro (de adición) de potencia común de los canales para determinar las frecuencias comunes. En la unidad 110 de cálculo se realiza un proceso de matching pursuit o un proceso de ajuste de amplitud de picos tal como se describió anteriormente usando un espectro de potencia común obtenido de los canales I y D. Las frecuencias f_{com} comunes determinadas se proporcionan a la unidad 111 de codificación. Esta unidad de codificación determina las amplitudes respectivas de las sinusoides (y preferiblemente las fases) en los diferentes canales a una frecuencia común dada.
Alternativamente, los canales respectivos se codifican de manera independiente para obtener un conjunto de sinusoides parametrizados para cada canal. Estos parámetros se verifican posteriormente para frecuencias comunes. Tal realización se muestra en la figura 3. La figura 3 muestra una implementación alternativa del codificador 11 de la figura 1. En esta implementación el codificador 11 comprende dos codificadores 112 y 113 paramétricos independientes. Los parámetros f_{I}, A_{L} y f_{D}, A_{D} obtenidos en estos codificadores independientes se proporcionan a una unidad 114 de codificación adicional que determina las frecuencias f_{com} comunes en estas dos señales parametrizadas.
Ejemplo de codificación de una señal de audio estéreo
Suponiendo que una señal de audio estéreo viene dada con las siguientes características:
canal f(Hz) A(dB) f(Hz) A(dB) f(Hz) A(dB) f(Hz) A(dB) f(Hz) A(dB)
I 50 30 100 50 250 40 - - 500 40
D 50 20 100 60 - - 200 30 500 35
En la práctica, en este caso la diferencia de amplitud entre los canales es de +15 dB o -15 dB en una frecuencia dada, se considera que esta frecuencia ocurre únicamente en el canal dominante.
Codificado independientemente
La siguiente parametrización puede usarse para codificar la señal de estéreo ejemplar independientemente.
I(f,A) = (50, 30), (100, 50), (250, 40), (500, 40)
D(f,A) = (50, 20), (100, 60), (200, 30), (500, 35)
Esta parametrización requiere 16 parámetros.
Usando frecuencias comunes y frecuencias no comunes
Las frecuencias comunes son 50 Hz, 100 Hz y 500 Hz. Para codificar esta señal:
(f_{com}, A_{max}, \DeltaA) = (50, 30, 10), (100, 60, -10), (500, 40, 5)
(f_{no-com}, A) = (200, -30), (250, 40)
La codificación de la señal de audio estéreo usando frecuencias comunes y no comunes requiere 13 parámetros en este ejemplo. En comparación con la señal multicanal codificada independientemente, el uso de frecuencias comunes reduce el número de parámetros de codificación. Además, los valores para la amplitud delta son menores que para las amplitudes absolutas tal como vienen dadas en la señal multicanal codificada independientemente. Esto reduce adicionalmente la frecuencia de bits.
La señal en la amplitud delta \DeltaA determina el canal dominante (entre dos señales). En el ejemplo anterior, una amplitud positiva significa que el canal izquierdo es dominante. El signo puede usarse también en la representación de la frecuencia no común para indicar para qué señal es válida la frecuencia. Aquí se usa la misma convención: el positivo es izquierdo (dominante). Alternativamente es posible proporcionar una amplitud promedio en combinación con una amplitud de diferencia, o consistentemente la amplitud de un canal dado con una amplitud de diferencia con relación al otro canal.
En lugar de usar el signo en la amplitud delta \DeltaA para determinar el canal dominante, también es posible usar un bit en el flujo de bits para indicar el canal dominante. Esto requiere 1 bit, tal como puede ser el caso también para el bit de signo. Este bit está incluido en el flujo de bits y se usa en el decodificador. En el caso de que se codifique una señal de audio con más de dos canales, se necesita más de 1 bit para indicar el canal dominante. Esta implementación es sencilla.
Uso únicamente de frecuencias comunes
Cuando se usa únicamente una representación basada en frecuencias comunes, las frecuencias no comunes se codifican de modo que la amplitud de la frecuencia común en el canal en el que no ocurre ninguna sinusoide en esa frecuencia sea cero. En la práctica, puede usarse un valor de por ejemplo +15 dB o -15 dB para la amplitud delta para indicar que no hay ninguna sinusoide de la frecuencia actual en el canal dado. El signo en la amplitud delta \DeltaA determina el canal dominante (entre dos señales). En este ejemplo, una amplitud positiva significa que es dominante el canal izquierdo.
(f_{com}, A, \DeltaA) = (50, 30, 10), (100, 60, -10), (200, 30, -15), (250, 40, 15), (500, 40, 5)
Esta parametrización requiere 15 parámetros. Para este ejemplo, el uso únicamente de frecuencias comunes es menos ventajoso que el uso de frecuencias comunes y no comunes.
Promedio de frecuencias y diferencias
(F_{av}, \DeltaF, A_{av}, \DeltaA) = (50, 0, 25, 5), (100, 0, 55, -5), (225, 25, 35, 5), (500, 0, 30, 10)
Esta parametrización requiere 16 parámetros.
Esta es una codificación alternativa en la que se representan los elementos sinusoidales en la señal mediante frecuencias promedio y amplitudes promedio. Está claro que también comparado con esta estrategia de codificación, es ventajoso el uso de frecuencias comunes. Se hace notar que el uso de las frecuencias promedio y de las amplitudes promedio puede verse como una invención separada fuera del alcance de la presente aplicación.
Se hace notar que no es estrictamente el número de parámetros sino más bien la suma del número de bits por parámetro que es importante para la frecuencia de bits del flujo de audio codificado que se obtiene como resultado. En este respecto, la codificación diferencial normalmente proporciona una reducción del flujo de bits para elementos de señal correlacionados.
La representación con un parámetro de frecuencia común y amplitudes respectivas (y opcionalmente fases respectivas) puede verse como una representación mono, captada en la frecuencia común, la amplitud máxima o promedio, la fase de la amplitud máxima o promedio (opcional) de los parámetros y una extensión multicanal captada en los parámetros amplitud delta y fase delta (opcional). Los parámetros mono pueden tratarse como parámetros estándar que pueden obtenerse en un codificador mono sinusoidal. Por tanto, estos parámetros mono pueden usarse para crear enlaces entre sinusoides en las tramas subsiguientes, para codificar parámetros diferencialmente según estos enlaces y para realizar una continuación de fase. Los parámetros adicionales multicanal pueden codificarse según las estrategias mencionadas anteriormente que aprovechan adicionalmente las propiedades de audición estereofónicas. Los parámetros delta (amplitud delta y fase delta) pueden también codificarse diferencialmente basándose en los enlaces que se han hecho en base a los parámetros mono. Además, para proporcionar un flujo de bits escalable, pueden incluirse los parámetros mono en una capa base, mientras que los parámetros multicanal están incluidos en una capa de refuerzo.
En el ajuste de los componentes mono, la función de coste (o medida de similitud) es una combinación del coste para la frecuencia, el coste para la amplitud y (opcionalmente) el coste para la fase. Para los elementos estéreo, la función de coste puede ser una combinación del coste para la frecuencia común, el coste para la amplitud promedio o máxima, el coste para la fase, el coste para la amplitud delta y el coste para la fase delta. Alternativamente, puede utilizarse para la función de coste para los elementos estéreo: la frecuencia común, las amplitudes respectivas y las fases respectivas.
Ventajosamente, la parametrización sinusoidal usando una frecuencia común y una representación de las amplitudes respectivas de esa frecuencia en los canales respectivos se combina con una parametrización mono transitoria tal como se da a conocer en el documento WO 10/69593-A1. Esto puede combinarse adicionalmente con una representación mono para el ruido tal como la que se describe en el documento WO 01/88904.
Aunque la mayoría de las realizaciones descritas anteriormente están relacionadas con las señales de audio de dos canales, la extensión a tres o más canales es sencilla.
La adición de un canal adicional a una señal de audio ya codificada puede realizarse ventajosamente de la siguiente manera: basta identificar en la señal de audio codificada una representación de las amplitudes de las frecuencias comunes presentes en el canal extra y una representación de las frecuencias no comunes. Puede incluirse también opcionalmente información de fase en la señal de audio codificada.
En una realización práctica, la amplitud promedio o máxima y la fase promedio de la mayor amplitud en una frecuencia común se cuantifican de manera similar a la cuantificación respectiva de la amplitud delta y la fase delta en la frecuencia común para el(los) otro(s) canal(es). Los valores prácticos para la cuantificación son:
frecuencia común resolución de 0,5%
amplitud, amplitud delta resolución de 1 dB
fase, fase delta resolución de 0,25 rad
La codificación de audio multicanal propuesta proporciona una reducción del flujo de bits cuando se compara con la codificación de los canales por separado.
La figura 4 muestra un sistema según una realización de la invención. El sistema comprende un aparato 1 para transmitir o almacenar una señal de audio codificada [S]. El aparato 1 comprende una unidad 10 de entrada para recibir una señal S de audio de al menos dos canales. La unidad 10 de entrada puede ser una antena, micrófono, conexión de red, etc. El aparato 1 comprende adicionalmente el codificador 11, tal como se muestra en la figura 1 para codificar la señal S de audio para obtener una señal de audio codificada con una parametrización según la presente invención, por ejemplo (f_{com}, A_{av}, \DeltaA) o (f_{com}, A_{max}, \DeltaA). Se proporciona la parametrización de la señal de audio codificada a una unidad 12 de salida que transforma la señal de audio codificada en un formato [S] adecuado para la transmisión o almacenamiento mediante un medio de transmisión o un medio de almacenamiento 2. El sistema comprende adicionalmente un receptor o aparato 3 reproductor que recibe la señal [S] de audio codificada en una unidad 30 de entrada. La unidad 30 de entrada extrae de la señal [S] de audio codificada los parámetros (f_{com}, A_{av}, \DeltaA) o (f_{com}, A_{max}, \DeltaA). Estos parámetros se proporcionan a un decodificador 31 que sintetiza una señal de audio decodificada basada en los parámetros recibidos generando las frecuencias comunes que tienen las amplitudes respectivas para obtener los dos canales I y D de la señal S' de audio decodificada. Los dos canales I y D se proporcionan a una unidad 32 de salida que proporciona la señal S' de audio decodificada. La unidad 32 de salida puede ser una unidad de reproducción tal como un altavoz para reproducir la señal S' de audio decodificada. La unidad 32 de salida puede ser también un transmisor para transmitir adicionalmente la señal S' de audio decodificada, por ejemplo, a través de una red doméstica, etc.
Debe observarse que las realizaciones mencionadas anteriormente ilustran más que limitan la invención, y que los expertos en la técnica serán capaces de diseñar muchas realizaciones alternativas sin alejarse del alcance de las reivindicaciones adjuntas. En las reivindicaciones, cualquier signo de referencia colocado entre paréntesis no se entenderá como limitando la reivindicación. La palabra "comprende" no excluye la presencia de otros elementos o etapas que los que se enumeran en una reivindicación. La invención puede implementarse mediante equipos físicos que comprendan varios elementos definidos, y mediante un ordenador programado adecuadamente. En una reivindicación de dispositivo que enumera varios medios, varios de estos medios pueden estar realizados en un único elemento de equipo físico. El mero hecho de que ciertas medidas se citen en reivindicaciones dependientes diferentes no indica que no pueda usarse ventajosamente una combinación de estas medidas.

Claims (25)

1. Método para codificar (11) una señal (I, D) de audio de al menos dos canales, comprendiendo dicho método:
determinar (110) frecuencias comunes (f_{com}) en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio, y
representar (111) elementos sinusoides respectivos en los respectivos canales en una frecuencia común dada mediante una representación de la frecuencia (f_{com}) común dada y una representación de las amplitudes (A, \DeltaA) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.
2. Método de codificación según la reivindicación 1, en el que la representación de las amplitudes (A, \DeltaA) respectivas comprende una amplitud (A) promedio y una amplitud (\DeltaA) de diferencia.
3. Método de codificación según la reivindicación 1, en el que la representación de las amplitudes (A, \DeltaA) respectivas comprende una amplitud (A) máxima y una amplitud (\DeltaA) de diferencia.
4. Método de codificación según la reivindicación 1, en el que las frecuencias no comunes se codifican como frecuencias comunes, en las que la representación de la amplitud incluye una indicación para indicar el al menos un canal en el que no ocurre la frecuencia.
5. Método de codificación según la reivindicación 1, en el que además de las frecuencias comunes, se codifican independientemente las frecuencias no comunes.
6. Método según la reivindicación 5, en el que las frecuencias no comunes se agrupan en el flujo de audio codificado en un bloque separado.
7. Método según la reivindicación 6, en el que las frecuencias comunes se agrupan y se incluyen en la señal de audio codificada antes del bloque de frecuencias no comunes.
8. Método según la reivindicación 6, en el que los parámetros de los elementos sinusoidales en las frecuencias comunes se incluyen en una capa base y los parámetros de las sinusoides en las frecuencias no comunes se incluyen en una capa de refuerzo.
9. Método según la reivindicación 1, en el que el método comprende la etapa de combinar representaciones de potencia o de energía respectivas de los al menos dos canales para obtener una representación común y en el que la etapa de determinar las frecuencias comunes se realiza basándose en la representación común.
10. Método según la reivindicación 9, en el que la etapa de combinación incluye añadir espectros de potencia de los al menos dos canales y en el que la representación común es un espectro de potencia común.
11. Método según la reivindicación 1, en el que los parámetros de frecuencia y amplitud se incluyen en una capa base y la amplitud delta se incluye en una capa de refuerzo.
12. Método según la reivindicación 1, en el que se determinan respectivas fases de los sinusoides respectivos en la frecuencia común dada y en el que se incluye una representación de las fases respectivas en la señal de audio codificada.
13. Método según la reivindicación 12, en el que la representación de las fases respectivas incluye una fase promedio y una fase de diferencia.
14. Método según la reivindicación 12, en el que la representación de las fases respectivas incluye una fase del canal con una amplitud máxima, y una fase de diferencia.
15. Método según la reivindicación 12, en el que la representación de las fases respectivas sólo se incluye en la señal para los sinusoides que tienen una frecuencia hasta cierta frecuencia umbral.
16. Método según la reivindicación 15, en el que la frecuencia umbral dada es alrededor de 2 kHz.
17. Método según la reivindicación 12, en el que la representación de las fases respectivas sólo se incluye en la señal para los sinusoides que tengan una diferencia de amplitud con al menos uno de los otros canales hasta cierto umbral de amplitud.
18. Método según la reivindicación 17, en el que el umbral de amplitud dado es de 10 dB.
19. Codificador (11) para codificar una señal (I, D) de audio de al menos dos canales, comprendiendo dicho codificador:
medios (110) para determinar frecuencias (f_{com})comunes en los al menos dos canales (I, D) de la señal de audio, frecuencias comunes que ocurren en al menos dos de los al menos dos canales de la señal de audio
medios (111) para representar elementos sinusoidales respectivos en canales respectivos en una frecuencia común dada mediante una representación de la frecuencia (f_{com}) común dada y una representación de las amplitudes (A, \DeltaA) respectivas de los elementos sinusoidales respectivos en la frecuencia común dada.
20. Aparato (1) para transmitir o grabar, comprendiendo dicho aparato
una unidad (10) de entrada para recibir una señal (S) de audio de al menos dos canales (I, D),
un codificador (11) según la reivindicación 19 para codificar la señal (S) de audio para obtener una señal ([S]) de audio codificada, y
una unidad de salida para proporcionar la señal ([S]) de audio codificada.
21. Señal ([S]) de audio codificada que representa una señal (I, D) de audio de al menos dos canales que comprende:
representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y
para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representa elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada.
22. Medio (2) de almacenamiento que tiene almacenado en el mismo una señal según la reivindicación 21.
23. Método para decodificar (31) una señal ([S]) de audio codificada, comprendiendo dicho método:
recibir (31) la señal ([S]) de audio codificada que representa una señal (I, D) de audio de al menos dos canales, comprendiendo la señal de audio codificada representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representan elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada, y
generar (31) las frecuencias comunes en las amplitudes respectivas en los al menos dos canales (I, D) para obtener una señal (S') de audio decodificada.
24. Decodificador (31) para decodificar una señal ([S]) de audio codificada, comprendiendo dicho decodificador:
medios (31) para recibir la señal ([S]) de audio codificada que representan una señal (I, D) de audio de al menos dos canales, comprendiendo la señal de audio codificada representaciones de frecuencias (f_{com}) comunes, frecuencias comunes que representan frecuencias que ocurren en al menos dos de los al menos dos canales de la señal [S] de audio, y para una frecuencia (f_{com}) común dada, una representación de amplitudes (A, \DeltaA) respectivas que representan elementos sinusoidales respectivos en canales respectivos en la frecuencia común dada, y
medios (31) para generar las frecuencias comunes en las amplitudes respectivas en los al menos dos canales (I, D) para obtener una señal (S') de audio decodificada.
25. Receptor o aparato (3) reproductor, comprendiendo el aparato:
una unidad (30) de entrada para recibir una señal ([S]) de audio codificada,
un decodificador (31) según la reivindicación 24 para decodificar la señal ([S]) de audio codificada para obtener una señal (S') de audio decodificada, y
una unidad (32) de salida para proporcionar la señal (S') de audio decodificada.
ES03739586T 2002-02-18 2003-01-17 Codificacion de audio parametrica. Expired - Lifetime ES2255678T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02075639 2002-02-18
EP02075639 2002-02-18

Publications (1)

Publication Number Publication Date
ES2255678T3 true ES2255678T3 (es) 2006-07-01

Family

ID=27675723

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03739586T Expired - Lifetime ES2255678T3 (es) 2002-02-18 2003-01-17 Codificacion de audio parametrica.

Country Status (10)

Country Link
US (1) US20050078832A1 (es)
EP (1) EP1479071B1 (es)
JP (1) JP4347698B2 (es)
KR (1) KR20040080003A (es)
CN (1) CN1705980A (es)
AT (1) ATE315823T1 (es)
AU (1) AU2003201097A1 (es)
DE (1) DE60303209T2 (es)
ES (1) ES2255678T3 (es)
WO (1) WO2003069954A2 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7835916B2 (en) 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
SE527866C2 (sv) * 2003-12-19 2006-06-27 Ericsson Telefon Ab L M Kanalsignalmaskering i multikanalsaudiosystem
AU2012208987B2 (en) * 2004-03-01 2012-12-20 Dolby Laboratories Licensing Corporation Multichannel Audio Coding
CN101552007B (zh) * 2004-03-01 2013-06-05 杜比实验室特许公司 用于对编码音频信道和空间参数进行解码的方法和设备
AU2005219956B2 (en) 2004-03-01 2009-05-28 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
WO2006000842A1 (en) * 2004-05-28 2006-01-05 Nokia Corporation Multichannel audio extension
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP5106115B2 (ja) 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
RU2007120056A (ru) * 2004-11-30 2008-12-10 Мацусита Электрик Индастриал Ко. Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования
US7761304B2 (en) 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1866913B1 (en) * 2005-03-30 2008-08-27 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
EP1905008A2 (en) * 2005-07-06 2008-04-02 Koninklijke Philips Electronics N.V. Parametric multi-channel decoding
KR101340233B1 (ko) * 2005-08-31 2013-12-10 파나소닉 주식회사 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
KR101433701B1 (ko) 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
US9552818B2 (en) 2012-06-14 2017-01-24 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
EP3467824B1 (en) * 2017-10-03 2021-04-21 Dolby Laboratories Licensing Corporation Method and system for inter-channel coding
CN112216301B (zh) * 2020-11-17 2022-04-29 东南大学 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3732375A (en) * 1969-01-24 1973-05-08 Nippon Electric Co Paired signal transmission system utilizing quadrature modulation
US4124779A (en) * 1977-09-12 1978-11-07 Stephen Berens Dual channel communications system particularly adapted for the AM broadcast band
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4852175A (en) * 1988-02-03 1989-07-25 Siemens Hearing Instr Inc Hearing aid signal-processing system
US5031230A (en) * 1988-10-24 1991-07-09 Simulcomm Partnership Frequency, phase and modulation control system which is especially useful in simulcast transmission systems
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
JPH05509409A (ja) * 1990-06-21 1993-12-22 レイノルズ ソフトウエア,インコーポレイティド 波動分析・事象認識方法およびその装置
JP3099892B2 (ja) * 1990-10-19 2000-10-16 リーダー電子株式会社 ステレオ信号の位相関係判定に使用する方法及び装置
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5586126A (en) * 1993-12-30 1996-12-17 Yoder; John Sample amplitude error detection and correction apparatus and method for use with a low information content signal
WO1996032710A1 (en) * 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
GB2319379A (en) * 1996-11-18 1998-05-20 Secr Defence Speech processing system
JP3415398B2 (ja) * 1997-08-07 2003-06-09 パイオニア株式会社 音声信号処理装置
US6081777A (en) * 1998-09-21 2000-06-27 Lockheed Martin Corporation Enhancement of speech signals transmitted over a vocoder channel
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
FI113147B (fi) * 2000-09-29 2004-02-27 Nokia Corp Menetelmä ja signaalinkäsittelylaite stereosignaalien muuntamiseksi kuulokekuuntelua varten
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification

Also Published As

Publication number Publication date
WO2003069954A2 (en) 2003-08-21
AU2003201097A8 (en) 2003-09-04
EP1479071A2 (en) 2004-11-24
US20050078832A1 (en) 2005-04-14
KR20040080003A (ko) 2004-09-16
DE60303209T2 (de) 2006-08-31
ATE315823T1 (de) 2006-02-15
CN1705980A (zh) 2005-12-07
JP2005517987A (ja) 2005-06-16
EP1479071B1 (en) 2006-01-11
AU2003201097A1 (en) 2003-09-04
DE60303209D1 (de) 2006-04-06
JP4347698B2 (ja) 2009-10-21
WO2003069954A3 (en) 2003-11-13

Similar Documents

Publication Publication Date Title
ES2255678T3 (es) Codificacion de audio parametrica.
CN111656441B (zh) 编码或解码定向音频编码参数的装置和方法
US6766293B1 (en) Method for signalling a noise substitution during audio signal coding
JP7106711B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
ES2658824T3 (es) Configuración de envolvente temporal para codificación espacial de audio usando filtrado de Wiener de dominio de frecuencia
KR100348368B1 (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP2014089467A (ja) マルチチャンネルオーディオ信号のエンコーディング/デコーディングシステム、記録媒体及び方法
JP7035154B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
CN104541326A (zh) 一种设备和方法,用于处理音频信号
WO2019170955A1 (en) Audio coding
KR20070003545A (ko) 멀티채널 오디오 코딩에서 클리핑 복원방법
WO2017206794A1 (zh) 一种声道间相位差参数的提取方法及装置
US7096240B1 (en) Channel coupling for an AC-3 encoder
KR101569702B1 (ko) 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
US7860721B2 (en) Audio encoding device, decoding device, and method capable of flexibly adjusting the optimal trade-off between a code rate and sound quality
KR20080066537A (ko) 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
KR20010036409A (ko) 에이 씨-3 디코딩장치 및 그 방법
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
Li et al. Efficient stereo bitrate allocation for fully scalable audio codec