ES2519415T3 - Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica - Google Patents

Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica Download PDF

Info

Publication number
ES2519415T3
ES2519415T3 ES13166660.4T ES13166660T ES2519415T3 ES 2519415 T3 ES2519415 T3 ES 2519415T3 ES 13166660 T ES13166660 T ES 13166660T ES 2519415 T3 ES2519415 T3 ES 2519415T3
Authority
ES
Spain
Prior art keywords
signal
coding
stereo
encoder
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13166660.4T
Other languages
English (en)
Inventor
Heiko Purnhagen
Pontus Carlsson
Kristofer Kjoerling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=42562759&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2519415(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2519415T3 publication Critical patent/ES2519415T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Un sistema de codificador, configurado para codificar una señal estéreo en una señal de flujo de bits (6), comprendiendo el sistema de codificador: - un medio de mezclado descendente (8) configurado para generar una señal de mezclado descendente y una señal residual en base a la señal estéreo; - un medio de determinación de parámetros (9) configurado para determinar uno o más parámetros estéreo paramétricos (5); - medios de codificación perceptual (2, 3) aguas abajo del medio de mezclado descendente (8), donde los medios de codificación perceptual (2, 3) están configurados para seleccionar de manera variable en frecuencia o invariable en frecuencia: - codificación en base a una suma de la señal de mezclado descendente y la señal residual y en base a una diferencia de la señal de mezclado descendente y la señal residual, o - codificación en base a la señal de mezclado descendente y en base a la señal residual, en el que los medios de codificación perceptual (2, 3) comprenden: - un medio de transformación (2) configurado para realizar una transformación de suma y diferencia en función de la señal de mezclado descendente y la señal residual para generar una señal seudoestéreo izquierda/derecha para una o más o todas las bandas de frecuencias usadas; y - los medios de decisión para decidir entre codificación perceptual izquierda/derecha y codificación perceptual central/lateral de manera variable en frecuencia o invariable en frecuencia; en el que - la codificación basada en la señal de mezclado descendente y la señal residual se selecciona cuando los medios de decisión seleccionan la codificación perceptual central/lateral, y - la codificación basada en la suma y diferencia se selecciona cuando los medios de decisión seleccionan la codificación perceptual izquierda/derecha.

Description

DESCRIPCIÓN
Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
5
Campo técnico
La solicitud se refiere a la codificación de audio, en particular a la codificación de audio estéreo que combina técnicas de codificación paramétricas y basadas en formas de onda.
10
Antecedentes de la invención
La codificación conjunta de los canales izquierdo (L) y derecho (R) de una señal estéreo permite una codificación más eficaz en comparación con la codificación independiente de L y R. Un enfoque habitual de la codificación estéreo conjunta es la codificación central/lateral (M/S). En este caso, una señal central (M) se forma sumando las 15 señales L y R, por ejemplo la señal M puede tener la forma
Además, una señal lateral (S) se forma restando los dos canales L y R, por ejemplo la señal S puede tener la forma 20
En caso de codificación M/S, las señales M y S se codifican en lugar de las señales L y R.
25
En la norma AAC (Codificación de Audio Avanzada) de MPEG (Grupo de Expertos en Imágenes en Movimiento) (véase documento normativo ISO/IEC 13818-7), la codificación estéreo L/R y la codificación estéreo M/S pueden elegirse de manera variable en el tiempo y variable en frecuencia. Por tanto, el codificador estéreo puede aplicar codificación L/R para algunas bandas de frecuencias de la señal estéreo, mientras que la codificación M/S se utiliza para codificar otras bandas de frecuencias de la señal estéreo (variante de frecuencia). Además, el codificador 30 puede conmutar en el tiempo entre codificación L/R y M/S (variante de tiempo). En la norma AAC de MPEG, la codificación estéreo se lleva a cabo en el dominio de frecuencia, más en particular en el dominio MDCT (transformada de coseno discreta modificada). Esto permite elegir de manera adaptativa la codificación L/R o la codificación M/S de manera variable en frecuencia y también de manera variable en el tiempo. La decisión entre la codificación estéreo L/R y M/S puede basarse en una evaluación de la señal lateral: cuando la energía de la señal 35 lateral es baja, la codificación estéreo M/S es más eficaz y debería utilizarse. Como alternativa, para decidir entre ambos esquemas de codificación estéreo, ambos esquemas de codificación pueden probarse y la selección puede basarse en los esfuerzos de cuantificación resultantes, es decir, la entropía perceptual observada.
Un enfoque alternativo a la codificación estéreo conjunta es la codificación estéreo paramétrica (PS). En este caso, 40 la señal estéreo se proporciona como una señal mono de mezclado descendente (downmix) después de codificar la señal de mezclado descendente con un codificador de audio convencional, tal como un codificador AAC. La señal de mezclado descendente es una superposición de los canales L y R. La señal mono de mezclado descendente se proporciona en combinación con parámetros PS adicionales variables en el tiempo y variables en frecuencia, tales como la diferencia de intensidad entre canales (es decir, entre L y R) (IID) y la correlación cruzada entre canales 45 (ICC). En el descodificador, en función de la señal de mezclado descendente descodificada y de los parámetros estéreo paramétricos, se reconstruye una señal estéreo que se aproxima a la imagen estéreo perceptual de la señal estéreo original. Para la reconstrucción, un descorrelador genera una versión descorrelacionada de la señal de mezclado descendente. Este descorrelador puede implementarse mediante un filtro de todo paso apropiado. La codificación y descodificación PS se describen en el documento “Low Complexity Parametric Stereo Coding in 50 MPEG-4”, H. Purnhagen, Actas de la séptima Conferencia Internacional sobre Efectos de Audio Digitales (DAFx’04), Nápoles, Italia, del 5 al 8 de octubre de 2004, páginas 163 a 168.
La norma MPEG Surround (véase el documento ISO/IEC 23003-1) utiliza el concepto de codificación PS. En un descodificador MPEG Surround se crea una pluralidad de canales de salida en función de menos canales de entrada 55 y parámetros de control. Los descodificadores y codificadores MPEG Surround se fabrican conectando en cascada módulos estéreo paramétricos, que en MPEG Surround se denominan módulos OTT (módulos uno a dos) para el descodificador y módulos R-OTT (módulos inversos uno a dos) para el codificador. Un módulo OTT determina dos canales de salida mediante un único canal de entrada (señal de mezclado descendente) acompañado de parámetros PS. Un módulo OTT corresponde a un descodificador PS y un módulo R-OTT corresponde a un 60
codificador PS. La codificación estéreo paramétrica puede llevarse a cabo usando MPEG Surround con un único módulo OTT en el lado del descodificador y un único módulo R-OTT en el lado del codificador; esto también se denomina modo “MPEG Surround 2-1-2”. La sintaxis del flujo de bits puede ser diferente, pero la teoría subyacente y el procesamiento de señales son los mismos. Por lo tanto, en lo sucesivo, todas las referencias a PS incluyen también codificación estéreo paramétrica basada en “MPEG Surround 2-1-2” o en MPEG Surround. 5
En un codificador PS (por ejemplo, en un codificador PS MPEG Surround) una señal residual (RES) puede determinarse y transmitirse además de la señal de mezclado descendente. Tal señal residual indica el error asociado a representar los canales originales mediante sus parámetros de mezclado descendente y PS. En el descodificador, la señal residual puede usarse en lugar de la versión descorrelacionada de la señal de mezclado descendente. Esto 10 permite una mejor reconstrucción de las formas de onda de los canales originales L y R. La utilización de una señal residual adicional se describe, por ejemplo, en la norma MPEG Surround (véase el documento ISO/IEC 23003-1) y en el documento “MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, de J. Herre et al., documento 7084 de la Convención de Ingeniería de Audio, Convención n.º 122, del 5 al 8 de mayo de 2007. 15
La codificación PS con señales residuales es un enfoque más general a la codificación estéreo conjunta que la codificación M/S: la codificación M/S lleva a cabo una rotación de señal cuando transforma las señales L/R en señales M/S. Además, la codificación PS con señales residuales lleva a cabo una rotación de señal cuando transforma las señales L/R en señales de mezclado descendente y residuales. Sin embargo, en el segundo caso, la 20 rotación de señal es variable y depende de los parámetros PS. Debido al enfoque más general de la codificación PS con señales residuales, la codificación PS con señales residuales permite una codificación más eficaz de determinados tipos de señales, como una señal mono panoramizada, que la codificación M/S. Por tanto, el codificador propuesto permite combinar de manera eficaz técnicas de codificación estéreo paramétricas y técnicas de codificación estéreo basadas en formas de onda. 25
Normalmente, los codificadores estéreo perceptuales, tales como un codificador estéreo perceptual AAC MPEG, pueden decidir entre codificación estéreo L/R y codificación estéreo M/S, donde en el segundo caso, una señal central/lateral se genera en función de la señal estéreo. Tal selección puede variar en frecuencia, es decir, para algunas bandas de frecuencias puede usarse codificación estéreo L/R, mientras que para otras bandas de 30 frecuencias puede usarse codificación estéreo M/S.
En una situación en la que los canales L y R son básicamente señales independientes, tal codificador estéreo perceptual no usará normalmente codificación estéreo M/S, ya que en esta situación tal esquema de codificación no ofrece ninguna ganancia de codificación en comparación con la codificación estéreo L/R. El codificador volverá a la 35 codificación estéreo L/R sencilla, básicamente procesando L y R de manera independiente.
En la misma situación, un sistema de codificador PS creará una señal de mezclado descendente que contiene los canales L y R, lo que impide procesar de manera independiente los canales L y R. En la codificación PS con una señal residual, esto puede implicar una codificación menos eficaz en comparación con la codificación estéreo, donde 40 la codificación estéreo L/R o la codificación estéreo M/S puede seleccionarse de manera adaptativa.
Por tanto, hay situaciones en las que un codificador PS supera a un codificador estéreo perceptual con selección adaptativa entre codificación estéreo L/R y codificación estéreo M/S, mientras que en otras situaciones, el segundo codificador supera al codificador PS. Un método para combinar la codificación PS utilizando señales residuales con 45 el códec estéreo perceptual, tal como el AAC MPEG, se describe en el artículo “MPEG-4 High Efficiency AAC Coding”, J. Herre et al., IEEE signal processing magazine, vol. 25, n.º 3, 01-05-2008, págs. 137-142.
Sumario de la invención
50
La presente solicitud describe un sistema de codificador de audio y un método de codificación basados en la idea de combinar codificación PS usando una señal residual con codificación estéreo perceptual L/R o M/S adaptativa (por ejemplo, codificación estéreo conjunta perceptual AAC en el dominio MDCT) tal como se expone en las reivindicaciones 1 y 14 respectivamente. Esto permite combinar las ventajas de la codificación estéreo L/R o M/S adaptativa (por ejemplo, usada en AAC de MPEG) y las ventajas de la codificación PS con una señal residual (por 55 ejemplo, usada en MPEG Surround). Además, la solicitud describe un sistema de descodificación de audio y un método de descodificación correspondientes tal como se expone en las reivindicaciones 8 y 15 respectivamente.
Un primer aspecto de la solicitud se refiere a un sistema de codificador para codificar una señal estéreo en una señal de flujo de bits. Según un ejemplo del sistema de codificador, el sistema de codificador comprende una etapa de 60 mezclado descendente para generar una señal de mezclado descendente y una señal residual en función de la señal estéreo. La señal residual puede cubrir todo o solamente una parte del intervalo de frecuencias de audio utilizado. Además, el sistema de codificador comprende una etapa de determinación de parámetros para determinar parámetros PS tales como una diferencia de intensidad entre canales y una correlación cruzada entre canales. Preferentemente, los parámetros PS son variables en frecuencia. Normalmente, tal etapa de mezclado descendente 65 y la etapa de determinación de parámetros forman parte de un codificador PS.
Además, el sistema de codificador comprende medios de codificación perceptual aguas abajo de la etapa de mezclado descendente, donde puede elegirse entre dos esquemas de codificación:
- codificación basada en una suma de la señal de mezclado descendente y la señal residual y basada en una 5 diferencia de la señal de mezclado descendente y la señal residual, o
- codificación basada en la señal de mezclado descendente y basada en la señal residual.
Debe observarse que en caso de que la codificación se base en la señal de mezclado descendente y la señal 10 residual, la señal de mezclado descendente y la señal residual pueden codificarse o señales proporcionales a las mismas pueden codificarse. En caso de que la codificación se base en una suma y en una diferencia, la suma y la diferencia pueden codificarse o señales proporcionales a las mismas pueden codificarse.
La selección puede variar en frecuencia (y variar en el tiempo), es decir, para una primera banda de frecuencias 15 puede seleccionarse que la codificación se base en una señal de suma y en una señal de diferencia, mientras que para una segunda banda de frecuencias puede seleccionarse que la codificación se base en la señal de mezclado descendente y en la señal residual.
Tal sistema de codificador tiene la ventaja de que permite conmutar entre codificación estéreo L/R y codificación PS 20 con señales residuales (preferentemente de manera variable en frecuencia). Si los medios de codificación perceptual seleccionan (para una banda particular o para todo el intervalo de frecuencias utilizado) codificación basada en señales de mezclado descendente y residuales, el sistema de codificación se comporta como un sistema que utiliza codificación PS estándar con señales residuales. Sin embargo, si los medios de codificación perceptual seleccionan (para una banda particular o para todo el intervalo de frecuencias utilizado) codificación basada en una señal de 25 suma de la señal de mezclado descendente y la señal residual y basada en una señal de diferencia de la señal de mezclado descendente y de la señal residual, en determinados casos las operaciones de suma y diferencia compensan esencialmente la operación de mezclado descendente anterior (excepto para un factor de ganancia posiblemente diferente) de manera que todo el sistema puede llevar a cabo la codificación L/R de toda la señal estéreo o para una banda de frecuencias de la misma. Por ejemplo, tales circunstancias se producen cuando los 30 canales L y R de la señal estéreo son independientes y tienen el mismo nivel, como se explicará en detalle posteriormente.
Preferentemente, la adaptación del esquema de codificación depende del tiempo y de la frecuencia. Por tanto, preferentemente, algunas bandas de frecuencias de la señal estéreo se codifican mediante un esquema de 35 codificación L/R, mientras que otras bandas de frecuencias de la señal estéreo se codifican mediante un esquema de codificación PS con señales residuales.
Debe observarse que en caso de que la codificación se base en la señal de mezclado descendente y se base en la señal residual, como se ha descrito anteriormente, la señal real que se introduce en el codificador central puede 40 formarse mediante dos operaciones en serie en la señal de mezclado descendente y la señal residual que son inversas (excepto para un factor de ganancia posiblemente diferente). Por ejemplo, una señal de mezclado descendente y una señal residual se introducen en una etapa de transformación de M/S a L/R y, después, la salida de la etapa de transformación se introduce en una etapa de transformación de L/R a M/S. La señal resultante (que se usa después en la codificación) corresponde a la señal de mezclado descendente y a la señal residual (excepto 45 para un factor de ganancia posiblemente diferente).
El siguiente ejemplo utiliza esta idea. Según el ejemplo del sistema de codificador, el sistema de codificador comprende una etapa de mezclado descendente y una etapa de determinación de parámetros, como se ha descrito anteriormente. Además, el sistema de codificador comprende una etapa de transformación (por ejemplo, como parte 50 de los medios de codificación mencionados anteriormente). La etapa de transformación genera una señal seudoestéreo L/R realizando una transformación de la señal de mezclado descendente y la señal residual. La etapa de transformación realiza preferentemente una transformación de suma y diferencia, donde la señal de mezclado descendente y las señales residuales se suman para generar un canal de la señal seudoestéreo (posiblemente, la suma también se multiplica por un factor) y se restan entre sí para generar el otro canal de la señal seudoestéreo 55 (posiblemente, la diferencia también se multiplica por un factor). Preferentemente, un primer canal (por ejemplo, el canal seudoizquierdo) de la señal seudoestéreo es proporcional a la suma de las señales de mezclado descendente y residuales, donde un segundo canal (por ejemplo, por ejemplo el canal seudoderecho) es proporcional a la diferencia de las señales de mezclado descendente y residuales. Por tanto, la señal de mezclado descendente DMX y la señal residual RES del codificador PS pueden convertirse en una señal seudoestéreo Lp, Rp según las 60 siguientes ecuaciones:
En las ecuaciones anteriores, el factor de normalización de ganancia g tiene, por ejemplo, un valor de .
La señal seudoestéreo se procesa preferentemente por un codificador estéreo perceptual (por ejemplo, como parte 5 de los medios de codificación). Para la codificación, puede elegirse la codificación estéreo L/R o la codificación estéreo M/S. El codificador estéreo perceptual adaptativo L/R o M/S puede ser un codificador basado en AAC. Preferentemente, la selección entre la codificación estéreo L/R y la codificación estéreo M/S varía en frecuencia; por tanto, la selección puede variar para diferentes bandas de frecuencias, como se ha descrito anteriormente. Además, la selección entre la codificación L/R y la codificación M/S es preferentemente variable en el tiempo. Esta decisión 10 entre la codificación L/R y la codificación M/S se toma preferentemente mediante el codificador estéreo perceptual.
Tal codificador perceptual que tiene la opción de codificación M/S puede calcular internamente (seudo) señales M y S (en el dominio de tiempo o en las bandas de frecuencias seleccionadas) basándose en la señal seudoestéreo L/R. Tales seudoseñales M y S corresponden a la señales de mezclado descendente y residuales (excepto para un factor 15 de ganancia posiblemente diferente). Por tanto, si el codificador estéreo perceptual selecciona la codificación M/S, codifica realmente las señales de mezclado descendente y residuales (que corresponden a las seudoseñales M y S) como se haría en un sistema que utiliza la codificación PS estándar con señales residuales.
Además, en circunstancias especiales, la etapa de transformación compensa esencialmente la operación de 20 mezclado descendente anterior (excepto para un factor de ganancia posiblemente diferente), de manera que todo el sistema de codificador puede llevar a cabo realmente la codificación L/R de toda la señal estéreo o para una banda de frecuencias de la misma (si se ha seleccionado la codificación L/R en el codificador perceptual). Éste es el caso, por ejemplo, cuando los canales L y R de la señal estéreo son independientes y tienen el mismo nivel, como se explicará en detalle posteriormente. Por tanto, para una banda de frecuencias dada, la señal seudoestéreo 25 corresponde esencialmente o es proporcional a la señal estéreo si, para la banda de frecuencias, los canales izquierdo y derecho de la señal estéreo son esencialmente independientes y tienen esencialmente el mismo nivel.
Por tanto, el sistema de codificador permite realmente conmutar entre codificación estéreo L/R y codificación PS con señales residuales, con el fin de permitir la adaptación a las propiedades de la señal de entrada estéreo dada. 30 Preferentemente, la adaptación del esquema de codificación depende del tiempo y de la frecuencia. Por tanto, preferentemente, algunas bandas de frecuencias de la señal estéreo se codifican mediante un esquema de codificación L/R, mientras que otras bandas de frecuencias de la señal estéreo se codifican mediante un esquema de codificación PS con señales residuales. Debe observarse que la codificación M/S es básicamente un caso especial de codificación PS con señales residuales (ya que la transformación de L/R a M/S es un caso especial de la 35 operación de mezclado descendente PS) y, por tanto, el sistema de codificador también puede realizar una codificación M/S global.
Dicho ejemplo que tiene la etapa de transformación aguas abajo del codificador PS y aguas arriba del codificador estéreo perceptual L/R o M/S tiene la ventaja de que puede usarse un codificador PS convencional y un codificador 40 perceptual convencional. Sin embargo, el codificador PS o el codificador perceptual pueden adaptarse debido al uso especial en este caso.
El nuevo concepto mejora el rendimiento de la codificación estéreo permitiendo una combinación eficaz de codificación PS y codificación estéreo conjunta. 45
Según una realización, los medios de codificación mencionados anteriormente comprenden una etapa de transformación para llevar a cabo una transformación de suma y diferencia en función de la señal de mezclado descendente y la señal residual para una o más bandas de frecuencias (por ejemplo, para todo el intervalo de frecuencias utilizado o solamente para un intervalo de frecuencias). La transformación puede realizarse en un 50 dominio de frecuencia o en un dominio de tiempo. La etapa de transformación genera una señal seudoestéreo izquierda/derecha para la una o más bandas de frecuencias. Un canal de la señal seudoestéreo corresponde a la suma y el otro canal corresponde a la diferencia.
Por tanto, en caso de que la codificación se base en las señales de suma y diferencia, la salida de la etapa de 55 transformación puede usarse en la codificación, mientras que en caso de que la codificación se base en la señal de mezclado descendente y la señal residual, las señales aguas arriba de la etapa de codificación pueden usarse para la codificación. Por tanto, esta realización no utiliza dos transformaciones en serie de suma y diferencia en la señal de mezclado descendente y la señal residual, dando como resultado la señal de mezclado descendente y la señal residual (excepto para un factor de ganancia posiblemente diferente). 60
Cuando se selecciona codificación basada en la señal de mezclado descendente y la señal residual, se selecciona la codificación estéreo paramétrica de la señal estéreo. Cuando se selecciona codificación basada en la suma y diferencia (es decir, codificación basada en la señal seudoestéreo), se selecciona la codificación L/R de la señal estéreo. 5
La etapa de transformación puede ser una etapa de transformación de L/R a M/S como parte de un codificador perceptual con selección adaptativa entre codificación estéreo L/R y M/S (posiblemente el factor de ganancia es diferente en comparación con una etapa de transformación de L/R a M/S convencional). Debe observarse que la decisión entre codificación estéreo L/R y M/S debería invertirse. Por tanto, se selecciona la codificación basada en la 10 señal de mezclado descendente y la señal residual (es decir, la señal codificada no pasa por la etapa de transformación) cuando los medios de decisión eligen la descodificación perceptual M/S, y se selecciona la codificación basada en la señal seudoestéreo generada por la etapa de transformación (es decir, la señal codificada pasa por la etapa de transformación) cuando los medios de decisión eligen la descodificación perceptual L/R.
15
El sistema de codificador según cualquiera de las realizaciones descritas anteriormente puede comprender un codificador SBR (replicación de banda espectral) adicional. SBR es una forma de HFR (reconstrucción de alta frecuencia). Un codificador SBR determina información secundaria para la reconstrucción del intervalo de frecuencias más altas de la señal de audio en el descodificador. Solamente el intervalo de frecuencias más bajas es codificado por el codificador perceptual, reduciéndose de ese modo la velocidad binaria. Preferentemente, el 20 codificador SBR está conectado aguas arriba del codificador PS. Por tanto, el codificador SBR puede estar en el dominio estéreo y generar parámetros SBR para una señal estéreo. Esto se tratará en detalle en relación con los dibujos.
Preferentemente, el codificador PS (es decir, la etapa de mezclado descendente y la etapa de determinación de 25 parámetros) funciona en un dominio de frecuencia sobremuestreado (además, el descodificador PS descrito posteriormente funciona preferentemente en un dominio de frecuencia sobremuestreado). Para la transformación de tiempo a frecuencia, por ejemplo, un banco de filtros híbrido de valores complejos que presenta un QMF (filtro espejo en cuadratura) y un filtro de Nyquist puede usarse aguas arriba del codificador PS, como se describe en la norma MPEG Surround (véase el documento ISO/IEC 23003-1). Esto permite un procesamiento de señales adaptativo en 30 tiempo y frecuencia sin artefactos de solapamiento audibles. Por otro lado, la codificación L/R o M/S adaptativa se lleva a cabo preferentemente en el dominio MDCT críticamente muestreado (por ejemplo, como se describe en la norma AAC) con el fin de garantizar una representación de señal cuantificada eficaz.
La conversión entre señales de mezclado descendente y residuales y la señal seudoestéreo L/R puede llevarse a 35 cabo en el dominio de tiempo ya que el codificador PS y el codificador estéreo perceptual están normalmente conectados, de todas formas, en el dominio de tiempo. Por tanto, la etapa de transformación para generar la seudoseñal L/R puede llevarse a cabo en el dominio de tiempo.
En otras realizaciones descritas en relación con los dibujos, la etapa de transformación se realiza en un dominio de 40 frecuencia sobremuestreado o en un dominio MDCT críticamente muestreado.
Un segundo aspecto de la solicitud se refiere a un sistema de descodificación para descodificar una señal de flujo de bits generada por el sistema de codificador descrito anteriormente.
45
Según un ejemplo del sistema de descodificación, el sistema de descodificación comprende medios de descodificación perceptual para una descodificación basada en la señal de flujo de bits. Los medios de descodificación están configurados para generar, descodificando una primera señal (interna) y una segunda señal (interna), y proporcionar una señal de mezclado descendente y una señal residual. De manera selectiva, la señal de mezclado descendente y la señal residual están: 50
- basadas en la suma de la primera señal y de la segunda señal y basadas en la diferencia de la primera señal y de la segunda señal, o
- basadas en la primera señal y basadas en la segunda señal. 55
Tal y como se ha descrito anteriormente en relación con el sistema de codificador, también en este caso la selección puede variar en frecuencia o no variar en frecuencia.
Además, el sistema comprende una etapa de mezclado ascendente (upmix) para generar la señal estéreo en 60 función de la señal de mezclado descendente y la señal residual, donde la operación de mezclado ascendente de la etapa de mezclado ascendente depende del uno o más parámetros estéreo paramétricos.
De manera análoga al sistema de codificador, el sistema de descodificación permite conmutar realmente entre descodificación L/R y descodificación PS con señales residuales, preferentemente de manera variable en el tiempo y 65 en frecuencia.
Según otro ejemplo, el sistema de descodificación comprende un descodificador estéreo perceptual (por ejemplo, como parte de los medios de descodificación) para descodificar la señal de flujo de bits, donde el descodificador genera una señal seudoestéreo. El descodificador perceptual puede ser un descodificador basado en AAC. Para el descodificador estéreo perceptual, la descodificación perceptual L/R o la descodificación perceptual M/S puede 5 seleccionarse de manera variable en frecuencia o invariable en frecuencia (la selección real se controla preferentemente por la decisión del codificador que se proporciona como información secundaria en el flujo de bits). El descodificador selecciona el esquema de descodificación basándose en el esquema de codificación usado para la codificación. El esquema de codificación usado puede indicarse al descodificador mediante información incluida en el flujo de bits recibido. 10
Además, se proporciona una etapa de transformación para generar una señal de mezclado descendente y una señal residual llevándose a cabo una transformación de la señal seudoestéreo. Dicho de otro modo: la señal seudoestéreo obtenida del descodificador perceptual vuelve a convertirse en las señales de mezclado descendente y residuales. Tal transformación es una transformación de suma y diferencia: la señal de mezclado descendente resultante es 15 proporcional a la suma de un canal izquierdo y de un canal derecho de la señal seudoestéreo. La señal residual resultante es proporcional a la diferencia del canal izquierdo y el canal derecho de la señal seudoestéreo. Por tanto, se ha llevado a cabo una cuasitransformación de L/R a M/S. La señal seudoestéreo con los dos canales LP, RP puede convertirse en las señales de mezclado descendente y residuales según las siguientes ecuaciones:
20
En las ecuaciones anteriores, el factor de normalización de ganancia g puede tener, por ejemplo, un valor de . La señal residual RES usada en el descodificador puede cubrir todo el intervalo de frecuencias de audio utilizado o solamente una parte del intervalo de frecuencias de audio utilizado. 25
Las señales de mezclado descendente y residuales se procesan después mediante una etapa de mezclado ascendente de un descodificador PS para obtener la señal de salida estéreo final. El mezclado ascendente de las señales de mezclado descendente y residuales para generar la señal estéreo depende de los parámetros PS recibidos. 30
Según una realización, los medios de descodificación perceptual pueden comprender una etapa de transformación de suma y diferencia para llevar a cabo una transformación en función de la primera señal y de la segunda señal para una o más bandas de frecuencia (por ejemplo, para todo el intervalo de frecuencias usado). Por tanto, la etapa de transformación genera la señal de mezclado descendente y la señal residual para el caso en que la señal de 35 mezclado descendente y la señal residual se basan en la suma de la primera señal y de la segunda señal y se basan en la diferencia de la primera señal y de la segunda señal. La etapa de transformación puede llevarse a cabo en el dominio de tiempo o en un dominio de frecuencia.
Como se ha descrito de manera similar con respecto al sistema de codificador, la etapa de transformación puede ser 40 una etapa de transformación de M/S a L/R como parte de un descodificador perceptual con selección adaptativa entre descodificación estéreo L/R y M/S (posiblemente, el factor de ganancia es diferente en comparación con una etapa de transformación de M/S a L/R convencional). Debe observarse que la selección entre descodificación estéreo L/R y M/S debería invertirse.
45
El sistema de descodificación según cualquiera de las realizaciones anteriores puede comprender un descodificador SBR adicional para descodificar la información secundaria del codificador SBR y generar una componente de alta frecuencia de la señal de audio. Preferentemente, el descodificador SBR está situado aguas abajo del descodificador PS. Esto se describirá en detalle en relación con los dibujos.
50
Preferentemente, la etapa de mezclado ascendente se lleva a cabo en un domino de frecuencia sobremuestreado; por ejemplo, un banco de filtros híbrido como el mencionado anteriormente puede usarse aguas arriba del descodificador PS.
La transformación de L/R a M/S puede llevarse a cabo en el dominio de tiempo ya que el descodificador perceptual y 55 el descodificador PS (que incluye la etapa de mezclado ascendente) están normalmente conectados en el dominio de tiempo.
En otras realizaciones descritas en relación con los dibujos, la transformación de L/R a M/S se lleva a cabo en un dominio de frecuencia sobremuestreado (por ejemplo, QMF), o en un dominio de frecuencia críticamente muestreado (por ejemplo, MDCT).
Un tercer aspecto de la solicitud se refiere a un método para codificar una señal estéreo en una señal de flujo de 5 bits. El método funciona de manera análoga al sistema de codificador descrito anteriormente. Por tanto, las observaciones anteriores relacionadas con el sistema de codificador también pueden aplicarse básicamente al método de codificación.
Un cuarto aspecto de la invención se refiere a un método para descodificar una señal de flujo de bits que incluye 10 parámetros PS para generar una señal estéreo. El método funciona de la misma manera que el sistema de descodificación descrito anteriormente. Por tanto, las observaciones anteriores relacionadas con el sistema de descodificación también pueden aplicarse básicamente al método de descodificación.
A continuación se explicará la invención a través de ejemplos ilustrativos con referencia a los dibujos adjuntos, en 15 los que:
la figura 1 ilustra un ejemplo de un sistema de codificador donde, opcionalmente, los parámetros PS intervienen en el control psicoacústico del codificador estéreo perceptual;
20
la figura 2 ilustra un ejemplo del codificador PS;
la figura 3 ilustra un ejemplo de un sistema de descodificación;
la figura 4 ilustra un ejemplo adicional del codificador PS que incluye un detector para desactivar la codificación PS 25 si la codificación L/R es beneficiosa;
la figura 5 ilustra un ejemplo de un sistema de codificador PS convencional que tiene un codificador SBR adicional para el mezclado descendente;
30
la figura 6 ilustra un ejemplo de un sistema de codificador que tiene un codificador SBR adicional para la señal de mezclado descendente;
la figura 7 ilustra un ejemplo de un sistema de codificador que tiene un codificador SBR adicional en el dominio estéreo; 35
las figuras 8a-8d ilustran varias representaciones de tiempo-frecuencia de uno de los dos canales de salida en la salida del descodificador;
la figura 9a ilustra un ejemplo del codificador central; 40
la figura 9b ilustra un ejemplo de un codificador que permite conmutar entre codificación en un dominio predictivo lineal (normalmente sólo para señales mono) y codificación en un dominio de transformación (normalmente para señales mono y estéreo);
45
la figura 10 ilustra una realización de un sistema de codificador;
la figura 11a ilustra una parte de una realización de un sistema de codificador;
la figura 11b ilustra una implementación a modo de ejemplo de la realización de la figura 11a; 50
la figura 11c ilustra una alternativa a la realización de la figura 11a;
la figura 12 ilustra un ejemplo de un sistema de codificador;
55
la figura 13 ilustra un ejemplo del codificador estéreo como parte del sistema de codificador de la figura 12;
la figura 14 ilustra un ejemplo de un sistema de descodificación para descodificar la señal de flujo de bits generada por el sistema de codificador de la figura 6;
60
la figura 15 ilustra un ejemplo de un sistema de descodificación para descodificar la señal de flujo de bits generada por el sistema de codificador de la figura 7;
la figura 16a ilustra una parte de un ejemplo de un sistema de descodificación;
65
la figura 16b ilustra una implementación a modo de ejemplo del ejemplo de la figura 16a;
la figura 16c ilustra una alternativa al ejemplo de la figura 16a;
la figura 17 ilustra una realización de un sistema de codificador; y
5
la figura 18 ilustra una realización de un sistema de descodificación.
La figura 1 muestra un ejemplo de un sistema de codificador que combina codificación PS que utiliza una señal residual y codificación estéreo perceptual L/R o M/S adaptativa. Este ejemplo es simplemente ilustrativo de los principios de la presente solicitud. Debe entenderse que modificaciones y variaciones del ejemplo serán evidentes 10 para los expertos en la técnica. El sistema de codificador comprende un codificador PS 1 que recibe una señal estéreo L, R. El codificador PS 1 tiene una etapa de mezclado descendente para generar señales de mezclado descendente DMX y señales residuales RES basándose en la señal estéreo L, R. Esta operación puede describirse mediante una matriz de mezclado descendente 2·2 H-1 que convierte las señales L y R en la señal de mezclado descendente DMX y en la señal residual RES: 15
Normalmente, la matriz H-1 es variable en frecuencia y variable en el tiempo, es decir, los elementos de la matriz H-1 varían en frecuencia y varían entre ranuras de tiempo. La matriz H-1 puede actualizarse en cada trama (por ejemplo, 20 cada 21 o 42 ms) y puede tener una resolución de frecuencia de una pluralidad de bandas, por ejemplo 28, 20 o 10 bandas (denominadas “bandas de parámetro”) en una escala de frecuencia orientada de manera perceptual (de tipo Bark).
Los elementos de la matriz H-1 dependen de los parámetros PS variables en tiempo y frecuencia IID (diferencia de 25 intensidad entre canales; denominada también diferencia de nivel de canal (CLD)) e ICC (correlación cruzada entre canales). Para determinar los parámetros PS 5, por ejemplo IID e ICC, el codificador PS 1 comprende una etapa de determinación de parámetros. A continuación se proporciona un ejemplo para calcular los elementos matriciales de la matriz inversa H, el cual está descrito en el documento de especificación ISO/IEC 23003-1, subclase 6.5.3.2, de la norma MPEG Surround: 30
donde
35
y donde
40
y donde  = ICC.
Además, el sistema de codificador comprende una etapa de transformación 2 que convierte la señal de mezclado descendente DMX y la señal residual RES del codificador PS 1 en una señal seudoestéreo Lp, Rp, por ejemplo, 45 según las siguientes ecuaciones:
En las ecuaciones anteriores, el factor de normalización de ganancia g tiene, por ejemplo, un valor de . Para , las dos ecuaciones para la señal seudoestéreo Lp, Rp pueden reescribirse como:
5
La señal seudoestéreo Lp, Rp se introduce después en un codificador estéreo perceptual 3, el cual selecciona de manera adaptativa la codificación estéreo L/R o M/S. La codificación M/S es una forma de codificación estéreo conjunta. La codificación L/R también puede basarse en aspectos de codificación conjunta, por ejemplo, pueden asignarse bits de manera conjunta para los canales L y R a partir de un depósito de bits común. 10
La selección entre codificación estéreo L/R o M/S es preferentemente variable en frecuencia, es decir, algunas bandas de frecuencias pueden codificarse como L/R, mientras que otra bandas de frecuencias pueden codificarse como M/S. Una realización para implementar la selección entre codificación estéreo L/R o M/S se describe en el documento "Sum-Difference Stereo Transform Coding", de J. D. Johnston et al., Conferencia Internacional del IEEE 15 sobre Acústica, Voz y Procesamiento de Señales (ICASSP), 1992, páginas 569 a 572.
En función de la señal seudoestéreo Lp, Rp, el codificador perceptual 3 puede calcular internamente (seudo)señales centrales/laterales Mp, Sp. Tales señales corresponden básicamente a la señal de mezclado descendente DMX y a la señal residual RES (excepto para un factor de ganancia posiblemente diferente). Por tanto, si el codificador 20 perceptual 3 selecciona codificación M/S para una banda de frecuencias, el codificador perceptual 3 codifica básicamente la señal de mezclado descendente DMX y la señal residual RES para esa banda de frecuencias (excepto para un factor de ganancia posiblemente diferente) como se haría en un sistema de codificador perceptual convencional que utiliza codificación PS convencional con señales residuales. Los parámetros PS 5 y el flujo de bits de salida 4 del codificador perceptual 3 se multiplican en un único flujo de bits 6 mediante un multiplicador 7. 25
Además de la codificación PS de la señal estéreo, el sistema de codificador de la figura 1 permite una codificación L/R de la señal estéreo, como se explica a continuación. Tal y como se ha mencionado anteriormente, los elementos de la matriz de mezclado descendente H-1 del codificador (y también de la matriz de mezclado ascendente H utilizada en el descodificador) depende de los parámetros PS variables en el tiempo y en frecuencia IID (diferencia 30 de intensidad entre canales; denominada también diferencia de nivel de canal (CLD)) e ICC (correlación cruzada entre canales). Anteriormente se ha descrito un ejemplo para calcular los elementos matriciales de la matriz de mezclado ascendente H. En caso de usar codificación residual, la columna derecha de la matriz de mezclado ascendente 2·2 H se proporciona como
35
Sin embargo, preferentemente, la columna derecha de la matriz 2·2 H puede modificarse en cambio como
40
La columna izquierda se calcula preferentemente como se indica en la especificación MPEG Surround.
Modificar la columna derecha de la matriz de mezclado ascendente H garantiza que para IID = 0 dB y para ICC = 0 (es decir, el caso en que para la banda respectiva los canales estéreo L y R son independientes y tienen el mismo 45 nivel) se obtiene la siguiente matriz de mezclado ascendente H para la banda:
Es importante observar que la matriz de mezclado ascendente H y la matriz de mezclado descendente H-1 normalmente varían en frecuencia y en el tiempo. Por tanto, los valores de las matrices son diferentes para segmentos tiempo/frecuencia diferentes (un segmento corresponde a la intersección de una banda de frecuencias particular y un periodo de tiempo particular). En el caso anterior, la matriz de mezclado descendente H-1 es idéntica a la matriz de mezclado ascendente H. Por tanto, para la banda, la señal seudoestéreo Lp, Rp puede calcularse 5 mediante la siguiente ecuación:
Por tanto, en este caso, la codificación PS con señales residuales que utiliza la matriz de mezclado descendente H-1 10 seguido por la generación de la seudoseñal L/R en la etapa de transformación 2 corresponde a la matriz unitaria y no modifica la señal estéreo para la banda de frecuencias respectiva en absoluto, es decir,
15
Dicho de otro modo, la etapa de transformación 2 compensa la matriz de mezclado descendente H-1, de manera que señal seudoestéreo Lp, Rp corresponde a la señal estéreo de entrada L, R.
Esto permite codificar la señal estéreo de entrada original L, R mediante el codificador perceptual 3 para la banda particular. Cuando el codificador perceptual 3 selecciona la codificación L/R para codificar la banda particular, el 20 sistema de codificador se comporta como un codificador perceptual L/R para codificar la banda de la señal de entrada estéreo L, R.
El sistema de codificador de la figura 1 permite una conmutación continua y adaptativa entre la codificación L/R y la codificación PS con señales residuales de manera variable en frecuencia y en el tiempo. El sistema de codificador 25 evita discontinuidades en la forma de onda cuando cambia el esquema de codificación. Esto impide los artefactos. Con el fin de conseguir transiciones fluidas, puede aplicarse interpolación lineal a los elementos de la matriz H-1 en el codificador y de la matriz H en el descodificador para muestras entre dos actualizaciones de parámetros estéreo.
La figura 2 muestra un ejemplo del codificador PS 1. El codificador PS 1 comprende una etapa de mezclado 30 descendente 8 que genera la señal de mezclado descendente DMX y la señal residual RES basándose en la señal estéreo L, R. Además, el codificador PS 1 comprende una etapa de estimación de parámetros 9 para estimar los parámetros PS 5 basándose en la señal estéreo L, R.
La figura 3 ilustra un ejemplo de un sistema de descodificación correspondiente configurado para descodificar el flujo 35 de bits 6 generado por el sistema de codificador de la figura 1. Este ejemplo es simplemente ilustrativo de los principios de la presente solicitud. Debe entenderse que modificaciones y variaciones de la realización resultarán evidentes a los expertos en la técnica. El sistema de descodificación comprende un desmultiplexor 10 para separar los parámetros PS 5 y el flujo de bits de audio 4 generado por el codificador perceptual 3. El flujo de bits de audio 4 se introduce en un descodificador estéreo perceptual 11, que puede descodificar de manera selectiva un flujo de bits 40 codificado L/R o un flujo de bits de audio codificado M/S. El funcionamiento del descodificador 11 es inverso al funcionamiento del codificador 3. De manera análoga al codificador perceptual 3, el descodificador perceptual 11 permite preferentemente un esquema de descodificación variable en frecuencia y variable en el tiempo. Algunas bandas de frecuencias codificadas por el codificador 3 como L/R se descodifican por el descodificador 11 como L/R, mientras que otras bandas de frecuencias codificadas por codificador 3 como M/S se descodifican por el 45 descodificador 11 como M/S. El descodificador 11 proporciona la señal seudoestéreo Lp, Rp que se introdujo anteriormente en el codificador perceptual 3. La señal seudoestéreo Lp, Rp obtenida del descodificador perceptual 11 vuelve a convertirse en la señal de mezclado descendente DMX y en la señal residual RES mediante una etapa de transformación de L/R a M/S 12. La operación de la etapa de transformación de L/R a M/S 12 en el lado del descodificador es inversa a la operación de la etapa de transformación 2 en el lado del codificador. Preferentemente, 50 la etapa de transformación 12 determina la señal de mezclado descendente DMX y la señal residual RES según las siguientes ecuaciones:
En las ecuaciones anteriores, el factor de normalización de ganancia g es idéntico al factor de normalización de ganancia g en el lado del codificador y tiene, por ejemplo, un valor de .
5
La señal de mezclado descendente DMX y la señal residual RES se procesan después por el descodificador PS 13 para obtener las señales de salida L y R finales. La etapa de mezclado ascendente en el proceso de descodificación para la codificación PS con una señal residual puede describirse mediante la matriz de mezclado ascendente 2·2 H que vuelve a convertir la señal de mezclado descendente DMX y la señal residual RES en los canales L y R:
10
El cálculo de los elementos de la matriz de mezclado ascendente H ya se ha descrito anteriormente.
El proceso de codificación PS y de descodificación PS del codificador PS 1 y del descodificador PS 13 se lleva a 15 cabo preferentemente en un dominio de frecuencia sobremuestreado. Para una transformación de tiempo a frecuencia, por ejemplo, un banco de filtros híbrido de valores complejos que tiene un QMF (filtro espejo en cuadratura) y un filtro de Nyquist puede usarse aguas arriba del codificador PS, tal como el banco de filtros descrito en la norma MPEG Surround (véase el documento ISO/IEC 23003-1). La representación QMF compleja de la señal se sobremuestrea con factor 2 ya que es un valor complejo y no un valor real. Esto permite un procesamiento de 20 señales adaptativo en tiempo y frecuencia sin artefactos de solapamiento audibles. Tal banco de filtros híbrido proporciona normalmente una resolución de alta frecuencia (banda estrecha) a bajas frecuencias, mientras que a altas frecuencias, varias bandas QMF se agrupan en un banda más ancha. El documento “Low Complexity Parametric Stereo Coding in MPEG-4”, de H. Purnhagen, Actas de la séptima Conferencia Internacional sobre Efectos de Audio Digitales (DAFx’04), Nápoles, Italia, del 5 al 8 de octubre de 2004, páginas 163 a 168, describe un 25 ejemplo de un banco de filtros híbrido (véase la sección 3.2 y la figura 4). En este documento se asume una frecuencia de muestreo de 48 kHz, siendo de 375 Hz el ancho de banda (nominal) de una banda de un banco QMF de 64 bandas. Sin embargo, la escala de frecuencias de Bark perceptual requiere un ancho de banda de 100 Hz aproximadamente para frecuencias inferiores a 500 Hz. Por tanto, las 3 primeras bandas QMF pueden dividirse adicionalmente en subbandas más estrechas mediante un banco de filtros de Nyquist. La primera banda QMF puede 30 dividirse en 4 bandas (y en dos más para frecuencias negativas), y la segunda y tercera banda QMF pueden dividirse en dos bandas cada una.
Preferentemente, la codificación L/R o M/S adaptativa se lleva a cabo preferentemente en el dominio MDCT críticamente muestreado (por ejemplo, como el descrito en AAC) con el fin de garantizar una representación de 35 señales cuantificada y eficaz. La conversión de la señal de mezclado descendente DMX y de la señal residual RES en la señal seudoestéreo Lp, Rp en la etapa de transformación 2 puede llevarse a cabo en el dominio de tiempo, ya que el codificador PS 1 y el codificador perceptual 3 pueden conectarse, de todas formas, en el dominio de tiempo. Además, en el sistema de descodificación, el descodificador estéreo perceptual 11 y el descodificador PS 13 están conectados preferentemente en el dominio de tiempo. Por tanto, la conversión de la señal seudoestéreo Lp, Rp en la 40 señal de mezclado descendente DMX y en la señal residual RES en la etapa de transformación 12 también puede llevarse a cabo en el dominio de tiempo.
Un codificador estéreo L/R o M/S adaptativo tal como el mostrado como el codificador 3 en la figura 1 es normalmente un codificador de audio perceptual que incorpora un modelo psicoacústico para permitir una alta 45 eficacia de codificación a bajas velocidades binarias. Un ejemplo de tal codificador es un codificador AAC que utiliza codificación de transformación en un dominio MDCT críticamente muestreado en combinación con cuantificación variable en el tiempo y en frecuencia controlada usando un modelo psicoacústico. Además, la decisión variable en el tiempo y en frecuencia entre codificación L/R y M/S se controla normalmente con la ayuda de mediciones de entropía perceptuales que se calculan usando un modelo psicoacústico. 50
El codificador estéreo perceptual (tal como el codificador 3 de la figura 1) actúa sobre una señal seudoestéreo L/R (véase Lp, Rp en la figura 1). Para optimizar la eficacia de codificación del codificador estéreo (en particular para tomar la decisión correcta entre codificación L/R y codificación M/S) es ventajoso modificar el mecanismo de control
psicoacústico (incluyendo el mecanismo de control que decide entre codificación estéreo L/R y M/S y el mecanismo de control que controla la cuantificación variable en el tiempo y en frecuencia) en el codificador estéreo perceptual con el fin de tener en cuenta las modificaciones de señal (conversión de seudo L/R a DMX y RES, seguido de descodificación PS) que se aplican en el descodificador cuando se genera la señal de salida estéreo final L, R. Estas modificaciones de señal pueden afectar al fenómeno de enmascaramiento binaural que se utiliza en los mecanismos 5 de control psicoacústicos. Por lo tanto, preferentemente, estos mecanismos de control psicoacústicos deben adaptarse en consecuencia. Para ello, puede ser beneficioso que los mecanismos de control psicoacústicos no solo tengan acceso a la seudoseñal L/R (véase Lp, Rp en la figura 1) sino también a los parámetros PS (véase 5 en la figura 1) y/o a la señal estéreo original L, R. El acceso de los mecanismos de control psicoacústicos a los parámetros PS y a la señal estéreo L, R se indica en la figura 1 mediante las líneas discontinuas. En función de esta 10 información, por ejemplo, puede(n) adaptarse el (los) umbral(es) de enmascaramiento.
Un enfoque alternativo para optimizar el control psicoacústico es ampliar el sistema de codificador con un detector que forma una etapa de desactivación que puede desactivar de manera eficaz la codificación PS cuando sea apropiado, preferentemente de manera variable en el tiempo y en frecuencia. Desactivar la codificación PS es, por 15 ejemplo, apropiado cuando se espera que la codificación estéreo L/R sea beneficiosa o cuando el control psicoacústico tenga problemas para codificar la seudoseñal L/R de manera eficaz. La codificación PS puede desactivarse de manera eficaz fijando la matriz de mezclado descendente H-1 de tal manera que la matriz de mezclado descendente H-1 seguida de la transformación (véase la etapa 2 en la figura 1) corresponda a la matriz unitaria (es decir, a una operación de identidad) o a la matriz unitaria multiplicada por un factor. Por ejemplo, la 20 codificación PS puede desactivarse de manera eficaz haciendo que los parámetros PS IID y/o ICC tengan los valores IID = 0 dB e ICC = 0. En este caso, la señal seudoestéreo Lp, Rp corresponde a la señal estéreo L, R como se ha descrito anteriormente.
Tal detector que controla una modificación de parámetros PS se muestra en la figura 4. En este caso, el detector 20 25 recibe los parámetros PS 5 determinados por la etapa de estimación de parámetros 9. Cuando el detector no desactiva la codificación PS, el detector 20 hace pasar los parámetros PS a través de la etapa de mezclado descendente 8 y por el multiplexor 7, es decir, en este caso, los parámetros PS 5 corresponden a los parámetros PS 5' introducidos en la etapa de mezclado descendente 8. En caso de que el detector detecte que la codificación PS no es ventajosa y que la codificación PS debe desactivarse (para una o más bandas de frecuencias), el detector 30 modifica los parámetros PS 5 afectados (por ejemplo, fija los parámetros PS IID y/o ICC a IID = 0 dB e ICC = 0) e introduce los parámetros PS 5’ modificados en la etapa de mezclado descendente 8. El detector también puede considerar opcionalmente las señales izquierda y derecha L, R para elegir una modificación de parámetros PS (véase la línea discontinua en la figura 4).
35
En las figuras siguientes, el término QMF (filtro o banco de filtros espejo en cuadratura) incluye además un banco de filtros de subbanda QMF en combinación con un banco de filtros de Nyquist, es decir, una estructura de bancos de filtro híbrida. Además, todos los valores de la siguiente descripción pueden depender de la frecuencia, por ejemplo pueden extraerse diferentes matrices de mezclado descendente y de mezclado ascendente para diferentes intervalos de frecuencias. Además, la codificación residual solo puede cubrir parte del intervalo de frecuencias de 40 audio utilizado (es decir, la señal residual solo se codifica para una parte del intervalo de frecuencias de audio utilizado). Aspectos del mezclado descendente como los que se describirán posteriormente pueden aparecer para algunos intervalos de frecuencias en el dominio QMF (por ejemplo, según la técnica anterior), aunque que para otros intervalos de frecuencias solo se tratarán, por ejemplo, aspectos de fase en el dominio QMF complejo, mientras que la transformación en amplitud se tratará en el dominio MDCT de valores reales. 45
En la figura 5 se ilustra un sistema de codificador PS convencional. Cada uno de los canales estéreo L, R se analiza en primer lugar mediante un QMF complejo 30 con M subbandas, por ejemplo un QMF con M = 64 subbandas. Las señales de subbanda se utilizan para estimar parámetros PS 5 y una señal de mezclado descendente DMX en un codificador PS 31. La señal de mezclado descendente DMX se utiliza para estimar parámetros SBR (replicación de 50 ancho de banda espectral) 33 en un codificador SBR 32. El codificador SBR 32 extrae los parámetros SBR 33 que representan la envolvente espectral de la señal original de banda alta, posiblemente en combinación con mediciones de ruido y tonalidad. A diferencia del codificador PS 31, el codificador SBR 32 no afecta a la señal transmitida al codificador central 34. La señal de mezclado descendente DMX del codificador PS 31 se sintetiza usando un QMF inverso 35 con N subbandas. Por ejemplo, puede usarse un QMF complejo con N = 32, donde solamente se 55 sintetizan las 32 subbandas más bajas de las 64 subbandas utilizadas por el codificador PS 31 y el codificador SBR 32. Por tanto, usando la mitad de subbandas para el mismo tamaño de trama, se obtiene una señal de dominio de tiempo con la mitad de ancho de banda en comparación con la entrada, y se transmite al codificador central 34. Debido al ancho de banda reducido, la frecuencia de muestreo puede reducirse a la mitad (no se muestra). El codificador central 34 lleva a cabo una codificación perceptual de la señal de entrada mono para generar un flujo de 60 bits 36. Los parámetros PS 5 se introducen en el flujo de bits 36 mediante un multiplexor (no mostrado).
La figura 6 muestra un ejemplo adicional de un sistema de codificador que combina codificación PS que usa una señal residual con un codificador central estéreo 48, donde el codificador central estéreo 48 es capaz de una codificación estéreo perceptual L/R o M/S adaptativa. Este ejemplo es simplemente ilustrativo de los principios de la 65 presente solicitud. Debe entenderse que modificaciones y variaciones del ejemplo resultarán evidentes a los
expertos en la técnica. Los canales de entrada L, R que representan los canales izquierdo y derecho originales se analizan por un QMF complejo 30, de manera similar a lo descrito en relación con la figura 5. A diferencia del codificador PS 31 de la figura 5, el codificador PS 41 de la figura 6 no solo proporciona una señal de mezclado descendente DMX, sino que también proporciona una señal residual RES. La señal de mezclado descendente DMX se utiliza por un codificador SBR 32 para determinar parámetros SBR 33 de la señal de mezclado descendente 5 DMX. Una transformación de DMX/RES fija a seudo L/R (es decir, una transformación de M/S a L/R) se aplica a la señal de mezclado descendente DMX y a la señal residual RES en una etapa de transformación 2. La etapa de transformación 2 de la figura 6 corresponde a la etapa de transformación 2 de la figura 1. La etapa de transformación 2 crea una seudoseñal de canales izquierdo y derecho Lp, Rp sobre la cual actúa el codificador central 48. En esta realización, la transformación inversa de L/R a M/S se aplica en el dominio QMF, antes de la síntesis de subbanda 10 de los bancos de filtros 35. Preferentemente, el número N (por ejemplo, N = 32) de subbandas para la síntesis corresponde a la mitad del número M (por ejemplo, M = 64) de subbandas usadas para el análisis, y el codificador central 48 funciona a la mitad de la frecuencia de muestreo. Debe observarse que no hay ninguna restricción a la hora de usar canales de 64 subbandas para el análisis QMF en el codificador, y 32 subbandas para la síntesis, siendo también posibles otros valores, dependiendo de la frecuencia de muestreo deseada para la señal recibida por 15 el codificador central 48. El codificador estéreo central 48 lleva a cabo una codificación perceptual de la señal de los bancos de filtros 35 para generar una señal de flujo de bits 46. Los parámetros PS 5 se introducen en la señal de flujo de bits 46 mediante un multiplexor (no mostrado). Opcionalmente, el codificador central 48 puede usar los parámetros PS y/o la señal de entrada L/R original. Tal información indica al codificador central 48 cómo el codificador PS 41 rotó el espacio estéreo. La información puede ayudar al codificador central 48 a controlar la 20 cuantificación de manera perceptualmente óptima. Esto se indica en la figura 6 mediante las líneas discontinuas.
La figura 7 ilustra un ejemplo adicional de un sistema de codificador que es similar al ejemplo de la figura 6. En comparación con el ejemplo de la figura 6, en la figura 7 el codificador SBR 42 está conectado aguas arriba del codificador PS 41. En la figura 7, el codificador SBR 42 está colocado antes del codificador PS 41, actuando así en 25 los canales izquierdo y derecho (en este caso, en el dominio QMF), en lugar de actuar en la señal de mezclado descendente DMX, como en la figura 6.
Debido a la redistribución del codificador SBR 42, el codificador PS 41 puede estar configurado para actuar no en el ancho de banda total de la señal de entrada sino, por ejemplo, en el intervalo de frecuencias por debajo de la 30 frecuencia de cruce SBR. En la figura 7, los parámetros SBR 43 están en estéreo para el intervalo SBR, y la salida del descodificador PS correspondiente, como se describirá posteriormente en relación con la figura 15, produce un intervalo de frecuencias origen estéreo sobre el cual actúa el descodificador SBR. Esta modificación, es decir, conectar el módulo de codificación SBR 42 aguas arriba del módulo de codificación PS 41 del sistema de codificador y colocar de manera correspondiente el módulo de descodificación SBR después del módulo de descodificación PS 35 en el sistema de descodificación (véase la figura 15), tiene el beneficio de que puede reducirse el uso de una señal descorrelacionada para generar la salida estéreo. Es importante señalar que en caso de que no haya ninguna señal residual en absoluto o para una banda de frecuencias particular, en el descodificador PS se usa en cambio una versión descorrelacionada de la señal de mezclado descendente DMX. Sin embargo, una reconstrucción basada en una señal descorrelacionada reduce la calidad del audio. Por tanto, reducir el uso de la señal descorrelacionada 40 aumenta la calidad del audio.
Esta ventaja del ejemplo de la figura 7 en comparación con el ejemplo de la figura 6 se explicará a continuación en mayor detalle con referencia a las figuras 8a a 8d.
45
En la figura 8a se muestra una representación de tiempo y frecuencia de uno de los dos canales de salida L, R (en el lado del descodificador). En el caso de la figura 8a, se usa un codificador en el que el módulo de codificación PS está situado delante del módulo de codificación SBR, tal como el codificador de la figura 5 o de la figura 6 (en el descodificador, el descodificador PS está situado detrás del descodificador SBR, véase la figura 14). Además, la señal residual se codifica solamente en un intervalo de frecuencias de bajo ancho de banda 50, que es más 50 pequeño que el intervalo de frecuencias 51 del codificador central. Como resulta evidente a partir de la visualización del espectrograma de la figura 8a, el intervalo de frecuencias 52 en el que el descodificador PS va a usar una señal descorrelacionada cubre todo el intervalo de frecuencias aparte del intervalo de frecuencias inferior 50 cubierto por el uso de la señal residual. Además, la SBR cubre un intervalo de frecuencias 53 que empieza muy por encima del de la señal descorrelacionada. Por tanto, el intervalo de frecuencias global se divide en los siguientes intervalos de 55 frecuencias: en el intervalo de frecuencias inferior (véase el intervalo 50 de la figura 8a) se utiliza codificación de forma de onda; en el intervalo de frecuencias central (véase la intersección de los intervalos de frecuencias 51 y 52), se usa codificación de formas de onda en combinación con una señal descorrelacionada, y en el intervalo de frecuencias superior (véase el intervalo de frecuencias 53), una señal regenerada SBR que se regeneró a partir de las frecuencias inferiores se usa en combinación con la señal descorrelacionada producida por el descodificador PS. 60
En la figura 8b se muestra una representación de tiempo y frecuencia de uno de los dos canales de salida L, R (en el lado del descodificador) para el caso en que el codificador SBR está conectado aguas arriba del codificador PS en el sistema de codificador (y el descodificador SBR está situado detrás del descodificador PS en el sistema de descodificación). En la figura 8b se muestra un escenario de baja velocidad binaria, en el que el ancho de banda de 65 señal residual 60 (donde se lleva a cabo una codificación residual) es menor que el ancho de banda del codificador
central 61. Puesto que el proceso de descodificación SBR actúa en el lado del descodificador después del descodificador PS (véase la figura 15), la señal residual usada para las bajas frecuencias también se usa para la reconstrucción de al menos una parte (véase el intervalo de frecuencias 64) de las frecuencias superiores en el intervalo SBR 63.
5
La ventaja es incluso más evidente cuando funciona con velocidades binarias intermedias, donde el ancho de banda de señal residual se aproxima o es igual al ancho de banda del codificador central. En este caso, la representación de tiempo y frecuencia de la figura 8a (en la que se usa el orden de codificación PS y de codificación SBR mostrado en la figura 6) da como resultado la representación de tiempo y frecuencia mostrada en la figura 8c. En la figura 8c, la señal residual cubre esencialmente todo el intervalo de banda baja 51 del codificador central; en el intervalo de 10 frecuencias SBR 53, el codificador PS usa la señal descorrelacionada. En la figura 8d se muestra la representación de tiempo y frecuencia en el caso del orden preferido de los módulos de codificación/descodificación (es decir, la codificación SBR actúa en una señal estéreo antes de la codificación PS, como se muestra en la figura 7). En este caso, el módulo de descodificación PS actúa antes que el módulo de descodificación SBR en el descodificador, como se muestra en la figura 15. Por tanto, la señal residual es parte de la banda baja usada para la reconstrucción 15 de alta frecuencia. Cuando el ancho de banda de señal residual es igual al ancho de banda de la señal mono de mezclado descendente, no se necesitará información de señal descorrelacionada para descodificar la señal de salida (véase el intervalo de frecuencias global marcado con rayas transversales en la figura 8d).
En la figura 9a se ilustra un ejemplo del codificador central estéreo 48 con codificación estéreo L/R o M/S 20 seleccionable de manera adaptativa en el dominio de transformación MDCT. Tal codificador estéreo 48 puede usarse en las figuras 6 y 7. Un codificador central mono 34 como el mostrado en la figura 5 puede considerarse un caso especial del codificador central estéreo 48 de la figura 9a, donde solo se procesa un único canal de entrada mono (es decir, donde el segundo canal de entrada, mostrado como la línea discontinua en la figura 9a, no está presente). 25
En la figura 9b se ilustra un ejemplo de un codificador más general. Para señales mono, la codificación puede cambiar entre codificar en un dominio predictivo lineal (véase el bloque 71) y codificar en un dominio de transformación (véase el bloque 48). Este tipo de codificador central introduce varios métodos de codificación que pueden usarse de manera adaptativa en función de las características de la señal de entrada. En este caso, el 30 codificador puede elegir codificar la señal usando o bien un codificador de transformación de tipo AAC 48 (disponible para señales mono y estéreo, con codificación L/R o M/S seleccionable de manera adaptativa en caso de señales estéreo) o un codificador central de tipo AMR-WB+ (Banda Ancha con Multivelocidad Adaptativa Plus) 71 (solo disponible para señales mono). El codificador central AMR-WB+ 71 evalúa la señal residual de un predictor lineal 72 y, a su vez, también elige entre un enfoque de codificación por transformación de la señal residual de predicción 35 lineal o un enfoque ACELP (predicción lineal con excitación por código algebraico) de codificador de voz clásico para codificar la señal residual de predicción lineal. Para decidir entre el codificador de transformación de tipo AAC 48 y el codificador central de tipo AMR-WB+ 71, se usa una etapa de decisión de modo 73 que decide entre ambos codificadores 48 y 71 basándose en la señal de entrada.
40
El codificador 48 es un codificador basado en MDCT de tipo AAC. Cuando la decisión de modo 73 insta a la señal de entrada a utilizar codificación basada en MDCT, la señal de entrada mono o las señales de entrada estéreo se codifican por el codificador MDCT basado en AAC. El codificador MDCT 48 realiza un análisis MDCT de la una o dos señales en las etapas MDCT 74. Además, en caso de una señal estéreo, en una etapa 75 se decide entre M/S o L/R para cada banda de frecuencias antes de la cuantificación y la codificación. La codificación estéreo L/R o la 45 codificación estéreo M/S puede seleccionarse de manera variable en frecuencia. La etapa 75 también lleva a cabo una transformación de L/R a M/S. Si se elige la codificación M/S para una banda de frecuencias particular, la etapa 75 proporciona una señal M/S para esta banda de frecuencias. En caso contrario, la etapa 75 proporciona una señal L/R para esta banda de frecuencias.
50
Por tanto, cuando se usa el modo de codificación por transformación, toda la eficacia de la funcionalidad de codificación estéreo del codificador central subyacente puede usarse para la codificación estéreo.
Cuando la decisión de modo 73 dirige la señal mono hacia el codificador de dominio predictivo lineal 71, la señal mono se analiza posteriormente mediante un análisis predictivo lineal en el bloque 72. Después, se decide si 55 codificar la señal residual LP mediante un codificador de tipo ACELP de dominio de tiempo 76 o un codificador de tipo TCX 77 (excitación codificada por transformación) que funciona en el dominio MDCT. El codificador de dominio predictivo lineal 71 no tiene ninguna capacidad de codificación estéreo intrínseca. Por tanto, para permitir la codificación de una señal estéreo con el codificador de dominio predictivo lineal 71, puede usarse una configuración de codificador similar a la mostrada en la figura 5. En esta configuración, un codificador PS genera parámetros PS 5 60 y una señal mono de mezclado descendente DMX, que se codifica después por el codificador de dominio predictivo lineal.
La figura 10 ilustra una realización de un sistema de codificador, en el que partes de la figura 7 y de la figura 9 se combinan de otra forma. El bloque de DMX/RES a seudo L/R 2, como el mostrado en la figura 7, está dispuesto 65 dentro del codificador de mezclado descendente de tipo AAC 70 antes del análisis MDCT estéreo 74. Esta
realización tiene la ventaja de que la transformación de DMX/RES a seudo L/R 2 se aplica solamente cuando se usa el codificador central MDCT estéreo. Por tanto, cuando se usa el modo de codificación por transformación, puede usarse toda la eficacia de la funcionalidad de codificación estéreo del codificador central subyacente para la codificación estéreo del intervalo de frecuencias cubierto por la señal residual.
5
Mientras que la decisión de modo 73 de la figura 9b actúa o bien en la señal de entrada mono o en la señal de entrada estéreo, la decisión de modo 73' de la figura 10 actúa en la señal de mezclado descendente DMX y en la señal residual RES. En caso de una señal de entrada mono, la señal mono puede usarse directamente como la señal DMX, la señal RES se fija a cero y los parámetros PS pueden tomar por defecto los valores IID = 0 dB e ICC = 1. 10
Cuando la decisión de modo 73' dirige la señal de mezclado descendente DMX al codificador de dominio predictivo lineal 71, la señal de mezclado descendente DMX se analiza después mediante un análisis predictivo lineal en el bloque 72. Después, se decide si codificar la señal residual LP mediante un codificador de tipo ACELP de dominio de tiempo o un codificador de tipo TCX 77 (excitación codificada por transformación) que funciona en el dominio 15 MDCT. El codificador de dominio predictivo lineal 71 no tiene ninguna capacidad de codificación estéreo intrínseca que pueda usarse para codificar la señal residual además de la señal de mezclado descendente DMX. Por tanto, se utiliza un codificador residual dedicado 78 para codificar la señal residual RES cuando la señal de mezclado descendente DMX se codifica por el codificador de dominio predictivo 71. POr ejemplo, este codificador 78 puede ser un codificador AAC mono. 20
Debe observarse que los codificadores 71 y 78 de la figura 10 pueden omitirse (en este caso, la etapa de decisión de modo 73’ ya no es necesaria).
La figura 11a ilustra un detalle de una realización adicional alternativa de un sistema de codificador que consigue las 25 mismas ventajas que la realización de la figura 10. A diferencia de la realización de la figura 10, en la figura 11a la transformación de DMX/RES a seudo L/R tiene lugar después del análisis MDCT 74 del codificador central 70, es decir, la transformación actúa en el dominio MDCT. La transformación en el bloque 2 es lineal e invariable en el tiempo y, por tanto, puede tener lugar después del análisis MDCT 74. Los bloques restantes de la figura 10 que no se muestran en la figura 11 pueden añadirse opcionalmente de la misma manera en la figura 11a. Los bloques de 30 análisis MDCT 74 también pueden colocarse de manera alternativa después del bloque de transformación 2.
La figura 11b ilustra una implementación de la realización de la figura 11a. En la figura 11b se muestra una implementación a modo de ejemplo de la etapa 75 para seleccionar entre codificación M/S o L/R. La etapa 75 comprende una etapa de transformación de suma y diferencia 98 (más precisamente, una etapa de transformación 35 de L/R a M/S) que recibe la señal seudoestéreo Lp, Rp. La etapa de transformación 98 genera una señal seudocentral/lateral Mp, Sp realizando una transformación de L/R a M/S. Excepto para un posible factor de ganancia, se aplica lo siguiente: Mp = DMX y Sp = RES.
La etapa 75 decide entre codificación L/R o M/S. En función de la decisión, o bien la señal seudoestéreo Lp, Rp o 40 bien la señal seudocentral/lateral Mp, Sp se selecciona (véase el conmutador de selección) y se codifica en el bloque AAC 97. Debe observarse que también pueden usarse dos bloques AAC 97 (no mostrados en la figura 11b), estando el primer bloque AAC 97 asignado a la señal seudoestéreo Lp, Rp y estando el segundo bloque AAC 97 asignado a la señal seudocentral/lateral Mp, Sp. En este caso, la selección L/R o M/S se lleva a cabo eligiendo o bien la salida del primer bloque AAC 97 o la salida del segundo bloque AAC 97. 45
La figura 11c muestra una alternativa a la realización de la figura 11a. En este caso no se utiliza una etapa de transformación explícita 2. En cambio, la etapa de transformación 2 y la etapa 75 se combinan en una única etapa 75'. La señal de mezclado descendente DMX y la señal residual RES se introducen en una etapa de transformación de suma y diferencia 99 (más precisamente, una etapa de transformación de DMX/RES a seudo L/R) como parte de 50 la etapa 75'. La etapa de transformación 99 genera una señal seudoestéreo Lp, Rp. La etapa de transformación de DMX/RES a seudo L/R a MS/ 99 de la figura 11c es similar a la etapa de transformación de L/R a M/S 98 de la figura 11b (excepto para un factor de ganancia posiblemente diferente). Sin embargo, en la figura 11c, es necesario invertir la selección entre descodificación M/S y L/R en comparación con la figura 11b. Debe observarse que en la figura 11b y en la figura 11c, la posición del conmutador para la selección de L/R o M/S se muestra en la posición Lp/Rp, que es 55 la posición superior en la figura 11b y la posición inferior en la figura 11c. Esto visualiza la noción del significado invertido de la selección L/R o M/S.
Debe observarse que el conmutador de las figuras 11b y 11c está presente de manera individual para cada banda de frecuencias en el dominio MDCT, de manera que la selección entre L/R y M/S puede variar tanto en el tiempo 60 como en frecuencia. Dicho de otro modo, la posición del conmutador es preferentemente variable en frecuencia. Las etapas de transformación 98 y 99 pueden transformar todo el intervalo de frecuencias utilizado o solo pueden transformar una única banda de frecuencias.
Además, debe observarse que todos los bloques 2, 98 y 99 pueden denominarse “bloques de transformación de 65 suma y diferencia”, ya que todos los bloques implementan una matriz de transformación con la siguiente forma
Simplemente, el factor de ganancia c puede ser diferente en los bloques 2, 98 y 99.
5
En la figura 12 se muestra un ejemplo adicional de un sistema de codificador. Utiliza un conjunto ampliado de parámetros PS que, además de IID e ICC (descritos anteriormente), incluye además dos parámetros IPD (diferencia de fase entre canales, véase ipd posteriormente) y OPD (diferencia de fase global, véase opd posteriormente) que permiten caracterizar la relación de fase entre los dos canales L y R de una señal estéreo. Un ejemplo de estos parámetros de fase se proporciona en la norma ISO/IEC 14496-3, subcláusula 8.6.4.6.3 que se incorpora por 10 referencia a la presente. Cuando se usan parámetros de fase, la matriz de mezclado ascendente resultante (y su inversa ) adquiere valores complejos, según: COMPLEXH1COMPLEXH
15
donde
y donde 20
La etapa 80 del codificador PS que funciona en el dominio QMF complejo solo se ocupa de las dependencias de fase entre los canales L, R. La rotación de mezclado descendente (es decir, la transformación del dominio L/R al 25 dominio DMX/RES que se describió a través de la matriz H-1 anterior) se realiza en el dominio MDCT como parte del codificador central estéreo 81. Por tanto, las dependencias de fase entre los dos canales se extraen en el dominio QMF complejo, mientras que otras dependencias de forma de onda de valores reales se extraen en el dominio MDCT críticamente muestreado de valores reales como parte del mecanismo de codificación estéreo del codificador central usado. Esto tiene la ventaja de que la extracción de las dependencias lineales entre los canales pueden 30 integrarse rigurosamente en la codificación estéreo del codificador central (aunque, para impedir el solapamiento en el dominio MDCT críticamente muestreado, solo para el intervalo de frecuencias cubierto por la codificación residual, posiblemente menos una "banda de protección" en el eje de frecuencia).
La etapa de ajuste de fase 80 del codificador PS de la figura 12 extrae parámetros PS relacionados en fase, por 35 ejemplo, los parámetros IPD (diferencia de fase entre canales) y OPD (diferencia de fase global). Por tanto, la matriz de ajuste de fase que genera puede obtenerse de la siguiente manera: 1H
40
Tal y como se ha descrito anteriormente, la parte de rotación de mezclado descendente del módulo PS se realiza en el módulo de codificación estéreo 81 del codificador central de la figura 12. El módulo de codificación estéreo 81 funciona en el dominio MDCT y se muestra en la figura 13. El módulo de codificación estéreo 81 recibe la señal estéreo ajustada en fase L, R en el dominio MDCT. Esta señal se mezcla de manera descendente en una etapa de mezclado descendente 82 mediante una matriz de rotación de mezclado descendente H-1, que es la parte de valores 45 reales de una matriz de mezclado descendente compleja como se ha descrito anteriormente, generándose así la señal de mezclado descendente DMX y la señal residual RES. La operación de mezclado descendente va seguida de la transformación inversa de L/R a M/S según la presente solicitud (véase la etapa de
transformación 2), generándose así una señal seudoestéreo Lp, Rp. La señal seudoestéreo Lp, Rp es procesada mediante el algoritmo de codificación estéreo (véase el codificador estéreo adaptativo M/S o L/R 83), en esta realización particular un mecanismo de codificación estéreo que, dependiendo de criterios de entropía perceptuales, decide codificar una representación L/R o una representación M/S de la señal. Esta decisión es preferentemente variable en el tiempo y en frecuencia. 5
En la figura 14 se muestra un ejemplo de un sistema de descodificación que es adecuado para descodificar un flujo de bits 46 generado por el sistema de codificador mostrado en la figura 6. Este ejemplo es simplemente ilustrativo de los principios de la presente solicitud. Debe entenderse que modificaciones y variaciones del ejemplo serán aparentes a los expertos en la técnica. Un descodificador central 90 descodifica el flujo de bits 46 en seudocanales 10 izquierdo y derecho, los cuales se transforman en el dominio QMF mediante bancos de filtros 91. Posteriormente, una transformación fija de seudo L/R a DMX/RES de la señal resultante seudoestéreo Lp, Rp se lleva a cabo en una etapa de transformación 12, creándose así una señal de mezclado descendente DMX y una señal residual RES. Cuando se usa codificación SBR, estas señales son señales de banda baja, por ejemplo la señal de mezclado descendente DMX y la señal residual RES solo pueden contener información de audio para la banda de bajas 15 frecuencias de hasta 8 kHz aproximadamente. La señal de mezclado descendente DMX es utilizada por un descodificador SBR 93 para reconstruir la banda de altas frecuencias en función de parámetros SBR recibidos (no mostrados). Tanto la señal de salida (incluyendo la banda de bajas frecuencias y la banda de altas frecuencias reconstruidas de la señal de mezclado descendente DMX) del descodificador SBR 93 como la señal residual RES se introducen en un descodificador PS 94 que funciona en el dominio QMF (en particular, en el dominio de filtros híbrido 20 QMF+Nyquist). La señal de mezclado descendente DMX en la entrada del descodificador PS 94 contiene además información de audio en la banda de altas frecuencias (por ejemplo, hasta 20 kHz), mientras que la señal residual RES en la entrada del descodificador PS 94 es una señal de banda baja (por ejemplo, limitada hasta 8 kHz). Por tanto, para la banda de altas frecuencias (por ejemplo, para la banda entre 8 kHz y 20 kHz), el descodificador PS 94 usa una versión descorrelacionada de la señal de mezclado descendente DMX en lugar de usar la señal residual de 25 banda limitada RES. Las señales descodificadas en la salida del descodificador PS 94 están basadas por tanto en una señal residual con un valor máximo de 8kHz. Después de la descodificación PS, los dos canales de salida del descodificador PS 94 se transforman en el dominio de tiempo mediante bancos de filtros 95, generándose así la señal estéreo de salida L, R.
30
En la figura 15 se muestra un ejemplo de un sistema de descodificación que es adecuado para descodificar el flujo de bits 46 generado por el sistema de codificador mostrado en la figura 7. Este ejemplo es simplemente ilustrativo de los principios de la presente solicitud. Debe entenderse que modificaciones y variaciones del ejemplo serán evidentes a los expertos en la técnica. El funcionamiento principal del ejemplo de la figura 15 es similar al del sistema de descodificación mostrado en la figura 14. A diferencia de la figura 14, el descodificador SBR 96 de la 35 figura 15 está situado en la salida del descodificador PS 94. Además, el descodificador SBR usa parámetros SBR (no mostrados) que forman datos de envolvente estéreo a diferencia de los parámetros SBR mono de la figura 14. La señal de mezclado descendente y la señal residual en la entrada del descodificador PS 94 son normalmente señales de banda baja, por ejemplo la señal de mezclado descendente DMX y la señal residual RES pueden contener información de audio solamente para la banda de bajas frecuencias, por ejemplo hasta 8 kHz 40 aproximadamente. En función de la señal de mezclado descendente de banda baja DMX y la señal residual RES, el codificador PS 94 determina una señal estéreo de banda baja, por ejemplo de hasta 8 kHz aproximadamente. En función de la señal estéreo de banda baja y de los parámetros SBR estéreo, el descodificador SBR 96 reconstruye la parte de altas frecuencias de la señal estéreo. En comparación con la realización de la figura 14, el ejemplo de la figura 15 ofrece la ventaja de que no se necesita ninguna señal descorrelacionada (véase también la figura 8d) y, 45 por tanto, se obtiene una calidad de audio mejorada, mientras que en la figura 14, para la parte de altas frecuencias se necesita una señal descorrelacionada (véase también la figura 8c), reduciéndose por tanto la calidad del audio.
La figura 16a muestra un ejemplo de un sistema de descodificación que es inverso al sistema de codificación mostrado en la figura 11a. La señal de flujo de bits entrante se introduce en un bloque descodificador 100, el cual 50 genera una primera señal descodificada 102 y una segunda señal descodificada 103. En el codificador se seleccionó codificación M/S o codificación L/R. Esto se indica en el flujo de bits recibido. En función de esta información, en la etapa de selección 101 se selecciona M/S o L/R. En caso de que se haya seleccionado M/S en el codificador, la primera señal 102 y la segunda señal 103 se convierten en una señal (seudo) L/R. En caso de que se haya seleccionado L/R en el codificador, la primera señal 102 y la segunda señal 103 pueden pasar por la etapa 101 sin 55 transformarse. La seudoseñal L/R Lp, Rp en la salida de la etapa 101 se convierte en una señal DMX/RES mediante la etapa de transformación 12 (esta etapa lleva a cabo una cuasitransformación de L/R a M/S). Preferentemente, las etapas 100, 101 y 12 de la figura 16a funcionan en el dominio MDCT. Para transformar la señal de mezclado descendente DMX y las señales residuales RES en el dominio de tiempo, pueden usarse bloques de conversión 104. Después, la señal resultante se introduce en un descodificador PS (no mostrado) y, opcionalmente, en un 60 descodificador SBR como el mostrado en las figuras 14 y 15. Los bloques 104 también pueden colocarse alternativamente delante del bloque 12.
La figura 16b ilustra una implementación del ejemplo de la figura 16a. En la figura 16b se muestra una implementación a modo de ejemplo de la etapa 101 para seleccionar entre descodificación M/S o L/R. La etapa 101 65 comprende una etapa de transformación de suma y diferencia 105 (transformación de M/S a L/R) que recibe la
primera señal 102 y la segunda señal 103.
En función de la información de codificación incluida en el flujo de bits, la etapa 101 selecciona descodificación L/R o M/S. Cuando se selecciona descodificación L/R, la señal de salida del bloque de descodificación 100 se introduce en la etapa de transformación 12. 5
La figura 16c muestra una alternativa al ejemplo de la figura 16a. En este caso no se usa ninguna etapa de transformación 12 explícita. En cambio, la etapa de transformación 12 y la etapa 101 se combinan en una única etapa 101’. La primera señal 102 y la segunda señal 103 se introducen en una etapa de transformación de suma y diferencia 105’ (más precisamente, una etapa de transformación de seudo L/R a DMX/RES) como parte de la etapa 10 101'. La etapa de transformación 105' genera una señal DMX/RES. La etapa de transformación 105' de la figura 16c es similar o idéntica a la etapa de transformación 105 de la figura 16b (excepto para un factor de ganancia posiblemente diferente). En la figura 16c es necesario invertir la selección entre descodificación M/S y L/R en comparación con la figura 16b. En la figura 16c, el conmutador está en la posición inferior, mientras que en la figura 16b el conmutador está en la posición superior. Esto visualiza la inversión de la selección L/R o M/S (la señal de 15 selección puede invertirse simplemente mediante un inversor).
Debe observarse que el conmutador de las figuras 16b y 16c están presentes preferentemente de manera individual para cada banda de frecuencias en el dominio MDCT, de manera que la selección entre L/R y M/S puede variar tanto en el tiempo como en frecuencia. Las etapas de transformación 105 y 105' pueden transformar todo el intervalo 20 de frecuencias usado o pueden transformar solamente una única banda de frecuencias.
La figura 17 muestra una realización de un sistema de codificación para codificar una señal estéreo L, R en una señal de flujo de bits. El sistema de codificación comprende una etapa de mezclado descendente 8 para generar una señal de mezclado descendente DMX y una señal residual RES en función de la señal estéreo. Además, el sistema 25 de codificación comprende una etapa de determinación de parámetros 9 para determinar uno o más parámetros estéreo paramétricos 5. Además, el sistema de codificación comprende medios de codificación perceptual 110 aguas abajo de la etapa de mezclado descendente 8. La codificación puede seleccionarse entre:
- codificación basada en una señal de suma de la señal de mezclado descendente DMX y la señal residual RES y 30 basada en una señal de diferencia de la señal de mezclado descendente DMX y la señal residual RES, o
- codificación basada en la señal de mezclado descendente DMX y la señal residual RES.
Preferentemente, la selección varía en el tiempo y en frecuencia. 35
Los medios de codificación 110 comprenden una etapa de transformación de suma y diferencia 111 que genera las señales de suma y diferencia. Además, los medios de codificación 110 comprenden un bloque de selección 112 para seleccionar la codificación en función de las señales de suma y diferencia o en función de la señal de mezclado descendente DMX y la señal residual RES. Además, se proporciona un bloque de codificación 113. Como 40 alternativa, pueden usarse dos bloques de codificación 113, donde el primer bloque de codificación 113 codifica las señales DMX y RES y el segundo bloque de codificación 113 codifica las señales de suma y diferencia. En este caso, la etapa de selección 112 está aguas abajo de los dos bloques de codificación 113.
La transformación de suma y diferencia 111 tiene la siguiente forma 45
El bloque de transformación 111 puede corresponder al bloque de transformación 99 de la figura 11c.
50
La salida del codificador perceptual 110 se combina con los parámetros estéreo paramétricos 5 en el multiplexor 7 para formar el flujo de bits resultante 6.
A diferencia de la estructura de la figura 17, la codificación basada en la señal de mezclado descendente DMX y la señal residual RES puede realizarse cuando se codifica una señal resultante que se genera transformando la señal 55 de mezclado descendente DMX y la señal residual RES mediante dos transformaciones en serie de suma y diferencia como se muestra en la figura 11b (véase los dos bloques de transformación 2 y 98). La señal resultante después de dos transformaciones de suma y diferencia corresponde a la señal de mezclado descendente DMX y a la señal residual RES (excepto para una factor de ganancia posiblemente diferente).
60
La figura 18 muestra una realización de un sistema de descodificación que es inverso al sistema de codificador de la figura 17. El sistema de descodificación comprende medios 120 para una descodificación perceptual basada en la
señal de flujo de bits. Después de la descodificación, los parámetros PS se separan de la señal de flujo de bits 6 en el desmultiplexor 10. Los medios de descodificación 120 comprenden un descodificador central 121 que genera una primera señal 122 y una segunda señal 123 (mediante descodificación). Los medios de descodificación proporcionan una señal de mezclado descendente DMX y una señal residual RES.
5
De manera selectiva, la señal de mezclado descendente DMX y la señal residual RES:
- están basadas en la suma de la primera señal 122 y de la segunda señal 123 y basadas en la diferencia de la primera señal 122 y de la segunda señal 123, o
10
- están basadas en la primera señal 122 y basadas en la segunda señal 123.
Preferentemente, la selección varía en el tiempo y en frecuencia. La selección se realiza en la etapa de selección 125.
15
Los medios de descodificación 120 comprenden una etapa de transformación de suma y diferencia 124 que genera señales de suma y diferencia.
La transformación de suma y diferencia en el bloque 124 tiene la siguiente forma:
20
El bloque de transformación 124 puede corresponder al bloque de transformación 105’ de la figura 16c.
Después de la selección, las señales DMX y RES se introducen en una etapa de mezclado ascendente 126 para 25 generar la señal estéreo L, R en función de la señal de mezclado descendente DMX y la señal residual RES. La operación de mezclado ascendente depende de los parámetros PS 5.
Preferentemente, en las figuras 17 y 18 la selección es variable en frecuencia. En la figura 17 puede realizarse, por ejemplo, una transformación de tiempo a frecuencia (por ejemplo, mediante un banco de filtros de análisis o MDCT) 30 como una primera etapa en los medios de codificación perceptual 110. En la figura 18 puede realizarse, por ejemplo, una transformación de frecuencia a tiempo (por ejemplo, mediante un banco de filtros de síntesis o MDCT inverso) como la última etapa en los medios de descodificación perceptual 120.
Debe observarse que en las realizaciones descritas anteriormente, las señales, los parámetros y las matrices puede 35 variar en frecuencia o no variar en frecuencia y/o variar en el tiempo o no variar en el tiempo. Las etapas de cálculo descritas pueden llevarse a cabo orientadas a la frecuencia o para toda la banda de audio.
Además, debe observarse que las diversas transformaciones de suma y diferencia, es decir, la transformación de DMX/RES a seudo L/R, la transformación de seudo L/R a DMX/RES, la transformación de L/R a M/S y la 40 transformación de M/S a L/R tienen la siguiente forma
Simplemente, el factor de ganancia c puede ser diferente. Por lo tanto, en principio, cada una de estas 45 transformaciones puede intercambiarse por una transformación diferente de estas transformaciones. Si la ganancia no es correcta durante el procesamiento de codificación, esto puede compensarse en el proceso de descodificación. Además, cuando se colocan en serie dos transformaciones iguales o diferentes de suma y diferencia, la transformación resultante corresponde a la matriz identidad (posiblemente, multiplicada por un factor de ganancia).
50
En un sistema de codificador que comprende un codificador PS y un codificador SBR, puede haber diferentes configuraciones PS/SBR. En una primera configuración, mostrada en la figura 6, el codificador SBR 32 está conectado aguas abajo del codificador PS 41. En una segunda configuración, mostrada en la figura 7, el codificador SBR 42 está conectado aguas arriba del codificador PS 41. Dependiendo de, por ejemplo, la velocidad binaria objetivo deseada, de las propiedades del codificador central y/o de otros uno o más factores, una de las 55 configuraciones puede preferirse sobre la otra con el fin de proporcionar el mejor rendimiento. Normalmente, para bajas velocidades binarias, puede preferirse la primera configuración, mientras que para altas velocidades binarias, puede preferirse la segunda configuración. Por tanto, es deseable que un sistema de codificador soporte ambas configuraciones diferentes para poder elegir una configuración preferida dependiendo de, por ejemplo, la velocidad
binaria objetivo deseada y/u otros uno o más criterios.
Además, en un sistema de descodificación que comprende un descodificador PS y un descodificador SBR, puede haber diferentes configuraciones PS/SBR. En una primera configuración, mostrada en la figura 14, el descodificador SBR 93 está conectado aguas arriba del descodificador PS 94. En una segunda configuración, mostrada en la figura 5 15, el descodificador SBR 96 está conectado aguas abajo del descodificador PS 94. Para conseguir el funcionamiento correcto, la configuración del sistema de descodificación tiene que ajustarse a la del sistema de codificador. Si el codificador está configurado según la figura 6, entonces el descodificador está configurado de manera correspondiente según la figura 14. Si el codificador está configurado según la figura 7, entonces el descodificador está configurado de manera correspondiente según la figura 15. Para garantizar el funcionamiento 10 correcto, el codificador indica preferentemente al descodificador la configuración PS/SBR que eligió para la codificación (y, por tanto, la configuración PS/SBR que debe elegirse para la descodificación). En función de esta información, el descodificador selecciona la configuración de descodificación apropiada.
Tal y como se ha descrito anteriormente, para garantizar la operación de descodificación correcta, hay 15 preferentemente un mecanismo para indicar desde el codificador al descodificador la configuración que va a usarse en el descodificador. Esto puede realizarse explícitamente (por ejemplo, mediante un bit o campo dedicados en la cabecera de configuración del flujo de bits, como se describe a continuación) o implícitamente (por ejemplo, comprobando si los datos SBR son mono o estéreo en caso de que haya datos PS).
20
Tal y como acaba de describirse, para indicar la configuración PS/SBR elegida, puede usarse un elemento dedicado en la cabecera de flujo de bits del flujo de bits transportado desde el codificador al descodificador. Esta cabecera de flujo de bits transporta información de configuración necesaria para permitir que el descodificador descodifique correctamente los datos del flujo de bits. El elemento dedicado en la cabecera de flujo de bits puede ser, por ejemplo, una bandera de bit, un campo o puede ser un índice que apunte a una entrada específica de una tabla que 25 especifica diferentes configuraciones de descodificación.
En lugar de incluir en la cabecera de flujo de bits un elemento dedicado adicional para indicar la configuración PS/SBR, información ya presente en el flujo de bits puede evaluarse en el sistema de descodificación para seleccionar la configuración PS/SBR correcta. Por ejemplo, la configuración PS/SBR elegida puede obtenerse a 30 partir de la información de configuración de cabecera de flujo de bits para el descodificador PS y el descodificador SBR. Esta información de configuración indica normalmente si el descodificador SBR va a configurarse para un funcionamiento mono o un funcionamiento estéreo. Si, por ejemplo, un descodificador PS está habilitado y el descodificador SBR está configurado para el funcionamiento mono (como se indica en la información de configuración), puede seleccionarse la configuración PS/SBR según la figura 14. Si un descodificador PS está 35 habilitado y el descodificador SBR está configurado para el funcionamiento estéreo, puede usarse la configuración PS/SBR según la figura 15.
Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente solicitud. Debe entenderse que modificaciones y variaciones de las disposiciones y detalles descritos en este documento 40 resultarán evidentes a los expertos en la técnica. Por lo tanto, el alcance de la solicitud no está limitado por los detalles específicos presentados en este documento a modo de descripción y explicación de las realizaciones.
Los sistemas y los métodos dados a conocer en la solicitud pueden implementarse en software, firmware, hardware o una combinación de los mismos. Determinados componentes o todos los componentes pueden implementarse 45 como software que se ejecuta en un procesador o microprocesador de señales digitales o implementarse como hardware y o como circuitos integrados de aplicación específica.
Dispositivos típicos que utilizan los sistemas y métodos dados a conocer son reproductores de audio portátiles, dispositivos de comunicaciones móviles, descodificadores de televisión, equipos de televisión, AVR (receptor de 50 audio y vídeo), ordenadores personales, etc.

Claims (15)

  1. REIVINDICACIONES
    1. Un sistema de codificador, configurado para codificar una señal estéreo en una señal de flujo de bits (6), comprendiendo el sistema de codificador:
    5
    - un medio de mezclado descendente (8) configurado para generar una señal de mezclado descendente y una señal residual en base a la señal estéreo;
    - un medio de determinación de parámetros (9) configurado para determinar uno o más parámetros estéreo paramétricos (5); 10
    - medios de codificación perceptual (2, 3) aguas abajo del medio de mezclado descendente (8), donde los medios de codificación perceptual (2, 3) están configurados para seleccionar de manera variable en frecuencia o invariable en frecuencia:
    15
     codificación en base a una suma de la señal de mezclado descendente y la señal residual y en base a una diferencia de la señal de mezclado descendente y la señal residual, o
     codificación en base a la señal de mezclado descendente y en base a la señal residual,
    20
    en el que los medios de codificación perceptual (2, 3) comprenden:
    - un medio de transformación (2) configurado para realizar una transformación de suma y diferencia en función de la señal de mezclado descendente y la señal residual para generar una señal seudoestéreo izquierda/derecha para una o más o todas las bandas de frecuencias usadas; y 25
    - los medios de decisión para decidir entre codificación perceptual izquierda/derecha y codificación perceptual central/lateral de manera variable en frecuencia o invariable en frecuencia; en el que
    - la codificación basada en la señal de mezclado descendente y la señal residual se selecciona cuando los medios 30 de decisión seleccionan la codificación perceptual central/lateral, y
    - la codificación basada en la suma y diferencia se selecciona cuando los medios de decisión seleccionan la codificación perceptual izquierda/derecha.
    35
  2. 2. El sistema de codificador según la reivindicación 1, en el que el sistema de codificador está configurado para seleccionar de manera variable en frecuencia o invariable en frecuencia entre:
    - codificación estéreo paramétrica de la señal estéreo en la señal de flujo de bits (6), o
    40
    - codificación izquierda/derecha de la señal estéreo en la señal de flujo de bits (6).
  3. 3. El sistema de codificador según cualquiera de las reivindicaciones anteriores, en el que el medio de codificación perceptual (3) comprende un codificador estéreo basado en AAC (48).
    45
  4. 4. El sistema de codificador según cualquiera de las reivindicaciones anteriores, en el que la codificación perceptual en el medio de codificación perceptual (3) se lleva a cabo en un dominio MDCT críticamente muestreado.
  5. 5. El sistema de codificador según cualquiera de las reivindicaciones anteriores, en el que el sistema de codificador comprende además un codificador SBR (32). 50
  6. 6. El sistema de codificador según la reivindicación 5, en el que el codificador SBR (32) está conectado aguas arriba del medio de mezclado descendente (8).
  7. 7. El sistema de codificador según la reivindicación 5, en el que el sistema de codificador funciona en 55
    - una primera configuración en la que un codificador SBR (32) está aguas abajo del medio de mezclado descendente (8), y
    - una segunda configuración en la que un codificador SBR (32) está aguas arriba del medio de mezclado 60 descendente (8),
    en el que el sistema de codificador está configurado para seleccionar la primera configuración o la segunda configuración dependiendo de la velocidad binaria objetivo deseada.
  8. 8. Un sistema de descodificador, configurado para descodificar una señal de flujo de bits que incluye uno o más parámetros estéreo paramétricos (5) en una señal estéreo, comprendiendo el sistema de descodificador:
    - medios de descodificación perceptual (11, 12) configurados para descodificar en función de la señal de flujo de bits 5 (6), donde los medios de descodificación (11, 12) están configurados para generar, una primera señal y una segunda señal, y proporcionar una señal de mezclado descendente y una señal residual, donde los medios de descodificación (11, 12) están configurados para seleccionar, de manera variable en frecuencia o invariable en frecuencia, la señal de mezclado descendente y la señal residual:
    10
     en base a una suma de la primera señal y de la segunda señal y en función de una diferencia de la primera señal y de la segunda señal, o
     en base a una primera señal y basada en la segunda señal;
    15
    - un medio de mezclado ascendente (13) configurado para generar la señal estéreo en base a la señal de mezclado descendente y la señal residual, donde la operación de mezclado ascendente del medio de mezclado ascendente depende del uno o más parámetros estéreo paramétricos (5); y
    - un medio de transformación (12) configurado para realizar una transformación de suma y diferencia en función de 20 la primera señal y la segunda señal para una o más o todas las bandas de frecuencia usadas, en el que los medios de descodificación perceptual (11, 12) comprenden un selector configurado para seleccionar entre descodificación perceptual L/R y descodificación perceptual M/S de manera variable en frecuencia o invariable en frecuencia; en el que
    25
    - la señal de mezclado descendente y la señal residual se seleccionan para que estén basadas en la suma de la primera señal y de la segunda señal y basadas en la diferencia de la primera señal y de la segunda señal, respectivamente, cuando el selector selecciona descodificación perceptual L/R, y
    - la señal de mezclado descendente y la señal residual se seleccionan para que estén basadas en la primera señal y 30 basadas en la segunda señal, respectivamente, cuando el selector selecciona descodificación perceptual M/S.
  9. 9. El sistema de descodificación según la reivindicación 8, en el que el sistema de descodificación está configurado para conmutar de manera variable en frecuencia o invariable en frecuencia entre
    35
    - descodificación estéreo paramétrica de la señal de flujo de bits en la señal estéreo, o
    - descodificación izquierda/derecha de la señal de flujo de bits en la señal estéreo.
  10. 10. El sistema de descodificación según cualquiera de las reivindicaciones 8 a 9, en el que los medios de 40 descodificación perceptual comprenden un descodificador basado en AAC.
  11. 11. El sistema de descodificación según cualquiera de las reivindicaciones 8 a 10, en el que el sistema de descodificación comprende además un descodificador SBR.
    45
  12. 12. El sistema de descodificación según la reivindicación 11, en el que el descodificador SBR está situado aguas abajo del medio de mezclado ascendente (13).
  13. 13. El sistema de descodificación según la reivindicación 11, en el que el sistema de descodificación funciona en
    50
    - una primera configuración en la que un descodificador SBR está aguas arriba del medio de mezclado ascendente (13), y
    - una segunda configuración en la que un descodificador SBR está aguas abajo del medio de mezclado ascendente (13). 55
    en el que el sistema de descodificación está configurado para seleccionar la primera configuración o la segunda configuración en función de información en la señal de flujo de bits (6).
  14. 14. Un método para codificar una señal estéreo en una señal de flujo de bits (6), comprendiendo el método: 60
    - generar una señal de mezclado descendente y una señal residual en base a la señal estéreo;
    - determinar uno o más parámetros estéreo paramétricos (5);
    65
    - codificar de manera perceptual aguas abajo de la generación de la señal de mezclado descendente y la señal
    residual, donde:
     codificación basada en una suma de la señal de mezclado descendente y la señal residual y basada en una diferencia de la señal de mezclado descendente y la señal residual, o
    5
     codificación basada en la señal de mezclado descendente y basada en la señal residual,
    puede seleccionarse de manera variable en frecuencia o invariable en frecuencia;
    en el que la codificación perceptual comprende realizar una transformación de suma y diferencia en función de la señal de mezclado descendente y la señal residual para generar una señal seudoestéreo izquierda/derecha para 10 una o más o todas las bandas de frecuencias usadas, y decidir entre codificación perceptual izquierda/derecha y codificación perceptual central/lateral de manera variable en frecuencia o invariable en frecuencia; en el que
    - la codificación basada en la señal de mezclado descendente y la señal residual se selecciona cuando se elige la codificación perceptual central/lateral, y 15
    - la codificación basada en la suma y diferencia se selecciona cuando se elige la codificación perceptual izquierda/derecha.
  15. 15.- Un método para descodificar una señal de flujo de bits (6) que incluye parámetros estéreo paramétricos (5) en 20 una señal estéreo, comprendiendo el método:
    - descodificar de manera perceptual en base a la señal de flujo de bits (6), donde una primera señal y una segunda señal se generan y una señal de mezclado descendente y una señal residual se proporcionan después de la descodificación perceptual, estando, de manera selectiva, la señal de mezclado descendente y la señal residual: 25
     basadas en una suma de la primera señal y de la segunda señal y basadas en una diferencia de la primera señal y de la segunda señal, o
    - basadas en la primera señal y basadas en la segunda señal, 30
    de manera variable en frecuencia o invariable en frecuencia; y
    - generar la señal estéreo basándose en la señal de mezclado descendente y la señal residual mediante una operación de mezclado ascendente, donde la operación de mezclado ascendente depende de los parámetros 35 estéreo paramétricos (5),
    en el que que la descodificación perceptual basada en la señal de flujo de bits (6) comprende realizar una transformación de suma y diferencia en función de la primera señal y la segunda señal para una o más o todas las bandas de frecuencia usadas y seleccionar entre la descodificación perceptual L/R y la descodificación perceptual 40 M/S de manera variable en frecuencia o invariable en frecuencia, donde
    - la señal de mezclado descendente y la señal residual se seleccionan para que estén basadas en la suma de la primera señal y de la segunda señal y basadas en la diferencia de la primera señal y de la segunda señal, respectivamente, cuando se selecciona la descodificación perceptual L/R, y 45
    - la señal de mezclado descendente y la señal residual se seleccionan para que estén basadas en la primera señal y basadas en la segunda señal, respectivamente, cuando se selecciona la descodificación perceptual M/S.
ES13166660.4T 2009-03-17 2010-03-05 Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica Active ES2519415T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16070709P 2009-03-17 2009-03-17
US160707P 2009-03-17
US21948409P 2009-06-23 2009-06-23
US219484P 2009-06-23

Publications (1)

Publication Number Publication Date
ES2519415T3 true ES2519415T3 (es) 2014-11-06

Family

ID=42562759

Family Applications (2)

Application Number Title Priority Date Filing Date
ES13166660.4T Active ES2519415T3 (es) 2009-03-17 2010-03-05 Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
ES10707277T Active ES2415155T3 (es) 2009-03-17 2010-03-05 Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES10707277T Active ES2415155T3 (es) 2009-03-17 2010-03-05 Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica

Country Status (13)

Country Link
US (10) US9082395B2 (es)
EP (2) EP2626855B1 (es)
JP (1) JP5214058B2 (es)
KR (2) KR101433701B1 (es)
CN (2) CN102388417B (es)
AU (1) AU2010225051B2 (es)
BR (4) BRPI1009467B1 (es)
CA (6) CA3209167A1 (es)
ES (2) ES2519415T3 (es)
HK (2) HK1166414A1 (es)
MX (1) MX2011009660A (es)
RU (3) RU2520329C2 (es)
WO (1) WO2010105926A2 (es)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3209167A1 (en) 2009-03-17 2010-09-23 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
JP5267257B2 (ja) * 2009-03-23 2013-08-21 沖電気工業株式会社 音声ミキシング装置、方法及びプログラム、並びに、音声会議システム
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
JP5813094B2 (ja) 2010-04-09 2015-11-17 ドルビー・インターナショナル・アーベー Mdctベース複素予測ステレオ符号化
US9237400B2 (en) * 2010-08-24 2016-01-12 Dolby International Ab Concealment of intermittent mono reception of FM stereo radio receivers
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
US9530419B2 (en) 2011-05-04 2016-12-27 Nokia Technologies Oy Encoding of stereophonic signals
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
BR112014007481A2 (pt) * 2011-09-29 2017-04-04 Dolby Int Ab detecção de alta qualidade em sinais de rádio fm estéreo
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
EP2803066A1 (en) * 2012-01-11 2014-11-19 Dolby Laboratories Licensing Corporation Simultaneous broadcaster -mixed and receiver -mixed supplementary audio services
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US20150371643A1 (en) * 2012-04-18 2015-12-24 Nokia Corporation Stereo audio signal encoder
JP6163545B2 (ja) * 2012-06-14 2017-07-12 ドルビー・インターナショナル・アーベー 可変数の受信チャネルに基づくマルチチャネル・オーディオ・レンダリングのためのなめらかな構成切り換え
EP2862370B1 (en) * 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2951828B1 (en) * 2013-01-29 2019-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN105074818B (zh) * 2013-02-21 2019-08-13 杜比国际公司 音频编码系统、用于产生比特流的方法以及音频解码器
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN109509478B (zh) 2013-04-05 2023-09-05 杜比国际公司 音频处理装置
CN105103225B (zh) * 2013-04-05 2019-06-21 杜比国际公司 立体声音频编码器和解码器
US8804971B1 (en) * 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
CN105556597B (zh) 2013-09-12 2019-10-29 杜比国际公司 多声道音频内容的编码和解码
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102160254B1 (ko) * 2014-01-10 2020-09-25 삼성전자주식회사 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
WO2016050854A1 (en) 2014-10-02 2016-04-07 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
KR20160081844A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP4235659A3 (en) * 2015-09-25 2023-09-06 VoiceAge Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
FR3045915A1 (fr) 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
KR102230668B1 (ko) * 2016-01-22 2021-03-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법
PL3405949T3 (pl) * 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
US10157621B2 (en) * 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN110419079B (zh) * 2016-11-08 2023-06-27 弗劳恩霍夫应用研究促进协会 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器
PT3539125T (pt) 2016-11-08 2023-01-27 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal multicanal utilizando um ganho side e um ganho residual
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
JP7149936B2 (ja) * 2017-06-01 2022-10-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
US10431231B2 (en) 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
CN109300480B (zh) 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN109389987B (zh) * 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
US10580420B2 (en) * 2017-10-05 2020-03-03 Qualcomm Incorporated Encoding or decoding of audio signals
US10839814B2 (en) * 2017-10-05 2020-11-17 Qualcomm Incorporated Encoding or decoding of audio signals
TWI812658B (zh) 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
EP3729298A1 (en) 2017-12-19 2020-10-28 Dolby International AB Methods and apparatus systems for unified speech and audio decoding improvements
US11315584B2 (en) 2017-12-19 2022-04-26 Dolby International Ab Methods and apparatus for unified speech and audio decoding QMF based harmonic transposer improvements
EP3724876B1 (en) 2018-02-01 2022-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
BR112020020457A2 (pt) * 2018-04-05 2021-01-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho, método ou programa de computador para estimar uma diferença de tempo intercanal
CN114242090A (zh) 2018-04-25 2022-03-25 杜比国际公司 具有减少后处理延迟的高频重建技术的集成
MX2020011206A (es) 2018-04-25 2020-11-13 Dolby Int Ab Integracion de tecnicas de reconstruccion de alta frecuencia con retraso post-procesamiento reducido.
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
CN110556117B (zh) 2018-05-31 2022-04-22 华为技术有限公司 立体声信号的编码方法和装置
CN112352277B (zh) * 2018-07-03 2024-05-31 松下电器(美国)知识产权公司 编码装置及编码方法
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
KR102470429B1 (ko) * 2019-03-14 2022-11-23 붐클라우드 360 인코포레이티드 우선순위에 의한 공간 인식 다중 대역 압축 시스템
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
US20230319498A1 (en) * 2020-03-09 2023-10-05 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4790016A (en) 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
WO1986003873A1 (en) 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
US5357594A (en) 1989-01-27 1994-10-18 Dolby Laboratories Licensing Corporation Encoding and decoding using specially designed pairs of analysis and synthesis windows
US5222189A (en) 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
DE69210689T2 (de) 1991-01-08 1996-11-21 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
JP2693893B2 (ja) 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
JP4478220B2 (ja) * 1997-05-29 2010-06-09 ソニー株式会社 音場補正回路
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
DE19742655C2 (de) 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
CN1100113C (zh) 1999-06-04 2003-01-29 中国科学院山西煤炭化学研究所 一种道路及表面涂层沥青的制备方法
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
GB0119569D0 (en) * 2001-08-13 2001-10-03 Radioscape Ltd Data hiding in digital audio broadcasting (DAB)
KR100648760B1 (ko) 2001-11-29 2006-11-23 코딩 테크놀러지스 에이비 고주파 재생 기술 향상을 위한 방법들 및 그를 수행하는 프로그램이 저장된 컴퓨터 프로그램 기록매체
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
ATE315823T1 (de) * 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
KR101016251B1 (ko) * 2002-04-10 2011-02-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 스테레오 신호의 코딩
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7191136B2 (en) 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
KR100923297B1 (ko) * 2002-12-14 2009-10-23 삼성전자주식회사 스테레오 오디오 부호화 방법, 그 장치, 복호화 방법 및그 장치
KR100528325B1 (ko) * 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US7809579B2 (en) 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2005098824A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
CN101010985A (zh) * 2004-08-31 2007-08-01 松下电器产业株式会社 立体声信号生成装置及立体声信号生成方法
RU2393552C2 (ru) 2004-09-17 2010-06-27 Конинклейке Филипс Электроникс Н.В. Комбинированное аудиокодирование, минимизирующее воспринимаемое искажение
BRPI0516201A (pt) * 2004-09-28 2008-08-26 Matsushita Electric Ind Co Ltd aparelho de codificação escalonável e método de codificação escalonável
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
WO2006048815A1 (en) * 2004-11-04 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding a set of signals
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
WO2006091139A1 (en) 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
CN101223820B (zh) * 2005-07-15 2011-05-04 松下电器产业株式会社 信号处理装置
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
JP5337941B2 (ja) 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
SG175632A1 (en) 2006-10-16 2011-11-28 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
KR20080052813A (ko) 2006-12-08 2008-06-12 한국전자통신연구원 채널별 신호 분포 특성을 반영한 오디오 코딩 장치 및 방법
EP2137725B1 (en) 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
JP5363488B2 (ja) * 2007-09-19 2013-12-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・オーディオのジョイント強化
RU2449387C2 (ru) 2007-11-21 2012-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки сигнала
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010042024A1 (en) * 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
CA3209167A1 (en) 2009-03-17 2010-09-23 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding

Also Published As

Publication number Publication date
US20190392844A1 (en) 2019-12-26
CN102388417B (zh) 2015-10-21
RU2730469C2 (ru) 2020-08-24
CA2754671A1 (en) 2010-09-23
CA2949616A1 (en) 2010-09-23
US20240127829A1 (en) 2024-04-18
WO2010105926A2 (en) 2010-09-23
EP2626855B1 (en) 2014-09-10
CA2949616C (en) 2019-11-26
BR122019023877B1 (pt) 2021-08-17
US9905230B2 (en) 2018-02-27
CA3057366C (en) 2020-10-27
CA3209167A1 (en) 2010-09-23
US20220246155A1 (en) 2022-08-04
CN105225667A (zh) 2016-01-06
US20190378521A1 (en) 2019-12-12
BRPI1009467B1 (pt) 2020-08-18
MX2011009660A (es) 2011-09-30
HK1166414A1 (en) 2012-10-26
US20190228782A1 (en) 2019-07-25
US9082395B2 (en) 2015-07-14
RU2014112936A (ru) 2015-10-10
RU2520329C2 (ru) 2014-06-20
US10297259B2 (en) 2019-05-21
US11322161B2 (en) 2022-05-03
US10796703B2 (en) 2020-10-06
RU2017108988A3 (es) 2020-05-21
US20120002818A1 (en) 2012-01-05
CA3152894A1 (en) 2010-09-23
US20190318748A1 (en) 2019-10-17
CN105225667B (zh) 2019-04-05
CA3093218C (en) 2022-05-17
CA3152894C (en) 2023-09-26
BRPI1009467A2 (pt) 2017-05-16
WO2010105926A3 (en) 2010-12-23
RU2020122022A (ru) 2022-01-04
CA3093218A1 (en) 2010-09-23
KR101433701B1 (ko) 2014-08-28
EP2409298A2 (en) 2012-01-25
US11315576B2 (en) 2022-04-26
CN102388417A (zh) 2012-03-21
HK1187145A1 (en) 2014-03-28
ES2415155T3 (es) 2013-07-24
BR122019023947B1 (pt) 2021-04-06
US20190287538A1 (en) 2019-09-19
EP2626855A1 (en) 2013-08-14
JP5214058B2 (ja) 2013-06-19
US11133013B2 (en) 2021-09-28
BR122019023924B1 (pt) 2021-06-01
KR20120006010A (ko) 2012-01-17
CA2754671C (en) 2017-01-10
US11017785B2 (en) 2021-05-25
US20150269948A1 (en) 2015-09-24
US20180144751A1 (en) 2018-05-24
RU2614573C2 (ru) 2017-03-28
JP2012521012A (ja) 2012-09-10
KR20130095851A (ko) 2013-08-28
EP2409298B1 (en) 2013-05-08
RU2017108988A (ru) 2018-09-17
CA3057366A1 (en) 2010-09-23
AU2010225051A1 (en) 2011-09-15
AU2010225051B2 (en) 2013-06-13
KR101367604B1 (ko) 2014-02-26

Similar Documents

Publication Publication Date Title
ES2519415T3 (es) Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
ES2910658T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
RU2804032C1 (ru) Устройство обработки звуковых сигналов для кодирования стереофонического сигнала в сигнал битового потока и способ декодирования сигнала битового потока в стереофонический сигнал, осуществляемый с использованием устройства обработки звуковых сигналов