ES2709661T3 - Codificación y decodificación paramétrica de señales de audio multicanal - Google Patents

Codificación y decodificación paramétrica de señales de audio multicanal Download PDF

Info

Publication number
ES2709661T3
ES2709661T3 ES15801335T ES15801335T ES2709661T3 ES 2709661 T3 ES2709661 T3 ES 2709661T3 ES 15801335 T ES15801335 T ES 15801335T ES 15801335 T ES15801335 T ES 15801335T ES 2709661 T3 ES2709661 T3 ES 2709661T3
Authority
ES
Spain
Prior art keywords
signal
channels
channel
audio
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15801335T
Other languages
English (en)
Inventor
Heiko Purnhagen
Heidi-Maria Lehtonen
Janusz Klejsa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2709661T3 publication Critical patent/ES2709661T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método (1200) de decodificación de audio que comprende: recibir (1201) una señal de mezcla descendente de dos canales (L1, L2) y parámetros (αL) de mezcla ascendente para la reconstrucción paramétrica de una señal de audio de M canales (L, LS, LB, TFL, TBL) en base a la señal de mezcla descendente, donde M >= 4; recibir (1202) señalización (S) que indica uno seleccionado de al menos dos formatos de codificación (F1, F2, F3) de la señal de audio de M canales, en donde los formatos de codificación corresponden a respectivas particiones diferentes de los canales de la señal de audio de M canales en respectivos primer y segundo grupos (601, 602) de uno o más canales, en donde, en el formato de codificación indicado, un primer canal de la señal de mezcla descendente corresponde a una combinación lineal del primer grupo de uno o más canales de la señal de audio de M canales y un segundo canal de la señal de mezcla descendente corresponde a una combinación lineal del segundo grupo de uno o más canales de la señal de audio de M canales; determinar (1203) un conjunto de coeficientes de descorrelación previa en base al formato de codificación indicado; calcular (1205) una señal de entrada de descorrelación (D1, D2, D3) como un mapeo lineal de la señal de mezcla descendente, en donde el conjunto de coeficientes de descorrelación previa se aplica a la señal de mezcla descendente, en donde los coeficientes de descorrelación previa se determinan de tal manera que un primer canal (TBL) de la señal de audio de M canales contribuye, a través de la señal de mezcla descendente, a un primer canal fijo (D3) de la señal de entrada de descorrelación en al menos dos de los formatos de codificación; generar (1207) una señal descorrelacionada en base a la señal de entrada de descorrelación; determinar (1208) conjuntos de coeficientes (γL, ßL) de mezcla ascendente húmedos y secos en base a los parámetros de mezcla ascendente recibidos y el formato de codificación indicado; calcular (1210) una señal (X1, X2) de mezcla ascendente seca como un mapeo lineal de la señal de mezcla descendente, en donde el conjunto de coeficientes de mezcla ascendente secos se aplica a la señal de mezcla descendente; calcular (1211) una señal (Y1, Y2) de mezcla ascendente húmeda como un mapeo lineal de la señal descorrelacionada, en donde el conjunto de coeficientes de mezcla ascendente húmedos se aplica a la señal descorrelacionada; y combinar (1213) las señales de mezcla ascendente secas y húmedas para obtener una señal reconstruida multidimensional (**Fórmula** ) correspondiente a la señal de audio de M canales a reconstruir; caracterizado por que la señal de audio de M canales tiene una configuración de canales predefinida, y el formato de codificación seleccionado indicado conmuta entre los al menos dos formatos de codificación.

Description

DESCRIPCION
Codificacion y decodificacion parametrica de senales de audio multicanal
Referencia cruzada a solicitudes relacionadas
Esta solicitud reivindica prioridad a la Solicitud de Patente Provisional de EE.UU. N°62/073,642, presentada el 31 de octubre de 2014 y la Solicitud de Patente Provisional de EE.UU. N° 62/128,425 presentada el 4 de marzo de 2015.
Campo tecnico
La invencion descrita en la presente memoria se refiere en general a la codificacion y decodificacion parametrica de senales de audio, y en particular a la codificacion y decodificacion parametrica de senales de audio basadas en canales.
Antecedentes
Los sistemas de reproduccion de audio que comprenden multiples altavoces se utilizan frecuentemente para reproducir una escena de audio representada por una senal de audio multicanal, en donde los respectivos canales de la senal de audio multicanal se reproducen en los respectivos altavoces. La senal de audio multicanal puede por ejemplo haber sido grabada a traves de una pluralidad de transductores acusticos o puede haber sido generada por equipo de creacion de audio. En muchas situaciones, hay limitaciones de ancho de banda para transmitir la senal de audio al equipo de reproduccion y/o espacio limitado para almacenar la senal de audio en una memoria de ordenador o en un dispositivo de almacenamiento portatil. Existen sistemas de codificacion de audio para la codificacion parametrica de senales de audio, para reducir el ancho de banda o tamano de almacenamiento. En un lado de codificador, estos sistemas tfpicamente mezclan de manera descendente la senal de audio multicanal en una senal de mezcla descendente, que tfpicamente es una mezcla descendente mono (uno canal) o una estereo (dos canales), y extraen informacion lateral que describe las propiedades de los canales por medio de parametros como diferencias de nivel y correlacion cruzada. La mezcla descendente y la informacion lateral se codifican luego y se envfan a un lado de decodificador. En el lado de decodificador, se reconstruye la senal de audio multicanal, i.e., aproximada, a partir de la mezcla descendente bajo control de los parametros de la informacion lateral.
En vista el amplio intervalo de diferentes tipos de dispositivos y sistemas disponibles para la reproduccion de contenido de audio multicanal, incluyendo un segmento emergente dirigido a usuarios finales en sus hogares, hay una necesidad de maneras nuevas y alternativas de codificar eficientemente el contenido de audio multicanal, para reducir los requerimientos de ancho de banda y/o el tamano de memoria requerido para el almacenamiento, facilitar la reconstruccion de la senal de audio multicanal en un lado de decodificador, y/o aumentar la fidelidad de la senal de audio multicanal reconstruida en un lado de decodificador.
El estandar internacional ISO/IEC FDIS 23003-1: 2006: E que describe MPEG Surround se refiere entre otras cosas al procesamiento de audio espacial de diferentes configuraciones de canales. Por ejemplo, se refiere a la mezcla descendente de diferentes programas de 7 canales en dos canales.
La solicitud de patente de EE.UU con numero de publicacion 2008/0244856 A1 se refiere a un codificador de audio que tiene una estructura de codificacion jerarquica y que genera un flujo de datos que comprende uno o mas canales de audio, datos de codificacion de audio parametrica, y una estructura jerarquica de arbol de decodificador.
Breve descripcion de los dibujos
En lo que sigue, se describiran realizaciones ejemplares en mayor detalle y con referencia a los dibujos adjuntos, en los que:
Las Figuras 1 y 2 son diagramas de bloques generalizados de secciones de codificacion para codificar senales de audio de M canales como senales de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun las realizaciones ejemplares;
La Figura 3 es un diagrama de bloques generalizado de un sistema de codificacion de audio que comprende la seccion de codificacion representada en la Figura 1, segun una realizacion ejemplar;
Las Figuras 4 y 5 son diagramas de flujo de metodos de codificacion de audio para codificar senales de audio de M canales como senales de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun las realizaciones ejemplares;
Las Figuras 6-8 ilustran maneras alternativas de dividir una senal de audio de 11.1 canales (o 7.1+4 canales o 7.1.4 canales) en grupos de canales representados por los respectivos canales de mezcla descendente, segun las realizaciones ejemplares;
La Figura 9 es un diagrama de bloques generalizado de una seccion de decodificacion para reconstruir una senal de audio de M canales en base a una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar;
La Figura 10 es un diagrama de bloques generalizado de un sistema de decodificacion de audio que comprende la seccion de decodificacion representada en la Figura 9, segun una realizacion ejemplar;
La Figura 11 es un diagrama de bloques generalizado de una seccion de mezcla comprendida en la seccion de decodificacion representada en la Figura 9, segun una realizacion ejemplar;
La Figura 12 es un diagrama de flujo de un metodo de decodificacion de audio para reconstruir una senal de audio de M canales en base a una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar; y
La Figura 13 es un diagrama de bloques generalizado de una seccion de decodificacion para reconstruir una senal de audio de 13.1 canales en base a una senal de 5.1 canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar;
La Figura 14 es un diagrama de bloques generalizado de una seccion de decodificacion configurada para determinar un formato de codificacion adecuado para ser utilizado para codificar una senal de audio de M canales (y posibles canales adicionales) y, para el formato elegido, representar la senal de audio de M canales como una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados;
La Figura 15 es un detalle de una seccion de mezcla descendente de modo dual en la seccion de codificacion mostrada en la Figura 14;
La Figura 16 es un detalle de una seccion de analisis de modo dual en la seccion de codificacion mostrada en la Figura 14; y
La Figura 17 es un diagrama de flujo de un metodo de codificacion de audio que puede ser realizado por los componentes mostrados en las Figuras 14 a 16.
Todas las figuras son esquematicas y en general solo muestran las partes que son necesarias para dilucidar la invencion, mientras que otras partes pueden ser omitidas o simplemente sugeridas.
Descripcion de las realizaciones ejemplares
Como se emplea en la presente memoria, una senal de audio puede ser una senal de audio independiente, una parte de audio de una senal audiovisual o senal multimedia o cualquiera de estas en combinacion con metadatos. Como se emplea en la presente memoria, un canal es una senal de audio asociada con una posicion/orientacion espacial predefinida/fija o una posicion espacial indefinida tal como “izquierda” o “derecha”.
I. Vision general - Lado de decodificador
Segun un primer aspecto, las realizaciones ejemplares proponen sistemas de decodificacion de audio, metodos de decodificacion de audio y productos de programa de ordenador asociados. Los sistemas de decodificacion, metodos y productos de programa de ordenador propuestos, segun el primer aspecto, pueden en general compartir las mismas caractensticas y ventajas.
Segun las realizaciones ejemplares, se proporciona un metodo de decodificacion de audio que comprende recibir una senal de mezcla descendente de dos canales y parametros de mezcla ascendente para la reconstruccion parametrica de una senal de audio de M canales en base a la senal de mezcla descendente, donde M > 4. El metodo de decodificacion de audio comprende recibir senalizacion que indica uno seleccionado de al menos dos formatos de codificacion de la senal de audio de M canales, donde los formatos de codificacion corresponden a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos de uno o mas canales. En el formato de codificacion indicado, un primer canal de la senal de mezcla descendente corresponde a una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales, y un segundo canal de la senal de mezcla descendente corresponde a una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales. El metodo de decodificacion de audio comprende ademas: determinar un conjunto de coeficientes de descorrelacion previa en base al formato de codificacion indicado; calcular una senal de entrada de descorrelacion como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de descorrelacion previa se aplica a la senal de mezcla descendente; generar una senal descorrelacionada en base a la senal de entrada de descorrelacion; determinar conjuntos de coeficientes de mezcla ascendente de un primer tipo, denominados en la presente memoria como coeficientes de mezcla ascendente humedos, y de un segundo tipo, denominados en la presente memoria como coeficientes de mezcla ascendente secos, en base a los parametros de mezcla ascendente recibidos y el formato de codificacion indicado; calcular una senal de mezcla ascendente de un primer tipo, denominada en la presente memoria como una senal de mezcla ascendente seca, como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de mezcla ascendente secos se aplica a la senal de mezcla descendente; calcular una senal de mezcla ascendente de un segundo tipo, denominada en la presente memoria como una senal de mezcla ascendente humeda, como un mapeo lineal de la senal descorrelacionada, en donde el conjunto de coeficientes de mezcla ascendente humedos se aplica a la senal descorrelacionada; y combinar las senales de mezcla ascendente secas y humedas para obtener una senal reconstruida multidimensional correspondiente a la senal de audio de M canales a reconstruir.
Dependiendo del contenido de audio de la senal de audio de M canales, diferentes particiones de los canales de la senal de audio de M canales en primer y segundo grupos, en donde cada grupo contribuye a un canal de la senal de mezcla descendente, pueden ser adecuadas para p.ej., facilitar la reconstruccion de la senal de audio de M canales a partir de la senal de mezcla descendente, mejorar la fidelidad (percibida) de la senal de audio de M canales reconstruida a partir de la senal de mezcla descendente, y/o mejorar la eficiencia de codificacion de la senal de mezcla descendente. La capacidad del metodo de decodificacion de audio para recibir senalizacion que indica uno seleccionado de los formatos de codificacion, y adaptar la determinacion de los coeficientes de descorrelacion previa asf como los coeficientes de mezcla ascendente humedos y secos al formato de codificacion indicado, permite que se seleccione un formato de codificacion en un lado de codificador, p.ej., en base al contenido de audio de la senal de audio de M canales, para aprovechar las ventajas comparativas de emplear ese formato de codificacion particular para representar la senal de audio de M canales.
En particular, determinar los coeficientes de descorrelacion previa en base al formato de codificacion indicado puede permitir que el canal, o canales, de la senal de mezcla descendente, a partir de la que se genera la senal descorrelacionada, sean seleccionados y/o ponderados, en base al formato de codificacion indicado, antes de generar la senal descorrelacionada. La capacidad del metodo de decodificacion de audio para determinar los coeficientes de descorrelacion previa de manera diferente para diferentes formatos de codificacion puede por lo tanto permitir mejorar la fidelidad de la senal de audio de M canales reconstruida.
El primer canal de la senal de mezcla descendente se puede por ejemplo haber formado p.ej., en un lado de codificador, como una combinacion lineal del primer grupo de uno o mas canales, de acuerdo con el formato de codificacion indicado. Similarmente, el segundo canal de la senal de mezcla descendente se puede por ejemplo haber formado, en un lado de codificador, como una combinacion lineal del segundo grupo de uno o mas canales, de acuerdo con el formato de codificacion indicado.
Los canales de la senal de audio de M canales pueden por ejemplo formar un subconjunto de un numero mayor de canales que representan juntos un campo de sonido.
La senal descorrelacionada sirve para aumentar la dimensionalidad del contenido de audio de la senal de mezcla descendente, tal como es percibido por oyente. Generar la senal descorrelacionada puede por ejemplo incluir aplicar un filtro lineal a la senal de entrada de descorrelacion.
El que la senal de entrada de descorrelacion se calcule como un mapeo lineal de la senal de mezcla descendente significa que la senal de entrada de descorrelacion se obtiene aplicando una primera transformacion lineal a la senal de mezcla descendente. Esta primera transformacion lineal toma los dos canales de la senal de mezcla descendente como entrada y proporciona los canales de la senal de entrada de descorrelacion como salida, y los coeficientes de descorrelacion previa son coeficientes que definen las propiedades cuantitativas de esta primera transformacion lineal.
El que la senal de mezcla ascendente seca se calcule como un mapeo lineal de la senal de mezcla descendente significa que la senal de mezcla descendente seca se obtiene aplicando una segunda transformacion lineal a la senal de mezcla descendente. Esta segunda transformacion lineal toma los dos canales de la senal de mezcla descendente como entrada y proporciona M canales como salida, y los coeficientes de mezcla ascendente secos son coeficientes que definen las propiedades cuantitativas de esta segunda transformacion lineal.
El que la senal de mezcla ascendente humeda se calcule como un mapeo lineal de la senal descorrelacionada significa que la senal de mezcla ascendente humeda se obtiene aplicando una tercera transformacion lineal a la senal descorrelacionada. Esta tercera transformacion lineal toma los canales de la senal descorrelacionada como entrada y proporciona M canales como salida, y los coeficientes de mezcla ascendente humedos son coeficientes que definen las propiedades cuantitativas de esta tercera transformacion lineal.
Combinar las senales de mezcla ascendente secas y humedas puede incluir anadir contenido de audio de los respectivos canales de la senal de mezcla ascendente seca al contenido de audio de los respectivos canales correspondientes de la senal de mezcla ascendente humeda, p.ej., emplear mezcla aditiva sobre una base por muestra o por coeficiente de transformacion.
La senalizacion se puede por ejemplo recibir junto con la senal de mezcla descendente y/o los parametros de mezcla ascendente. La senal de mezcla descendente, los parametros de mezcla ascendente y la senalizacion se pueden por ejemplo extraer de un flujo de bits.
En una realizacion ejemplar, se puede sostener que M = 5, i.e., la senal de audio de M canales puede ser una senal de audio de cinco canales. El metodo de decodificacion de audio de la presente realizacion ejemplar se puede por ejemplo emplear para reconstruir los cinco canales regulares en uno de los formates de audio 5.1 actualmente establecidos a partir de una mezcla descendente de dos canales de esos cinco canales, o para reconstruir cinco canales en el lado izquierdo, o en el lado derecho, en una senal de audio multicanal 11.1, a partir de una mezcla descendente de dos canales de esos cinco canales.
Alternativamente, se puede sostener que M = 4, o M > 6.
En una realizacion ejemplar, la senal de entrada de descorrelacion y la senal descorrelacionada pueden cada una comprender M - 2 canales. En la presente realizacion ejemplar, un canal de la senal descorrelacionada se puede generar en base a no mas de un canal de la senal de entrada de descorrelacion. Por ejemplo, cada canal de la senal descorrelacionada se puede generar en base a no mas de un canal de la senal de entrada de descorrelacion, pero diferentes canales de la senal descorrelacionada se pueden por ejemplo generar en base a diferentes canales de la senal de entrada de descorrelacion.
En la presente realizacion ejemplar, los coeficientes de descorrelacion previa se pueden determinar de tal manera que, en cada uno de los formatos de codificacion, un canal de la senal de entrada de descorrelacion reciba contribucion de no mas de un canal de la senal de mezcla descendente. Por ejemplo, los coeficientes de descorrelacion previa se pueden determinar de tal manera que, en cada uno de los formatos de codificacion, cada canal de la senal de entrada de descorrelacion coincide con un canal de la senal de mezcla descendente. Sin embargo, se apreciara que al menos algunos de los canales de la senal de entrada descorrelacionada pueden por ejemplo coincidir con diferentes canales de la senal de mezcla descendente en un formato de codificacion dado y/o en los diferentes formatos de codificacion.
Dado que, en cada formato de codificacion dado, los dos canales de la senal de mezcla descendente representan el primer y segundo grupos disjuntos de uno o mas canales, el primer grupo se puede reconstruir a partir del primer canal de la senal de mezcla descendente, p.ej., empleando uno o mas canales de la senal descorrelacionada generada en base al primer canal de la senal de mezcla descendente, mientras que el segundo grupo se puede reconstruir a partir del segundo canal de la senal de mezcla descendente, p.ej., empleando uno o mas canales de la senal descorrelacionada generados en base al segundo canal de la senal de mezcla descendente. En la presente realizacion ejemplar, la contribucion del segundo grupo de uno o mas canales, a una version reconstruida del primer grupo de uno o mas canales, a traves de la senal descorrelacionada, se puede evitar en cada formato de codificacion. Similarmente, la contribucion del primer grupo de uno o mas canales, a una version reconstruida del segundo grupo de uno o mas canales, a traves de la senal descorrelacionada, se puede evitar en cada formato de codificacion. La presente realizacion ejemplar puede por lo tanto permitir aumentar la fidelidad de la senal de audio de M canales reconstruida.
En una realizacion ejemplar, los coeficientes de descorrelacion previa se pueden determinar de tal manera que un primer canal de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un primer canal fijo de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion. Es decir, el primer canal de la senal de audio de M canales puede contribuir, a traves de la senal de mezcla descendente, al mismo canal de la senal de entrada de descorrelacion en ambos de estos formatos de codificacion. Se apreciara que en la presente realizacion ejemplar, el primer canal de la senal de audio de M canales puede por ejemplo contribuir, a traves de la senal de mezcla descendente, a multiples canales de la senal de entrada de descorrelacion en un formato de codificacion dado.
En la presente realizacion ejemplar, si el formato de codificacion indicado conmuta entre los dos formatos de codificacion, entonces al menos una porcion del primer canal fijo de la senal de entrada de descorrelacion permanece durante la conmutacion. Esto puede permitir una transicion mas suave y/o menos abrupta entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida. En particular, los inventores se han dado cuenta de que dado que la senal descorrelacionada se puede por ejemplo generar en base a una seccion de la senal de mezcla descendente correspondiente a varias tramas de tiempo, durante las que se puede producir una conmutacion entre los formatos de codificacion en la senal de mezcla descendente, se pueden potencialmente generar artefactos audibles en la senal descorrelacionada como resultado de la conmutacion entre los formatos de codificacion. Incluso si se interpolan los coeficientes de mezcla ascendente humedos y secos en respuesta a una conmutacion entre los formatos de codificacion, los artefactos generados en la senal descorrelacionada todavfa pueden persistir en la senal de audio de M canales reconstruida. Proporcionar una senal de entrada de descorrelacion de acuerdo con la presente realizacion ejemplar permite suprimir tales artefactos en la senal descorrelacionada que son provocados por la conmutacion entre los formatos de codificacion, y puede mejorar la calidad de reproduccion de la senal de audio de M canales reconstruida.
En una realizacion ejemplar, los coeficientes de descorrelacion previa se pueden determinar de tal manera que, adicionalmente, un segundo canal de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un segundo canal fijo de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion. Es decir, el segundo canal de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, al mismo canal de la senal de entrada de descorrelacion en ambos formatos de codificacion. En la presente realizacion ejemplar, si el formato de codificacion indicado conmuta entre los dos formatos de codificacion, entonces al menos una porcion de la segunda senal de entrada de descorrelacion fija permanece durante la conmutacion. Como tal, una sola alimentacion de descorrelador se ve afectada por una transicion entre los formatos de codificacion. Esto puede permitir una transicion mas suave y/o menos abrupta entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida.
El primer y segundo canales de la senal de audio de M canales pueden por ejemplo ser distintos entre s t El primer y segundo canales fijos de la senal de entrada de descorrelacion pueden por ejemplo ser distintos entre st
En una realizacion ejemplar, la senalizacion recibida puede indicar uno seleccionado de al menos tres formatos de codificacion, y los coeficientes de descorrelacion previa se pueden determinar de tal manera que el primer canal de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente al primer canal fijo de la senal de entrada de descorrelacion en al menos tres de los formatos de codificacion. Es decir, el primer canal de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, al mismo canal de la senal de entrada de descorrelacion en estos tres formatos de codificacion. En la presente realizacion ejemplar, si el formato de codificacion indicado cambia entre cualquiera de los tres formatos de codificacion, entonces al menos una porcion del primer canal fijo de la senal de entrada de descorrelacion permanece durante la conmutacion, lo que permite una transicion mas suave y/o menos abrupta entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida.
En una realizacion ejemplar, los coeficientes de descorrelacion previa se pueden determinar de tal manera que un par de canales de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un tercer canal fijo de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion. Es decir, el par de canales de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, al mismo canal de la senal de entrada de descorrelacion en ambos formatos de codificacion. En la presente realizacion ejemplar, si el formato de codificacion indicado conmuta entre los dos formatos de codificacion, entonces al menos una porcion del tercer canal fijo de la senal de entrada de descorrelacion permanece durante la conmutacion, lo que permite una transicion mas suave y menos abrupta entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida.
El par de canales puede por ejemplo ser distinto del primer y segundo canales de la senal de audio de M canales. El tercer canal fijo de la senal de entrada de descorrelacion puede por ejemplo ser distinto del primer y segundo canales fijos de la senal de entrada de descorrelacion.
En una realizacion ejemplar, el metodo de decodificacion de audio puede ademas comprender: en respuesta a la deteccion de una conmutacion del formato de codificacion indicado de un primer formato de codificacion a un segundo formato de codificacion, realizar una transicion gradual de valores de los coeficientes de descorrelacion previa asociados con el primer formato de codificacion a valores de los coeficientes de descorrelacion previa asociados con el segundo formato de codificacion. Emplear una transicion gradual entre los coeficientes de descorrelacion previa durante la conmutacion entre formatos de codificacion permite una transicion mas suave y/o menos abrupta entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida. En particular, los inventores se han dado cuenta de que dado que la senal descorrelacionada se puede por ejemplo generar en base a una seccion de la senal de mezcla descendente correspondiente a varias tramas de tiempo, durante las que se puede producir una conmutacion entre los formatos de codificacion en la senal de mezcla descendente, se pueden potencialmente generar artefactos audibles en la senal descorrelacionada como resultado de la conmutacion entre formatos de codificacion. Incluso si se interpolan los coeficientes de mezcla ascendente humedos y secos en respuesta a una conmutacion entre los formatos de codificacion, los artefactos generados en la senal descorrelacionada todavfa pueden persistir en la senal de audio de M canales reconstruida. Proporcionar una senal de entrada de descorrelacion de acuerdo con la presente realizacion ejemplar permite suprimir tales artefactos en la senal descorrelacionada que son provocados por la conmutacion entre los formatos de codificacion, y puede mejorar la calidad de reproduccion de la senal de audio de M canales reconstruida.
La transicion gradual se puede por ejemplo realizar a traves de interpolacion lineal o continua. La transicion gradual se puede por ejemplo realizar a traves de interpolacion con una tasa de cambio limitada.
En una realizacion ejemplar, el metodo de decodificacion de audio puede ademas comprender: en respuesta a la deteccion de una conmutacion del formato de codificacion indicado de un primer formato de codificacion a un segundo formato de codificacion, realizar interpolacion de valores de los coeficientes de mezcla ascendente humedos y secos, incluyendo los coeficientes de valor cero, asociados con el primer formato de codificacion a valores de los coeficientes de mezcla ascendente humedos y secos, de nuevo incluyendo los coeficientes de valor cero, asociados con el segundo formato de codificacion. Se recuerda que los canales de mezcla descendente corresponden a diferentes combinaciones de canales de la senal de audio de M canales originalmente codificada, de modo que un coeficiente de mezcla ascendente que es de valor cero en el primer formato de codificacion no necesita ser de valor cero en el segundo formato de codificacion tambien, y viceversa. Preferiblemente, la interpolacion actua sobre los coeficientes de mezcla ascendente en lugar de una representacion compacta de los coeficientes, p.ej., la representacion discutida a continuacion.
La interpolacion lineal o continua entre valores de los coeficientes de mezcla ascendente se puede por ejemplo emplear para proporcionar una transicion mas suave entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida.
La interpolacion pronunciada, en la que nuevos valores de los coeficientes de mezcla ascendente reemplazan a los antiguos valores de los coeficientes de mezcla ascendente en un cierto punto en el tiempo asociado con la conmutacion entre los formatos de codificacion, puede por ejemplo permitir una mayor fidelidad de la senal de audio de M canales reconstruida, p.ej., en casos donde el contenido de audio de la senal de audio de M canales cambia rapidamente y donde el formato de codificacion se conmuta en un lado de codificador, en respuesta a estos cambios, para aumentar la fidelidad de la senal de audio de M canales reconstruida.
En una realizacion ejemplar, el metodo de decodificacion de audio puede ademas comprender recibir senalizacion que indica uno de una pluralidad de esquemas de interpolacion a ser empleados para la interpolacion de parametros de mezcla ascendente humedos y secos dentro de un formato de codificacion (i.e., cuando se asignan nuevos valores a los coeficientes de mezcla ascendente en un periodo de tiempo donde no se produce cambio de formato de codificacion), y emplear el esquema de interpolacion indicado. La senalizacion que indica uno de una pluralidad de esquemas de interpolacion se puede por ejemplo recibir junto con la senal de mezcla descendente y/o los parametros de mezcla ascendente. Preferiblemente, el esquema de interpolacion indicado por la senalizacion se puede ademas emplear para la transicion entre formatos de codificacion.
En un lado de codificador, donde esta disponible la senal de audio de M canales original, se pueden por ejemplo seleccionar esquemas de interpolacion que son particularmente adecuados para el contenido de audio real de la senal de audio de M canales. Por ejemplo, se puede emplear interpolacion lineal o continua donde la conmutacion suave es importante para la impresion global de la senal de audio de M canales reconstruida, mientras que se puede emplear interpolacion pronunciada, i.e., en la que nuevos valores de los coeficientes de mezcla ascendente reemplazan a los antiguos valores de los coeficientes de mezcla ascendente en un cierto punto en el tiempo asociado con la transicion entre los formatos de codificacion, cuando la conmutacion rapida es importante para la impresion global de la senal de audio de M canales reconstruida.
En una realizacion ejemplar, los al menos dos formatos de codificacion pueden incluir un primer formato de codificacion y un segundo formato de codificacion. Hay una ganancia que controla una contribucion, en cada formato de codificacion, de un canal de la senal de audio de M canales a una de las combinaciones lineales a la que corresponden los canales de la senal de mezcla descendente. En la presente realizacion ejemplar, una ganancia en el primer formato de codificacion puede coincidir con una ganancia en el segundo formato de codificacion que controla una contribucion del mismo canal de la senal de audio de M canales.
Emplear las mismas ganancias en el primer y segundo formatos de codificacion puede por ejemplo aumentar la similitud entre el contenido de audio combinado de los canales de la senal de mezcla descendente en el primer formato de codificacion y el contenido de audio combinado de los canales de la senal de mezcla descendente en el segundo formato de codificacion. Puesto que los canales de la senal de mezcla descendente se utilizan para reconstruir la senal de mezcla descendente de M canales, esto puede contribuir a transiciones mas suaves entre estos dos formatos de codificacion, tal como es percibido por un oyente.
Emplear las mismas ganancias en el primer y segundo formatos de codificacion puede por ejemplo permitir que el contenido de audio del primer y segundo canales, respectivamente, de la senal de mezcla descendente en el primer formato de codificacion sea mas similar al contenido de audio del primer y segundo canales, respectivamente, de la senal de mezcla descendente en el segundo formato de codificacion. Esto puede contribuir a transiciones mas suaves entre estos dos formatos de codificacion, tal como es percibido por un oyente.
En la presente realizacion ejemplar, se pueden por ejemplo emplear diferentes ganancias para diferentes canales de la senal de audio de M canales. En un primer ejemplo, todas las ganancias en el primer y segundo formatos de codificacion tienen el valor 1. En el primer ejemplo, el primer y segundo canales de la senal de mezcla descendente pueden corresponder a sumas no ponderadas del primer y segundo grupos, respectivamente, tanto en el primer como en el segundo formato de codificacion. En un segundo ejemplo, al menos algunas de las ganancias pueden tener valores diferentes a 1. En el segundo ejemplo, el primer y segundo canales de la senal de mezcla descendente pueden corresponder a sumas ponderadas del primer y segundo grupos, respectivamente.
En una realizacion ejemplar, la senal de audio de M canales puede comprender tres canales que representan diferentes direcciones horizontales en un entorno de reproduccion para la senal de audio de M canales, y dos canales que representan direcciones verticalmente separadas de las de los tres canales en el entorno de reproduccion. En otras palabras, la senal de audio de M canales puede comprender tres canales destinados a la reproduccion por fuentes de audio situadas a sustancialmente la misma altura que un oyente (o el ofdo de un oyente) y/o que se propagan sustancialmente horizontalmente, y dos canales destinados a la reproduccion por fuentes de audio situadas a otras alturas y/o que se propagan (sustancialmente) de forma no horizontal. Los dos canales pueden por ejemplo representar direcciones elevadas.
En una realizacion ejemplar, en un primer formato de codificacion, el segundo grupo de canales puede comprender los dos canales que representan direcciones verticalmente separadas de las de los tres canales en el entorno de reproduccion. Tener estos dos canales en el segundo grupo, y emplear el mismo canal de la senal de mezcla descendente para representar estos dos canales, puede por ejemplo mejorar la fidelidad de la senal de audio de M canales reconstruida en casos donde una dimension vertical en el entorno de reproduccion es importante para la impresion global de la senal de audio de M canales.
En una realizacion ejemplar, en un primer formato de codificacion, el primer grupo de uno o mas canales puede comprender los tres canales que representan diferentes direcciones horizontales en un entorno de reproduccion de la senal de audio de M canales, y el segundo grupo de uno o mas canales puede comprender los dos canales que representan direcciones verticalmente separadas de las de los tres canales en el entono de reproduccion. En la presente realizacion ejemplar, el primer formato de codificacion permite que el primer canal de la senal de mezcla descendente represente los tres canales y el segundo canal de la senal de mezcla descendente represente los dos canales, lo que puede por ejemplo mejorar la fidelidad de la senal de audio de M canales reconstruida en casos donde una dimension vertical en el entorno de reproduccion es importante para la impresion global de la senal de audio de M canales.
En una realizacion ejemplar, en un segundo formato de codificacion, cada uno del primer y segundo grupos puede comprender uno de los dos canales que representan direcciones verticalmente separadas de las de los tres canales en un entorno de reproduccion de la senal de audio de M canales. Tener estos tres canales en diferentes grupos, y emplear los diferentes canales de la senal de mezcla descendente para representar estos dos canales, puede por ejemplo mejorar la fidelidad de la senal de audio de M canales reconstruida en casos donde una dimension vertical en el entorno de reproduccion no es tan importante para la impresion global de la senal de audio de M canales.
En una realizacion ejemplar, en un formato de codificacion, denominado en la presente memoria como un formato de codificacion particular, el primer grupo de uno o mas canales puede constar de N canales, donde N > 3. En la presente realizacion ejemplar, en respuesta a que el formato de codificacion indicado sea el formato de codificacion particular: los coeficientes de descorrelacion previa se pueden determinar de tal manera que se generan N - 1 canales de la senal descorrelacionada en base al primer canal de la senal de mezcla descendente; y los coeficientes de mezcla ascendente secos y humedos se pueden determinar de tal manera que el primer grupo de uno o mas canales se reconstruye como un mapeo lineal del primer canal de la senal de mezcla descendente y los N - 1 canales de la senal descorrelacionada, en donde un subconjunto de los coeficientes de mezcla ascendente secos se aplica al primer canal de la senal de mezcla descendente y un subconjunto de los coeficientes de mezcla ascendente humedos se aplica a los N - 1 canales de la senal descorrelacionada.
Los coeficientes de descorrelacion previa se pueden por ejemplo determinar de tal manera que N - 1 canales de la senal de entrada de descorrelacion coinciden con el primer canal de la senal de mezcla descendente. Los N - 1 canales de la senal descorrelacionada se pueden por ejemplo generar procesando estos N - 1 canales de la senal de entrada de descorrelacion.
El que el primer grupo de uno o mas canales se reconstruya como un mapeo lineal del primer canal de la senal de mezcla descendente y los N - 1 canales de la senal descorrelacionada significa que una version reconstruida del primer grupo de uno o mas canales se obtiene aplicando una transformacion lineal al primer canal de la senal de mezcla descendente y los N - 1 canales de la senal descorrelacionada. Esta transformacion lineal toma N canales como entrada y proporciona N canales como salida, donde el subconjunto de los coeficientes de mezcla ascendente secos y el subconjunto de los coeficientes de mezcla ascendente humedos juntos constan de coeficientes que definen las propiedades cuantitativas de esta transformacion lineal.
En una realizacion ejemplar, los parametros de mezcla ascendente recibidos pueden incluir parametros de mezcla ascendente de un primer tipo, denominados en la presente memoria como parametros de mezcla ascendente humedos, y parametros de mezcla ascendente de un segundo tipo, denominados en la presente memoria como parametros de mezcla ascendente secos. En la presente realizacion ejemplar, determinar los conjuntos de coeficientes de mezcla ascendente humedos y secos, en el formato de codificacion particular, puede comprender: determinar, en base a los parametros de mezcla ascendente secos, el subconjunto de los coeficientes de mezcla ascendente secos; rellenar una matriz intermedia que tiene mas elementos que el numero de parametros de mezcla ascendente humedos recibidos, en base a los parametros de mezcla ascendente humedos recibidos y sabiendo que la matriz intermedia pertenece a una clase de matrices predefinidas; y obtener el subconjunto de los coeficientes de mezcla ascendente humedos multiplicando la matriz intermedia por una matriz predefinida, en donde el subconjunto de los coeficientes de mezcla ascendente humedos corresponde a la matriz que resulta de la multiplicacion e incluye mas coeficientes que el numero de elementos en la matriz intermedia.
En la presente realizacion ejemplar, el numero de coeficientes de mezcla ascendente humedos en el subconjunto de coeficientes de mezcla ascendente humedos es mayor que el numero de parametros de mezcla ascendente humedos recibidos. Aprovechando el conocimiento de la matriz predefinida y la clase de matrices predefinidas para obtener el subconjunto de coeficientes de mezcla ascendente humedos a partir de los parametros de mezcla ascendente humedos recibidos, se puede reducir la cantidad de informacion necesaria para la reconstruccion parametrica del primer grupo de uno o mas canales, permitiendo una reduccion de la cantidad de metadatos transmitidos junto con la senal de mezcla descendente desde un lado de codificador. Reduciendo la cantidad de datos necesarios para la reconstruccion parametrica, se puede reducir el ancho de banda requerido para la transmision de una representacion parametrica de la senal de audio de M canales, y/o el tamano de memoria requerido para almacenar tal representacion.
La clase de matrices predefinidas se puede asociar con propiedades conocidas de al menos algunos elementos de la matriz que son validas para todas las matrices de la clase, tal como ciertas relaciones entre algunos de los elementos de la matriz, o que algunos elementos de la matriz son cero. El conocimiento de estas propiedades permite rellenar la matriz intermedia en base a menos parametros de mezcla ascendente humedos que el numero total de elementos de la matriz en la matriz intermedia. El lado de decodificador tiene conocimiento al menos de las propiedades de, y las relaciones entre, los elementos que necesita para calcular todos los elementos de la matriz en base al menor numero parametros de mezcla ascendente humedos.
Como determinar y emplear la matriz predefinida y la clase de matrices predefinidas se describe en mas detalle en la pagina 16, lmea 15 a pagina 20, lmea 2 en la solicitud de patente provisional de EE.UU N° 61/974,544; primer inventor nombrado: Lars Villemoes; fecha de presentacion: 3 de abril de 20l4. Vease en particular la ecuacion (9) en la misma para ejemplos de la matriz predefinida.
En una realizacion ejemplar, los parametros de mezcla ascendente recibidos pueden incluir N(N - 1)/2 parametros de mezcla ascendente humedos. En la presente realizacion ejemplar, rellenar la matriz intermedia puede incluir obtener valores para (N - 1)2 elementos de la matriz en base a los N(N - 1)/2 parametros de mezcla ascendente humedos recibidos y saber que la matriz intermedia pertenece a la clase de matrices predefinidas. Esto puede incluir insertar los valores de los parametros de mezcla ascendente humedos inmediatamente como elementos de la matriz, o procesar los parametros de mezcla ascendente humedos de manera adecuada para obtener los valores para los elementos de la matriz. En la presente realizacion ejemplar, la matriz predefinida puede incluir N(N - 1) elementos, y el subconjunto de los coeficientes de mezcla ascendente humedos puede incluir N(N - 1) coeficientes. Por ejemplo, los parametros de mezcla ascendente recibidos pueden incluir no mas de N(N - 1)/2 parametros de mezcla ascendente humedos asignables independientemente y/o el numero de parametros de mezcla ascendente humedos puede ser no mas de la mitad del numero de coeficientes de mezcla ascendente humedos en el subconjunto de coeficientes de mezcla ascendente humedos.
En una realizacion ejemplar, los parametros de mezcla ascendente recibidos pueden incluir (N - 1) parametros de mezcla ascendente secos. En la presente realizacion ejemplar, el subconjunto de los coeficientes de mezcla ascendente secos puede incluir N coeficientes, y el subconjunto de los coeficientes de mezcla ascendente secos se puede determinar en base a los (N - 1) parametros de mezcla ascendente secos recibidos y en base a una relacion predefinida entre los coeficientes en el subconjunto de los coeficientes de mezcla ascendente secos. Por ejemplo, los parametros de mezcla ascendente recibidos pueden incluir no mas de (N - 1 ) parametros de mezcla ascendente secos asignables independientemente.
En una realizacion ejemplar, la clase de matrices predefinidas puede ser una de: matrices triangulares inferiores o superiores, en donde las propiedades conocidas de todas las matrices de la clase incluyen que algunos elementos de la matriz predefinida son cero; matrices simetricas, en donde las propiedades conocidas de todas las matrices de la clase incluyen que algunos elementos de la matriz predefinida (a cada lado de la diagonal principal) son iguales; y productos de una matriz ortogonal y una matriz diagonal, en donde las propiedades conocidas de todas las matrices de la clase incluyen relaciones conocidas entre los elementos de la matriz predefinida. En otras palabras, la clase de matrices predefinidas puede ser la clase de matrices triangulares inferiores, la clase de matrices triangulares superiores, la clase de matrices simetricas o la clase de productos de una matriz ortogonal y una matriz diagonal. Una propiedad comun de cada una de las clases anteriores es que su dimensionalidad es menor que el numero total de elementos de la matriz.
En una realizacion ejemplar, la matriz predefinida y/o la clase de matrices predefinidas se puede asociar con el formato de codificacion indicado, p.ej., permitiendo que el metodo de decodificacion ajuste la determinacion del conjunto de coeficientes de mezcla ascendente humedos en consecuencia.
Segun las realizaciones ejemplares, se proporciona un metodo de decodificacion de audio que comprende: recibir senalizacion que indica una de al menos dos configuraciones de canales predefinidas; en respuesta a la deteccion de la senalizacion recibida que indica una primera configuracion de canales predefinida, realizar cualquiera de los metodos de decodificacion de audio del primer aspecto. El metodo de decodificacion de audio puede comprender, en respuesta a la deteccion de la senalizacion recibida que indica una segunda configuracion de canales predefinida: recibir una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados; realizar la reconstruccion parametrica de una primera senal de audio de tres canales en base a un primer canal de la senal de mezcla descendente y al menos algunos de los parametros de mezcla ascendente; y realizar la reconstruccion parametrica de una segunda senal de audio de tres canales en base a un segundo canal de la senal de mezcla descendente y al menos algunos de los parametros de mezcla ascendente.
La primera configuracion de canales predefinida puede corresponder a la senal de audio de M canales representada por la senal de mezcla descendente de dos canales recibida y los parametros de mezcla ascendente asociados. La segunda configuracion de canales predefinida puede corresponder a la primera y segunda senales de audio de tres canales representadas por el primer y segundo canales de la senal de mezcla descendente recibida, respectivamente, y por los parametros de mezcla ascendente asociados.
La capacidad de recibir senalizacion que indica una de al menos dos configuraciones de canales predefinidas, y de realizar la reconstruccion parametrica en base a la configuracion de canales indicada, puede permitir que se emplee un formato comun para un medio legible por ordenador que porta una representacion parametrica de la senal de audio de M canales o las dos senales de audio de tres canales, desde un lado de codificador a un lado de decodificador.
Segun las realizaciones ejemplares, se proporciona un sistema de decodificacion de audio que comprende una seccion de decodificacion configurada para reconstruir una senal de audio de M canales en base a una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, donde M > 4. El sistema de decodificacion de audio comprende una seccion de control configurada para recibir senalizacion que indica uno seleccionado de al menos dos formatos de codificacion de la senal de audio de M canales. Los formatos de codificacion corresponden a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos de uno o mas canales. En el formato de codificacion indicado, un primer canal de la senal de mezcla descendente corresponde a una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales, y un segundo canal de la senal de mezcla descendente corresponde a una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales. La seccion de decodificacion comprende: una seccion de descorrelacion previa configurada para determinar un conjunto de coeficientes de descorrelacion previa en base al formato de codificacion indicado, y calcular una senal de entrada de descorrelacion como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de descorrelacion previa se aplica a la senal de mezcla descendente; y una seccion de descorrelacion configurada para generar una senal descorrelacionada en base a la senal de entrada de descorrelacion. La seccion de decodificacion comprende una seccion de mezcla configurada para: determinar conjuntos de coeficientes de mezcla ascendente humedos y secos en base a los parametros de mezcla ascendente recibidos y el formato de codificacion indicado; calcular una senal de mezcla ascendente seca como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de mezcla ascendente secos se aplica a la senal de mezcla descendente; calcular una senal de mezcla ascendente humeda como un mapeo lineal de la senal descorrelacionada, en donde el conjunto de coeficientes de mezcla ascendente humedos se aplica a la senal descorrelacionada; y combinar las senales de mezcla ascendente secas y humedas para obtener una senal reconstruida multidimensional correspondiente a la senal de audio de M canales a reconstruir.
En una realizacion ejemplar, el sistema de decodificacion de audio puede comprender ademas una seccion de decodificacion adicional configurada para reconstruir una senal de audio de M canales adicional en base a una senal de mezcla descendente de dos canales adicional y los parametros de mezcla ascendente adicionales asociados. La seccion de control se puede configurar para recibir senalizacion que indica uno seleccionado de al menos dos formatos de codificacion de la senal de audio de M canales adicional. Los formatos de codificacion de la senal de audio de M canales adicional puede corresponder a respectivas particiones diferentes de los canales de la senal de audio de M canales adicional en respectivos primer y segundo grupos de uno o mas canales. En el formato de codificacion indicado de la senal de audio de M canales adicional, un primer canal de la senal de mezcla descendente adicional puede corresponder a una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales adicional, y un segundo canal de la senal de mezcla descendente adicional puede corresponder a una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales adicional. La seccion de decodificacion adicional puede comprender: una seccion de descorrelacion previa adicional configurada para determinar un conjunto de coeficientes de descorrelacion previa adicional en base al formato de codificacion indicado de la senal de audio de M canales adicional, y calcular una senal de entrada de descorrelacion adicional como un mapeo lineal de la senal de mezcla descendente adicional, en donde el conjunto de coeficientes de descorrelacion previa adicional se aplica a la senal de mezcla descendente adicional; y una seccion de descorrelacion adicional configurada para generar una senal descorrelacionada adicional en base a la senal de entrada de descorrelacion adicional. La seccion de decodificacion adicional puede comprender ademas una seccion de mezcla adicional configurada para : determinar conjuntos de coeficientes de mezcla ascendente humedos y secos adicionales en base a los parametros de mezcla ascendente adicionales recibidos y el formato de codificacion indicado de la senal de audio de M canales adicional; calcular una senal de mezcla ascendente seca adicional como un mapeo lineal de la senal de mezcla descendente adicional, en donde el conjunto de coeficientes de mezcla ascendente secos adicional se aplica a la senal de mezcla descendente adicional; calcular una senal de mezcla ascendente humeda adicional como un mapeo lineal de la senal descorrelacionada adicional, en donde el conjunto de coeficientes de mezcla ascendente humedos adicional se aplica a la senal descorrelacionada adicional; y combinar las senales de mezcla ascendente secas y humedas adicionales para obtener una senal reconstruida multidimensional adicional correspondiente a la senal de audio de M canales adicional a reconstruir.
En la presente realizacion ejemplar, la seccion de decodificacion adicional, la seccion de descorrelacion previa adicional, la seccion de descorrelacion adicional y la seccion de mezcla adicional pueden por ejemplo ser operables independientemente de la seccion de decodificacion, la seccion de descorrelacion previa, la seccion de descorrelacion y la seccion de mezcla.
En la presente realizacion ejemplar, la seccion de decodificacion adicional, la seccion de descorrelacion previa adicional, la seccion de descorrelacion adicional y la seccion de mezcla adicional pueden por ejemplo ser funcionalmente equivalentes a (o estar analogamente configuradas como) la seccion de decodificacion, la seccion de descorrelacion previa, la seccion de descorrelacion y la seccion de mezcla, respectivamente. Alternativamente, al menos una de la seccion de decodificacion adicional, la seccion de descorrelacion previa adicional, la seccion de descorrelacion adicional y la seccion de mezcla adicional se pueden por ejemplo configurar para realizar al menos un tipo diferente de interpolacion que la realizada por la seccion correspondiente de la seccion de decodificacion, la seccion de descorrelacion previa, la seccion de descorrelacion y la seccion de mezcla.
Por ejemplo, la senalizacion recibida puede indicar diferentes formates de codificacion para la senal de audio de M canales y la senal de audio de M canales adicional. Alternativamente, los formates de codificacion de las dos senales de audio de M canales pueden por ejemplo coincidir siempre, y la senalizacion recibida puede indicar uno seleccionado de al menos dos formates de codificacion comunes para las dos senales de audio de M canales.
Los esquemas de interpolacion empleados para las transiciones graduales entre los coeficientes de descorrelacion previa, en respuesta a la conmutacion entre formatos de codificacion de la senal de audio de M canales, pueden coincidir con, o ser diferentes de los esquemas de interpolacion empleados las para transiciones graduales entre los coeficientes de descorrelacion previa adicionales, en respuesta a la conmutacion entre formatos de codificacion de la senal de audio de M canales adicional.
Similarmente, los esquemas de interpolacion empleados para la interpolacion de valores de los coeficientes de mezcla ascendente humedos y secos, en respuesta a la conmutacion entre formatos de codificacion de la senal de audio de M canales, pueden coincidir con, o ser diferentes de los esquemas de interpolacion empleados para la interpolacion de valores de los coeficientes de mezcla ascendente humedos y secos adicionales, en respuesta a la conmutacion entre formatos de codificacion de la senal de audio de M canales adicional.
En una realizacion ejemplar, el sistema de decodificacion de audio puede comprender ademas un demultiplexor configurado para extraer, de un flujo de bis, la senal de mezcla descendente, los parametros de mezcla ascendente asociados con la senal de mezcla descendente, y un canal de audio codificado de manera discreta. El sistema de decodificacion puede comprender ademas una seccion de decodificacion de un solo canal operable para decodificar el canal de audio codificado de manera discreta. El canal de audio codificado de manera discreta se puede por ejemplo codificar en el flujo de bits utilizando un codec de audio perceptual tal como Dolby Digital, MPEG Aa C, o desarrollos de los mismos, y la seccion de decodificacion de un solo canal puede por ejemplo comprender un decodificador central para decodificar el canal de audio codificado de manera discreta. La seccion de decodificacion de un solo canal puede por ejemplo ser operable para decodificar el canal de audio codificado de manera discreta independientemente de la seccion de decodificacion.
Segun las realizaciones ejemplares, se proporciona un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para realizar cualquiera de los metodos del primer aspecto.
II. Vision general - Lado de codificador
Segun un segundo aspecto, las realizaciones ejemplares proponen sistemas de codificacion de audio asf como metodos de codificacion de audio y productos de programa de ordenador asociados. Los sistemas de codificacion, metodos y productos de programa de ordenador propuestos, segun el segundo aspecto, pueden en general compartir las mismas caractensticas y ventajas. Ademas, las ventajas presentadas anteriormente para las caractensticas de los sistemas de decodificacion, metodos y productos de programa de ordenador, segun el primer aspecto, pueden en general ser validas para las caractensticas correspondientes de los sistemas de codificacion, metodos y productos de programas de ordenador segun el segundo aspecto.
Segun las realizaciones ejemplares, se proporciona un metodo de codificacion de audio que comprende: recibir una senal de audio de M canales, para la que M > 4. El metodo de codificacion de audio comprende seleccionar repetidamente uno de al menos dos formatos de codificacion en base a cualquier criterio de seleccion adecuado, p.ej., propiedades de la senal, carga del sistema, preferencia del usuario, condiciones de la red. La seleccion se puede repetir una vez para cada trama de tiempo de la senal de audio o una vez para cada trama de tiempo enesima, posiblemente conduciendo a la seleccion de un formato diferente del elegido inicialmente; alternativamente, la seleccion puede ser accionada por evento. Los formatos de codificacion corresponden a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos de uno o mas canales. En cada uno de los formatos de codificacion, una senal de mezcla descendente de dos canales incluye un primer canal formado como una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales, y un segundo canal formado como una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales. Para el formato de codificacion seleccionado, se calcula el canal de mezcla descendente en base a la senal de audio de M canales. Una vez calculado, la senal de mezcla descendente del formato de codificacion actualmente seleccionado es emitida, como lo es la senalizacion que indica el formato de codificacion actualmente seleccionado e informacion lateral que permite la reconstruccion parametrica de la senal de audio de M canales. Si la seleccion da como resultado un cambio de un primer formato de codificacion seleccionado a un segundo formato de codificacion seleccionado distinto, se puede iniciar una transicion, por lo que se emite un desvanecimiento cruzado de la senal de mezcla descendente segun el primer formato de codificacion seleccionado y la senal de mezcla descendente segun el segundo formato de codificacion seleccionado. En este contexto, un desvanecimiento cruzado puede ser una interpolacion de tiempo lineal o no lineal de dos senales. Como ejemplo,
y(t) = txi(t) (1-t) x2(t), t e [0,1]
proporciona un desvanecimiento cruzado y de la funcion X2 a la funcion xi linealmente a lo largo del tiempo, en donde xi, x2 pueden ser funciones de valor vectorial de tiempo que representan las senales de mezcla descendente segun los respectivos formates de codificacion. Para simplificar la notacion, el intervalo de tiempo, sobre el que se lleva a cabo el desvanecimiento cruzado, se ha reajustado a [0,1], en donde t= 0 representa el comienzo del desvanecimiento cruzado y t= 1 representa el punto en el tiempo en el que se ha completado el desvanecimiento cruzado.
La ubicacion de los puntos t= 0 y t = 1 en unidades ffsicas puede ser importante para la calidad de salida percibida del audio reconstruido. Como una posible directriz para ubicar el desvanecimiento cruzado, el comienzo se puede producir tan pronto como sea posible despues de que se haya determinado la necesidad de un formato diferente, y/o el desvanecimiento cruzado se puede completar en el menor tiempo posible que sea perceptualmente imperceptible. Como tal, para las implementaciones donde la seleccion de un formato de codificacion se repite cada trama, algunas realizaciones ejemplares proporcionan que el desvanecimiento cruzado comience (t=0) al comienzo de la trama, y tenga su punto final (t=1) tan cerca como sea posible pero lo suficientemente distante como para que un oyente promedio sea incapaz de notar los artefactos o degradaciones debidas a una transicion entre dos reconstrucciones de una senal de audio de M canales comun (con contenido tfpico) en base a dos formatos de codificacion distintos. En una realizacion ejemplar, la senal de mezcla descendente emitida por el metodo de codificacion de audio es segmentada en tramas de tiempo y un desvanecimiento cruzado puede ocupar una trama. En otra realizacion ejemplar, la senal de mezcla descendente emitida por el metodo de codificacion de audio es segmentada en tramas de tiempo que se solapan y la duracion de un desvanecimiento cruzado corresponde al paso de una trama de tiempo a la siguiente.
En las realizaciones ejemplares, la senalizacion que indica el formato de codificacion actualmente seleccionado se puede codificar en una base de una trama por trama. Alternativamente, la senalizacion puede ser diferencial de tiempo en el sentido de que tal senalizacion se puede omitir en una o mas tramas consecutivas si no hay ningun cambio en el formato de codificacion seleccionado. En el lado de decodificador, tal secuencia de tramas se puede interpretar que significa que el formato de codificacion senalizado mas recientemente permanece seleccionado.
Dependiendo del contenido de audio de la senal de audio de M canales, pueden ser adecuadas diferentes particiones de los canales de la senal de audio de M canales en primer y segundo grupos, representadas por los respectivos canales de la senal de mezcla descendente, para capturar y codificar eficientemente la senal de audio de M canales, y para preservar la fidelidad cuando se reconstruye esta senal a partir de la senal de mezcla descendente y los parametros de mezcla ascendente asociados. La fidelidad de la senal de audio de M canales reconstruida se puede por lo tanto aumentar seleccionando un formato de codificacion apropiado, concretamente el mas adecuado de una serie de formatos de codificacion predefinidos.
En una realizacion ejemplar, la informacion lateral incluye coeficientes de mezcla ascendente secos y humedos, en el mismo sentido que se han utilizado estos terminos anteriormente en esta descripcion. Salvo por razones de implementacion espedficas, es generalmente suficiente calcular la informacion lateral (en particular, los coeficientes de mezcla ascendente secos y humedos) para el formato de codificacion actualmente seleccionado. En particular, el conjunto de coeficientes de mezcla ascendente secos (que se puede representar como una matriz de dimensiones M x 2) puede definir un mapeo lineal de la respectiva senal de mezcla descendente que se aproxima a la senal de audio de M canales. El conjunto de coeficientes de mezcla ascendente humedos (que se puede representar como una matriz de dimensiones M x P, donde P, el numero de descorreladores, se puede establecer a P = M - 2) define un mapeo lineal de la senal descorrelacionada de tal manera que una covarianza de la senal obtenida por dicho mapeo lineal de la senal descorrelacionada suplementa una covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente del formato de codificacion seleccionado. El mapeo de la senal descorrelacionada que define el conjunto de coeficientes de mezcla ascendente humedos suplementara la covarianza de la senal de audio de M canales (aproximada) en el sentido de que la covarianza de la suma de la senal de audio de M canales y el mapeo de la senal descorrelacionada es tipicamente mas proxima a la covarianza de la senal de audio de M canales recibida. Un efecto de anadir la covarianza suplementaria puede ser una fidelidad mejorada de una senal reconstruida en el lado de decodificador.
El mapeo lineal de la senal de mezcla descendente proporciona una aproximacion de la senal de audio de M canales. Al reconstruir la senal de audio de M canales en un lado de decodificador, la senal descorrelacionada se emplea para aumentar la dimensionalidad del contenido de audio de la senal de mezcla descendente, y la senal obtenida por el mapeo lineal de la senal descorrelacionada se combina con la senal obtenida por el mapeo lineal de la senal de mezcla descendente para mejorar la fidelidad de la aproximacion de la senal de audio de M canales. Dado que la senal descorrelacionada se determina en base a al menos un canal de la senal de mezcla descendente, y no comprende ningun contenido de audio de la senal de audio de M canales que no este ya disponible en la senal de mezcla descendente, la diferencia entre la covarianza de la senal de audio de M canales recibida y la covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente, puede ser indicativa no solo de una fidelidad de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente, sino tambien de una fidelidad de la senal de audio de M canales reconstruida utilizando tanto la senal de mezcla descendente como la senal descorrelacionada. En particular, una diferencia reducida entre la covarianza de la senal de audio de M canales recibida y la covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente puede ser indicativa de una fidelidad mejorada de la senal de audio de M canales reconstruida. El mapeo de la senal descorrelacionada que define el conjunto de coeficientes de mezcla ascendente humedos suplementa la covarianza de la senal de audio de M canales (obtenida a partir de la senal de mezcla descendente) en el sentido de que la covarianza de la suma de la senal de audio de M canales y el mapeo de la senal descorrelacionada es mas proxima a la covarianza de la senal de audio de M canales recibida. Seleccionar uno de los formatos de codificacion en base a las respectivas diferencias calculadas permite por lo tanto mejorar la fidelidad de la senal de audio de M canales reconstruida.
Se apreciara que se puede seleccionar el formato de codificacion p.ej., directamente en base a las diferencias calculadas, o en base a los coeficientes y/o valores determinados en base a las diferencias calculadas.
Tambien se apreciara que se puede seleccionar el formato de codificacion en base a p.ej., los respectivos parametros de mezcla ascendente secos calculados ademas de las respectivas diferencias calculadas.
El conjunto de coeficientes de mezcla ascendente secos se puede por ejemplo determinar a traves de una aproximacion del error cuadratico medio mmimo bajo la suposicion de que solo esta disponible para la reconstruccion la senal de mezcla descendente, i.e., bajo la suposicion de que la senal descorrelacionada no se emplea para la reconstruccion.
Las diferencias calculadas pueden por ejemplo ser diferencias entre una matriz de covarianza de la senal de audio de M canales recibida y las matrices de covarianza de la senal de audio de M canales aproximada por los respectivos mapeos lineales de la senal de mezcla descendente de los diferentes formatos de codificacion. Seleccionar uno de los formatos de codificacion puede por ejemplo incluir calcular las normas de la matriz para las respectivas diferencias entre las matrices de covarianza, y seleccionar uno de los formatos de codificacion en base a las normas de la matriz calculadas, p.ej., seleccionar un formato de codificacion asociado con una minima de las normas de la matriz calculadas.
La senal descorrelacionada puede por ejemplo incluir al menos un canal y como maximo M - 2 canales.
El que el conjunto de coeficientes de mezcla ascendente secos defina un mapeo lineal de la senal de mezcla descendente que se aproxima a la senal de mezcla descendente de M canales significa que se obtiene una aproximacion de la senal de mezcla descendente de M canales aplicando una transformacion lineal a la senal de mezcla descendente. Esta transformacion lineal toma los dos canales de la senal de mezcla descendente como entrada y proporciona M canales como salida, y los coeficientes de mezcla ascendente secos son coeficientes que definen las propiedades cuantitativas de esta transformacion lineal.
Similarmente, los parametros de mezcla ascendente humedos definen las propiedades cuantitativas de una transformacion lineal que toma el(los) canal(es) de la senal descorrelacionada como entrada, y proporciona M canales como salida.
En una realizacion ejemplar, los parametros de mezcla ascendente humedos se pueden determinar de tal manera que una covarianza de la senal obtenida por el mapeo lineal (que definen los parametros de mezcla ascendente humedos) de la senal descorrelacionada se aproxima a una diferencia entre la covarianza de la senal de audio de M canales recibida y una covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente del formato de codificacion seleccionado. Puesto de manera diferente, la covarianza de una suma de un primer mapeo lineal (definido por los parametros de mezcla ascendente secos) de la senal de mezcla descendente y un segundo mapeo lineal (definido por los parametros de mezcla ascendente humedos, determinados de acuerdo con esta realizacion ejemplar) de la senal descorrelacionada sera proxima a la covarianza de la senal de audio de M canales que constituye la entrada al metodo de codificacion de audio descrito anteriormente en la presente memoria. Determinar los coeficientes de mezcla ascendente humedos de acuerdo con la presente realizacion ejemplar puede mejorar la fidelidad de la senal de audio de M canales reconstruida.
Alternativamente, los parametros de mezcla ascendente humedos se pueden determinar de tal manera que una covarianza de la senal obtenida por el mapeo lineal de la senal descorrelacionada se aproxima a una porcion de una diferencia entre la covarianza de la senal de audio de M canales recibida y una covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente del formato de codificacion seleccionado. Si, por ejemplo, un numero limitado de descorreladores estan disponibles en un lado de decodificador, puede no ser posible reestablecer completamente la covarianza de la senal de audio de M canales recibida. En tal ejemplo, los parametros de mezcla ascendente humedos adecuados para la reconstruccion parcial de la covarianza de la senal de audio de M canales, empleando un numero reducido de descorreladores, se pueden determinar en el lado de codificador.
En una realizacion ejemplar, el metodo de codificacion de audio puede comprender ademas, para cada uno de los al menos dos formatos de codificacion: determinar un conjunto de coeficientes de mezcla ascendente humedos que junto con los coeficientes de mezcla ascendente secos (de ese formato de codificacion) permita la reconstruccion parametrica de la senal de audio de M canales a partir de la senal de mezcla descendente (de ese formato de codificacion) y a partir de una senal descorrelacionada determinada en base a la senal de mezcla descendente (de ese formato), en donde el conjunto de coeficientes de mezcla ascendente humedos define un mapeo lineal de la senal descorrelacionada de tal manera que una covarianza de una senal obtenida por el mapeo lineal de la senal descorrelacionada se aproxima a una diferencia entre la covarianza de la senal de audio de M calanes recibida y una covarianza de la senal de audio de M canales aproximada por el mapeo lineal de la senal de mezcla descendente (en ese formato). En la presente realizacion ejemplar, el formato de codificacion seleccionado se puede seleccionar en base a los valores de los respectivos conjuntos determinados de coeficientes de mezcla ascendente humedos.
Una indicacion de la fidelidad de la senal de audio de M canales reconstruida se puede por ejemplo obtener en base a los coeficientes de mezcla ascendente humedos determinados. La seleccion de un formato de codificacion se puede por ejemplo basar en sumas ponderadas o no ponderadas de los coeficientes de mezcla ascendente humedos determinados, en sumas ponderadas o no ponderadas de magnitudes de los coeficientes de mezcla ascendente humedos determinados, y/o en sumas ponderadas o no ponderadas de cuadrados de los coeficientes de mezcla ascendente humedos determinados, p.ej., tambien en base a las sumas correspondientes de los respectivos coeficientes de mezcla ascendente secos calculados.
Los parametros de mezcla ascendente humedos se pueden por ejemplo calcular para una pluralidad de bandas de frecuencia de la senal de M canales, y la seleccion de un formato de codificacion se puede por ejemplo basar en los valores de los respectivos conjuntos determinados de coeficientes de mezcla ascendente humedos en las respectivas bandas de frecuencia.
En una realizacion ejemplar, una transicion entre un primer y un segundo formato de codificacion incluye emitir valores discretos de los coeficientes de mezcla ascendente secos y humedos del primer formato de codificacion en una trama de tiempo y del segundo formato de codificacion en una trama de tiempo posterior. Las funcionalidades en un decodificador que finalmente reconstruye la senal de M canales pueden incluir interpolacion de los coeficientes de mezcla ascendente entre los valores discretos de salida. En virtud de tales funcionalidades del lado de decodificador, resultara de manera efectiva un desvanecimiento cruzado del primer al segundo formato de codificacion. Como el desvanecimiento cruzado aplicado a la senal de mezcla descendente, como se describio anteriormente, tal desvanecimiento cruzado puede conducir a una transicion menos perceptible entre los formatos de codificacion cuando se reconstruye la senal de audio de M canales.
Se entiende que los coeficientes empleados para calcular la senal de mezcla descendente en base a la senal de audio de M canales se pueden interpolar, i.e., a partir de valores asociados con una trama donde la senal de mezcla descendente se calcula segun un primer formato de codificacion, a valores asociados con una trama donde la senal de mezcla descendente se calcula segun el segundo formato de codificacion. Al menos si la mezcla descendente tiene lugar en el dominio del tiempo, un desvanecimiento cruzado de mezcla descendente resultante de la interpolacion de coeficientes del tipo indicado sera equivalente a un desvanecimiento cruzado resultante de la interpolacion realizada directamente sobre las respectivas senales de mezcla descendente. Se recuerda que los valores de los coeficientes empleados para calcular la senal de mezcla descendente tipicamente no son dependientes de la senal sino que pueden ser predefinidos para cada uno de los formatos de codificacion disponibles.
Volviendo al desvanecimiento cruzado de la senal de mezcla descendente y los coeficientes de mezcla ascendente, se considera ventajoso asegurar la sincronicidad entre los dos desvanecimientos cruzados. Preferiblemente, los respectivos periodos de transicion para la senal de mezcla descendente y los coeficientes de mezcla ascendente pueden coincidir. En particular, las entidades responsables de los respectivos desvanecimientos cruzados pueden ser controladas por un flujo comun de datos de control. Tales datos de control pueden incluir puntos de inicio y puntos de finalizacion del desvanecimiento cruzado, y opcionalmente una forma de onda de desvanecimiento cruzado, tal como lineal, no lineal, etc. En el caso de los coeficientes de mezcla ascendente, la forma de onda de desvanecimiento cruzado puede ser dada por una regla de interpolacion predeterminada que rige el comportamiento de un dispositivo de decodificacion; los puntos de inicio y finalizacion de los desvanecimientos cruzados pueden sin embargo ser controlados implfcitamente por las posiciones en las que se definen y/o emiten los valores discretos de los coeficientes de mezcla ascendente. La similitud en la dependencia del tiempo de los dos procesos de desvanecimiento cruzado asegura una buena correspondencia entre la senal de mezcla descendente y los parametros proporcionados para su reconstruccion, lo que puede conducir a una reduccion de artefactos en el lado de decodificador.
En una realizacion ejemplar, la seleccion de un formato de codificacion se basa en comparar la diferencia, en terminos de covarianza, de la senal de M canales recibida y la senal de M canales reconstruida en base a la senal de mezcla descendente. En particular, la reconstruccion puede ser igual a un mapeo lineal de la senal de mezcla descendente definida por los coeficientes de mezcla ascendente secos solamente, es decir, sin una contribucion de una senal que ha sido determinada utilizando descorrelacion (p.ej., para aumentar la dimensionalidad del contenido de audio de la senal de mezcla descendente). En particular, no se debe considerar en la comparacion ninguna contribucion del mapeo lineal definido por cualquier conjunto de coeficientes de mezcla ascendente humedos. Dicho de otra manera, la comparacion se hace como si no hubiera estado disponible ninguna senal descorrelacionada. Esta base para la seleccion puede favorecer un formato de codificacion que actualmente permite una reproduccion mas fiel. Opcionalmente, despues de que se haya realizado esta comparacion y se haya tomado una decision en cuanto a la seleccion de un formato de codificacion, se determina un conjunto de coeficientes de mezcla ascendente humedos.
Una ventaja asociada con este proceso es que no hay determinacion duplicada de los coeficientes de mezcla ascendente humedos para una seccion dada de la senal de audio de M canales recibida.
En una variacion de la realizacion ejemplar descrita en el parrafo anterior, se calculan los coeficientes de mezcla ascendente secos y humedos para todos los formatos de codificacion y se utiliza una medida cuantitativa de los coeficientes de mezcla ascendente humedos como base para la seleccion de un formato de codificacion. De hecho, una cantidad calculada en base a los coeficientes de mezcla ascendente humedos determinados puede proporcionar una indicacion (inversa) de la fidelidad de la senal de audio de M canales reconstruida. La seleccion de un formato de codificacion se puede por ejemplo basar en sumas ponderadas o no ponderadas de los coeficientes de mezcla ascendente humedos determinados, en sumas ponderadas o no ponderadas de magnitudes de los coeficientes de mezcla ascendente humedos determinados, y/o en sumas ponderadas o no ponderadas de cuadrados de los coeficientes de mezcla ascendente humedos determinados. Cada una de estas opciones se puede combinar con las sumas correspondientes de los respectivos coeficientes de mezcla ascendente secos calculados. Los parametros de mezcla ascendente humedos se pueden por ejemplo calcular para una pluralidad de bandas de frecuencia de la senal de M canales, y la seleccion de un formato de codificacion se puede por ejemplo basar en valores de los respectivos conjuntos determinados de coeficientes de mezcla ascendente humedos en las respectivas bandas de frecuencia.
En una realizacion ejemplar, el metodo de decodificacion de audio puede comprender ademas: para cada uno de los al menos dos formatos de codificacion, calcular una suma de cuadrados de los coeficientes de mezcla ascendente humedos correspondientes y una suma de cuadrados de los coeficientes de mezcla ascendente secos correspondientes. En la presente realizacion ejemplar, el formato de codificacion seleccionado se puede seleccionar en base a las sumas de cuadrados calculadas. Lon inventores se han dado cuenta de que las sumas calculadas de cuadrados pueden proporcionar una indicacion particularmente buena de la perdida de fidelidad, tal como es percibida por un oyente, que se produce cuando se reconstruye la senal de audio de M canales en base a la mezcla de las contribuciones humedas y secas.
Por ejemplo, se puede formar una relacion para cada formato de codificacion, en base a las sumas de cuadrados calculadas para el respectivo formato de codificacion, y el formato de codificacion seleccionado se puede asociar con una minima o maxima de las relaciones formadas. Formar una relacion puede por ejemplo incluir dividir, por un lado, una suma de cuadrados de los coeficientes de mezcla ascendente humedos por, por otro lado, una suma de una suma de cuadrados de los coeficientes de mezcla ascendente secos y una suma de cuadrados de los coeficientes de mezcla ascendente humedos. Alternativamente, se puede formar la relacion dividiendo una suma de cuadrados de los coeficientes de mezcla ascendente humedos por una suma de cuadrados de los coeficientes de mezcla ascendente secos.
En una realizacion ejemplar, el metodo proporciona codificacion de una senal de audio de M canales y al menos una senal de audio (de M2 canales) asociada. Las senales de audio se pueden asociar en el sentido de que describen una escena de audio comun, p.ej., por haber sido grabadas simultaneamente o generadas en un proceso de creacion comun. Las senales de audio no necesitan ser codificadas por medio de una senal de mezcla descendente comun, sino que se pueden codificar en procesos separados. En tal configuracion, la seleccion de uno de los formatos de codificacion tiene en cuenta adicionalmente los datos relativos a dicho al menos un canal de audio adicional, y el formato de codificacion asf seleccionado se debe utilizar para codificar tanto la senal de audio de M canales como la senal de audio (de M2 canales) asociada.
En una realizacion ejemplar, la senal de mezcla descendente emitida por el metodo de codificacion de audio se puede segmentar en tramas de tiempo, la seleccion de un formato de codificacion se puede realizar una vez por trama, y el formato de codificacion seleccionado se puede mantener durante al menos un numero predefinido de tramas de tiempo antes de que se seleccione un formato de codificacion diferente. La seleccion de un formato de codificacion para una trama se puede realizar por cualquiera de los metodos indicados anteriormente, p.ej., teniendo en cuenta las diferencias entre las covarianzas, teniendo en cuenta los valores de los coeficientes de mezcla ascendente humedos para los formatos de codificacion disponibles, y similares. Manteniendo el formato de codificacion seleccionado para un numero mmimo de tramas de tiempo, se pueden por ejemplo evitar saltos repetidos hacia atras y hacia adelante entre formatos de codificacion. La presente realizacion ejemplar puede por ejemplo mejorar la calidad de reproduccion, tal como es percibida por un oyente, de la senal de audio de M canales reconstruida.
El numero mmimo de tramas de tiempo puede ser por ejemplo 10.
La senal de audio de M canales recibida se puede por ejemplo almacenar en memoria intermedia para el numero mmimo de tramas de tiempo, y la seleccion de un formato de codificacion se puede por ejemplo realizar en base a una decision por mayona sobre una ventana movil que comprende un numero de tramas de tiempo elegidas en vista de dicho numero mmimo de tramas que un formato de codificacion seleccionado se debe mantener. Una implementacion de tal funcionalidad estabilizadora puede incluir uno de los diversos filtros de suavizado, en particular filtros de suavizado de respuesta finita al impulso que son conocidos en el procesamiento de senales digitales. Como alternativa a este enfoque, el formato de codificacion se puede conmutar a un nuevo formato de codificacion cuando se descubre que se ha seleccionado el nuevo formato de codificacion para dicho numero mmimo de tramas en la secuencia. Para hacer cumplir este criterio, se puede aplicar una ventana de tiempo movil con el numero mmimo de tramas consecutivas a las selecciones de formato de codificacion anteriores, p.ej., para las tramas almacenadas en memoria intermedia. Si, despues de una secuencia de tramas de un primer formato de codificacion, ha permanecido seleccionado un segundo formato de codificacion para cada trama dentro de la ventana movil, la transicion al segundo formato de codificacion se confirma y tiene efecto desde el comienzo de la ventana movil hacia adelante. Una implementacion de la funcionalidad estabilizadora anterior puede incluir una maquina de estado.
En una realizacion ejemplar, se proporciona una representacion compacta de los parametros de mezcla ascendente secos y humedos, que entre otras cosas incluye generar una matriz intermedia que en virtud de pertenecer a una clase de matrices predefinidas esta determinada de manera unica por un numero mas pequeno de parametros que los elementos en la matriz. Los aspectos de esta representacion compacta se han descrito en secciones anteriores de esta descripcion, y con particular referencia a la Solicitud de Patente Provisional de EE.UU. N° 61/974,544, primer inventor nombrado: Lars Villemoes; fecha de presentacion: 3 de abril de 2014.
En una realizacion ejemplar, en el formato de codificacion seleccionado, el primer grupo de uno o mas canales de la senal de audio de M canales puede constar de N canales, donde N > 3. El primer grupo de uno o mas canales puede ser reconstruible a partir del primer canal de la senal de mezcla descendente y N - 1 canales de la senal descorrelacionada aplicando al menos algunos de los coeficientes de mezcla ascendente humedos y secos.
En la presente realizacion ejemplar, determinar el conjunto de coeficientes de mezcla ascendente secos del formato de codificacion seleccionado puede incluir determinar un subconjunto de los coeficientes de mezcla ascendente secos del formato de codificacion seleccionado para definir un mapeo lineal del primer canal de la senal de mezcla descendente del formato de codificacion seleccionado que aproxime el primer grupo de uno o mas canales del formato de codificacion seleccionado.
En la presente realizacion ejemplar, determinar el conjunto de coeficientes de mezcla ascendente humedos del formato de codificacion seleccionado puede incluir: determinar una matriz intermedia en base a una diferencia entre una covarianza del primer grupo de uno o mas canales del formato de codificacion seleccionado recibido, y una covarianza del primer grupo de uno o mas canales del formato de codificacion seleccionado aproximado por el mapeo lineal del primer canal de la senal de mezcla descendente del formato de codificacion seleccionado. Cuando se multiplica por una matriz predefinida, la matriz intermedia puede corresponder a un subconjunto de los coeficientes de mezcla ascendente humedos del formato de codificacion seleccionado que define un mapeo lineal de los N - 1 canales de la senal descorrelacionada como parte de la reconstruccion parametrica del primer grupo de uno o mas canales del formato de codificacion seleccionado. El subconjunto de los coeficientes de mezcla ascendente humedos del formato de codificacion seleccionado puede incluir mas coeficientes que el numero de elementos en la matriz intermedia.
En la presente realizacion ejemplar, los parametros de mezcla ascendente de salida pueden incluir un conjunto de parametros de mezcla ascendente de un primer tipo, denominados en la presente memoria como parametros de mezcla ascendente secos, a partir de los cuales se puede derivar el subconjunto de coeficientes de mezcla ascendente secos, y un conjunto de parametros de mezcla ascendente de un segundo tipo, denominados en la presente memoria como parametros de mezcla ascendente humedos, que definen de manera unica la matriz intermedia siempre que la matriz intermedia pertenezca a una clase de matrices predefinidas. La matriz intermedia puede tener mas elementos que el numero de elementos en el subconjunto de los parametros de mezcla ascendente humedos del formato de codificacion seleccionado.
En la presente realizacion ejemplar, una copia de la reconstruccion parametrica del primer grupo de uno o mas canales en un lado de decodificador incluye, a modo de contribucion, una senal de mezcla ascendente seca formada por el mapeo lineal del primer canal de la senal de mezcla descendente y, a modo de contribucion adicional, una senal de mezcla ascendente humeda formada por el mapeo lineal de los N - 1 canales de la senal descorrelacionada. El subconjunto de coeficientes de mezcla ascendente secos define el mapeo lineal del primer canal de la senal de mezcla descendente y el subconjunto de coeficientes de mezcla ascendente humedos define el mapeo lineal de la senal descorrelacionada. Emitiendo los parametros de mezcla ascendente humedos con un numero inferior que el numero de coeficientes en el subconjunto de coeficientes de mezcla ascendente humedos, y a partir de los cuales se puede derivar el subconjunto de coeficientes de mezcla ascendente humedos en base a la matriz predefinida y la clase de matrices predefinidas, se puede reducir la cantidad de informacion enviada a un lado de decodificador para permitir la reconstruccion de la senal de audio de M canales. Reduciendo la cantidad de datos necesarios para la reconstruccion parametrica, se puede reducir el ancho de banda requerido para la transmision de una representacion parametrica de la senal de audio de M canales, y/o el tamano de memoria requerido para almacenar tal representacion.
La matriz intermedia se puede por ejemplo determinar de tal manera que una covarianza de la senal obtenida por el mapeo lineal de los N - 1 canales de la senal descorrelacionada suplementa la covarianza del primer grupo de uno o mas canales aproximados por el mapeo lineal del primer canal de la matriz de mezcla descendente.
Como determinar y emplear la matriz predefinida y la clase de matrices predefinidas se describe en mas detalle en la pagina 16, lmea 15 a pagina 20, lmea 2 en la Solicitud de Patente Provisional de EE.UU. N° 61/974,544 anteriormente mencionada. Vease en particular la ecuacion (9) en la misma para ejemplos de la matriz predefinida.
En una realizacion ejemplar, determinar la matriz intermedia puede incluir determinar la matriz intermedia de tal manera que una covarianza de la senal obtenida por el mapeo lineal de los N - 1 canales de la senal descorrelacionada, definida por el subconjunto de coeficientes de mezcla ascendente humedos, se aproxima, o coincide sustancialmente con, la diferencia entre la covarianza del primer grupo de uno o mas canales recibidos y la covarianza del primer grupo de uno o mas canales aproximados por el mapeo lineal del primer canal de la senal de mezcla descendente. En otras palabras, la matriz intermedia se puede determinar de tal manera que una copia de la reconstruccion del primer grupo de uno o mas canales, obtenidos como una suma de una senal de mezcla ascendente seca formada por el mapeo lineal del primer canal de la senal de mezcla descendente y una senal de mezcla ascendente humeda formada por el mapeo lineal de los N - 1 canales de la senal descorrelacionada reestablece completamente, o al menos aproximadamente, la covarianza del primer grupo de uno o mas canales recibidos.
En una realizacion ejemplar, los parametros de mezcla ascendente humedos pueden incluir no mas de N (N - 1)/2 parametros de mezcla ascendente humedos asignables independientemente. En la presente realizacion ejemplar, la matriz intermedia puede tener (N - 1)2 elementos de matriz y puede estar definida de manera unica por los parametros de mezcla ascendente humedos siempre que la matriz intermedia pertenezca a la clase de matrices predefinidas. En la presente realizacion ejemplar, el subconjunto de coeficientes de mezcla ascendente humedos puede incluir N (N -1) coeficientes.
En una realizacion ejemplar, el subconjunto de coeficientes de mezcla ascendente secos puede incluir N coeficientes. En la presente realizacion ejemplar, los parametros de mezcla ascendente secos pueden incluir no mas de N - 1 parametros de mezcla ascendente secos, y el subconjunto de coeficientes de mezcla ascendente secos se puede derivar a partir de los N - 1 parametros de mezcla ascendente secos utilizando una regla predefinida.
En una realizacion ejemplar, el subconjunto determinado de coeficientes de mezcla ascendente secos puede definir un mapeo lineal del primer canal de la senal de mezcla descendente correspondiente a una aproximacion del error cuadratico medio mmimo del primer grupo de uno o mas canales, i.e., entre el conjunto de mapeos lineales del primer canal de la senal de mezcla descendente, el conjunto determinado de coeficientes de mezcla ascendente secos puede definir el mapeo lineal que mejor se aproxima al primer grupo de uno o mas canales en un sentido cuadratico medio mmimo.
En una realizacion ejemplar, se proporciona un sistema de codificacion de audio que comprende una seccion de codificacion configurada para codificar una senal de audio de M canales como una senal de audio de dos canales y los parametros de mezcla ascendente asociados, donde M > 4. La seccion de codificacion comprende: una seccion de mezcla descendente configurada para, para al menos uno de al menos dos formatos de codificacion correspondientes a las respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos de uno o mas canales, calcular, de acuerdo con el formato de codificacion, una senal de mezcla descendente de dos canales en base a la senal de audio de M canales. Un primer canal de la senal de mezcla descendente se forma como una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales, y un segundo canal de la senal de mezcla descendente se forma como una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales.
El sistema de codificacion de audio comprende ademas una seccion de control configurada para seleccionar uno de los formatos de codificacion en base a cualquier criterio adecuado, p.ej., propiedades de la senal, carga del sistema, preferencia del usuario, condiciones de la red. El sistema de codificacion de audio comprende ademas un interpolador de mezcla descendente, que realiza un desvanecimiento cruzado de la senal de mezcla descendente entre dos formatos de codificacion cuando ha sido ordenada una transicion por la seccion de control. Durante tal transicion, se pueden calcular las senales de mezcla descendente para ambos formatos de codificacion. Ademas de la senal de mezcla descendente - o cuando sea aplicable un desvanecimiento cruzado de la misma - el sistema de codificacion de audio al menos emite senalizacion que indica un formato de codificacion actualmente seleccionado e informacion lateral que permite la reconstruccion parametrica de la senal de audio de M canales en base a la senal de mezcla descendente. Si el sistema comprende multiples secciones de codificacion que operan en paralelo, p.ej., para codificar respectivos grupos de canales de audio, entonces la seccion de control se puede implementar de forma autonoma de cada una de estas y siendo responsable de seleccionar un formato de codificacion comun a ser utilizado por cada una de las secciones de codificacion.
En una realizacion ejemplar, se proporciona un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para realizar cualquiera de los metodos descritos en esta seccion.
III. Realizaciones ejemplares
Las Figuras 6-8 ilustran maneras alternativas de particionar una senal de audio de 11.1 canales en grupos de canales para la codificacion parametrica de la senal de audio de 11.1 canales como una senal de audio de 5.1 canales. La senal de audio de 11.1 canales comprende los canales L (izquierdo), LS (lateral izquierdo), LB (posterior izquierdo), TFL (izquierdo frontal superior), TBL (izquierdo posterior superior), R (derecho), rS (lateral derecho), RB (posterior derecho), TFR (derecho frontal superior), TBR (derecho posterior superior), C (central), y LFE (efectos de baja frecuencia). Los cinco canales, L, LS, LB, TFL y TBL forman una senal de audio de cinco canales que representa un medio espacio izquierdo en un entorno de reproduccion de la senal de audio de 11.1 canales. Los tres canales L, LS y LB representan diferentes direcciones horizontales en el entorno de reproduccion y los dos canales TFL y TBL representan direcciones verticalmente separadas de las de los tres canales L, LS y lB. Los dos canales TFL y TBL pueden por ejemplo estar destinados a la reproduccion en altavoces de techo. Similarmente, los cinco canales R, RS, RB, TFR y tBr forman una senal de audio de cinco canales adicional que representa un medio espacio derecho del entorno de reproduccion, representando los tres canales R, RS y RB diferentes direcciones horizontales en el entorno de reproduccion y representando los dos canales TFR y TBR direcciones verticalmente separadas de las de los tres canales R, RS y RB.
Para representar la senal de audio de 11.1 canales como una senal de audio de 5.1 canales, la coleccion de canales L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C y LFE se pueden particionar en grupos de canales representados por los respectivos canales de mezcla descendente y los parametros de mezcla ascendente asociados. La senal de audio de cinco canales L, LS, LB, TFL, TBL se puede representar por una senal de mezcla descendente de dos canales Li, L2 y los parametros de mezcla ascendente asociados, mientras que la senal de audio de cinco canales R, RS, RB, TFR, TBR adicional se puede representar por una senal de mezcla descendente de dos canales R1, R2 adicional y los parametros de mezcla ascendente adicionales asociados. Los canales C y LFE se pueden mantener como canales separados tambien en la representacion de 5.1 canales de la senal de audio de 11.1 canales.
La Figura 6 ilustra un primer formato de codificacion F1, en el que la senal de audio de cinco canales L, LS, LB, TFL, TBL se particiona en un primer grupo 601 de canales L, LS, LB y un segundo grupo 602 de canales TFL, TBL, y en el que la senal de audio de cinco canales R, RS, RB, TFR, TBR adicional se particiona en un primer grupo 603 de canales R, RS, RB adicional y un segundo grupo 604 de canales TFR, TBR adicional. En el primer formato de codificacion F1, el primer grupo de canales 601 se representa por un primer canal L1 de la senal de mezcla descendente de dos canales, y el segundo grupo 602 de canales se representa por un segundo canal L2 de la senal de mezcla descendente de dos canales. El primer canal L1 de la senal de mezcla descendente puede corresponder a una suma del primer grupo 601 de canales segun L1 = L LS LB, y el segundo canal L2 de la senal de mezcla descendente puede corresponder a una suma del segundo grupo 602 de canales segun L2 = TFL TBL.
En algunas realizaciones ejemplares, algunos o todos los canales se pueden reajustar antes de la suma, de modo que el primer canal L1 de la senal de mezcla descendente puede corresponder a una combinacion lineal del primer grupo 601 de canales segun L1 = c1L c2LS c3LB, y el segundo anal L2 de la senal de mezcla descendente puede corresponder a una combinacion lineal del segundo grupo 602 de canales segun L2= c4TFL csTBL. Las ganancias c2 , c3, c4 , c5 pueden por ejemplo coincidir, mientras que la ganancia c puede por ejemplo tener un valor diferente; p.ej., c1 puede corresponder a no reajustar en absoluto. Por ejemplo, se pueden utilizar los valores c = 1, y c2 = c3 = c4 = c5 = 1/V2. Si, por ejemplo, las ganancias c1, ..., c5 aplicadas a los respectivos canales L, LS, LB, TFL, TBL en el primer formato de codificacion F1 coinciden con las ganancias aplicadas a estos canales en los otros formatos de codificacion F2 y F3, descritos a continuacion con referencia a las Figuras 7 y 8, estas ganancias no afectan a como cambia la senal de mezcla descendente cuando se conmuta entre los diferentes formatos de codificacion F1, F2, F3 , y los canales reajustados c1L, c2LS, C3LB, c4TFL, c5TBL se pueden por lo tanto tratar como si fueran los canales originales L, LS, LB, TFL, TBL. Si, por otro lado, se emplean diferentes ganancias para el reajuste del mismo canal en diferentes formatos de codificacion, la conmutacion entre estos formatos de codificacion puede por ejemplo provocar saltos entre versiones ajustadas de manera diferente de los canales L, LS, LB, TFL, TBL en la senal de mezcla descendente, lo que puede potencialmente provocar artefactos audibles en el lado de decodificador. Tales artefactos se pueden por ejemplo suprimir empleando la interpolacion de coeficientes empleados para formar la senal de mezcla descendente antes de la conmutacion de formato de codificacion, a coeficientes empleados para formar la senal de mezcla descendente despues de la conmutacion de formato de codificacion, y/o empleando la interpolacion de coeficientes de descorrelacion previa, como se describe a continuacion en relacion a las ecuaciones (3) y (4).
Similarmente, el primer grupo adicional de canales 603 se representa por un primer canal R1 de la senal de mezcla descendente adicional, y el segundo grupo 604 de canales adicional se representa por un segundo canal R2 de la senal de mezcla descendente adicional.
El primer formato de codificacion F1 proporciona canales L2 y R2 de mezcla descendente dedicados para representar los canales TFL, TBL, TFR y TBR de techo. El uso del primer formato de codificacion F1 puede por lo tanto permitir la reconstruccion parametrica de la senal de audio de 11.1 canales con fidelidad relativamente alta en casos donde, p.ej., una dimension vertical en el entorno de reproduccion es importante para la impresion global de la senal de audio de 11.1 canales.
La Figura 7 ilustra un segundo formato de codificacion F2, en el que la senal de audio de cinco canales L, LS, LB, TFL, TBL se particiona en primer 701 y segundo 702 grupos de canales representados por los respectivos canales L1, L2 de una senal de mezcla descendente, donde los canales L1 y L2 corresponden a sumas de los respectivos grupos 701 y 702 de canales, o combinaciones lineales de los respectivos grupos 701 y 702 de canales que emplean las mismas ganancias c1, ..., c5 para reajustar los respectivos canales L, Ls, LB, TFL, TBL como en el primer formato de codificacion F1. Similarmente, la senal de audio de cinco canales R, RS, RB, TFR, TBR adicional se particiona en primer 703 y segundo 704 grupos de canales adicionales representados por los respectivos canales R1 y R2.
El segundo formato de codificacion F2 no proporciona canales de mezcla descendente dedicados para representar los canales TFL, TBL, TFR y TBR de techo pero puede permitir la reconstruccion parametrica de la senal de audio de 11.1 canales con fidelidad relativamente alta p.ej., en casos donde la dimension vertical en el entorno de reproduccion no es tan importante para la impresion global de la senal de audio de 11.1 canales.
La Figura 8 ilustra un tercer formato de codificacion F3, en el que la senal de audio de cinco canales L, LS, LB, TFL, TBL se particiona en primer 801 y segundo 802 grupos de uno o mas canales representados por respectivos canales L1 y L2 de una senal de mezcla descendente, donde la senal de los canales L1 y L2 corresponde a las sumas de los respectivos grupos 801 y 802 de uno o mas canales, o combinaciones lineales de los respectivos grupos 801 y 802 de uno o mas canales que emplean los mismos coeficientes c-i, ..., c5 para reajustar los respectivos canales L, LS, LB, TFL, TBL que en el primer formato de codificacion F1. Similarmente, la senal de cinco canales R, RS, RB, TFR, TBR adicional se particiona en primer 803 y segundo 804 grupos de canales representados por respectivos canales R1 y R2. En el tercer formato de codificacion F3 , solo el canal L se representa por el primer canal L1 de la senal de mezcla descendente, mientras que los cuatro canales LS, LB, TFL y TBL se representan por el segundo canal L2 de la senal de mezcla descendente.
En un lado de decodificador, que se describira con referencia a las Figuras 1 - 5, se calcula una senal de mezcla descendente de dos canales L1, L2 como un mapeo lineal de la senal de audio de cinco canales X = [L LS LB TFL TBL]T segun
Figure imgf000019_0001
donde dn,m, n=1, 2, m=1 ...,5 son coeficientes de mezcla descendente representados por una matriz D de mezcla descendente. En un lado de decodificador, que se describira con referencia a las Figuras 9 - 13, la reconstruccion parametrica de la senal de audio de cinco canales [L LS LB TFL TBL]T se realiza segun
Figure imgf000019_0002
donde cn,m, n=1, ...5, m = 1, 2 son coeficientes de mezcla ascendente secos representados por una matriz pL de mezcla ascendente seca, pn,k, n = 1, ..., 5, k = 1,2, 3 son coeficientes de mezcla ascendente humedos representados por una matriz yl de mezcla ascendente humeda, y zk, k = 1, 2, 3 son los canales de una senal Z descorrelacionada de tres canales generada en base a la senal de mezcla descendente L1, L2.
La Figura 1 es un diagrama de bloques generalizado de una seccion 100 de codificacion para codificar una senal de audio de M canales como una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar.
La senal de audio de M canales se ejemplifica en la presenta memoria por la senal L de audio de cinco canales, LS, LB, TFL y TBL descrita con referencia a las Figuras 6 - 8. Tambien se pueden contemplar realizaciones ejemplares en las que la seccion 100 de codificacion calcula una senal de mezcla descendente de dos canales en base a una senal de audio de M canales, donde M = 4, o M > 6.
La seccion 100 de codificacion comprende una seccion 110 de mezcla descendente y una seccion 120 de analisis. Para cada uno de los formatos de codificacion F1, F2, F3, descritos con referencia a las Figuras 6 - 8, la seccion 110 de mezcla descendente calcula, de acuerdo con el formato de codificacion, una senal de mezcla descendente de dos canales L1, L2 en base a la senal de audio de cinco canales L, LS, LB, TFL, TBL. En por ejemplo el primer formato de codificacion F1, el primer canal L1 de la senal de mezcla descendente se forma como una combinacion lineal (p.ej., una suma) del primer grupo 601 de canales de la senal de audio de cinco canales L, LS, LB, TFL, TBL, y el segundo canal L2 de la senal de mezcla descendente se forma como una combinacion lineal (p.ej., una suma) del segundo grupo 602 de canales de la senal de audio de cinco canales L, LS, LB, TFL, TBL. La operacion realizada por la seccion 110 de mezcla descendente se puede por ejemplo expresar como la ecuacion (1).
Para cada uno de los formatos de codificacion F1, F2, F3, la seccion 120 de analisis determina un conjunto de coeficientes pL de mezcla ascendente secos que definen un mapeo lineal de la respectiva senal de mezcla descendente L1, L2 que se aproxima a la senal de audio de cinco canales L, LS, LB, TFL, TBL, y calcula una diferencia entre una covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL recibida y una covarianza de la senal de audio de cinco canales aproximada por el respectivo mapeo lineal de la respectiva senal de mezcla descendente L1, L2. La diferencia calculada se ejemplifica en la presente memoria por una diferencia entre la matriz de covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL recibida y la matriz de covarianza de la senal de audio de cinco canales aproximada por el respectivo mapeo lineal de la respectiva senal de mezcla descendente Li, L2. Para cada uno de los formatos de codificacion Fi, F2 , F3, la seccion 120 de analisis determina un conjunto de coeficientes Yl de mezcla ascendente humedos, en base a la respectiva diferencia calculada, que junto con los coeficientes pL de mezcla ascendente secos permite la reconstruccion parametrica segun la ecuacion (2) de la senal de audio de cinco canales L, LS, LB, TFL, TBL a partir de la senal de mezcla descendente Li, L2 y a partir de una senal descorrelacionada de tres canales determinada en un lado de decodificador en base a la senal de mezcla descendente Li, L2. El conjunto de coeficientes yl de mezcla descendente humedos define un mapeo lineal de la senal descorrelacionada de tal manera que la matriz de covarianza de la senal obtenida por el mapeo lineal de la senal descorrelacionada se aproxima a la diferencia entre la matriz de covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL recibida y la matriz de covarianza de la senal de audio de cinco canales aproximada por el mapeo lineal de la senal de mezcla descendente Li, L2.
La seccion i i 0 de mezcla descendente puede por ejemplo calcular la senal de mezcla descendente Li, L2 en el dominio del tiempo, i.e., en base a una representacion de dominio del tiempo de la senal de audio de cinco canales L, LS, LB, TFL, TBL, o en un dominio de la frecuencia, i.e., en base a una representacion de dominio de la frecuencia de la senal de audio de cinco canales L, LS, LB, TFL, TBL.
La seccion i20 de analisis puede por ejemplo determinar los coeficientes pL de mezcla ascendente secos y los coeficientes yl de mezcla ascendente humedos en base a un analisis de dominio de la frecuencia de la senal de audio de cinco canales L, LS, LB, TFL, TBL. La seccion i20 de analisis puede por ejemplo recibir la senal de mezcla descendente Li, L2 calculada por la seccion i i 0 de mezcla descendente, o puede calcular su propia version de la senal de mezcla descendente L i, L2 , para determinar los coeficientes pL de mezcla ascendente secos y los coeficientes YL de mezcla ascendente humedos.
La Figura 3 es un diagrama de bloques generalizado de un sistema 300 de codificacion de audio que comprende la seccion i00 de codificacion descrita con referencia a la Figura i, segun una realizacion ejemplar. En la presente realizacion ejemplar, el contenido de audio, p.ej., grabado por uno o mas transductores acusticos 30i, o generado por un equipo 30i de creacion de audio, se proporciona en forma de la senal de audio de i i . i canales descrita con referencia a las Figuras 6 - 8. Una seccion 302 (o banco de filtros) de analisis de filtro espejo en cuadratura (QMF) transforma la senal de audio de cinco canales L, LS, LB, TFL, TBL, segmento de tiempo a segmento de tiempo, a un dominio de QMF para su procesamiento por la seccion i00 de codificacion de la senal de audio de cinco canales L, LS, LB, TFL, TBL en forma de baldosas de tiempo/frecuencia. (Como se explicara adicionalmente a continuacion, la seccion 302 de analisis de QMF y su contraparte, una seccion 305 de smtesis de QMF, son opcionales). El sistema 300 de codificacion de audio comprende una seccion 303 de codificacion adicional analoga a la seccion i00 de codificacion y adaptada para codificar la senal de audio de cinco canales R, RS, RB, TRF y TBR adicional como la senal de mezcla descendente de dos canales Ri, R2 adicional y los parametros pR de mezcla ascendente secos adicionales y los parametros yr de mezcla ascendente humedos adicionales. La seccion 302 de analisis de QMF tambien transforma la senal de audio de cinco canales R, RS, RB, TRF y TBR adicional a un dominio de QMF para su procesamiento por la seccion 303 de codificacion adicional.
Una seccion 304 de control selecciona uno de los formatos de codificacion Fi, F2, F3 en base a los coeficientes yl, Yr y pL, pR de mezcla ascendente humedos y secos determinados por la seccion i00 de codificacion y la seccion 303 de codificacion adicional para los respectivos formatos de codificacion Fi, F2, F3. Por ejemplo, para cada uno de los formatos de codificacion Fi, F2 , F3 , la seccion 304 de control puede calcular una relacion
Figure imgf000020_0001
donde Ewet es una suma de cuadrados de los coeficientes yl y Yr de mezcla ascendente humedos, y Edry es una suma de cuadrados de los coeficientes pL, pR de mezcla ascendente secos. El formato de codificacion seleccionado se puede asociar con la minima de las relaciones E de los formatos de codificacion Fi, F2, F3, i.e., la seccion 304 de control puede seleccionar el formato de codificacion correspondiente a la relacion E mas pequena. Los inventores se han dado cuenta de que un valor reducido para la relacion E puede ser indicativo de una mayor fidelidad de la senal de audio de i i . i canales reconstruida a partir del formato de codificacion asociado.
En algunas realizaciones ejemplares, la suma de cuadrados Edry de los coeficientes pL, pR de mezcla ascendente secos puede por ejemplo incluir un termino adicional con el valor i, correspondiente al hecho de que el canal C se transmite al lado de decodificador y se puede reconstruir sin ninguna descorrelacion , p.ej., empleando solo un coeficiente de mezcla ascendente seco con el valor 1.
En algunas realizaciones ejemplares, la seccion 304 de control puede seleccionar formates de codificacion para las dos senales de audio de cinco canales L, LS, LB, TFL, TBL y R, RS, RB, TFR, TBR independientemente una de otra, en base a los coeficientes yl , Pl de mezcla ascendente humedos y secos y los coeficientes yr , Pr de mezcla ascendente humedos y secos adicionales, respectivamente.
El sistema 300 de codificacion de audio puede entonces emitir la senal de mezcla descendente Li, L2 , y la senal de senal mezcla descendente R1, R2 adicional, del formato de codificacion seleccionado, los parametros a de mezcla ascendente a partir de los cuales los coeficientes Pl, Yl de mezcla ascendente secos y humedos y los coeficientes Pr, Yr de mezcla ascendente secos y humedos adicionales asociados con el formato de codificacion seleccionado, pueden ser derivados, y la senalizacion S que indica el formato de codificacion seleccionado.
En la presente realizacion ejemplar, la seccion 304 de control emite la senal de mezcla descendente Li, L2, y la senal de mezcla descendente Ri, R2 adicional del formato de codificacion seleccionado, los parametros a de mezcla ascendente a partir de los cuales los coeficientes Pl, Yl de mezcla ascendente secos y humedos y los coeficientes Pr, Yr de mezcla ascendente secos y humedos adicionales, asociados con el formato de codificacion seleccionado, pueden ser derivados, y la senalizacion S que indica el formato de codificacion seleccionado. La senal de mezcla descendente Li, L2 y la senal de mezcla descendente Ri, R2 adicional son transformadas de vuelta desde el dominio de QMF por una seccion 305 (o banco de filtros) de srntesis de QMF y son transformadas a un dominio de la transformada discreta del coseno modificada (MDCT) por una seccion 306 de transformacion. Una seccion 307 de cuantizacion cuantifica los parametros a de mezcla ascendente. Por ejemplo, se puede emplear cuantificacion uniforme con un tamano de paso de 0 , 1 o 0 , 2 (adimensional), seguida de codificacion entropica en forma de codificacion de Huffman. Se puede por ejemplo emplear una cuantificacion mas gruesa con tamano de paso de 0,2 para ahorrar ancho de banda de transmision, y se puede por ejemplo emplear una cuantificacion mas fina con tamano de paso de 0,1 para mejorar la fidelidad de la reconstruccion en un lado de decodificador. Los canales C y LFE son transformados tambien a un dominio de MDCT por una seccion 308 de transformacion. Las senales y canales de mezcla descendente transformados mediante MDCT, los parametros de mezcla ascendente cuantificados, y la senalizacion, son combinados entonces en un flujo de bits B por un multiplexor 309, para su transmision a un lado de decodificador. El sistema 300 de codificacion de audio tambien puede comprender un codificador central (no mostrado en la Figura 3) configurado para codificar la senal de mezcla descendente L1, L2 , la senal de mezcla descendente R1, R2 adicional y los canales C y LFE utilizando un codec de audio perceptual, tal como Dolby Digital, MPEG AAC o un desarrollo de los mismos, antes de que las senales de mezcla descendente y los canales C y LFE sean proporcionados al demultiplexor 309. Se puede por ejemplo aplicar una ganancia de clip, p.ej., correspondiente a -8,7 dB, a la senal de mezcla descendente L1, L2, la senal de mezcla descendente R1, R2 adicional, y el canal C, antes de formar el flujo de bits B. Alternativamente, dado que los parametros son independientes del nivel absoluto, las ganancias de clip tambien se pueden aplicar a los canales de entrada antes de formar las combinaciones lineales correspondientes a L1, L2.
Tambien se pueden contemplar realizaciones en las que la seccion 304 de control solo recibe los coeficientes Yl, Yr , Pl, Pr de mezcla ascendente humedos y secos para los diferentes formatos de codificacion F1, F2 , F3 (o sumas de cuadrados de los coeficientes de mezcla ascendente humedos y secos para los diferentes formatos de codificacion) para seleccionar un formato de codificacion, i.e., la seccion 304 de control no necesita necesariamente recibir las senales de mezcla descendente L1, L2 , R1, R2 para los diferentes formatos de codificacion. En tales realizaciones, la seccion 304 de control puede por ejemplo controlar las secciones 100, 303 de codificacion para entregar las senales de mezcla descendente L1, L2 , R1, R2, los coeficientes Pl, Pr de mezcla ascendente secos y los coeficientes Yl, Yr de mezcla ascendente humedos para el formato de codificacion seleccionado como salida del sistema 300 de codificacion de audio, o como entrada al multiplexor 309.
Si el formato de codificacion seleccionado conmuta entre los formatos de codificacion, entonces se puede por ejemplo realizar interpolacion entre los valores de los coeficientes de mezcla descendente empleados antes y despues de la conmutacion de formato de codificacion para formar la senal de mezcla descendente de acuerdo con la ecuacion (1 ). Esto es en general equivalente a una interpolacion de las senales de mezcla descendente producidas de acuerdo con los respectivos conjuntos de valores de los coeficientes de mezcla descendente.
Mientras que la Figura 3 ilustra como la senal de mezcla descendente puede ser generada en el dominio de QMF y luego posteriormente transformada de vuelta al dominio del tiempo, se puede implementar un codificador alternativo que cumple las mismas funciones sin las secciones 302, 305 de QMF, por lo que calcula la senal de mezcla descendente directamente en el dominio del tiempo. Esto es posible en situaciones donde los coeficientes de mezcla descendente no son dependientes de la frecuencia, lo que en general es cierto. Con el codificador alternativo, se pueden manejar las transiciones de formato de codificacion mediante desvanecimiento cruzado entre las dos senales de mezcla descendente para los respectivos formatos de codificacion o mediante interpolacion entre los coeficientes de mezcla descendente (incluyendo los coeficientes que son de valor cero en uno de los formatos) que producen las senales de mezcla descendente. Tal codificador alternativo puede tener menor retardo/latencia y/o menor complejidad de calculo.
La Figura 2 es un diagrama de bloques generalizado de una seccion 200 de codificacion similar a la seccion 100 de codificacion, descrita con referencia a la Figura 1, segun una realizacion ejemplar. La seccion 200 de codificacion comprende una seccion 210 de mezcla descendente y una seccion 220 de analisis. Como en la seccion 100 de decodificacion, descrita con referencia a la Figura 1, la seccion 210 de mezcla descendente calcula una senal de mezcla descendente de dos canales Li, L2 en base a la senal de audio de cinco canales L, LS, LB, TFL, TBL para cada uno de los formatos de codificacion F1, F2, F3, y la seccion 220 de analisis determina respectivos conjuntos de coeficientes pL de mezcla ascendente secos, y calcula las diferencias Al entre una matriz de covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL recibida y las matrices de covarianza de la senal de audio de cinco canales aproximadas por los respectivos mapeos lineales de las respectivas senales de mezcla descendente.
En contraste con la seccion 120 de analisis en la seccion 100 de codificacion, descrita con referencia a la Figura 1, la seccion 220 de analisis no calcula los parametros de mezcla ascendente humedos para todos los formatos de codificacion. En su lugar, las diferencias Al calculadas se proporcionan a la seccion 304 de control (vease la Figura 3) para la seleccion de un formato de codificacion. Una vez que se ha seleccionado un formato de codificacion en base a las diferencias Al calculadas, los coeficientes de mezcla ascendente humedos (a ser incluidos en un conjunto de parametros de mezcla ascendente) para el formato de codificacion seleccionado pueden entonces ser determinados por la seccion 304 de control. Alternativamente, la seccion 304 de control es responsable de seleccionar el formato de codificacion en base a las diferencias Al calculadas entre las matrices de covarianza discutidas anteriormente, pero ordena a la seccion 220 de analisis, a traves de senalizacion en la direccion aguas arriba, que calcule los coeficientes Yl de mezcla ascendente humedos; segun esta alternativa (no mostrada), la seccion 220 de analisis tiene la capacidad de emitir tanto las diferencias como los coeficientes de mezcla ascendente humedos.
En la presente realizacion ejemplar, el conjunto de coeficientes de mezcla ascendente humedos se determina de tal manera que una matriz de covarianza de una senal obtenida por un mapeo lineal de la senal descorrelacionada, definida por los coeficientes de mezcla ascendente humedos, suplementa una matriz de covarianza de la senal de audio de cinco canales aproximada por el mapeo lineal de la senal de mezcla descendente del formato de codificacion seleccionado. En otras palabras, los parametros de mezcla ascendente humedos no necesitan necesariamente ser determinados para lograr la reconstruccion completa de la covarianza cuando al reconstruir la senal de audio de cinco canales L, LS, LB, TFL, TBL en un lado de decodificador. Se pueden determinar los parametros de mezcla ascendente humedos para mejorar la fidelidad de la senal de audio de cinco canales reconstruida, pero, si por ejemplo el numero de descorreladores en el lado de decodificador es limitado, se pueden determinar los parametros de mezcla ascendente humedos para permitir la reconstruccion tanto como sea posible de la matriz de covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL.
Se pueden contemplar realizaciones, en las que los sistemas de codificacion de audio similares al sistema 300 de codificacion de audio, descrito con referencia a la Figura 3, comprenden una o mas secciones 200 de codificacion del tipo descrito con referencia a la Figura 2.
La Figura 4 es un diagrama de flujo de un metodo 400 de codificacion de audio para codificar una senal de audio de M canales como una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar. El metodo 400 de codificacion de audio se ejemplifica en la presente memoria mediante un metodo realizado por un sistema de codificacion de audio que comprende la seccion 200 de codificacion, descrita con referencia a la Figura 2.
El metodo 400 de codificacion de audio comprende: recibir 410 la senal de audio de cinco canales L, LS, LB, TFL, TBL; calcular 420, de acuerdo con un primero de los formatos de codificacion F1, F2 , F3 descritos con referencia a las Figuras 6 - 8, la senal de mezcla descendente de dos canales L1, L2 en base a la senal de audio de cinco canales L, LS, LB, TFL, TBL; determinar 430 el conjunto de coeficientes pL de mezcla ascendente secos de acuerdo con el formato de codificacion; y calcular 440 la diferencia Al de acuerdo con el formato de codificacion. El metodo 400 de codificacion de audio comprende: determinar 450 si se han calculado las diferencias Al para cada uno de los formatos de codificacion F1, F2 , F3. Siempre que quede por calcular una diferencia Al para al menos un formato de codificacion, el metodo 400 de codificacion de audio vuelve a calcular 420 la senal de mezcla descendente L1, L2 de acuerdo con el siguiente formato de codificacion en la lmea, lo que esta indicado por N en el diagrama de flujo.
Si se han calculado las diferencias Al para cada uno de los formatos de codificacion F1, F2 , F3 indicados por Y en el diagrama de flujo, el metodo 400 procede seleccionando 460 uno de los formatos de codificacion F1, F2, F3 , en base a las respectivas diferencias Al calculadas; y determinando 470 el conjunto de coeficientes de mezcla ascendente humedos, que junto con los coeficientes pL de mezcla ascendente secos del formato de codificacion seleccionado permite la reconstruccion parametrica de la senal de audio de cinco canales L, LS, LB, TFL, TBLM segun la ecuacion (2). El metodo 400 de codificacion de audio comprende ademas: emitir 480 la senal de mezcla descendente L1, L2 del formato de codificacion seleccionado, y los parametros de mezcla ascendente a partir de los cuales se pueden derivar los coeficientes de mezcla ascendente secos y humedos asociados con el formato de codificacion seleccionado; y emitir 490 la senalizacion S que indica el formato de codificacion seleccionado.
La Figura 5 es un diagrama de flujo de un metodo 500 de codificacion de audio para codificar una senal de audio de M canales como una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar. El metodo 500 de codificacion de audio se ejemplifica en la presente memoria mediante un metodo realizado por el sistema 300 de codificacion de audio, descrito con referencia a la Figura 3.
Similarmente al metodo 400 de codificacion de audio descrito con referencia a la Figura 4, el metodo 500 de codificacion de audio comprende: recibir 410 la senal de audio de cinco canales L, LS, LB, TFL, TBL; calcular 420, de acuerdo con un primero de los formatos de codificacion Fi, F2, F3 , la senal de mezcla descendente de dos canales L1, L2 en base a la senal de audio de cinco canales L, LS, LB, TFL, TBL; determinar 430 el conjunto de coeficientes Pl de mezcla ascendente secos de acuerdo con el formato de codificacion; y calcular 440 la diferencia Al de acuerdo con el formato de codificacion. El metodo 500 de codificacion de audio comprende ademas determinar 560 el conjunto de coeficientes yl de mezcla ascendente humedos que junto con los coeficientes pL de mezcla ascendente secos del formato de codificacion permite la reconstruccion parametrica de la senal de audio de M canales de acuerdo con la ecuacion (2). El metodo 500 de codificacion de audio comprende: determinar 550 si se han calculado los coeficientes Yl, Pl de mezcla ascendente humedos y secos para cada uno de los formatos de codificacion Fi, F2, F3. Siempre que queden por calcular coeficientes Yl, Pl de mezcla ascendente humedos y secos para al menos un formado de codificacion, el metodo de metodo 500 de codificacion de audio metodo vuelve a calcular 420 la senal de mezcla descendente Li, L2 de acuerdo con el siguiente formato de codificacion en la lmea, lo que esta indicado por N en el diagrama de flujo.
Si se han calculado los coeficientes Yl, Pl de mezcla ascendente humedos y secos para cada uno de los formatos de codificacion Fi, F2, F3 indicados por Y en el diagrama de flujo, el metodo 500 de codificacion de audio procede seleccionando 570 uno de los formatos de codificacion Fi, F2 , F3 , en base a los respectivos coeficientes Yl, Pl de mezcla ascendente humedos y secos calculados; emitiendo 480 la senal de mezcla descendente Li, L2 del formato de codificacion seleccionado, y los parametros de mezcla ascendente a partir de los cuales se pueden derivar los coeficientes Pl, Yl de mezcla ascendente secos y humedos asociados con el formato de codificacion seleccionado; y emitir 490 senalizacion que indica el formato de codificacion seleccionado.
La Figura 9 es un diagrama de bloques generalizado de una seccion 900 de decodificacion para reconstruir una senal de audio de M canales en base a una senal de mezcla descendente de dos canales y los parametros aL de mezcla ascendente asociados, segun una realizacion ejemplar.
En la presente realizacion ejemplar, la senal de mezcla descendente se ejemplifica mediante la senal de mezcla descendente Li, L2 emitida por la seccion i00 de codificacion, descrita con referencia a la Figura i. En la presente realizacion ejemplar, los parametros Pl, Yl, de mezcla ascendente secos y humedos emitidos por la seccion i00 de codificacion, y que se adaptan para la reconstruccion parametrica de la senal de audio de cinco canales L, LS, LB, TFL, TBL se pueden derivar a partir de los parametros aL de mezcla ascendente. Sin embargo, tambien se pueden contemplar realizaciones en las que los parametros aL de mezcla ascendente se adaptan para la reconstruccion parametrica de una senal de audio de M canales, donde M = 4, o M > 6.
La seccion 900 de decodificacion comprende una seccion 9 i0 de descorrelacion previa, una seccion 920 de descorrelacion y una seccion 930 de mezcla. La seccion 9 i0 de descorrelacion previa determina un conjunto de coeficientes de descorrelacion previa en base a un formato de codificacion seleccionado empleado en un lado de codificador para codificar la senal de audio de cinco canales L, LS, LB, TFL, TBL. Como se describe a continuacion con referencia a la Figura i0 , el formato de codificacion seleccionado se puede indicar a traves de senalizacion desde el lado de codificador. La seccion 9 i0 de descorrelacion previa calcula una senal de entrada de descorrelacion Di, D2 , D3 como un mapeo lineal de la senal de mezcla descendente Li, L2, donde se aplica el conjunto de coeficientes de descorrelacion previa a la senal de mezcla descendente Li, L2.
La seccion 920 de descorrelacion genera una senal descorrelacionada en base a la senal de entrada de descorrelacion Di, D2, D3. La senal descorrelacionada se ejemplifica en la presente memoria mediante tres canales, cada uno generado procesando uno de los canales de la senal de entrada de descorrelacion en un descorrelador 92i - 923 de la seccion 920 de descorrelacion, p.ej., incluyendo aplicar filtros lineales a los respectivos canales de la senal de entrada de descorrelacion Di, D2, D3.
La seccion 930 de mezcla determina los conjuntos de coeficientes Pl, Yl de mezcla ascendente humedos y secos en base a los parametros aL de mezcla ascendente recibidos y el formato de codificacion seleccionado empleado en un lado de codificador para codificar la senal de audio de cinco canales L, LS, LB, TFL, TBL. La seccion 930 de mezcla realiza reconstruccion parametrica de la senal de audio de cinco canales L, LS, LB, TFL, TBL de acuerdo con la ecuacion (2), i.e., calcula una senal de mezcla ascendente seca como un mapeo lineal de la senal de mezcla descendente Li, L2 , en donde el conjunto de coeficientes Pl de mezcla ascendente secos se aplica a la senal de mezcla descendente Li, L2 ; calcula una senal de mezcla ascendente humeda como un mapeo lineal de la senal descorrelacionada, donde el conjunto de coeficientes Yl de mezcla ascendente humedos se aplica a la senal descorrelacionada; y combina las senales de mezcla ascendente secas y humedas para obtener una senal reconstruida multidimensional L , LS , LB , TFL , TBL correspondiente a la senal de audio de cinco canales L, LS, LB, TFL, TBL a reconstruir.
En algunas realizaciones ejemplares, los parametros aL de mezcla ascendente recibidos pueden incluir los propios coeficientes Pl, Yl de mezcla ascendente humedos y secos, o pueden corresponder a una forma mas compacta, incluyendo menos parametros que el numero de coeficientes pL, Yl de mezcla ascendente humedos y secos, a partir de los cuales se pueden derivar los coeficientes pL, Yl de mezcla ascendente humedos y secos en el lado de decodificador en base al conocimiento de la forma compacta particular empleada.
La Figura 11 ilustra la operacion de la seccion 930 de mezcla, descrita con referencia a la Figura 9, en un escenario ejemplar donde la senal de mezcla descendente Li, L2 representa la senal de audio de cinco canales L, LS, LB, TFL, TBL de acuerdo con el primer formato de codificacion F1, descrito con referencia a la Figura 6. Se apreciara que la operacion de la seccion 930 de mezcla puede ser similar en escenarios ejemplares donde la senal de mezcla descendente Li, L2 representa la senal de audio de cinco canales L, LS, LB, tFl, TbL de acuerdo con cualquiera del segundo y tercer formatos de codificacion F2 , F3. En particular, la seccion 930 de mezcla puede activar temporalmente otras instancias de las secciones de mezcla ascendente y combinar secciones que se describiran de forma inminente, para permitir un desvanecimiento cruzado entre dos formatos de codificacion, lo que puede requerir disponibilidad simultanea de las senales de mezcla descendente calculadas.
En el presente escenario ejemplar, el primer canal Li de la senal de mezcla descendente representa los tres canales L, LS, LB, y el segundo canal L2 de la senal de mezcla descendente representa los dos canales TFL, TBL. La seccion 910 de descorrelacion previa determina los coeficientes de descorrelacion previos de tal manera que se generan dos canales de la senal descorrelacionada en base al primer canal L1 de la senal de mezcla descendente y de tal manera que se genera un canal de la senal descorrelacionada en base al segundo canal L2 de la senal de mezcla descendente.
Una primera seccion 931 de mezcla ascendente seca proporciona una senal X1 de mezcla ascendente seca de tres canales como un mapeo lineal del primer canal L1 de la senal de mezcla descendente, donde un subconjunto de los coeficientes de mezcla ascendente secos, que se pueden derivar a partir de los parametros aL de mezcla ascendente recibidos, se aplica al primer canal L1 de la senal de mezcla descendente. Una primera seccion 932 de mezcla ascendente humeda proporciona una senal Y1 de mezcla ascendente humeda de tres canales como un mapeo lineal de los dos canales de la senal descorrelacionada, donde un subconjunto de los coeficientes de mezcla ascendente humedos, que se pueden derivar de los parametros aL de mezcla ascendente recibidos, se aplica a los dos canales de la senal descorrelacionada. Una primera seccion 933 de combinacion combina la primera senal X1 de mezcla ascendente seca y la primera senal Y1 de mezcla ascendente humeda en versiones reconstruidas L, LS, LB de los canales L, LS, LB.
Similarmente, una segunda seccion 934 de mezcla ascendente seca proporciona una senal X2 de mezcla ascendente seca de dos canales como un mapeo lineal del segundo canal L2 de la senal de mezcla descendente, y una segunda seccion 935 de mezcla ascendente humeda proporciona una senal Y2 de mezcla ascendente humeda de dos canales como una combinacion lineal de un canal de la senal descorrelacionada. Una segunda seccion 936 de combinacion combina la segunda senal X2 de mezcla ascendente seca y la segunda senal Y2 de mezcla ascendente humeda en versiones reconstruidas TFL, TBL de los canales TFL, TBL.
La Figura 10 es un diagrama de bloques generalizado de un sistema 1000 de decodificacion de audio que comprende la seccion 900 de decodificacion, descrita con referencia a la Figura 9, segun una realizacion ejemplar. Una seccion 1001 de recepcion, p.ej., que incluye un multiplexor, recibe el flujo de bits B transmitido desde el sistema 300 de codificacion de audio, descrito con referencia a la Figura 3, y extrae la senal de mezcla descendente L1, L2 , la senal de mezcla descendente R1, R2 adicional, y los parametros a de mezcla ascendente, asf como los canales C y LFE, del flujo de bits B. Los parametros a de mezcla ascendente pueden por ejemplo comprender primer y segundo subconjuntos aL y aR, asociados con el lado izquierdo y el lado derecho, respectivamente, de la senal de audio de 11.1 canales L, LS, lB, TFL, TBL, R, RS, RB, TFR, TBR, C, LFE a reconstruir.
En caso de que la senal de mezcla descendente L1, L2, la senal de mezcla descendente R1, R2 adicional y/o los canales C y LFE se codifiquen en el flujo de bits B utilizando un codec de audio perceptual tal como Dolby Digital, MPEG AAC, o desarrollos de los mismos, el sistema 1000 de decodificacion de audio puede comprender un decodificador central (no mostrado en la Figura 10) configurado para decodificar las respectivas senales y canales cuando se extraen del flujo de bits B.
Una seccion 1002 de transformacion transforma la senal de mezcla descendente L1, L2 realizando MDCT inversa y una seccion 1003 de analisis de QMF transforma la senal de mezcla descendente L1, L2 a un dominio de QMF para su procesamiento por la seccion 900 de decodificacion de la senal de mezcla descendente L1, L2 en forma de baldosas de tiempo/frecuencia. Una seccion 1004 de descuantificacion descuantifica el primer subconjunto de parametros aL de mezcla ascendente, p.ej., a partir de un formato codificado de entropfa, antes de suministrarlo a la seccion 900 de decodificacion. Como se describio con referencia a la Figura 3, la cuantificacion se puede haber realizado con uno de dos tamanos de paso diferentes, p.ej., 0,1 o 0,2. El tamano de paso real empleado se puede predefinir, o se puede senalizar al sistema 1000 de decodificacion de audio desde el lado de codificador, p.ej., a traves del flujo de bits B.
En la presente realizacion ejemplar, el sistema 1000 de decodificacion de audio comprende una seccion 1005 de decodificacion adicional analoga a la seccion 900 de decodificacion. La seccion 1005 de decodificacion adicional se configura para recibir la senal de mezcla descendente de dos canales R1, R2 adicional descrita con referencia a la Figura 3, y el segundo subconjunto aR de parametros de mezcla ascendente, y para proporcionar una version reconstruida R , RS , RB , TFR , TBR de la senal de audio de cinco canales R, RS, RB, TFR, TBR adicional en base a la senal de mezcla descendente Ri, R2 adicional y el segundo subconjunto aR de parametros de mezcla ascendente.
Una seccion 1006 de transformacion transforma la senal de mezcla descendente Ri, R2 adicional realizando MDCT inversa y una seccion 1007 de analisis de QMF transforma la senal de mezcla descendente Ri, R2 adicional a un dominio de QMF para su procesamiento por la seccion 1005 de decodificacion adicional de la senal de mezcla descendente Ri, R2 adicional en forma de baldosas de tiempo/frecuencia. Una seccion 1008 de descuantificacion descuantifica el segundo subconjunto de parametros aR de mezcla ascendente, p.ej., a partir de un formato codificado de entropfa, antes de suministrarlos a la seccion 1005 de decodificacion adicional.
En realizaciones ejemplares donde se ha aplicado una ganancia de clip a la senal de mezcla descendente L1, L2, la senal de mezcla descendente R1, R2 adicional y el canal C en un lado de codificador, se puede aplicar una ganancia correspondiente, p.ej., correspondiente a 8,7 dB, a estas senales en el sistema 1 00 0 de decodificacion de audio para compensar la ganancia de clip.
Una seccion 1009 de control recibe la senalizacion S que indica uno seleccionado de los formatos de codificacion F1, F2 , F3 empleados en el lado de codificador para codificar la senal de audio de 11.1 canales en la senal de mezcla descendente L1, L2 y la senal de mezcla descendente R1, R2 adicional y los parametros a de mezcla ascendente asociados. La seccion 1009 de control controla la seccion 900 de decodificacion (p.ej., la seccion 910 de descorrelacion previa y la seccion 920 de mezcla en la misma) y la seccion (1005) de decodificacion adicional para realizar la reconstruccion parametrica de acuerdo con el formato de codificacion indicado.
En la presente realizacion ejemplar, las versiones reconstruidas de la senal de audio de cinco canales L, LS, LB, TFL, TBL y la senal de audio de cinco canales R, RS, RB, TFL, TBL adicional emitidas por la seccion 900 de decodificacion y la seccion 1005 de decodificacion adicional, respectivamente, son transformadas de vuelta desde el dominio de QMF por una seccion 1011 de smtesis de QMF antes de ser proporcionadas junto con los canales C y LFE como salida del sistema 1000 de decodificacion de audio para la reproduccion en el sistema 1012 de altavoces multiples. Una seccion 1010 de transformacion transforma los canales C y LFE al dominio del tiempo realizando MDCT inversa antes de que estos canales sean incluidos en la salida del sistema 1 00 0 de decodificacion de audio.
Los canales C y LFE se pueden por ejemplo extraer del flujo de bits B en una forma codificada de manera discreta y el sistema 1 0 0 0 de decodificacion de audio puede por ejemplo comprender secciones de decodificacion de un solo canal (no mostradas en la Figura 10) configuradas para decodificar los respectivos canales codificados de manera discreta. Las secciones de decodificacion de un solo canal pueden por ejemplo incluir decodificadores centrales para decodificar el contenido de audio codificado utilizando un codec de audio perceptual tal como Dolby Digital, MPEG AAC, o desarrollos de los mismos.
En la presente realizacion ejemplar, los coeficientes de descorrelacion previa son determinados por la seccion 910 de descorrelacion previa de tal manera que, en cada uno de los formatos de codificacion F1, F2, F3 , cada uno de los canales de la senal de entrada de descorrelacion D1, D2 , D3 coincide con un canal de la senal de mezcla descendente L1, L2 , de acuerdo con la Tabla 1.
Figure imgf000025_0001
Como se puede ver en la Tabla 1, el canal TBL contribuye, a traves de la senal de mezcla descendente L1, L2 , a un tercer canal D3 de la senal de entrada de descorrelacion en los tres formatos de codificacion F1, F2, F3, mientras que cada uno de los pares de canales LS, LB y TFL, TBL contribuye, a traves de la senal de mezcla descendente L1, L2, al tercer canal D3 de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion, respectivamente.
La Tabla 1 muestra que cada uno de los canales L y TFL contribuye, a traves de la senal de mezcla descendente L1, L2 , a un primer canal D1 de la senal de entrada de descorrelacion en dos de los formatos de codificacion, respectivamente, y el par de canales LS, LB contribuye, a traves de la senal de mezcla descendente Li, L2, al primer canal D1 de la senal de entrada de descorrelacion en al menos dos de los formates de codificacion.
La tabla 1 tambien muestra que los tres canales LS, LB, TBL contribuyen, a traves de la senal de mezcla descendente Li, L2, a un segundo canal D2 de la senal de entrada de descorrelacion tanto en el segundo como en el tercer formates de codificacion F3, F3 , mientras que el par de canales LS, LB contribuye, a traves de la senal de mezcla descendente Li, L2 , al segundo canal D2 de la senal de entrada de descorrelacion en los tres formatos de codificacion Fi, F2, F3.
Cuando el formato de codificacion indicado conmuta entre diferentes formatos de codificacion, la entrada a los descorreladores 921 - 923 cambia. En la presente realizacion ejemplar, al menos algunas porciones de las senales de entrada de descorrelacion D1, D2, D3 permaneceran durante la conmutacion, i.e., al menos un canal de la senal de audio de cinco canales L, LS, LB, TFL, TBL permanecera en cada canal de la senal de entrada de descorrelacion D1, D2, D3 en cualquier conmutacion entre dos de los formatos de codificacion F1, F2, F3, lo que permite una transicion mas suave entre los formatos de codificacion, tal como es percibido por un oyente durante la reproduccion de la senal de audio de M canales reconstruida.
Los inventores se han dado cuenta de que dado que la senal descorrelacionada se puede generar en base a una seccion de la senal de mezcla descendente L1, L2 correspondiente a varias tramas de tiempo, durante las que se puede producir una conmutacion de formato de codificacion, se pueden potencialmente generar artefactos audibles en la senal descorrelacionada como resultado de la conmutacion de formatos de codificacion. Incluso si se interpolan los coeficientes pL, Yl de mezcla ascendente humedos y secos en respuesta a una transicion entre formatos de codificacion, los artefactos provocados en la senal descorrelacionada pueden todavfa persistir en la senal de audio de cinco canales L, LS, LB, TFL, TBL reconstruida. Proporcionar la senal de entrada de descorrelacion D1, D2, D3 de acuerdo con la Tabla 1 puede suprimir los artefactos audibles en la senal descorrelacionada provocados por la conmutacion de formato de codificacion, y puede mejorar la calidad de reproduccion de la senal de audio de cinco canales L, LS, LB, TFL, TBL reconstruida.
Aunque la Tabla 1 se expresa en terminos de formatos de codificacion F1, F2, F3 para los que los canales de la senal de mezcla descendente L1, L2 son generados como sumas del primer y segundo grupos de canales, respectivamente, se pueden por ejemplo emplear los mismos valores para los coeficientes de descorrelacion previa cuando los canales de la senal de mezcla descendente han sido formados como combinaciones lineales del primer y segundo grupos de canales, respectivamente, de tal manera que los canales de la senal de entrada de descorrelacion D1, D2, D3 coinciden con los canales de la senal de mezcla descendente L1, L2 de acuerdo con la Tabla 1. Se apreciara que la calidad de reproduccion de la senal de audio de cinco canales reconstruida se puede mejorar de esta manera tambien en cuando los canales de la senal de mezcla descendente se forman como combinaciones lineales del primer y segundo grupos de canales, respectivamente.
Para mejorar adicionalmente la calidad de reproduccion de la senal de audio de cinco canales reconstruida, se puede por ejemplo realizar interpolacion de valores de los coeficientes de descorrelacion previa en respuesta a la conmutacion del formato de codificacion. En el primer formato de codificacion F1, la senal de entrada de descorrelacion D1, D2, D3 se puede determinar como
Figure imgf000026_0001
mientras que en el segundo formato de codificacion F2, la senal de entrada de descorrelacion D1, D2, D3 se puede determinar como
Figure imgf000026_0002
En respuesta a una conmutacion del primer formato de codificacion F1 al segundo formato de codificacion F2 , se puede por ejemplo realizar interpolacion continua o lineal entre la matriz de descorrelacion previa en la ecuacion (3) y la matriz de descorrelacion previa en la ecuacion (4).
La senal de mezcla descendente L1, L2, en las ecuaciones (3) y (4) puede por ejemplo estar en el dominio de QMF, y cuando se conmuta entre formatos de codificacion, los coeficientes de mezcla descendente empleados en un lado de codificador para calcular la senal de mezcla descendente L1 , L2 segun la ecuacion (1) se pueden haber interpolado durante p.ej., intervalos de 32 QMF. La interpolacion de los coeficientes (o matrices) de descorrelacion previa se puede por ejemplo sincronizar con la interpolacion de los coeficientes de mezcla descendente, p.ej., se puede realizar durante los mismos intervalos de 32 QMF. La interpolacion de los coeficientes de descorrelacion previa puede ser por ejemplo una interpolacion de banda ancha, p.ej., empleada para todas las bandas de frecuencia decodificadas por el sistema 1000 de decodificacion de audio.
Los coeficientes pL, Yl de mezcla ascendente secos y humedos tambien se pueden interpolar. Las interpolaciones de los coeficientes pL, Yl de mezcla ascendente secos y humedos se pueden por ejemplo controlar a traves de la senalizacion S desde el lado de codificador para mejorar el manejo de transitorios. En caso de una conmutacion de formato de codificacion, el esquema de interpolacion seleccionado en el lado de codificador, para interpolar los coeficientes pL, Yl de mezcla ascendente secos y humedos en el lado de decodificador, puede por ejemplo ser un esquema de interpolacion apropiado para una conmutacion de formato de codificacion, que puede ser diferente de los esquemas de interpolacion empleados para los coeficientes pL, Yl de mezcla ascendente secos y humedos cuando no se produce conmutacion de formato de codificacion.
En algunas realizaciones ejemplares, se puede emplear al menos un esquema de interpolacion diferente en la seccion 900 de decodificacion que en la seccion 1005 de decodificacion adicional.
La Figura 12 es un diagrama de flujo de un metodo 1200 de decodificacion de audio para reconstruir una senal de audio de M canales en base a una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, segun una realizacion ejemplar. El metodo 1200 de decodificacion se ejemplifica en la presente memoria mediante un metodo de decodificacion que puede ser realizado por el sistema 1000 de decodificacion de audio descrito con referencia a la Figura 10.
El metodo 1200 de decodificacion de audio comprende: recibir 1201 la senal de mezcla descendente de dos canales L1, L2 y los parametros aL de mezcla ascendente para la reconstruccion parametrica de la senal de audio de cinco canales L, LS, LB, TFL, TBL, descrita con referencia a las Figuras 6 - 8, en base a la senal de mezcla descendente L1, L2; recibir 1202 la senalizacion S que indica uno seleccionado de los formatos de codificacion F1, F2 , F3 , descritos con referencia a las Figuras 6 - 8; y determinar 1203 el conjunto de coeficientes de descorrelacion previa en base al formato de codificacion indicado.
El metodo 1200 de decodificacion de audio comprende detectar 1204 si el formato indicado conmuta de un formato de codificacion a otro. Si no se detecta una conmutacion, indicado por N en el diagrama de flujo, el siguiente paso es calcular 1205 la senal de entrada de descorrelacion D1, D2 , D3 como un mapeo lineal de la senal de mezcla descendente L1, L2, en donde el conjunto de coeficientes de descorrelacion previa se aplica a la senal de mezcla descendente. Si, por otro lado, se detecta una conmutacion de formato de codificacion, indicado por Y en el diagrama de flujo, el siguiente paso es en su lugar realizar 1206 interpolacion en forma de una transicion gradual de valores de los coeficientes de descorrelacion previa de un formato de codificacion a valores de los coeficientes de descorrelacion previa de otro formato de codificacion, y luego calcular 1205 la senal de entrada de descorrelacion D1, D2, D3 empleando los valores de los coeficientes de descorrelacion previa interpolados.
El metodo 1200 de decodificacion de audio comprende generar 1207 una senal descorrelacionada en base a la senal de entrada de descorrelacion D1, D2 , D3 ; y determinar 1208 los conjuntos de coeficientes pL, Yl de mezcla ascendente humedos y secos en base a los parametros de mezcla ascendente recibidos y el formato de codificacion indicado.
Si no se detecta conmutacion de formato de codificacion, indicado por una rama N de una caja 1209 de decision, el metodo 1200 continua calculando 1210 una senal de mezcla ascendente seca como un mapeo lineal de la senal de mezcla descendente, donde se aplica el conjunto de coeficientes pL de mezcla ascendente secos a la senal de mezcla descendente L1, L2; y calculando 1211 una senal de mezcla ascendente humeda como un mapeo lineal de la senal descorrelacionada, donde se aplica el conjunto de coeficientes yl de mezcla ascendente humedos a la senal descorrelacionada. Si, por otro lado, el formato de codificacion indicado conmuta de un formato de codificacion a otro indicado por la rama Y de la caja 1209 de decision, el metodo en su lugar continua: realizando 1212 interpolacion de valores de los coeficientes de mezcla ascendente secos y humedos (incluyendo los coeficientes de valor cero) aplicables para un formato de codificacion, a valores de los coeficientes de mezcla ascendente secos y humedos (incluyendo los coeficientes de valor cero) aplicables para otro formato de codificacion; calculando 1210 una senal de mezcla ascendente seca como un mapeo lineal de la senal de mezcla descendente L1, L2, donde el conjunto de coeficientes de mezcla ascendente secos interpolados se aplica a la senal de mezcla descendente L1, L2 ; y calculando 1211 una senal de mezcla ascendente humeda como un mapeo lineal de la senal descorrelacionada, donde el conjunto de coeficientes de mezcla ascendente humedos interpolados se aplica a la senal descorrelacionada. El metodo tambien comprende: combinar 1213 las senales de mezcla ascendente secas y humedas para obtener la senal reconstruida multidimensional L , LS , LB, TFL, TBL correspondiente a la senal de audio de cinco canales a reconstruir.
La Figura 13 es un diagrama de bloques generalizado de una seccion 1300 de decodificacion para reconstruir una senal de audio de 13.1 canales en base a una senal de audio de 5.1 canales y los parametros ade mezcla ascendente asociados, segun una realizacion ejemplar.
En la presente realizacion ejemplar, la senal de audio de 13.1 canales se ejemplifica mediante los canales LW (ancho izquierdo), LSCRN (pantalla izquierdo), TFL (izquierdo frontal superior), LS (lateral izquierdo), LB (posterior izquierdo), TBL (izquierdo posterior superior), RW (ancho derecho), RSCRN (pantalla derecho), TFR (derecho frontal superior), RS (lateral derecho), RB (posterior derecho), TBR (derecho posterior superior), C (central), y LFE (efectos de baja frecuencia). La senal de 5.1 canales comprende: una senal de mezcla descendente Li, L2, para la que un primer canal Li corresponde a una combinacion lineal de los canales LW, LSCRN, TFL, y para la que un segundo canal L2 corresponde a una combinacion lineal de los canales LS, LB, TBL; una senal de mezcla descendente Ri, R2 adicional para la que un primer canal Ri corresponde a una combinacion lineal de los canales RW, RSCRN, TFR, y para la que un segundo canal R2 corresponde a una combinacion lineal de los canales RS, RB, TBR; y los canales C y LFE.
Una primera seccion 1310 de mezcla ascendente reconstruye los canales LW, LSCRN y TFL en base al primer canal Li de la senal de mezcla descendente bajo el control de al menos algunos de los parametros ade mezcla ascendente; una segunda seccion i320 de mezcla ascendente reconstruye los canales LS, LB, TBL en base al segundo canal L2 de la senal de mezcla descendente bajo el control de al menos de algunos de los parametros a de mezcla ascendente; una tercera seccion i330 de mezcla ascendente reconstruye los canales RW, RSCRN, TFR en base al primer canal Ri de la senal de mezcla descendente adicional bajo el control de al menos de algunos de los parametros a de mezcla ascendente, y una cuarta seccion i340 de mezcla ascendente reconstruye los canales RS, RB, TBR en base al segundo canal R2 de la senal de mezcla descendente bajo el control de al menos algunos de los parametros a de mezcla ascendente. Se puede proporcionar una version reconstruida LW , LSCRN, TFL, LS , LB , TBL , R W , RSCRN , TFR , RS , RB , flLR de la senal de audio de i3. i canales como salida de la seccion i3 i0 de decodificacion.
En una realizacion ejemplar, el sistema i000 de decodificacion de audio, descrito con referencia a la Figura i0 puede comprender la seccion i300 de decodificacion ademas de las secciones 900 y i005 de decodificacion, o puede al menos ser operable reconstruir la senal de i3. i canales por un metodo similar al realizado por la seccion i300 de decodificacion. La senalizacion S extrafda del flujo de bits B puede por ejemplo indicar si la senal de audio de 5.i canales recibida Li, L2 , Ri, R2, C, LFE y los parametros de mezcla ascendente asociados representan una senal de i i . i canales, como se describe con referencia a la Figura i0, o si representa una senal de audio de i3. i canales, como se describe con referencia a la Figura i3.
La seccion i009 de control puede detectar si la senalizacion S recibida indica una configuracion de i i . i canales o una configuracion de i3. i canales y puede controlar otras secciones del sistema i000 de decodificacion de audio para realizar la reconstruccion parametrica de la senal de audio de i i . i canales, como se describe con referencia a la Figura i0 , o la senal de audio de i3. i canales, como se describe con referencia a la Figura i3. Se puede por ejemplo emplear un unico formato de codificacion para la configuracion de los i3. i canales, en lugar de dos o tres formatos de codificacion, como para la configuracion de i i . i canales. En caso de que la senalizacion S indique una configuracion de i3. i canales, el formato de codificacion puede por lo tanto estar implfcitamente indicado, y puede que no haya necesidad de que la senalizacion S indique explfcitamente un formato de codificacion seleccionado.
Se apreciara que aunque las realizaciones ejemplares descritas con referencia a las Figuras i - 5 se han formulado en terminos de la senal de audio de i i . i canales descrita con referencia a las Figuras 6 - 8, se pueden contemplar sistemas de codificacion que pueden incluir cualquier numero de secciones de codificacion, y que se pueden configurar para codificar cualquier numero de senales de audio de M canales, donde M > 4. Similarmente, se apreciara que aunque las realizaciones ejemplares descritas con referencia a las Figuras 9 - i2 se han formulado en terminos de la senal de audio de i i . i canales descrita con referencia a las Figuras 6 - 8, se pueden contemplar sistemas de decodificacion que pueden incluir cualquier numero de secciones de decodificacion, y que se pueden configurar para reconstruir cualquier numero de senales de audio de M canales, donde M > 4.
En algunas realizaciones, el lado de codificador puede seleccionar entre los tres formatos de codificacion Fi, F2 , F3. En otras realizaciones ejemplares, el lado de codificador puede seleccionar entre solo dos formatos de codificacion, p.ej., el primer y segundo formatos de codificacion Fi, F2.
La Figura i4 es un diagrama de bloques generalizado de una seccion i400 de codificacion para codificar una senal de audio de M canales como una senal de mezcla descendente de dos canales y los coeficientes de mezcla ascendente secos y humedos asociados, segun una realizacion ejemplar. La seccion i400 de codificacion se puede disponer en un sistema de codificacion de audio del tipo mostrado en la Figura 3. Mas precisamente, se puede disponer en la ubicacion ocupada por la seccion i00 de codificacion. Como quedara claro cuando se describan los funcionamientos internos de los componentes mostrados, la seccion i400 de codificacion es operable en dos formatos de codificacion distintos; se pueden implementar sin embargo secciones de codificacion similares, sin desviarse del alcance de la invencion, que sean operables en tres o mas formatos de codificacion.
La seccion i400 de codificacion comprende una seccion i4 i0 de mezcla descendente y una seccion i420 de analisis. Para al menos uno seleccionado (vease la descripcion a continuacion de una seccion i430 de control de la seccion i400 de codificacion) de los formatos de codificacion Fi, F2, que pueden ser uno de los descritos con referencia a las Figuras 6 - 7 o pueden ser formatos diferentes, la seccion i4 i0 de mezcla descendente calcula, de acuerdo con el formato de codificacion, una senal de mezcla descendente de dos canales Li, L2 en base a la senal de audio de cinco canales L, LS, LB, TFL, TBL. En por ejemplo el primer formato de codificacion Fi, el primer canal Li de la senal de mezcla descendente se forma como una combinacion lineal (p.ej., una suma) de un primer grupo de canales de la senal de audio de cinco canales L, LS, LB, TFL, TBL, y el segundo canal L2 de la senal de mezcla descendente se forma como una combinacion lineal (p.ej., una suma) de un segundo grupo de canales de la senal de audio de cinco canales L, LS, LB, TFL, TBL. La operacion realizada por la seccion 1410 de mezcla descendente se puede por ejemplo expresar como la ecuacion (1).
Para al menos dicho uno seleccionado de los formatos de codificacion Fi, F2 , la seccion 1420 de analisis determina un conjunto de coeficientes pL de mezcla ascendente secos que definen un mapeo lineal de la respectiva senal de mezcla descendente L1, L2 que se aproxima a la senal de audio de cinco canales L, LS, LB, TFL, TBL. Para cada uno de los formatos de codificacion F1, F2, la seccion 1420 de analisis determina ademas un conjunto de coeficientes yl de mezcla ascendente humedos, en base a la respectiva diferencia calculada, que junto con los coeficientes pL de mezcla ascendente secos permite la reconstruccion parametrica segun la ecuacion (2) de la senal de audio de cinco canales L, LS, LB, TFL, TBL a partir de la senal de mezcla descendente L1, L2 y a partir de una senal descorrelacionada de tres canales determinada en un lado de decodificador en base a la senal de mezcla descendente L1, L2. El conjunto de coeficientes YLde mezcla ascendente humedos define un mapeo lineal de la senal descorrelacionada de tal manera que la matriz de covarianza de la senal obtenida por el mapeo lineal de la senal descorrelacionada se aproxima a la diferencia entre la matriz de covarianza de la senal de audio de cinco canales L, LS, LB, TFL, TBL recibida y la matriz de covarianza de la senal de audio de cinco canales aproximada por el mapeo lineal de la senal de mezcla descendente L1, L2.
La seccion 1410 de mezcla descendente puede por ejemplo calcular la senal de mezcla descendente L1, L2 en el dominio del tiempo, i.e., en base a una representacion de dominio del tiempo de la senal de audio de cinco canales L, LS, LB, TBL, TBL, o en un dominio de la frecuencia, i.e., en base a una representacion de dominio de la frecuencia de la senal de audio de cinco canales L, LS, LB, TFL, TBL. Es posible calcular L1, L2 en el dominio del tiempo al menos si la decision sobre un formato de codificacion no es selectiva en frecuencia, y por tanto aplica para todos los componentes de frecuencia de la senal de audio de M canales; este es el caso preferido actualmente.
La seccion 1420 de analisis puede por ejemplo determinar los coeficientes pL de mezcla ascendente secos y los coeficientes yl de mezcla ascendente humedos en base a un analisis de dominio de la frecuencia de la senal de audio de cinco canales L, LS, LB, TFL, TBL. El analisis de dominio de la frecuencia se puede realizar sobre una seccion de ventana de la senal de audio de M canales. Para las ventanas, se pueden por ejemplo utilizar ventanas rectangulares disjuntas o triangulares solapadas. La seccion 1420 de analisis puede por ejemplo recibir la senal de mezcla descendente L1, L2 calculada por la seccion 1410 de mezcla descendente (no mostrada en la Figura 14), o puede calcular su propia version de la senal de mezcla descendente L1, L2, para el proposito espedfico de determinar los coeficientes pL de mezcla ascendente secos y los coeficientes yl Y de mezcla ascendente humedos.
La seccion 1400 de codificacion comprende ademas una seccion 1430 de control, que es responsable de seleccionar un formato de codificacion a ser utilizado actualmente. No es esencial que la seccion 1430 de control utilice un criterio particular o razonamiento particular para decidir el formato de codificacion a seleccionar. El valor de la senalizacion S generada por la seccion 1430 de control indica el resultado de la toma de decision de la seccion 1430 de control para una seccion actualmente considerada (p.ej., una trama de tiempo) de la senal de audio de M canales. La senalizacion S se puede incluir en un flujo de bits B producido por el sistema 300 de codificacion en el que esta incluida la seccion 1400 de codificacion, para facilitar la reconstruccion de la senal de audio codificada. Adicionalmente, la senalizacion S se alimenta a cada una de la seccion 1410 de mezcla descendente y la seccion 1420 de analisis, para informar a estas secciones del formato de codificacion a utilizar. Como la seccion 1420 de analisis, la seccion 1430 de control puede considerar secciones de ventana de la senal de M canales. Se observa para exhaustividad que la seccion 1410 de mezcla descendente puede operar con retardos de 1 o 2 tramas y posiblemente con adelanto adicional, con respecto a la seccion 1430 de control. Opcionalmente, la senalizacion S puede tambien contener informacion relativa a un desvanecimiento cruzado de la senal de mezcla descendente que produce la seccion 1410 de mezcla descendente y/o informacion relativa a una interpolacion del lado de decodificador de valores discretos de los coeficientes de mezcla ascendente secos y humedos que proporciona la seccion 1420 de analisis, para asegurar la sincronicidad en una escala de tiempo de subtrama.
Como un componente adicional, la seccion 1400 de codificacion puede incluir un estabilizador 1440 dispuesto inmediatamente aguas abajo de la seccion 1430 de control y que actua sobre su senal de salida inmediatamente antes de que sea procesada por otros componentes. En base a esta senal de salida, el estabilizador 1440 suministra la informacion lateral S a los componentes aguas abajo. El estabilizador 1440 puede implementar el objetivo deseable de no cambiar el formato de codificacion seleccionado demasiado frecuentemente. Para este proposito, el estabilizador 1440 puede considerar una serie de selecciones de formato de codificacion para tramas de tiempo anteriores de la senal de audio de M canales y asegurar que se mantiene un formato de codificacion elegido durante al menos un numero predefinido de tramas de tiempo. Alternativamente, el estabilizador puede aplicar un filtro de promediado a una serie de selecciones de formatos de codificacion anteriores (p.ej., representadas como una variable discreta), lo que puede provocar un efecto de suavizado. Como otra alternativa mas, el estabilizador 1440 puede comprender una maquina de estado configurada para suministrar informacion lateral S para todas las tramas de tiempo en una ventana de tiempo movil si la maquina de estado determina que la seleccion de formato de codificacion proporcionada por la seccion 1430 de control ha permanecido estable a lo largo de la ventana de tiempo movil. La ventana de tiempo movil puede corresponder a una memoria intermedia que almacena las selecciones formato de codificacion para una serie de tramas de tiempo anteriores. Como se da cuenta facilmente el experto en la tecnica que estudie esta descripcion, tales funcionalidades de estabilizacion pueden necesitar ir acompanadas por un aumento en el retardo operacional entre el estabilizador 1440 y al menos la seccion 1410 de mezcla descendente y la seccion 1420 de analisis. El retardo se puede implementar por medio de secciones de almacenamiento en memoria intermedia de la senal de audio de M canales.
Se recuerda que la Figura 14 es una vista parcial del sistema de codificacion en la Figura 3. Mientras que los componentes mostrados en la Figura 14 solo se refieren al procesamiento de los canales laterales izquierdos L, LS, LB, TFL, TBL, el sistema de codificacion procesa al menos los canales laterales derechos R, RS, Rb , TFR, TBR tambien. Por ejemplo, una instancia adicional (p.ej., una replica funcionalmente equivalente) de la seccion 1400 de codificacion puede operar en paralelo para codificar una senal lateral derecha que incluye dichos canales R, RS, RB, TFR, TBR. Aunque los canales laterales izquierdos y laterales derechos contribuyen a dos senales de mezcla descendente separadas (o al menos a grupos separados de canales de una senal de mezcla descendente comun), se prefiere utilizar un formato de codificacion comun para todos los canales. Es decir, la seccion 1430 de control dentro de la seccion 1400 de codificacion lateral izquierda puede ser responsable de decidir sobre un formato de codificacion comun a utilizar tanto para los canales laterales izquierdos como laterales derechos; es entonces preferible que la seccion 1430 de control tenga acceso a los canales laterales derechos R, RS, RB, TFR, TBR tambien o a cantidades derivadas a partir de estas senales, tal como una covarianza, una senal de mezcla descendente, etc., y puede tenerlas en cuenta al decidir sobre un formato de codificacion a utilizar. La senalizacion S se proporciona luego no solo a la seccion 1410 de mezcla descendente y la seccion 1420 de analisis de la seccion 1430 de control (lateral izquierda), sino tambien a las secciones equivalentes de una seccion de codificacion lateral derecha (no mostrada). Alternativamente, el proposito de utilizar un formato de codificacion comun para todos los canales se puede lograr permitiendo que la propia seccion 1430 de control sea comun tanto a una instancia lateral izquierda de la seccion 1400 de codificacion como a una instancia lateral derecha de la misma. En un diseno del tipo representado en la Figura 3, la seccion 1430 de codificacion se puede proporcionar fuera tanto de la seccion 100 de codificacion como de la seccion 303 de codificacion adicional, que son responsables de los canales laterales izquierdos y laterales derechos, respectivamente, que reciben todos los canales laterales derechos y laterales izquierdos L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR y emiten la senalizacion S, que indica una seleccion de un formato de codificacion y se suministra al menos a la seccion 100 de codificacion y la seccion 303 de codificacion adicional.
La Figura 15 representa esquematicamente una posible implementacion de una seccion 1410 de mezcla descendente configurada para alternar, de acuerdo con la senalizacion S, entre dos formatos de codificacion F1, F2 predefinidos y proporcionar un desvanecimiento cruzado de estos. La seccion 1410 de mezcla descendente comprende dos subsecciones 1411, 1412 de mezcla descendente configuradas para recibir la senal de audio de M canales y emitir una senal de mezcla descendente de dos canales. Las dos subsecciones 1411, 1412 de mezcla descendente pueden ser copias funcionalmente equivalentes de un diseno, aunque configuradas con diferentes configuraciones de mezcla descendente (p.ej., valores de los coeficientes para producir la senal de mezcla descendente L1, L2 en base a la senal de audio de M canales). En operacion normal, las dos subsecciones 1411, 1412 de mezcla descendente juntas proporcionan una senal de mezcla descendente L-i(F-i), L2(F-i) de acuerdo con el primer formato de codificacion F1 y/o una senal de mezcla descendente L i(F2), L2(F2) de acuerdo con el segundo formato de codificacion F2. Aguas abajo de las subsecciones 1411, 1412 de mezcla descendente, hay dispuestas una primera seccion 1413 de interpolacion de mezcla descendente y una segunda seccion 1414 de interpolacion de mezcla descendente. La primera seccion 1413 de interpolacion de mezcla descendente se configura para interpolar, incluyendo desvanecimiento cruzado, un primer canal L1 de la senal de mezcla descendente, y la segunda seccion 1414 de interpolacion de mezcla descendente se configura para interpolar, incluyendo desvanecimiento cruzado, un segundo canal L2 de la senal de mezcla descendente. La primera seccion 1413 de interpolacion de mezcla descendente es operable en al menos los siguientes estados:
a) primer formato de codificacion solamente (L1 = L-i(F-i)), como se puede utilizar en la operacion de estado estable en el primer formato de codificacion;
b) segundo formato de codificacion solamente (L1 = L i(F2)), como se puede utilizar en la operacion de estado estable en el segundo formato de codificacion; y
c) mezcla de canales de mezcla descendente segun ambos formatos de codificacion (L1 = a-iL^F-i) a2L-i(F2), en donde 0 < a1 < 1 y 0 < a2 < 1 ), como se puede utilizar en una transicion del primer al segundo formato de codificacion o viceversa.
Mezclar el estado (c) puede requerir que las senales de mezcla descendente esten disponibles desde tanto la primera como la segunda subsecciones 1411, 1412 de mezcla descendente. Preferiblemente, la primera seccion 1413 de interpolacion de mezcla descendente es operable en una pluralidad de estados de mezcla (c), de modo que es posible una transicion en subpasos finos, o incluso un desvanecimiento cruzado casi continuo. Esto tiene la ventaja de hacer un desvanecimiento cruzado menos perceptible. Por ejemplo, en un diseno interpolador donde a1 + a2 = 1, es posible un desvanecimiento cruzado de cinco pasos si se definen los siguientes valores de (a 1 , a 2 ): (0,2; 0,8) (0,4; 0,6), (0,6; 0,4), (0,8; 0,2). La segunda seccion 1414 de interpolacion de mezcla descendente puede tener capacidades identicas o similares.
En una variacion a la realizacion anterior de la seccion 1410 de mezcla descendente, como se sugiere por la lmea discontinua en la Figura 15, la senalizacion S se puede alimentar a la primera y segunda subsecciones 1411, 1412 de mezcla descendente tambien. Como se explico anteriormente, se puede entonces suprimir la generacion de la senal de mezcla descendente asociada con el formato de codificacion no seleccionado. Esto puede reducir la carga computacional promedio.
Adicionalmente o alternativamente a esta variacion, el desvanecimiento cruzado entre senales de mezcla descendente de dos formatos de codificacion diferentes se puede lograr mediante el desvanecimiento cruzado de los coeficientes de mezcla descendente. La primera subseccion 1411 de mezcla descendente puede entonces ser alimentada por coeficientes de mezcla descendente interpolados, que son producidos por un interpolador de coeficientes (no mostrado) que almacena valores predefinidos de coeficientes de mezcla descendente a ser utilizados en los formatos de codificacion Fi, F2 disponibles, y recibe como entrada la senalizacion S. En esta configuracion, la segunda subseccion 1412 de mezcla descendente y la primera y segunda subsecciones 1413, 1414 de interpolacion se pueden eliminar o desactivar permanentemente.
La senalizacion S que recibe la seccion 1410 de mezcla descendente se suministra al menos a las secciones 1413, 1414 de interpolacion de mezcla descendente, pero no necesariamente a las subsecciones 1411, 1412 de mezcla descendente. Es necesario suministrar la senalizacion S a las subsecciones 1411, 1412 de mezcla descendente si se desea una operacion alterna, es decir, si se debe disminuir la cantidad de mezcla descendente redundante fuera de las transiciones entre formatos de codificacion. La senalizacion puede ser comandos de bajo nivel, p.ej., que se refieren a diferentes modos operacionales de las secciones 1413, 1414 de interpolacion de mezcla descendente, o se puede referir a instrucciones de alto nivel, tal como una orden para ejecutar un programa de desvanecimiento cruzado predefinido (p.ej., una sucesion de los modos operacionales en donde cada uno tiene una duracion predefinida) en un punto de inicio indicado.
Volviendo a la Figura 16, se representa una posible implementacion de una seccion 1420 de analisis configurada para alternar, de acuerdo con la senalizacion S, entre dos formatos de codificacion F1, F2 predefinidos. La seccion 1420 de analisis comprende dos subsecciones 1421, 1422 de analisis configuradas para recibir la senal de audio de M canales y emitir los coeficientes de mezcla ascendente secos y humedos. Las dos subsecciones 1421, 1422 de analisis pueden ser copias funcionalmente equivalentes de un diseno. En operacion normal, las dos subsecciones 1421, 1422 de analisis juntas proporcionan un conjunto de coeficientes Pl(F-i), Yl (F1) de mezcla ascendente secos y humedos de acuerdo con el primer formato de codificacion F1 y/o un conjunto de coeficientes Pl(F2), Yl (F2 ) de mezcla ascendente secos y humedos de acuerdo con el segundo formato de codificacion F2.
Como se explico anteriormente para la seccion 1420 analisis en su conjunto, se puede recibir la senal de mezcla descendente actual de la seccion 1410 de mezcla descendente, o se puede producir un duplicado de esta senal en la seccion 1420 de analisis. Mas precisamente, la primera subseccion 1421 de analisis puede recibir la senal de mezcla descendente L i(F-i), L2(F-i) segun el primer formato de codificacion F1 de la primera subseccion 1411 de mezcla descendente en la seccion 1410 de mezcla descendente, o puede producir un duplicado por si misma. Similarmente, la segunda subseccion 1422 de analisis puede recibir la senal de mezcla descendente L i(F2 ), L2(F2) segun el segundo formato de codificacion F2 de la segunda subseccion 1412 de mezcla descendente, o puede producir un duplicado de esta senal por si misma.
Aguas abajo de las secciones 1421, 1422 de analisis, hay dispuesto un selector 1423 de coeficientes de mezcla ascendente secos y un selector 1424 de coeficientes de mezcla ascendente humedos. El selector 1423 de coeficientes de mezcla ascendente secos se configura para reenviar un conjunto de coeficientes pL de mezcla ascendente secos desde la primera o segunda subseccion 1421, 1422 de analisis, y el selector 1424 de coeficientes de mezcla ascendente humedos se configura para reenviar un conjunto de coeficientes yl de mezcla ascendente humedos desde la primera o segunda subseccion 1421, 1422 de analisis. El selector 1423 de coeficientes de mezcla ascendente secos es operable en al menos los estados (a) y (b) discutidos anteriormente para la primera seccion 1413 de interpolacion de mezcla descendente. Sin embargo, si el sistema de codificacion de la Figura 3, del cual se esta describiendo aqu una porcion, se configura para cooperar con un sistema de decodificacion que, como el mostrado en la Figura 9, realiza la reconstruccion parametrica en base a valores discretos interpolados de los coeficientes de mezcla ascendente que recibe, entonces no hay necesidad de configurar un estado de mezcla como (c) definido por las secciones 1413, 1414 de interpolacion de mezcla descendente. El selector 1424 de coeficientes de mezcla ascendente humedos puede tener capacidades similares.
La senalizacion S que recibe la seccion 1420 de analisis se suministra al menos a los selectores 1423, 1424 de coeficientes de mezcla ascendente humedos y secos. No es necesario que las subsecciones 1421, 1422 de analisis reciban la senalizacion, aunque esto es ventajoso para evitar el calculo redundante de los coeficientes de mezcla ascendente fuera de las transiciones. La senalizacion puede ser comandos de bajo nivel, p.ej., que se refieren a diferentes modos operaciones de los selectores 1423, 1424 de coeficientes de mezcla ascendente secos y humedos, o se puede referir a instrucciones de alto nivel, tal como una orden para pasar de un formato de codificacion a otro en una trama de tiempo dada. Como se explico anteriormente, esto preferiblemente no implica una operacion de desvanecimiento cruzado pero puede equivaler a definir los valores de los coeficientes de mezcla ascendente para un punto adecuado en el tiempo, o definir estos valores para aplicarlos en un punto adecuado en el tiempo.
Se describira ahora un metodo 1700 que es una variacion del metodo para codificar una senal de audio de M canales como una senal de mezcla descendente de dos canales, segun una realizacion ejemplar, que se represento esquematicamente como un diagrama de flujo en la Figura 17. El metodo ejemplificado aqu puede ser realizado por un sistema de codificacion de audio que comprende la seccion 1400 de codificacion que se ha descrito anteriormente con referencia a las Figuras 14 - 16.
El metodo 1700 de codificacion de audio comprende: recibir 1710 la senal de audio de M canales L, LS, LB, TFL, TBL; seleccionar 1720 uno de al menos dos de los formatos de codificacion F1, F2, F3 descritos con referencia a las Figuras 6 - 8 ; calcular 1730, para el formato de codificacion seleccionado, una senal de mezcla descendente de dos canales L1, L2 en base a la senal de audio de M canales L, LS, LB, TFL, TBL; emitir 1740 la senal de mezcla descendente L1, L2 del formato de codificacion seleccionado e informacion lateral a que permite la reconstruccion parametrica de la senal de audio de M canales en base a la senal de mezcla descendente; y emitir 1750 la senalizacion S que indica el formato de codificacion seleccionado. El metodo se repite, p.ej., para cada trama de tiempo de la senal de audio de M canales. Si el resultado de la seleccion 1720 es un formato de codificacion diferente al seleccionado inmediatamente antes, entonces la senal de mezcla descendente se reemplaza, durante una duracion adecuada, por un desvanecimiento cruzado entre senales de mezcla descendente de acuerdo con los formatos de codificacion previo y actual. Como ya se ha discutido, no es necesario o no es posible realizar un desvanecimiento cruzado de la informacion lateral, que puede estar sujeta a interpolacion inherente del lado de decodificador.
Se observa que el metodo descrito aqu se puede implementar sin uno o mas de los cuatro pasos 430, 440, 450 y 470 representados en la Figura 4.
IV. Equivalentes, extensiones, alternativas y miscelaneos
Incluso aunque la presente descripcion describe y representa realizaciones ejemplares espedficas, la invencion no se limita a estos ejemplos espedficos. Se pueden hacer modificaciones y variaciones a las realizaciones ejemplares anteriores sin desviarse del alcance de la invencion, que esta definida por las reivindicaciones adjuntas solamente.
En las reivindicaciones, la palabra “comprender” no excluye otros elementos o pasos, y el artfculo indefinido “un” o “una” no excluye una pluralidad. El mero hecho de que ciertas medidas sean enumeradas en reivindicaciones dependientes mutuamente diferentes no indica que no se pueda utilizar una combinacion de estas medidas ventajosamente. Cualquier signo de referencia que aparezca en las reivindicaciones no debe entenderse como limitativo de su alcance.
Los dispositivos y metodos descritos anteriormente se pueden implementar como software, firmware, hardware o una combinacion de los mismos. En una implementacion de hardware, la division de tareas entre las unidades funcionales a las que se hace referencia en la descripcion anterior no corresponde necesariamente a la division en unidades ffsicas; al contrario, un componente ffsico puede tener multiples funcionalidades, y una tarea puede ser llevada a cabo de manera distribuida, por varios componentes ffsicos en cooperacion. Ciertos componentes o todos los componentes se pueden implementar como software ejecutado por un procesador digital, procesador de senal o microprocesador, o se pueden implementar como hardware o como un circuito integrado de aplicacion espedfica. Tal software puede ser distribuido en medios legibles por ordenador, que pueden comprender medios (o medios no transitorios) de almacenamiento informatico y medios (o medios transitorios) de comunicacion. Como es bien conocido para un experto en la tecnica, el termino medios de almacenamiento informatico incluye medios tanto volatiles como no volatiles, extrafbles y no extrafbles implementados en cualquier metodo o tecnologfa para el almacenamiento de informacion tal como instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. Los medios de almacenamiento informatico incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD) u otro almacenamiento en disco optico, casetes magneticos, cinta magnetica, almacenamiento en disco magnetico u otros dispositivos de almacenamiento magneticos, o cualquier otro medio que se pueda utilizar para almacenar la informacion deseada y que pueda ser accedido por un ordenador. Ademas, es bien conocido para el experto en la tecnica que los medios de comunicacion tfpicamente representan instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluyen cualquier medio de entrega de informacion.

Claims (15)

REIVINDICACIONES
1. Un metodo (1200) de decodificacion de audio que comprende:
recibir (1201) una senal de mezcla descendente de dos canales (Li, L2) y parametros (aL) de mezcla ascendente para la reconstruccion parametrica de una senal de audio de M canales (L, LS, LB, TFL, TBL) en base a la senal de mezcla descendente, donde M > 4;
recibir (1202) senalizacion (S) que indica uno seleccionado de al menos dos formatos de codificacion (F1, F2, F3) de la senal de audio de M canales, en donde los formatos de codificacion corresponden a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos (601, 602) de uno o mas canales, en donde, en el formato de codificacion indicado, un primer canal de la senal de mezcla descendente corresponde a una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales y un segundo canal de la senal de mezcla descendente corresponde a una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales;
determinar (1203) un conjunto de coeficientes de descorrelacion previa en base al formato de codificacion indicado;
calcular (1205) una senal de entrada de descorrelacion (D1, D2 , D3) como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de descorrelacion previa se aplica a la senal de mezcla descendente, en donde los coeficientes de descorrelacion previa se determinan de tal manera que un primer canal (TBL) de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un primer canal fijo (D3) de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion;
generar (1207) una senal descorrelacionada en base a la senal de entrada de descorrelacion;
determinar (1208) conjuntos de coeficientes (yl, Pl) de mezcla ascendente humedos y secos en base a los parametros de mezcla ascendente recibidos y el formato de codificacion indicado;
calcular (1210) una senal (X1, X2) de mezcla ascendente seca como un mapeo lineal de la senal de mezcla descendente, en donde el conjunto de coeficientes de mezcla ascendente secos se aplica a la senal de mezcla descendente;
calcular (1211) una senal (Y1, Y2) de mezcla ascendente humeda como un mapeo lineal de la senal descorrelacionada, en donde el conjunto de coeficientes de mezcla ascendente humedos se aplica a la senal descorrelacionada; y
combinar (1213) las senales de mezcla ascendente secas y humedas para obtener una senal reconstruida multidimensional (L , LS , LB , TFL , TBL) correspondiente a la senal de audio de M canales a reconstruir;
caracterizado por que
la senal de audio de M canales tiene una configuracion de canales predefinida, y el formato de codificacion seleccionado indicado conmuta entre los al menos dos formatos de codificacion.
2. El metodo de decodificacion de audio de la reivindicacion 1, en donde la senal de entrada de descorrelacion y la senal descorrelacionada comprende cada una M - 2 canales, en donde un canal de la senal descorrelacionada se genera en base a no mas de un canal de la senal de entrada de descorrelacion, y en donde los coeficientes de descorrelacion previa se determinan de tal manera que, en cada uno de los formatos de codificacion, un canal de la senal de entrada de descorrelacion recibe una contribucion de no mas de un canal de la senal de mezcla descendente.
3. El metodo de decodificacion de audio de cualquiera de las reivindicaciones precedentes, en donde los coeficientes de descorrelacion previa se determinan de tal manera que, adicionalmente, un segundo canal (L) de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un segundo canal fijo (D1) de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion; y/o en donde los coeficientes de descorrelacion previa se determinan de tal manera que un par de canales (LS, LB) de la senal de audio de M canales contribuye, a traves de la senal de mezcla descendente, a un tercer canal fijo (D2) de la senal de entrada de descorrelacion en al menos dos de los formatos de codificacion.
4. El metodo de decodificacion de audio de cualquiera de las reivindicaciones precedentes, que comprende ademas:
en respuesta a la deteccion de una conmutacion del formato de codificacion indicado de un primer formato de codificacion a un segundo formato de codificacion, realizar (1206) una transicion gradual de valores de los coeficientes de descorrelacion previa asociados con el primer formato de codificacion a valores de los coeficientes de descorrelacion previa asociados con el segundo formato de codificacion.
5. El metodo de decodificacion de audio de cualquiera de las reivindicaciones precedentes, en donde la senal de audio de M canales comprende tres canales (L, LS, LB) que representan diferentes direcciones horizontales en un entorno de reproduccion para la senal de audio de M canales, y dos canales (TFL, TBL) que representan direcciones verticalmente separadas de las de dichos tres canales en dicho entorno de reproduccion.
6. El metodo de decodificacion de audio de la reivindicacion 5, en donde, en un primer formato de codificacion (Fi), dicho segundo grupo comprende dichos dos canales y/o, en donde, en un primer formato de codificacion (Fi), dicho primer grupo comprende dichos tres canales y dicho segundo grupo comprende dichos dos canales y/o, en donde, en un segundo formato de codificacion (F2), cada uno del primer y segundo grupos comprende uno de dichos dos canales.
7. El metodo de decodificacion de audio de cualquiera de las reivindicaciones precedentes, en donde, en un formato de codificacion (Fi, F2) particular, dicho primer grupo consta de N canales, en donde N > 3, y en donde, en respuesta a que el formato de codificacion indicado sea el formato de codificacion particular:
los coeficientes de descorrelacion previa se determinan de tal manera que se generan N - 1 canales de la senal descorrelacionada en base al primer canal de la senal de mezcla descendente; y
los coeficientes de mezcla ascendente secos y humedos se determinan de tal manera que dicho primer grupo se reconstruye como un mapeo lineal del primer canal de la senal de mezcla descendente y dichos N - 1 canales de la senal descorrelacionada, en donde un subconjunto de los coeficientes de mezcla ascendente secos se aplica al primer canal de la senal de mezcla descendente y un subconjunto de los coeficientes de mezcla ascendente humedos se aplica a dichos N - 1 canales de la senal descorrelacionada.
8. Un metodo de decodificacion de audio que comprende:
recibir senalizacion (S) que indica una de al menos dos configuraciones de canales predefinidas;
en respuesta a la deteccion de la senalizacion recibida que indica una primera configuracion de canales (L, LS, LB, TFL, TBL) predefinida, realizar el metodo de decodificacion de audio de cualquiera de las reivindicaciones precedentes; y
en respuesta a la deteccion de la senalizacion recibida que indica una segunda configuracion de canales (LW, LSCRN, TFL, LS, LB, TBL) predefinida
recibir una senal de mezcla descendente de dos canales (Li, L2) y los parametros (a) de mezcla ascendente asociados,
realizar reconstruccion parametrica de una primera senal de audio de tres canales (LW, LSCRN, TFL) en base a un primer canal (Li), de la senal de mezcla descendente y al menos algunos de los parametros de mezcla ascendente, y
realizar reconstruccion parametrica de una segunda senal de audio de tres canales (LS, LB, TBL) en base a un segundo canal (L2 ), de la senal de mezcla descendente y al menos algunos de los parametros de mezcla ascendente.
9. Un sistema (i000) de decodificacion de audio que comprende uno o mas componentes configurados para realizar el metodo de cualquiera de las reivindicaciones i - 8.
10. El sistema de decodificacion de audio de la reivindicacion 9, en donde el uno o mas componentes se configuran ademas para:
reconstruir una senal de audio de M canales (R, RS, RB, TFR, TBR) adicional en base a una senal de mezcla descendente de dos canales (Ri, R2 ) adicional y los parametros (aR) de mezcla ascendente adicionales asociados;
recibir senalizacion (S) que indica uno seleccionado de al menos dos formatos de codificacion de la senal de audio de M canales adicional, correspondiendo los formatos de codificacion de la senal de audio de M canales adicional a respectivas particiones diferentes de los canales de la senal de audio de M canales adicional en respectivos primer y segundo grupos (603, 604) de uno o mas canales, en donde, en el formato de codificacion indicado de la senal de audio de M canales adicional, un primer canal (Ri) de la senal de mezcla descendente adicional corresponde a una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales adicional y un segundo canal (R2 ) de la senal de mezcla descendente adicional corresponde a una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales adicional;
determinar un conjunto de coeficientes de descorrelacion previa adicional en base al formato de codificacion indicado de la senal de audio de M canales adicional;
calcular una senal de entrada de descorrelacion adicional como un mapeo lineal de la senal de mezcla descendente adicional, en donde el conjunto de coeficientes de descorrelacion previa adicional se aplica a la senal de mezcla descendente adicional;
generar una senal descorrelacionada adicional en base a la senal de entrada de descorrelacion adicional; determinar conjuntos de coeficientes de mezcla ascendente humedos y secos adicionales en base a los parametros de mezcla ascendente adicionales recibidos y el formato de codificacion indicado de la senal de audio de M canales adicional;
calcular una senal de mezcla ascendente seca adicional como un mapeo lineal de la senal de mezcla descendente adicional, en donde el conjunto de coeficientes de mezcla ascendente secos adicional se aplica a la senal de mezcla descendente adicional;
calcular una senal de mezcla ascendente humeda adicional como un mapeo lineal de la senal descorrelacionada adicional, en donde el conjunto de coeficientes de mezcla ascendente humedos adicional se aplica a la senal descorrelacionada adicional; y
combinar las senales de mezcla ascendente secas y humedas adicionales para obtener una senal reconstruida multidimensional (R , RS , RB , TFR , flPR ) adicional correspondiente a la senal de audio de M canales adicional a reconstruir.
11. El sistema de decodificacion de audio de cualquiera de las reivindicaciones 9 - 10, en donde el uno o mas componentes se configura ademas para:
extraer, a partir de un flujo de bits (B), la senal de mezcla descendente, los parametros de mezcla ascendente asociados con la senal de mezcla descendente, y un canal (C) de audio codificado de manera discreta; y
decodificar dicho canal de audio codificado de manera discreta.
12. Un metodo (1700) de codificacion de audio, que comprende:
recibir (1710) una senal de audio de M canales (L, LS, LB, TFL, TBL), donde M > 4;
seleccionar (1720) repetidamente uno de al menos dos formatos de codificacion (F1, F2, F3 ) correspondientes a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos (601, 602) de uno o mas canales cada uno, en donde cada uno de los formatos de codificacion define una senal de mezcla descendente de dos canales (L1, L2 ), en la que un primer canal (L1) de la senal de mezcla descendente se forma como una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales, y en donde un segundo canal (L2 ) de la senal de mezcla descendente se forma como una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales;
para el formato de codificacion actualmente seleccionado, determinar un conjunto de coeficientes (Pl) de mezcla ascendente secos y un conjunto de coeficientes (yl) de mezcla ascendente humedos;
calcular (1730), de acuerdo con el formato de codificacion actualmente seleccionado, una senal de mezcla descendente de dos canales (L1, L2) en base a la senal de audio de M canales;
emitir (1740) la senal de mezcla descendente del formato de codificacion actualmente seleccionado, estando la senal de mezcla descendente segmentada en tramas de tiempo, y permitiendo la informacion lateral la reconstruccion parametrica de la senal de audio de M canales en base a la senal de mezcla descendente y una senal descorrelacionada determinada en base a al menos un canal de la senal de mezcla descendente del formato de codificacion seleccionado, comprendiendo la informacion lateral valores discretos de los conjuntos de coeficientes (Pl, Yl) de mezcla ascendente secos y humedos, en donde se emite al menos un valor discreto por trama de tiempo; y
emitir (1750) senalizacion (S) que indica el formato de codificacion actualmente seleccionado, caracterizado por que
la senal de audio de M canales tiene una configuracion de canales predefinida,
en respuesta a un cambio de un primer formato de codificacion seleccionado a un segundo formato de codificacion seleccionado distinto, se calcula una senal de mezcla descendente segun el segundo formato de codificacion seleccionado, y se emite un desvanecimiento cruzado de la senal de mezcla descendente segun el primer formato de codificacion seleccionado y la senal de mezcla descendente segun el segundo formato de codificacion seleccionado en lugar de la senal de mezcla descendente, y
la reconstruccion parametrica de la senal de audio de M canales entre los valores discretos debe basarse en valores interpolados de los conjuntos de coeficientes (Pl, Yl) de mezcla ascendente secos y humedos segun una regla de interpolacion predefinida, en donde el desvanecimiento cruzado de la senal de mezcla descendente y los valores discretos de los conjuntos de coeficientes de mezcla ascendente secos y humedos se emiten de tal manera que dicho desvanecimiento cruzado e interpolacion seran smcronos.
13. Un sistema (300) de codificacion de audio que comprende una seccion (1400) de codificacion configurada para codificar una senal de audio de M canales (L, LS, LB, TFL, TBL) como una senal de mezcla descendente de dos canales y los parametros de mezcla ascendente asociados, donde M > 4, comprendiendo la seccion de codificacion:
una seccion (1411, 1412) de mezcla descendente configurada para, para al menos uno de al menos dos formatos de codificacion (F1, F2 , F3) correspondientes a respectivas particiones diferentes de los canales de la senal de audio de M canales en respectivos primer y segundo grupos (601, 602) de uno o mas canales cada uno, calcular, de acuerdo con el formato de codificacion, una senal de mezcla descendente de dos canales (L1, L2) en base a la senal de audio de M canales, estando la senal de mezcla descendente segmentada en tramas de tiempo, en donde un primer canal (L1) de la senal de mezcla descendente se forma como una combinacion lineal del primer grupo de uno o mas canales de la senal de audio de M canales y un segundo canal (L2 ) de la senal de mezcla descendente se forma como una combinacion lineal del segundo grupo de uno o mas canales de la senal de audio de M canales;
una seccion (1430) de control configurada para seleccionar repetidamente uno de los formatos de codificacion,
en donde el sistema de codificacion de audio se configura para, para el formato de codificacion actualmente seleccionado, determinar un conjunto de coeficientes (Pl) de mezcla ascendente secos y un conjunto de coeficientes (yl) de mezcla ascendente humedos, y emitir senalizacion (S) que indica el formato de codificacion actualmente seleccionado e informacion lateral (a) que permite la reconstruccion parametrica de la senal de audio de M canales en base a la senal de mezcla descendente y una senal descorrelacionada determinada en base a al menos un canal de la senal de mezcla descendente del formato de codificacion seleccionado, comprendiendo la informacion lateral valores discretos de los conjuntos de coeficientes (Pl, Yl) de mezcla ascendente secos y humedos, en donde se emite al menos un valor discreto por trama de tiempo,
caracterizado por que
la senal de audio de M canales tiene una configuracion de canales predefinida,
el sistema (300) de codificacion de audio comprende un interpolador (1413, 1414) de mezcla descendente configurado para producir un desvanecimiento cruzado de la senal de mezcla descendente segun un primer formato de codificacion, que ha sido seleccionado por la seccion de control, y la senal de mezcla descendente segun un segundo formato de codificacion, que ha sido seleccionado por la seccion de control inmediatamente despues del primer formato de codificacion, y
la reconstruccion parametrica de la senal de audio de M canales entre los valores discretos debe basarse en valores interpolados de los conjuntos de coeficientes (Pl, Yl) de mezcla ascendente secos y humedos segun una regla de interpolacion predefinida, en donde el sistema de codificacion de audio se configura para emitir el desvanecimiento cruzado de la senal de mezcla descendente y los valores discretos de los conjuntos de coeficientes de mezcla ascendente secos y humedos de tal manera que dicho desvanecimiento cruzado e interpolacion seran smcronos.
14. El sistema de codificacion de audio de la reivindicacion 13, configurado para codificar ademas una senal de audio de M2 canales (R, RS, RB, TFR, TBR),
en donde la seccion de control se configura para seleccionar repetidamente uno de los formatos de codificacion con efecto para la senal de audio de M canales y la senal de audio de M2 canales,
comprendiendo ademas el sistema una seccion de codificacion adicional, que se acopla comunicativamente a la seccion de control y se configura para codificar la senal de audio de M2 canales de acuerdo con el formato de codificacion seleccionado por la seccion de control.
15. Un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones que, cuando son ejecutadas por un ordenador, provocan que el ordenador realice el metodo de cualquiera de las reivindicaciones 1 - 8 y 1 2.
ES15801335T 2014-10-31 2015-10-29 Codificación y decodificación paramétrica de señales de audio multicanal Active ES2709661T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462073642P 2014-10-31 2014-10-31
US201562128425P 2015-03-04 2015-03-04
PCT/EP2015/075115 WO2016066743A1 (en) 2014-10-31 2015-10-29 Parametric encoding and decoding of multichannel audio signals

Publications (1)

Publication Number Publication Date
ES2709661T3 true ES2709661T3 (es) 2019-04-17

Family

ID=54705555

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15801335T Active ES2709661T3 (es) 2014-10-31 2015-10-29 Codificación y decodificación paramétrica de señales de audio multicanal

Country Status (9)

Country Link
US (1) US9955276B2 (es)
EP (2) EP3213323B1 (es)
JP (2) JP6640849B2 (es)
KR (1) KR102486338B1 (es)
CN (2) CN107004421B (es)
BR (1) BR112017008015B1 (es)
ES (1) ES2709661T3 (es)
RU (1) RU2704266C2 (es)
WO (1) WO2016066743A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2829413T3 (es) * 2015-05-20 2021-05-31 Ericsson Telefon Ab L M Codificación de señales de audio de múltiples canales
EP3337066B1 (en) 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
CN107576933B (zh) * 2017-08-17 2020-10-30 电子科技大学 多维拟合的信源定位方法
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
JP2008529364A (ja) 2005-01-24 2008-07-31 ティ エイチ エックス リミテッド 周辺及び直接サラウンドサウンドシステム
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
EP1829424B1 (en) 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
MX2008000504A (es) * 2005-07-14 2008-03-07 Koninkl Philips Electronics Nv Codificacion y decodificacion de audio.
US8019614B2 (en) 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
BRPI0809760B1 (pt) * 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
US8811621B2 (en) * 2008-05-23 2014-08-19 Koninklijke Philips N.V. Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
WO2010115850A1 (en) 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
RU2011147119A (ru) * 2009-04-21 2013-05-27 Конинклейке Филипс Электроникс Н.В. Синтез аудиосигнала
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
TWI462087B (zh) * 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
US9219972B2 (en) 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
WO2012094338A1 (en) 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013122388A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmission apparatus, data receiving apparatus, data transceiving system, data transmission method and data receiving method
EP2817802B1 (en) * 2012-02-24 2016-12-07 Dolby International AB Audio processing
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
KR20150032651A (ko) 2012-07-02 2015-03-27 소니 주식회사 복호 장치 및 방법, 부호화 장치 및 방법, 및 프로그램
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP4207817A1 (en) 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
JP6186436B2 (ja) 2012-08-31 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング
PL2896221T3 (pl) 2012-09-12 2017-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do i sposób zapewniania rozszerzonych możliwości kierowanego downmixu dla 3D audio
WO2014068583A1 (en) 2012-11-02 2014-05-08 Pulz Electronics Pvt. Ltd. Multi platform 4 layer and x, y, z axis audio recording, mixing and playback process
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
WO2014126689A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
CN110047496B (zh) * 2013-04-05 2023-08-04 杜比国际公司 立体声音频编码器和解码器
JP6479786B2 (ja) 2013-10-21 2019-03-06 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Also Published As

Publication number Publication date
RU2017114642A (ru) 2018-10-31
RU2019131327A (ru) 2019-11-25
BR112017008015A2 (pt) 2017-12-19
JP2017536756A (ja) 2017-12-07
KR20170078648A (ko) 2017-07-07
CN111816194A (zh) 2020-10-23
RU2017114642A3 (es) 2019-05-24
WO2016066743A1 (en) 2016-05-06
US9955276B2 (en) 2018-04-24
BR112017008015B1 (pt) 2023-11-14
KR102486338B1 (ko) 2023-01-10
EP3213323B1 (en) 2018-12-12
CN107004421B (zh) 2020-07-07
EP3213323A1 (en) 2017-09-06
EP3540732A1 (en) 2019-09-18
JP6640849B2 (ja) 2020-02-05
EP3540732B1 (en) 2023-07-26
US20170339505A1 (en) 2017-11-23
RU2704266C2 (ru) 2019-10-25
JP2020074007A (ja) 2020-05-14
CN107004421A (zh) 2017-08-01
JP7009437B2 (ja) 2022-01-25

Similar Documents

Publication Publication Date Title
ES2934646T3 (es) Sistema de procesamiento de audio
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
ES2399058T3 (es) Aparato y procedimiento para generar una señal de control de sintetizador de múltiples canales y aparato y procedimiento para sintetizar múltipes canales
ES2645674T3 (es) Procedimiento y unidad de procesamiento de señales para mapear una pluralidad de canales de entrada de una configuración de canales de entrada con canales de salida de una configuración de canales de salida
ES2649194T3 (es) Decodificador de audio, codificador de audio, procedimiento para proporcionar al menos cuatro señales de canales de audio sobre la base de una representación codificada, procedimiento para proporcionar una representación codificada sobre la base de al menos cuatro señales de canales de audio y programa informático que utiliza una extensión de ancho de banda
KR100855561B1 (ko) 로우-비트 레이트 애플리케이션용 파라메트릭 표현을생성하는 방법
ES2763367T3 (es) Codificación estéreo de predicción compleja basada en MDCT
ES2312025T3 (es) Esquema de codificador/descodificador de multicanal casi transparente o transparente.
JP7379602B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
KR101761569B1 (ko) 오디오 현장의 코딩
ES2709661T3 (es) Codificación y decodificación paramétrica de señales de audio multicanal
CN107077861B (zh) 音频编码器和解码器
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal
ES2732668T3 (es) Mezcla paramétrica de señales de audio
ES2624668T3 (es) Codificación y descodificación de objetos de audio
RU2798759C2 (ru) Параметрическое кодирование и декодирование многоканальных аудиосигналов
KR20230035383A (ko) 멀티 채널 오디오 신호 코딩 방법 및 장치