ES2636808T3 - Codificación de escenas de audio - Google Patents

Codificación de escenas de audio Download PDF

Info

Publication number
ES2636808T3
ES2636808T3 ES14727789.1T ES14727789T ES2636808T3 ES 2636808 T3 ES2636808 T3 ES 2636808T3 ES 14727789 T ES14727789 T ES 14727789T ES 2636808 T3 ES2636808 T3 ES 2636808T3
Authority
ES
Spain
Prior art keywords
signals
submix
matrix
audio objects
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14727789.1T
Other languages
English (en)
Inventor
Heiko Purnhagen
Lars Villemoes
Leif Jonas SAMUELSSON
Toni HIRVONEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2636808T3 publication Critical patent/ES2636808T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compositions Of Macromolecular Compounds (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método para codificar una losa tiempo/frecuencia de una escena de audio que al menos comprende N objetos de audio, el método comprende: recibir (E02) los N objetos de audio; generar (E04) M señales de submezcla según al menos los N objetos de audio; generar (E06) una matriz de reconstrucción con elementos de matriz para la reconstrucción de al menos los N objetos de audio de las M señales de submezcla, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de al menos las M señales de submezcla con los elementos de matriz de la matriz de reconstrucción como coeficientes en las combinaciones lineales; y generar (E08) una secuencia de bits que comprende las M señales de submezcla y al menos algunos de los elementos de matriz de la matriz de reconstrucción.

Description

5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Codificacion de escenas de audio.
Referencia cruzada a solicitudes relacionadas
La presente solicitud invoca prioridad sobre la Solicitud de Patente Provisional de Estados Unidos No. 61/827,246, presentada el dfa 24 de mayo de 2013.
Campo tecnico
La invencion descrita en la presente memoria se refiere, en general, al campo de la codificacion y descodificacion de audio. En particular, se refiere a la codificacion y descodificacion de una escena de audio que comprende objetos de audio.
Antecedentes
Existen sistemas de codificacion de audio para la codificacion de audio espacial parametrica. Por ejemplo, MPEG Surround describe un sistema para la codificacion espacial parametrica de audio multicanal. MPEG SAOC (Codificacion de Objetos de Audio Espacial) describe un sistema para la codificacion parametrica de objetos de audio.
En un lado de codificador, dichos sistemas submezclan, normalmente, los canales/objetos en una submezcla que, en general, es una submezcla mono (un canal) o una submezcla estereo (dos canales) y extraen informacion conexa que describe las propiedades de los canales/objetos mediante parametros como diferencias de nivel y correlacion cruzada. La submezcla y la informacion conexa se codifican y envfan luego a un lado de descodificador. En el lado de descodificador, se reconstruyen los canales/objetos, a saber, se aproximan, a partir de la submezcla bajo el control de los parametros de la informacion conexa.
Una desventaja de dichos sistemas es que la reconstruccion es, en general, matematicamente compleja y, con frecuencia, tiene que depender de suposiciones sobre las propiedades del contenido de audio que no se describe, de manera explfcita, por los parametros enviados como informacion conexa. Dichas suposiciones pueden ser, por ejemplo, que los canales/objetos se consideran no correlacionados a menos que se envfe un parametro de correlacion cruzada o que se genere la submezcla de los canales/objetos en una forma espedfica. Ademas, la complejidad matematica y la necesidad de suposiciones adicionales aumentan radicalmente a medida que el numero de canales de la submezcla aumenta.
Ademas, las suposiciones requeridas se reflejan, intrmsecamente, en detalles algontmicos del procesamiento aplicado en el lado de descodificador. Ello supone que se tiene que incluir bastante inteligencia en el lado de descodificador. Esto constituye una desventaja en que puede ser diffcil actualizar o modificar los algoritmos una vez que los descodificadores se han desplegado en, p.ej., dispositivos de consumidor que son diffciles o incluso imposibles de actualizar.
I. Citas del Informe de Busqueda Internacional
El Informe de Busqueda Internacional correspondiente al presente documento cita, entre otras, las siguientes referencias:
Publicacion de Solicitud Internacional de Patente No. WO 2008/046530 A2, la cual describe un transformador de parametros que genera parametros de nivel e indica una relacion de energfa entre un primer y un segundo canal de audio de una senal de audio multicanal asociada a una configuracion de altavoz multicanal. El parametro de nivel se genera segun parametros de objetos para multiples objetos de audio asociados a un canal de submezcla, el cual se genera usando senales de audio de objetos asociadas a los objetos de audio. Los parametros de objetos comprenden un parametro de energfa que indica una energfa de la senal de audio de objeto. Con el fin de derivar la coherencia y los parametros de nivel, se usa un generador de parametros, el cual combina el parametro de energfa y los parametros de renderizacion de objetos, los cuales dependen de una configuracion de renderizacion deseada.
El Informe Blanco "Dolby Atmos Next-Generation Audio for Cinema", XP055067682, describe que Dolby Atmos adiciona la flexibilidad y potencia de objetos de audio dinamicos a flujos de trabajo basados en canales tradicionales, y permite a los realizadores de pelfculas controlar elementos de sonido discretos independientemente de las configuraciones espedficas del altavoz de reproduccion.
La Publicacion de Solicitud de Patente de Estados Unidos No. US 2005/0114121 A1 describe un dispositivo informatico que comprende una memoria para almacenar senales de audio, en parte pregrabadas, cada una correspondiente a una fuente definida, por medio de datos de posicion espacial, y un modulo de procesamiento para procesar dichas senales de audio en tiempo real como una funcion de los datos de posicion espacial. El modulo de procesamiento permite calcular los parametros de nivel de potencia instantaneos sobre la base de las senales de audio, las fuentes correspondientes definiendose por los parametros de nivel de potencia instantaneos. El modulo de procesamiento comprende un modulo de seleccion para reagrupar algunas de las senales de audio en un numero
2
5
10
15
20
25
30
35
40
45
50
variable de grupos de senales de audio y el modulo de procesamiento puede calcular datos de posicion espacial que son representativos de un grupo de senales de audio como una funcion de los datos de posicion espacial y parametros de nivel de potencia instantaneos para cada fuente correspondiente.
Breve descripcion de los dibujos
A continuacion se describiran realizaciones a modo de ejemplo en mayor detalle y con referencia a los dibujos anexos, en los cuales:
la Figura 1 es un dibujo esquematico de un sistema de codificacion/descodificacion de audio segun realizaciones a modo de ejemplo;
la Figura 2 es un dibujo esquematico de un sistema de codificacion/descodificacion de audio que tiene un descodificador heredado segun realizaciones a modo de ejemplo;
la Figura 3 es un dibujo esquematico de un lado de codificacion de un sistema de codificacion/descodificacion de audio segun realizaciones a modo de ejemplo;
la Figura 4 es un diagrama de flujo de un metodo de codificacion segun realizaciones a modo de ejemplo;
la Figura 5 es un dibujo esquematico de un codificador segun realizaciones a modo de ejemplo;
la Figura 6 es un dibujo esquematico de un lado de descodificador de un sistema de codificacion/descodificacion de audio segun realizaciones a modo de ejemplo;
la Figura 7 es un diagrama de flujo de un metodo de descodificacion segun realizaciones a modo de ejemplo;
la Figura 8 es un dibujo esquematico de un lado de descodificador de un sistema de codificacion/descodificacion de audio segun realizaciones a modo de ejemplo; y
la Figura 9 es un dibujo esquematico de transformaciones tiempo/frecuencia llevadas a cabo en un lado de descodificador de un sistema de codificacion/descodificacion de audio segun realizaciones a modo de ejemplo.
Todas las figuras son esquematicas y, en general, solo muestran partes que son necesarias para elucidar la invencion, mientras que otras partes se pueden omitir o simplemente sugerir. A menos que se indique lo contrario, iguales numerales de referencia se refieren a partes iguales en diferentes figuras.
Descripcion detallada
Segun lo establecido mas arriba, es un objeto proveer un codificador y un descodificador y metodos asociados que proveen una reconstruccion menos compleja y mas flexible de los objetos de audio.
I. Resumen - Codificador
Segun un primer aspecto, las realizaciones a modo de ejemplo proponen metodos de codificacion, codificadores y productos de programas de ordenador para la codificacion. Los metodos, codificadores y productos de programas de ordenador propuestos pueden tener, en general, las mismas caractensticas y ventajas.
Segun las realizaciones a modo de ejemplo, se provee un metodo para codificar una losa tiempo/frecuencia de una escena de audio que al menos comprende N objetos de audio. El metodo comprende: recibir los N objetos de audio; generar M senales de submezcla segun al menos los N objetos de audio; generar una matriz de reconstruccion con elementos de matriz que permite la reconstruccion de al menos los N objetos de audio de las M senales de submezcla; y generar una secuencia de bits que comprende las M senales de submezcla y al menos algunos de los elementos de matriz de la matriz de reconstruccion.
El numero N de objetos de audio puede ser igual a o mayor que uno. El numero M de senales de submezcla puede ser igual a o mayor que uno.
Con dicho metodo se genera una secuencia de bits que comprende M senales de submezcla y al menos algunos de los elementos de matriz de una matriz de reconstruccion como informacion conexa. Mediante la inclusion de elementos de matriz individuales de la matriz de reconstruccion en la secuencia de bits, se requiere muy poca inteligencia en el lado de descodificador. Por ejemplo, no hay necesidad, en el lado de descodificador, de un calculo complejo de la matriz de reconstruccion segun los parametros de objetos transmitidos y suposiciones adicionales. Por consiguiente, la complejidad matematica en el lado de descodificador se reduce de forma significativa. Ademas, la flexibilidad relativa al numero de senales de submezcla aumenta en comparacion con los metodos de la tecnica anterior dado que la complejidad del metodo no depende del numero de senales de submezcla usadas.
Segun su uso en la presente memoria, escena de audio se refiere, en general, a un entorno de audio tridimensional que comprende elementos de audio asociados a posiciones en un espacio tridimensional que se puede renderizar para la reproduccion en un sistema de audio.
5
10
15
20
25
30
35
40
45
50
55
60
Segun su uso en la presente memoria, objeto de audio se refiere a un elemento de una escena de audio. Un objeto de audio comprende, normalmente, una senal de audio e informacion adicional como, por ejemplo, la posicion del objeto en un espacio tridimensional. La informacion adicional se usa, normalmente, para renderizar de forma optima el objeto de audio en un sistema de reproduccion dado.
Segun su uso en la presente memoria, una senal de submezcla se refiere una senal que es una combinacion de al menos los N objetos de audio. Otras senales de la escena de audio como, por ejemplo, los canales de lecho (se describiran mas abajo), se pueden combinar tambien en la senal de submezcla. Por ejemplo, las M senales de submezcla pueden corresponder a una renderizacion de la escena de audio para una configuracion de altavoces dada, p.ej., una configuracion 5.1 estandar. El numero de senales de submezcla, aqu denotado por M, es normalmente (pero no necesariamente) menor que la suma del numero de objetos de audio y canales de lecho, lo cual explica por que se hace referencia a las M senales de submezcla como una submezcla.
Los sistemas de codificacion/descodificacion de audio normalmente dividen el espacio tiempo-frecuencia en losas tiempo/frecuencia, p.ej., mediante la aplicacion de bancos de filtros apropiados a las senales de audio de entrada. Una losa tiempo/frecuencia se refiere, en general, a una porcion del espacio tiempo-frecuencia correspondiente a un intervalo de tiempo y a una subbanda de frecuencia. El intervalo de tiempo puede corresponder, normalmente, a la duracion de una trama de tiempo usada en el sistema de codificacion/descodificacion de audio. La subbanda de frecuencia puede corresponder, normalmente, a una o varias subbandas de frecuencia vecinas definidas por el banco de filtros usado en el sistema de codificacion/descodificacion. En caso de que la subbanda de frecuencia corresponda a varias subbandas de frecuencia vecinas definidas por el banco de filtros, ello permite tener subbandas de frecuencia no uniformes en el proceso de descodificacion de la senal de audio, por ejemplo subbandas de frecuencia mas anchas para frecuencias mas altas de la senal de audio. En un caso de banda ancha, donde el sistema de codificacion/descodificacion de audio funciona en todo el rango de frecuencia, la subbanda de frecuencia de la losa tiempo/frecuencia puede corresponder a todo el rango de frecuencia. El metodo de mas arriba describe las etapas de codificacion para codificar una escena de audio durante una losa tiempo/frecuencia. Sin embargo, se comprendera que el metodo se puede repetir para cada losa tiempo/frecuencia del sistema de codificacion/descodificacion de audio. Asimismo, se comprendera que varias losas tiempo/frecuencia se pueden codificar de forma simultanea. Normalmente, las losas tiempo/frecuencia vecinas pueden superponer un bit en el tiempo y/o frecuencia. Por ejemplo, una superposicion en el tiempo puede ser equivalente a una interpolacion lineal de los elementos de la matriz de reconstruccion en el tiempo, a saber, de un intervalo de tiempo al siguiente. Sin embargo, la presente descripcion se dirige a otras partes del sistema de codificacion/descodificacion y cualquier superposicion en el tiempo y/o la frecuencia entre losas tiempo/frecuencia vecinas se deja para que la implemente una persona con experiencia en la tecnica.
Segun las realizaciones a modo de ejemplo, las M senales de submezcla se disponen en un primer campo de la secuencia de bits usando un primer formato, y los elementos de matriz se disponen en un segundo campo de la secuencia de bits usando un segundo formato, permitiendo asf que un descodificador que solo admite el primer formato descodifique y reproduzca las M senales de submezcla en el primer campo y descarte los elementos de matriz en el segundo campo. Ello resulta ventajoso en que las M senales de submezcla en la secuencia de bits son compatibles de forma retroactiva con descodificadores heredados que no implementan la reconstruccion de objetos de audio. En otras palabras, los descodificadores heredados pueden aun descodificar y reproducir las M senales de submezcla de la secuencia de bits, por ejemplo mediante el mapeo de cada senal de submezcla a una salida de canal del descodificador.
Segun las realizaciones a modo de ejemplo, el metodo puede ademas comprender la etapa de recibir datos posicionales correspondientes a cada uno de los N objetos de audio, en donde las M senales de submezcla se generan segun los datos posicionales. Los datos posicionales asocian, normalmente, cada objeto de audio a una posicion en un espacio tridimensional. La posicion del objeto de audio puede variar con el tiempo. Mediante el uso de los datos posicionales cuando se submezclan los objetos de audio, los objetos de audio se mezclaran en las M senales de submezcla de modo tal que si las M senales de submezcla, por ejemplo, se escuchan en un sistema con M canales de salida, los objetos de audio sonaran como si se ubicaran aproximadamente en sus respectivas posiciones. Ello es, por ejemplo, ventajoso si las M senales de submezcla son compatibles de manera retroactiva con un descodificador heredado.
Segun las realizaciones a modo de ejemplo, los elementos de matriz de la matriz de reconstruccion son variables con el tiempo y la frecuencia. En otras palabras, los elementos de matriz de la matriz de reconstruccion pueden ser diferentes para las diferentes losas tiempo/frecuencia. De esta manera, se logra una gran flexibilidad en la reconstruccion de los objetos de audio.
Segun las realizaciones a modo de ejemplo, la escena de audio ademas comprende multiples canales de lecho. Ello es comun, por ejemplo, en aplicaciones de audio de cine donde el contenido de audio comprende canales de lecho ademas de objetos de audio. En dichos casos, las M senales de submezcla se pueden generar segun al menos los N objetos de audio y los multiples canales de lecho. Un canal de lecho se refiere, en general, a una senal de audio que corresponde a una posicion fija en el espacio tridimensional. Por ejemplo, un canal de lecho puede corresponder a uno de los canales de salida del sistema de codificacion/descodificacion de audio. Como tal, un canal de lecho se puede interpretar como un objeto de audio que tiene una posicion asociada en un espacio tridimensional que es
5
10
15
20
25
30
35
40
45
50
55
igual a la posicion de uno de los altavoces de salida del sistema de codificacion/descodificacion de audio. Un canal de lecho se puede asociar, por lo tanto, a una etiqueta que simplemente indica la posicion del altavoz de salida correspondiente.
Cuando la escena de audio comprende canales de lecho, la matriz de reconstruccion puede comprender elementos de matriz que permiten la reconstruccion de los canales de lecho a partir de las M senales de submezcla.
En algunas situaciones, la escena de audio puede comprender un vasto numero de objetos. Con el fin de reducir la complejidad y la cantidad de datos requeridos para representar la escena de audio, la escena de audio se puede simplificar reduciendo el numero de objetos de audio. Por consiguiente, si la escena de audio originalmente comprende K objetos de audio, en donde K>N, el metodo puede ademas comprender las etapas de recibir los K objetos de audio y reducir los K objetos de audio en los N objetos de audio mediante la agrupacion de los K objetos en N clusteres y la representacion de cada cluster por un objeto de audio.
Con el fin de simplificar la escena, el metodo puede ademas comprender la etapa de recibir datos posicionales correspondientes a cada uno de los K objetos de audio, en donde la agrupacion de los K objetos en N clusteres se basa en una distancia posicional entre los K objetos segun sean dados por los datos posicionales de los K objetos de audio. Por ejemplo, los objetos de audio que son cercanos entre sf en terminos de posicion en el espacio tridimensional se pueden agrupar juntos.
Segun se describe mas arriba, las realizaciones a modo de ejemplo del metodo son flexibles con respecto al numero de senales de submezcla usadas. En particular, el metodo puede usarse, de forma ventajosa, cuando hay mas de dos senales de submezcla, a saber, cuando M es mayor que dos. Por ejemplo, se pueden usar cinco o siete senales de submezcla correspondientes a los establecimientos de audio 5.1 o 7.1 convencionales. Ello es ventajoso dado que, al contrario de los sistemas de la tecnica anterior, la complejidad matematica de los principios de codificacion propuestos permanece igual independientemente del numero de senales de submezcla usadas.
Con el fin de permitir la reconstruccion mejorada de los N objetos de audio, el metodo puede ademas comprender: formar L senales auxiliares a partir de los N objetos de audio; incluir elementos de matriz en la matriz de reconstruccion que permiten la reconstruccion de al menos los N objetos de audio a partir de las M senales de submezcla y las L senales auxiliares; e incluir las L senales auxiliares en la secuencia de bits. Las senales auxiliares sirven, por consiguiente, como senales de ayuda que, por ejemplo, pueden capturar aspectos de los objetos de audio que son diffciles de reconstruir a partir de las senales de submezcla. Las senales auxiliares se pueden basar ademas en los canales de lecho. El numero de senales auxiliares puede ser igual a o mayor que uno.
Segun una realizacion a modo de ejemplo, las senales auxiliares pueden corresponder a objetos de audio particularmente importantes como, por ejemplo, un objeto de audio que representa un dialogo. Por consiguiente, al menos una de las L senales auxiliares puede ser igual a uno de los N objetos de audio. Ello permite renderizar los objetos importantes en una mayor calidad que si tuvieran que reconstruirse a partir de los M canales de submezcla solamente. En la practica, algunos de los objetos de audio se pueden haber priorizado y/o etiquetado por un creador de contenido de audio como los objetos de audio que se incluyen preferiblemente de forma individual como objetos auxiliares. Ademas, ello hace la modificacion/procesamiento de dichos objetos anterior a la renderizacion menos propensa a los artefactos. A modo de compromiso entre la velocidad de bits y la calidad, tambien es posible enviar una mezcla de dos o mas objetos de audio como una senal auxiliar. En otras palabras, al menos una de las L senales auxiliares se puede formar como una combinacion de al menos dos de los N objetos de audio.
Segun una realizacion a modo de ejemplo, las senales auxiliares representan dimensiones de senal de los objetos de audio que se pierden en el proceso de generar las M senales de submezcla, p.ej., dado que el numero de objetos independientes es, normalmente, mas alto que el numero de canales de submezcla o dado que dos objetos se asocian a dichas posiciones que se mezclan en la misma senal de submezcla. Un ejemplo del ultimo caso es una situacion donde dos objetos se separan solo verticalmente pero comparten la misma posicion cuando se proyectan en el plano horizontal, lo cual significa que se renderizaran, normalmente, para el mismo canal de submezcla de un establecimiento de altavoz envolvente 5.1 estandar, donde todos los altavoces se encuentran en el mismo plano horizontal. De manera espedfica, las M senales de submezcla abarcan un hiperplano en un espacio de senal. Mediante la formacion de combinaciones lineales de las M senales de submezcla se pueden reconstruir solo las senales de audio que residen en el hiperplano. Con el fin de mejorar la reconstruccion, se pueden incluir las senales auxiliares que no residen en el hiperplano y asf permitir tambien la reconstruccion de senales que no residen en el hiperplano. En otras palabras, segun las realizaciones a modo de ejemplo, al menos una de las multiples senales auxiliares no reside en el hiperplano abarcado por las M senales de submezcla. Por ejemplo, al menos una de las multiples senales auxiliares puede ser ortogonal al hiperplano abarcado por las M senales de submezcla.
Segun las realizaciones a modo de ejemplo, se provee un medio legible por ordenador que comprende instrucciones de codigo de ordenador adaptadas para llevar a cabo cualquier metodo del primer aspecto cuando se ejecutan en un dispositivo que tiene capacidad de procesamiento.
Segun las realizaciones a modo de ejemplo, se provee un codificador para codificar una losa tiempo/frecuencia de una escena de audio que al menos comprende N objetos de audio, que comprende: un componente receptor
5
10
15
20
25
30
35
40
45
50
configurado para recibir los N objetos de audio; un componente de generacion de submezcla configurado para recibir los N objetos de audio del componente receptor y para generar M senales de submezcla segun al menos los N objetos de audio; un componente de analisis configurado para generar una matriz de reconstruccion con elementos de matriz que permite la reconstruccion de al menos los N objetos de audio a partir de las M senales de submezcla; y un componente de generacion de secuencia de bits configurado para recibir las M senales de submezcla del componente de generacion de submezcla y la matriz de reconstruccion del componente de analisis y para generar una secuencia de bits que comprende las M senales de submezcla y al menos algunos de los elementos de matriz de la matriz de reconstruccion.
II. Resumen - Descodificador
Segun un segundo aspecto, las realizaciones a modo de ejemplo proponen metodos de descodificacion, dispositivos de descodificacion y productos de programas de ordenador para la descodificacion. Los metodos, dispositivos y productos de programas de ordenador propuestos pueden tener, en general, las mismas caractensticas y ventajas.
Las ventajas relativas a las caractensticas y establecimientos segun se presentan en el resumen del codificador mas arriba pueden ser, en general, validas para las correspondientes caractensticas y establecimientos del descodificador.
Segun las realizaciones a modo de ejemplo, se provee un metodo para descodificar una losa tiempo-frecuencia de una escena de audio que al menos comprende N objetos de audio, el metodo comprende las etapas de: recibir una secuencia de bits que comprende M senales de submezcla y al menos algunos elementos de matriz de una matriz de reconstruccion; generar la matriz de reconstruccion usando los elementos de matriz; y reconstruir los N objetos de audio a partir de las M senales de submezcla usando la matriz de reconstruccion.
Segun las realizaciones a modo de ejemplo, las M senales de submezcla se disponen en un primer campo de la secuencia de bits usando un primer formato, y los elementos de matriz se disponen en un segundo campo de la secuencia de bits usando un segundo formato, permitiendo asf que un descodificador que solo admite el primer formato descodifique y reproduzca las M senales de submezcla en el primer campo y descarte los elementos de matriz en el segundo campo.
Segun las realizaciones a modo de ejemplo, los elementos de matriz de la matriz de reconstruccion son variables con el tiempo y la frecuencia.
Segun las realizaciones a modo de ejemplo, la escena de audio ademas comprende multiples canales de lecho, el metodo ademas comprende reconstruir los canales de lecho a partir de las M senales de submezcla usando la matriz de reconstruccion.
Segun las realizaciones a modo de ejemplo, el numero M de senales de submezcla es mayor que dos.
Segun las realizaciones a modo de ejemplo, el metodo ademas comprende: recibir L senales auxiliares formadas a partir de los N objetos de audio; reconstruir los N objetos de audio de las M senales de submezcla y las L senales auxiliares usando la matriz de reconstruccion, en donde la matriz de reconstruccion comprende elementos de matriz que permiten la reconstruccion de al menos los N objetos de audio de las M senales de submezcla y las L senales auxiliares.
Segun las realizaciones a modo de ejemplo, al menos una de las L senales auxiliares es igual a uno de los N objetos de audio.
Segun las realizaciones a modo de ejemplo, al menos una de las L senales auxiliares es una combinacion de los N objetos de audio.
Segun las realizaciones a modo de ejemplo, las M senales de submezcla abarcan un hiperplano, en donde al menos una de las multiples senales auxiliares no reside en el hiperplano abarcado por las M senales de submezcla.
Segun las realizaciones a modo de ejemplo, la al menos una de las multiples senales auxiliares que no reside en el hiperplano es ortogonal al hiperplano abarcado por las M senales de submezcla.
Segun se describe mas arriba, los sistemas de codificacion/descodificacion de audio funcionan, normalmente, en el dominio de la frecuencia. Por consiguiente, los sistemas de codificacion/descodificacion de audio llevan a cabo transformadas tiempo/frecuencia de senales de audio usando bancos de filtros. Se pueden usar diferentes tipos de transformadas tiempo/frecuencia. Por ejemplo, las M senales de submezcla se pueden representar con respecto a un primer dominio de la frecuencia y la matriz de reconstruccion se puede representar con respecto a un segundo dominio de la frecuencia. Con el fin de reducir la carga computacional en el descodificador, es ventajoso elegir el primer y segundo dominios de la frecuencia de manera inteligente. Por ejemplo, el primer y segundo dominios de la frecuencia se pueden elegir como el mismo dominio de la frecuencia como, por ejemplo, un dominio de Transformada Discreta del Coseno Modificada (MDCT, por sus siglas en ingles). De esta manera, uno puede evitar transformar las M senales de submezcla del primer dominio de la frecuencia al dominio de tiempo seguido por una
5
10
15
20
25
30
35
40
45
50
55
transformacion al segundo dominio de la frecuencia en el descodificador. De manera alternativa, puede ser posible elegir el primer y segundo dominios de la frecuencia de manera tal que la transformada del primer dominio de la frecuencia al segundo dominio de la frecuencia se puede implementar conjuntamente de modo que no es necesario hacerlo mediante el dominio de tiempo en medio.
El metodo puede ademas comprender recibir datos posicionales correspondientes a los N objetos de audio y renderizar los N objetos de audio usando los datos posicionales para crear al menos un canal de audio de salida. De esta manera, los N objetos de audio reconstruidos se mapean en los canales de salida del sistema de codificador/descodificador de audio segun su posicion en el espacio tridimensional.
La renderizacion se lleva a cabo, preferiblemente, en un dominio de la frecuencia. Con el fin de reducir la carga computacional en el descodificador, el dominio de la frecuencia de la renderizacion se elige, preferiblemente, de manera inteligente con respecto al dominio de la frecuencia en el cual los objetos de audio se reconstruyen. Por ejemplo, si la matriz de reconstruccion se representa con respecto a un segundo dominio de la frecuencia correspondiente a un segundo banco de filtros, y la renderizacion se lleva a cabo en un tercer dominio de la frecuencia correspondiente a un tercer banco de filtros, el segundo y tercer bancos de filtros se eligen, preferiblemente, para que sean, al menos parcialmente, el mismo banco de filtros. Por ejemplo, el segundo y tercer bancos de filtros pueden comprender un dominio de Filtro Espejo en Cuadratura (QMF, por sus siglas en ingles). De manera alternativa, el segundo y tercer dominios de la frecuencia pueden comprender un banco de filtros MDCT. Segun una realizacion a modo de ejemplo, el tercer banco de filtros puede estar compuesto de una secuencia de bancos de filtros como, por ejemplo, un banco de filtros QMF seguido por un banco de filtros Nyquist. De ser asf, al menos uno de los bancos de filtros de la secuencia (el primer banco de filtros de la secuencia) es igual al segundo banco de filtros. De esta manera, se puede decir que el segundo y tercer bancos de filtros son, al menos parcialmente, el mismo banco de filtros.
Segun las realizaciones a modo de ejemplo, se provee un medio legible por ordenador que comprende instrucciones de codigo de ordenador adaptadas para llevar a cabo cualquier metodo del segundo aspecto cuando se ejecutan en un dispositivo que tiene capacidad de procesamiento.
Segun las realizaciones a modo de ejemplo, se provee un descodificador para descodificar una losa tiempo- frecuencia de una escena de audio que al menos comprende N objetos de audio, que comprende: un componente receptor configurado para recibir una secuencia de bits que comprende M senales de submezcla y al menos algunos elementos de matriz de una matriz de reconstruccion; un componente de generacion de matriz de reconstruccion configurado para recibir los elementos de matriz del componente receptor y, segun ello, generar la matriz de reconstruccion; y un componente de reconstruccion configurado para recibir la matriz de reconstruccion del componente de generacion de matriz de reconstruccion y para reconstruir los N objetos de audio de las M senales de submezcla usando la matriz de reconstruccion.
III. Realizaciones a modo de ejemplo
La Figura 1 ilustra un sistema de codificacion/descodificacion 100 para codificar/descodificar una escena de audio 102. El sistema de codificacion/descodificacion 100 comprende un codificador 108, un componente de generacion de secuencia de bits 110, un componente de descodificacion de secuencia de bits 118, un descodificador 120 y un renderizador 122.
La escena de audio 102 se representa por uno o mas objetos de audio 106a, a saber, senales de audio como, por ejemplo, N objetos de audio. La escena de audio 102 puede ademas comprender uno o mas canales de lecho 106b, a saber, senales que directamente corresponden a uno de los canales de salida del renderizador 122. La escena de audio 102 se representa ademas por metadatos que comprenden informacion posicional 104. La informacion posicional 104 se usa, por ejemplo, por el renderizador 122 cuando se renderiza la escena de audio 102. La informacion posicional 104 puede asociar los objetos de audio 106a, y posiblemente tambien los canales de lecho 106b, con una posicion espacial en un espacio tridimensional como una funcion de tiempo. Los metadatos pueden comprender ademas otro tipo de datos que son utiles para renderizar la escena de audio 102.
La parte de codificacion del sistema 100 comprende el codificador 108 y el componente de generacion de secuencia de bits 110. El codificador 108 recibe los objetos de audio 106a, los canales de lecho 106b si estuvieran presentes, y los metadatos que comprenden informacion posicional 104. Segun ello, el codificador 108 genera una o mas senales de submezcla 112 como, por ejemplo, las M senales de submezcla. A modo de ejemplo, las senales de submezcla 112 pueden corresponder a los canales [Lf Rf Cf Ls Rs LFE] de un sistema de audio 5.1. ("L" significa izquierda, "R" significa derecha, "C" significa central, "f" significa frontal, "s" significa envolvente, y "LFE" significa efectos de baja frecuencia).
El codificador 108 genera ademas informacion conexa. La informacion conexa comprende una matriz de reconstruccion. La matriz de reconstruccion comprende elementos de matriz 114 que permiten la reconstruccion de al menos los objetos de audio 106a a partir de las senales de submezcla 112. La matriz de reconstruccion puede ademas permitir la reconstruccion de los canales de lecho 106b.
5
10
15
20
25
30
35
40
45
50
55
El codificador 108 transmite las M senales de submezcla 112 y al menos algunos de los elementos de matriz 114 al componente de generacion de secuencia de bits 110. El componente de generacion de secuencia de bits 110 genera una secuencia de bits 116 que comprende las M senales de submezcla 112 y al menos algunos de los elementos de matriz 114 llevando a cabo la cuantificacion y codificacion. El componente de generacion de secuencia de bits 110 ademas recibe los metadatos que comprenden informacion posicional 104 para la inclusion en la secuencia de bits 116.
La parte de descodificacion del sistema comprende el componente de descodificacion de secuencia de bits 118 y el descodificador 120. El componente de descodificacion de secuencia de bits 118 recibe la secuencia de bits 116 y lleva a cabo la descodificacion y descuantificacion para extraer las M senales de submezcla 112 y la informacion conexa que comprende al menos algunos de los elementos de matriz 114 de la matriz de reconstruccion. Las M senales de submezcla 112 y los elementos de matriz 114 se ingresan entonces en el descodificador 120 que, basado en ello, genera una reconstruccion 106' de los N objetos de audio 106a y posiblemente tambien de los canales de lecho 106b. La reconstruccion 106' de los N objetos de audio es, por lo tanto, una aproximacion de los N objetos de audio 106a y posiblemente tambien de los canales de lecho 106b.
A modo de ejemplo, si las senales de submezcla 112 corresponden a los canales [Lf Rf Cf Ls Rs LFE] de una configuracion 5.1, el descodificador 120 puede reconstruir los objetos 106' usando solamente los canales de banda completa [Lf Rf Cf Ls Rs] e ignorando, de esta manera, los LFE. Ello tambien se aplica a otras configuraciones de canal. El canal LFE de la submezcla 112 se puede enviar (basicamente sin modificaciones) al renderizador 122.
Los objetos de audio 106' reconstruidos, junto con la informacion posicional 104, se ingresan entonces en el renderizador 122. Basado en los objetos de audio 106' reconstruidos y en la informacion posicional 104, el renderizador 122 renderiza una senal de salida 124 que tiene un formato que es apropiado para la reproduccion en una configuracion de altavoces o auriculares deseada. Los formatos de salida tfpicos son un establecimiento envolvente 5.1 estandar (3 altavoces frontales, 2 altavoces envolventes y 1 altavoz con efectos de baja frecuencia, LFE) o un establecimiento 7.1 + 4 (3 altavoces frontales, 4 altavoces envolventes, 1 altavoz LFE y 4 altavoces elevados).
En algunas realizaciones, la escena de audio original puede comprender un gran numero de objetos de audio. El procesamiento de un gran numero de objetos de audio tiene el costo de la alta complejidad computacional. Tambien la cantidad de informacion conexa (la informacion posicional 104 y los elementos de matriz de reconstruccion 114) que se incorporaran en la secuencia de bits 116 depende del numero de objetos de audio. Normalmente, la cantidad de informacion conexa crece de forma lineal con el numero de objetos de audio. Por consiguiente, con el fin de ahorrar complejidad computacional y/o de reducir la velocidad de bits necesaria para codificar la escena de audio, puede ser ventajoso reducir el numero de objetos de audio antes de la codificacion. A tales fines, el sistema de codificador/descodificador de audio 100 puede ademas comprender un modulo de simplificacion de escena (no se muestra) dispuesto en sentido ascendente del codificador 108. El modulo de simplificacion de escena toma los objetos de audio originales y posiblemente tambien los canales de lecho como entrada y lleva a cabo el procesamiento para producir los objetos de audio 106a. El modulo de simplificacion de escena reduce el numero, digamos K, de objetos de audio originales a un numero N mas factible de objetos de audio 106a llevando a cabo la agrupacion. Mas precisamente, el modulo de simplificacion de escena organiza los K objetos de audio originales y posiblemente tambien los canales de lecho en N clusteres. Normalmente, los clusteres se definen segun la proximidad espacial en la escena de audio de los K objetos de audio originales/canales de lecho. Con el fin de determinar la proximidad espacial, el modulo de simplificacion de escena puede tomar informacion posicional de los objetos de audio originales/canales de lecho como entrada. Cuando el modulo de simplificacion de escena ha formado los N clusteres, procede a representar cada cluster mediante un objeto de audio. Por ejemplo, un objeto de audio que representa un cluster se puede formar como una suma de los objetos de audio/canales de lecho que forman parte del cluster. Mas espedficamente, el contenido de audio de los objetos de audio/canales de lecho se puede anadir para generar el contenido de audio del objeto de audio representativo. Ademas, las posiciones de los objetos de audio/canales de audio en el cluster se pueden promediar para dar una posicion del objeto de audio representativo. El modulo de simplificacion de escena incluye las posiciones de los objetos de audio representativos en los datos posicionales 104. Ademas, el modulo de simplificacion de escena produce los objetos de audio representativos que constituyen los N objetos de audio 106a de la Figura 1.
Las M senales de submezcla 112 se pueden disponer en un primer campo de la secuencia de bits 116 usando un primer formato. Los elementos de matriz 114 se pueden disponer en un segundo campo de la secuencia de bits 116 usando un segundo formato. De esta manera, un descodificador que solo admite el primer formato puede descodificar y reproducir las M senales de submezcla 112 en el primer campo y descartar los elementos de matriz 114 en el segundo campo.
El sistema de codificador/descodificador de audio 100 de la Figura 1 admite tanto el primer formato como el segundo formato. Mas precisamente, el descodificador 120 se configura para interpretar el primer y segundo formatos, lo cual significa que puede reconstruir los objetos 106' segun las M senales de submezcla 112 y los elementos de matriz 114.
5
10
15
20
25
30
35
40
45
50
55
La Figura 2 ilustra un sistema de codificador/descodificador de audio 200. La parte de codificacion 108, 110 del sistema 200 corresponde a la de la Figura 1. Sin embargo, la parte de descodificacion del sistema de codificador/descodificador de audio 200 difiere de la del sistema de codificador/descodificador de audio 100 de la Figura 1. El sistema de codificador/descodificador de audio 200 comprende un descodificador heredado 230 que admite el primer formato pero no el segundo formato. Por consiguiente, el descodificador heredado 230 del sistema de codificador/descodificador de audio 200 no puede reconstruir los objetos de audio/canales de lecho 106a-b. Sin embargo, dado que el descodificador heredado 230 admite el primer formato, puede aun descodificar las M senales de submezcla 112 para generar una salida 224 que es una representacion basada en el canal como, por ejemplo, una representacion 5.1, apropiada para la reproduccion directa en un establecimiento de altavoz multicanal correspondiente. Se hace referencia a esta propiedad de las senales de submezcla como retrocompatibilidad, lo cual significa tambien que un descodificador heredado que no admite el segundo formato, a saber, no puede interpretar la informacion conexa que comprende los elementos de matriz 114, puede aun descodificar y reproducir las M senales de submezcla 112.
Ahora se describira en mayor detalle el funcionamiento del lado de codificador del sistema de codificacion/descodificacion de audio 100 con referencia a la Figura 3 y al diagrama de flujo de la Figura 4.
La Figura 4 ilustra el codificador 108 y el componente de generacion de secuencia de bits 110 de la Figura 1 en mayor detalle. El codificador 108 tiene un componente receptor (no se muestra), un componente de generacion de submezcla 318 y un componente de analisis 328.
En la etapa E02, el componente receptor del codificador 108 recibe los N objetos de audio 106a y los canales de lecho 106b si estuvieran presentes. El codificador 108 puede ademas recibir los datos posicionales 104. Mediante el uso de la notacion vectorial, los N objetos de audio se pueden denotar por un vector S = [St S2... SN]T, y los canales de lecho por un vector B. Los N objetos de audio y los canales de lecho pueden, conjuntamente, representarse por un vector A = [BT ST]T.
En la etapa E04, el componente de generacion de submezcla 318 genera las M senales de submezcla 112 de los N objetos de audio 106a y los canales de lecho 106b si estuvieran presentes. Mediante el uso de la notacion vectorial, las M senales de submezcla se pueden representar por un vector D = [D1 D2 ... DM]T que comprende las M senales de submezcla. En general, una submezcla de multiples senales es una combinacion de las senales como, por ejemplo, una combinacion lineal de las senales. A modo de ejemplo, las M senales de submezcla pueden corresponder a una configuracion de altavoces particular como, por ejemplo, la configuracion de los altavoces [Lf Rf Cf Ls Rs LFE] en una configuracion de altavoces 5.1.
El componente de generacion de submezcla 318 puede usar la informacion posicional 104 cuando genera las M senales de submezcla, de modo que los objetos se combinaran en las diferentes senales de submezcla segun su posicion en un espacio tridimensional. Ello es particularmente relevante cuando las propias M senales de submezcla corresponden a una configuracion de altavoces espedfica como en el ejemplo de mas arriba. A modo de ejemplo, el componente de generacion de submezcla 318 puede derivar una matriz de presentacion Pd (correspondiente a una matriz de presentacion aplicada en el renderizador 122 de la Figura 1) segun la informacion posicional y usarla para generar la submezcla segun D = Pd*[BTS T]T.
Los N objetos de audio 106a y los canales de lecho 106b, si estuvieran presentes, tambien son entradas en el componente de analisis 328. El componente de analisis 328 normalmente funciona en losas tiempo/frecuencia individuales de las senales de audio de entrada 106a-b. A tal fin, los N objetos de audio 106a y los canales de lecho 106b se pueden alimentar a traves de un banco de filtros 338, p.ej., un banco QMF, el cual lleva a cabo una transformada tiempo a frecuencia de las senales de audio de entrada 106a-b. En particular, el banco de filtros 338 se asocia a multiples subbandas de frecuencia. La resolucion de frecuencia de una losa tiempo/frecuencia corresponde a una o mas de dichas subbandas de frecuencia. La resolucion de frecuencia de las losas tiempo/frecuencia puede ser no uniforme, a saber, puede variar con la frecuencia. Por ejemplo, una resolucion de frecuencia mas baja se puede usar para frecuencias altas, lo cual significa que una losa tiempo/frecuencia en el rango de alta frecuencia puede corresponder a varias subbandas de frecuencia segun se define por el banco de filtros 338.
En la etapa E06, el componente de analisis 328 genera una matriz de reconstruccion, aqu denotada por R1. La matriz de reconstruccion generada se compone de multiples elementos de matriz. La matriz de reconstruccion R1 es tal que permite la reconstruccion de (una aproximacion de) los objetos de audio N 106a y posiblemente tambien de los canales de lecho 106b de las M senales de submezcla 112 en el descodificador.
El componente de analisis 328 puede tomar diferentes enfoques para generar la matriz de reconstruccion. Por ejemplo, se puede usar un enfoque predictivo de Mmimo Error Cuadratico Medio (MMSE, por sus siglas en ingles), el cual toma los N objetos de audio/canales de lecho 106a-b como entrada asf como las M senales de submezcla 112 como entrada. Ello se puede describir como un enfoque cuyo objetivo es encontrar la matriz de reconstruccion que minimiza el error cuadratico medio de los objetos de audio/canales de lecho reconstruidos. En particular, el enfoque reconstruye los N objetos de audio/canales de lecho usando una matriz de reconstruccion candidata y los compara con los objetos de audio/canales de lecho 106a-b de entrada en terminos del error cuadratico medio. La
5
10
15
20
25
30
35
40
45
50
55
matriz de reconstruccion candidata que minimiza el error cuadratico medio se selecciona como la matriz de reconstruccion y sus elementos de matriz 114 son la salida del componente de analisis 328.
El enfoque MMSE requiere calculos de correlacion y matrices de covarianza de los N objetos de audio/canales de lecho 106a-b y las M senales de submezcla 112. Segun el enfoque de mas arriba, dichas correlaciones y covarianzas se miden segun los N objetos de audio/canales de lecho 106a-b y las M senales de submezcla 112. En un enfoque alternativo, basado en el modelo, el componente de analisis 328 toma los datos posicionales 104 como entrada en lugar de las M senales de submezcla 112. Mediante ciertas suposiciones, p.ej., suponiendo que los N objetos de audio no se correlacionan mutuamente, y usando dicha suposicion en combinacion con las reglas de submezcla aplicadas en el componente de generacion de submezcla 318, el componente de analisis 328 puede calcular las correlaciones y covarianzas requeridas que se necesitan para llevar a cabo el metodo MMSE descrito mas arriba.
Los elementos de la matriz de reconstruccion 114 y las M senales de submezcla 112 se ingresan entonces en el componente de generacion de secuencia de bits 110. En la etapa E08, el componente de generacion de secuencia de bits 110 cuantifica y codifica las M senales de submezcla 112 y al menos algunos de los elementos de matriz 114 de la matriz de reconstruccion y los dispone en la secuencia de bits 116. En particular, el componente de generacion de secuencia de bits 110 puede disponer las M senales de submezcla 112 en un primer campo de la secuencia de bits 116 usando un primer formato. Ademas, el componente de generacion de secuencia de bits 110 puede disponer los elementos de matriz 114 en un segundo campo de la secuencia de bits 116 usando un segundo formato. Segun se describe previamente con referencia a la Figura 2, ello permite a un descodificador heredado que solo admite el primer formato descodificar y reproducir las M senales de submezcla 112 y descartar los elementos de matriz 114 en el segundo campo.
La Figura 5 ilustra una realizacion alternativa del codificador 108. En comparacion con el codificador que se muestra en la Figura 3, el codificador 508 de la Figura 5 permite ademas que una o mas senales auxiliares se incluyan en la secuencia de bits 116. A tal fin, el codificador 508 comprende un componente de generacion de senales auxiliares 548. El componente de generacion de senales auxiliares 548 recibe los objetos de audio/canales de lecho 106a-b y, segun ello, se generan una o mas senales auxiliares 512. El componente de generacion de senales auxiliares 548 puede, por ejemplo, generar las senales auxiliares 512 como una combinacion de los objetos de audio/canales de lecho 106a-b. Mediante la denotacion de las senales auxiliares por el vector C = [C1 C2 ... CL]T, las senales auxiliares se pueden generar como C = Q * [ST ST]T, donde Q es una matriz que puede ser variable con el tiempo y la frecuencia. Ello incluye el caso donde las senales auxiliares son iguales a uno o mas de los objetos de audio y donde las senales auxiliares son combinaciones lineales de los objetos de audio. Por ejemplo, la senal auxiliar puede representar un objeto particularmente importante como, por ejemplo, un dialogo.
El rol de las senales auxiliares 512 es mejorar la reconstruccion de los objetos de audio/canales de lecho 106a-b en el descodificador. Mas precisamente, en el lado de descodificador, los objetos de audio/canales de lecho 106a-b se pueden reconstruir segun las M senales de submezcla 112 asf como las L senales auxiliares 512. La matriz de reconstruccion comprendera, por lo tanto, elementos de matriz 114 que permiten la reconstruccion de los objetos de audio/canales de lecho a partir de las M senales de submezcla 112 asf como las L senales auxiliares.
Las L senales auxiliares 512 pueden, por lo tanto, ingresarse en el componente de analisis 328 de modo que pueden tenerse en cuenta cuando se genera la matriz de reconstruccion. El componente de analisis 328 puede enviar tambien una senal de control al componente de generacion de senales auxiliares 548. Por ejemplo, el componente de analisis 328 puede controlar que objetos de audio/canales de lecho incluir en las senales auxiliares y como se incluiran. En particular, el componente de analisis 328 puede controlar la eleccion de la Q-matriz. El control puede, por ejemplo, basarse en el enfoque MMSE descrito mas arriba de modo que las senales auxiliares se seleccionan de modo que los objetos de audio/canales de lecho reconstruidos estan tan cerca como sea posible de los objetos de audio/canales de lecho 106a-b.
Ahora se describira en mayor detalle el funcionamiento del lado de descodificador del sistema de codificacion/descodificacion de audio 100 con referencia a la Figura 6 y al diagrama de flujo de la Figura 7.
La Figura 6 ilustra el componente de descodificacion de secuencia de bits 118 y el descodificador 120 de la Figura 1 en mayor detalle. El descodificador 120 comprende un componente de generacion de matriz de reconstruccion 622 y un componente de reconstruccion 624.
En la etapa D02 el componente de descodificacion de secuencia de bits 118 recibe la secuencia de bits 116. El componente de descodificacion de secuencia de bits 118 descodifica y descuantifica la informacion en la secuencia de bits 116 para extraer las M senales de submezcla 112 y al menos algunos de los elementos de matriz 114 de la matriz de reconstruccion.
El componente de generacion de matriz de reconstruccion 622 recibe los elementos de matriz 114 y procede a generar una matriz de reconstruccion 614 en la etapa D04. El componente de generacion de matriz de reconstruccion 622 genera la matriz de reconstruccion 614 disponiendo los elementos de matriz 114 en posiciones apropiadas en la matriz. Si no se reciben todos los elementos de matriz de la matriz de reconstruccion, el
5
10
15
20
25
30
35
40
45
50
55
componente de generacion de matriz de reconstruccion 622 puede, por ejemplo, insertar ceros en lugar de los elementos faltantes.
La matriz de reconstruccion 614 y las M senales de submezcla se ingresan entonces en el componente de reconstruccion 624. El componente de reconstruccion 624 entonces, en la etapa D06, reconstruye los N objetos de audio y, si fuera aplicable, los canales de lecho. En otras palabras, el componente de reconstruccion 624 genera una aproximacion 106' de los N objetos de audio/canales de lecho 106a-b.
A modo de ejemplo, las M senales de submezcla pueden corresponder a una configuracion de altavoces particular como, por ejemplo, la configuracion de los altavoces [Lf Rf Cf Ls Rs LFE] en una configuracion de altavoces 5.1. De ser asf, el componente de reconstruccion 624 puede basar la reconstruccion de los objetos 106' solamente en las senales de submezcla correspondientes a los canales de banda completa de la configuracion de altavoces. Como se explica mas arriba, la senal de banda limitada (senal de baja frecuencia LFE) se puede enviar basicamente sin modificaciones al renderizador.
El componente de reconstruccion 624 funciona, normalmente, en un dominio de la frecuencia. Mas precisamente, el componente de reconstruccion 624 funciona en losas tiempo/frecuencia individuales de las senales de entrada. Por lo tanto, las M senales de submezcla 112 estan normalmente sujetas a una transformada de tiempo a frecuencia 623 antes de ingresar en el componente de reconstruccion 624. La transformada de tiempo a frecuencia 623 es, normalmente, igual o similar a la transformada 338 aplicada en el lado de codificador. Por ejemplo, la transformada de tiempo a frecuencia 623 puede ser una transformada QMF.
Con el fin de reconstruir los objetos de audio/canales de lecho 106', el componente de reconstruccion 624 aplica una funcion de matrizacion. Mas espedficamente, mediante el uso de la notacion introducida previamente, el componente de reconstruccion 624 puede generar una aproximacion A' del objeto de audio/canales de lecho como A' = R1 * D. La matriz de reconstruccion R1 puede variar como una funcion de tiempo y frecuencia. Por consiguiente, la matriz de reconstruccion puede variar entre diferentes losas tiempo/frecuencia procesadas por el componente de reconstruccion 624.
Los objetos de audio/canales de lecho 106' reconstruidos se transforman, normalmente, otra vez en el dominio de tiempo 625 antes de producirse desde el descodificador 120.
La Figura 8 ilustra la situacion donde la secuencia de bits 116 comprende ademas senales auxiliares. En comparacion con la realizacion de la Figura 7, el componente de descodificacion de secuencia de bits 118 ahora ademas descodifica una o mas senales auxiliares 512 de la secuencia de bits 116. Las senales auxiliares 512 se ingresan en el componente de reconstruccion 624 donde se incluyen en la reconstruccion de los objetos de audio/canales de lecho. Mas particularmente, el componente de reconstruccion 624 genera los objetos de audio/canales de lecho aplicando la funcion de matriz A' = R1 * [DT CT]T.
La Figura 9 ilustra las diferentes transformadas tiempo/frecuencia usadas en el lado de descodificador en el sistema de codificacion/descodificacion de audio 100 de la Figura 1. El componente de descodificacion de secuencia de bits 118 recibe la secuencia de bits 116. Un componente de descodificacion y descuantificacion 918 descodifica y descuantifica la secuencia de bits 116 para extraer informacion posicional 104, las M senales de submezcla 112 y los elementos de matriz 114 de una matriz de reconstruccion.
En esta etapa, las M senales de submezcla 112 se representan, normalmente, en un primer dominio de la frecuencia, correspondiente a un primer conjunto de bancos de filtros tiempo/frecuencia aqrn denotados por T/Fc y F/Tc para la transformacion del dominio de tiempo al primer dominio de la frecuencia y del primer dominio de la frecuencia al dominio de tiempo, respectivamente. Normalmente, los bancos de filtros correspondientes al primer dominio de la frecuencia pueden implementar una transformada de ventana de superposicion como, por ejemplo, una MDCT y una MDCT inversa. El componente de descodificacion de secuencia de bits 118 puede comprender un componente de transformacion 901 que transforma las M senales de submezcla 112 en el dominio de tiempo usando el banco de filtros F/Tc.
El descodificador 120 y, en particular, el componente de reconstruccion 624 normalmente procesan senales con respecto a un segundo dominio de la frecuencia. El segundo dominio de la frecuencia corresponde a un segundo conjunto de bancos de filtros tiempo/frecuencia aqrn denotados por T/Fu y F/Tu para la transformacion del dominio de tiempo en el segundo dominio de la frecuencia y del segundo dominio de la frecuencia en el dominio de tiempo, respectivamente. El descodificador 120 puede, por lo tanto, comprender un componente de transformacion 903 que transforma las M senales de submezcla 112, que se representan en el dominio de tiempo, en el segundo dominio de la frecuencia usando el banco de filtros T/Fu. Cuando el componente de reconstruccion 624 ha reconstruido los objetos 106' segun las M senales de submezcla llevando a cabo el procesamiento en el segundo dominio de la frecuencia, un componente de transformacion 905 puede transformar los objetos 106' reconstruidos otra vez en el dominio de tiempo usando el banco de filtros F/Tu.
El renderizador 122 normalmente procesa senales con respecto a un tercer dominio de la frecuencia. El tercer dominio de la frecuencia corresponde a un tercer conjunto de bancos de filtros tiempo/frecuencia aqrn denotados por T/Fr y F/Tr para la transformacion del dominio de tiempo al tercer dominio de la frecuencia y del tercer dominio de la
5
10
15
20
25
30
35
40
45
50
55
frecuencia al dominio de tiempo, respectivamente. El renderizador 122 puede, por lo tanto, comprender un componente de transformacion 907 que transforma los objetos de audio 106' reconstruidos del dominio de tiempo al tercer dominio de la frecuencia usando el banco de filtros T/Fr. Una vez que el renderizador 122, mediante un componente de renderizacion 922, haya renderizado los canales de salida 124, los canales de salida se pueden transformar en el dominio de tiempo por un componente de transformacion 909 usando el banco de filtros F/Tr.
Como es evidente a partir de la descripcion de mas arriba, el lado de descodificador del sistema de codificacion/descodificacion de audio incluye un numero de etapas de transformacion tiempo/frecuencia. Sin embargo, si el primer, segundo y tercer dominios de la frecuencia se seleccionan de ciertas maneras, algunas de las etapas de transformacion tiempo/frecuencia se vuelven redundantes.
Por ejemplo, algunos del primer, segundo y tercer dominios de la frecuencia se pueden elegir para que sean iguales o se pueden implementar conjuntamente para ir directamente de un dominio de la frecuencia al otro sin recorrer todo el trayecto hasta el dominio de tiempo. Un ejemplo de lo ultimo es el caso donde la unica diferencia entre el segundo y tercer dominios de la frecuencia es que el componente de transformacion 907 en el renderizador 122 usa un banco de filtros Nyquist para una resolucion de frecuencia aumentada a bajas frecuencias ademas de un banco de filtros QMF que es comun para los componentes de transformacion 905 y 907. En dicho caso, los componentes de transformacion 905 y 907 se pueden implementar de manera conjunta en la forma de un banco de filtros Nyquist y asf ahorrar complejidad computacional.
En otro ejemplo, el segundo y tercer dominios de la frecuencia son iguales. Por ejemplo, el segundo y tercer dominios de la frecuencia pueden, ambos, ser un dominio de la frecuencia QMF. En dicho caso, los componentes de transformacion 905 y 907 son redundantes y se pueden eliminar, y asf ahorrar complejidad computacional.
Segun otro ejemplo, el primer y segundo dominios de la frecuencia pueden ser iguales. Por ejemplo, el primer y segundo dominios de la frecuencia pueden, ambos, ser un dominio MDCT. En dicho caso, el primer y segundo componentes de transformacion 901 y 903 se pueden eliminar, y asf ahorrar complejidad computacional.
Equivalentes, extensiones, alternativas y varios
Realizaciones adicionales de la presente descripcion seran aparentes para una persona con experiencia en la tecnica tras estudiar la descripcion de mas arriba. Aunque la presente descripcion y los dibujos describen realizaciones y ejemplos, la descripcion no se limita a dichos ejemplos espedficos. Se pueden llevar a cabo numerosas modificaciones y variaciones sin apartarse del alcance de la presente descripcion, el cual se define por las reivindicaciones anexas. Todo signo de referencia que aparezca en las reivindicaciones no se comprendera como uno que limita su alcance.
Ademas, las variaciones de las realizaciones descritas se pueden comprender y llevar a cabo por una persona con experiencia al practicar la descripcion, a partir de un estudio de los dibujos, la descripcion y las reivindicaciones anexas. En las reivindicaciones, la expresion "que comprende(n)" no excluye otros elementos o etapas, y el artfculo indefinido "un" o "una/o" no excluye una pluralidad. El mero hecho de que ciertas medidas se incluyan en reivindicaciones dependientes mutuamente diferentes no indica que una combinacion de dichas medidas no se pueda usar.
Los sistemas y metodos descritos mas arriba se pueden implementar como software, firmware, hardware o una combinacion de ellos. En una implementacion de hardware, la division de tareas entre unidades funcionales a las que se hace referencia en la descripcion de mas arriba no corresponde, necesariamente, a la division en unidades ffsicas; por el contrario, un componente ffsico puede tener multiples funcionalidades y una tarea puede llevarse a cabo por varios componentes ffsicos en colaboracion. Ciertos componentes o todos los componentes se pueden implementar como software ejecutado por un procesador de senal digital o microprocesador, o se pueden implementar como hardware o como un circuito integrado para aplicaciones espedficas. Dicho software se puede distribuir en medios legibles por ordenador, los cuales pueden comprender medios de almacenamiento de ordenador (o medios no transitorios) y medios de comunicacion (o medios transitorios). Como una persona con experiencia en la tecnica conoce, el termino medio de almacenamiento de ordenador incluye medios no permanentes y permanentes, removibles y no removibles implementados en cualquier metodo o tecnologfa para el almacenamiento de informacion como, por ejemplo, instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. Los medios de almacenamiento de ordenador incluyen, pero sin limitacion, RAM, ROM, EePROM, memoria flash u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD, por sus siglas en ingles) u otro almacenamiento de disco optico, casetes magneticos, cinta magnetica, almacenamiento de disco magnetico u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que se pueda usar para almacenar la informacion deseada y al que se pueda acceder por un ordenador. Ademas, una persona con experiencia sabe que los medios de comunicacion normalmente realizan instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada como, por ejemplo, una onda portadora u otro mecanismo de transporte e incluyen cualquier medio de entrega de informacion.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    REIVINDICACIONES
    1. Un metodo para codificar una losa tiempo/frecuencia de una escena de audio que al menos comprende N objetos de audio, el metodo comprende:
    recibir (E02) los N objetos de audio;
    generar (E04) M senales de submezcla segun al menos los N objetos de audio;
    generar (E06) una matriz de reconstruccion con elementos de matriz para la reconstruccion de al menos los N objetos de audio de las M senales de submezcla, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales; y
    generar (E08) una secuencia de bits que comprende las M senales de submezcla y al menos algunos de los elementos de matriz de la matriz de reconstruccion.
  2. 2. El metodo de la reivindicacion 1, en donde las M senales de submezcla se disponen en un primer campo de la secuencia de bits usando un primer formato, y los elementos de matriz se disponen en un segundo campo de la secuencia de bits usando un segundo formato, permitiendo asf que un descodificador que solo admite el primer formato descodifique y reproduzca las M senales de submezcla en el primer campo y descarte los elementos de matriz en el segundo campo.
  3. 3. El metodo de cualquiera de las reivindicaciones precedentes, que ademas comprende la etapa de recibir datos posicionales correspondientes a cada uno de los N objetos de audio, en donde las M senales de submezcla se generan segun los datos posicionales.
  4. 4. El metodo de cualquiera de las reivindicaciones precedentes, en donde la escena de audio ademas comprende multiples canales de lecho, en donde las M senales de submezcla se generan segun al menos los N objetos de audio y los multiples canales de lecho y
    de manera opcional, en donde la matriz de reconstruccion comprende elementos de matriz para la reconstruccion de los canales de lecho a partir de las M senales de submezcla, en donde las aproximaciones de los N objetos de audio y los canales de lecho se pueden obtener como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales.
  5. 5. El metodo de cualquiera de las reivindicaciones precedentes, que ademas comprende: formar L senales auxiliares a partir de los N objetos de audio;
    incluir elementos de matriz en la matriz de reconstruccion para la reconstruccion de al menos los N objetos de audio a partir de las M senales de submezcla y las L senales auxiliares, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de las M senales de submezcla y las L senales auxiliares con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales; e
    incluir las L senales auxiliares en la secuencia de bits.
  6. 6. El metodo de la reivindicacion 5, en donde las M senales de submezcla abarcan un hiperplano, y en donde al menos una de las multiples senales auxiliares no reside en el hiperplano abarcado por las M senales de submezcla, y
    de manera opcional, en donde la al menos una de las multiples senales auxiliares es ortogonal al hiperplano abarcado por las M senales de submezcla.
  7. 7. Un codificador para codificar una losa tiempo/frecuencia de una escena de audio que al menos comprende N objetos de audio, que comprende:
    un componente receptor configurado para recibir los N objetos de audio;
    un componente de generacion de submezcla configurado para recibir los N objetos de audio del componente receptor y para generar M senales de submezcla segun al menos los N objetos de audio;
    un componente de analisis configurado para generar una matriz de reconstruccion con elementos de matriz para la reconstruccion de al menos los N objetos de audio de las M senales de submezcla, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales; y
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    un componente de generacion de secuencia de bits configurado para recibir las M senales de submezcla del componente de generacion de submezcla y la matriz de reconstruccion del componente de analisis y para generar una secuencia de bits que comprende las M senales de submezcla y al menos algunos de los elementos de matriz de la matriz de reconstruccion.
  8. 8. Un metodo para descodificar una losa tiempo-frecuencia de una escena de audio que al menos comprende N objetos de audio, el metodo comprende las etapas de:
    recibir (D02) una secuencia de bits que comprende M senales de submezcla y al menos algunos elementos de matriz de una matriz de reconstruccion;
    generar (D04) la matriz de reconstruccion usando los elementos de matriz; y
    reconstruir (D06) los N objetos de audio de las M senales de submezcla usando la matriz de reconstruccion, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales.
  9. 9. El metodo de la reivindicacion 8, en donde las M senales de submezcla se disponen en un primer campo de la secuencia de bits usando un primer formato, y los elementos de matriz se disponen en un segundo campo de la secuencia de bits usando un segundo formato, permitiendo asf que un descodificador que solo admite el primer formato descodifique y reproduzca las M senales de submezcla en el primer campo y descarte los elementos de matriz en el segundo campo.
  10. 10. El metodo de la reivindicacion 8 o reivindicacion 9, en donde la escena de audio ademas comprende multiples canales de lecho, el metodo ademas comprende reconstruir los canales de lecho de las M senales de submezcla usando la matriz de reconstruccion, en donde las aproximaciones de los N objetos de audio y los canales de lecho se obtienen como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales.
  11. 11. El metodo de cualquiera de las reivindicaciones 8-10, que ademas comprende: recibir L senales auxiliares que se forman a partir de los N objetos de audio;
    reconstruir los N objetos de audio de las M senales de submezcla y las L senales auxiliares usando la matriz de reconstruccion, en donde las aproximaciones de al menos los N objetos de audio se obtienen como combinaciones lineales de las M senales de submezcla y las L senales auxiliares con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales.
  12. 12. El metodo de la reivindicacion 11, en donde las M senales de submezcla abarcan un hiperplano, y en donde al menos una de las multiples senales auxiliares no reside en el hiperplano abarcado por las M senales de submezcla
    y,
    de manera opcional, en donde la al menos una de las multiples senales auxiliares que no reside en el hiperplano es ortogonal al hiperplano abarcado por las M senales de submezcla.
  13. 13. El metodo de cualquiera de las reivindicaciones 8-12, que ademas comprende: recibir datos posicionales correspondientes a los N objetos de audio, y
    renderizar los N objetos de audio usando los datos posicionales para crear al menos un canal de audio de salida, y
    de manera opcional, en donde la matriz de reconstruccion se representa con respecto a un segundo dominio de la frecuencia correspondiente a un segundo banco de filtros, y la renderizacion se lleva a cabo en un tercer dominio de la frecuencia correspondiente a un tercer banco de filtros, en donde el segundo banco de filtros y el tercer banco de filtros son, al menos parcialmente, el mismo banco de filtros.
  14. 14. Un medio legible por ordenador que comprende instrucciones de codigo de ordenador adaptadas para llevar a cabo el metodo de cualquiera de las reivindicaciones 1-6 cuando se ejecutan en un dispositivo que tiene capacidad de procesamiento, o que comprende instrucciones de codigo de ordenador adaptadas para llevar a cabo el metodo de cualquiera de las reivindicaciones 8-13 cuando se ejecutan en un dispositivo que tiene capacidad de procesamiento.
  15. 15. Un descodificador para descodificar una losa tiempo-frecuencia de una escena de audio que al menos comprende N objetos de audio, que comprende:
    un componente receptor configurado para recibir una secuencia de bits que comprende M senales de submezcla y al menos algunos elementos de matriz de una matriz de reconstruccion;
    un componente de generacion de matriz de reconstruccion configurado para recibir los elementos de matriz del componente receptor y, segun ello, generar la matriz de reconstruccion; y
    un componente de reconstruccion configurado para recibir la matriz de reconstruccion del componente de generacion de matriz de reconstruccion y para reconstruir los N objetos de audio de las M senales de submezcla 5 usando la matriz de reconstruccion, en donde las aproximaciones de al menos los N objetos de audio se pueden obtener como combinaciones lineales de al menos las M senales de submezcla con los elementos de matriz de la matriz de reconstruccion como coeficientes en las combinaciones lineales.
ES14727789.1T 2013-05-24 2014-05-23 Codificación de escenas de audio Active ES2636808T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361827246P 2013-05-24 2013-05-24
US201361827246P 2013-05-24
PCT/EP2014/060727 WO2014187986A1 (en) 2013-05-24 2014-05-23 Coding of audio scenes

Publications (1)

Publication Number Publication Date
ES2636808T3 true ES2636808T3 (es) 2017-10-09

Family

ID=50884378

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14727789.1T Active ES2636808T3 (es) 2013-05-24 2014-05-23 Codificación de escenas de audio

Country Status (19)

Country Link
US (9) US10026408B2 (es)
EP (1) EP3005355B1 (es)
KR (1) KR101761569B1 (es)
CN (7) CN117012210A (es)
AU (1) AU2014270299B2 (es)
BR (2) BR112015029132B1 (es)
CA (5) CA3211326A1 (es)
DK (1) DK3005355T3 (es)
ES (1) ES2636808T3 (es)
HK (1) HK1218589A1 (es)
HU (1) HUE033428T2 (es)
IL (8) IL309130A (es)
MX (1) MX349394B (es)
MY (1) MY178342A (es)
PL (1) PL3005355T3 (es)
RU (1) RU2608847C1 (es)
SG (1) SG11201508841UA (es)
UA (1) UA113692C2 (es)
WO (1) WO2014187986A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
US9892737B2 (en) 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN117012210A (zh) 2013-05-24 2023-11-07 杜比国际公司 对音频场景进行解码的方法、装置及计算机可读介质
EP3712889A1 (en) 2013-05-24 2020-09-23 Dolby International AB Efficient coding of audio scenes comprising audio objects
US9818412B2 (en) 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
EP3028476B1 (en) 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
EP3201918B1 (en) 2014-10-02 2018-12-12 Dolby International AB Decoding method and decoder for dialog enhancement
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US10861467B2 (en) 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US11514921B2 (en) * 2019-09-26 2022-11-29 Apple Inc. Audio return channel data loopback
CN111009257B (zh) * 2019-12-17 2022-12-27 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU1332U1 (ru) 1993-11-25 1995-12-16 Магаданское государственное геологическое предприятие "Новая техника" Гидромонитор
US5845249A (en) * 1996-05-03 1998-12-01 Lsi Logic Corporation Microarchitecture of audio core for an MPEG-2 and AC-3 decoder
US7567675B2 (en) 2002-06-21 2009-07-28 Audyssey Laboratories, Inc. System and method for automatic multiple listener room acoustic correction with low filter orders
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
DE10344638A1 (de) 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
GB2415639B (en) 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
EP1768107B1 (en) 2004-07-02 2016-03-09 Panasonic Intellectual Property Corporation of America Audio signal decoding device
JP4828906B2 (ja) 2004-10-06 2011-11-30 三星電子株式会社 デジタルオーディオ放送でのビデオサービスの提供及び受信方法、並びにその装置
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
WO2007110103A1 (en) 2006-03-24 2007-10-04 Dolby Sweden Ab Generation of spatial downmixes from parametric representations of multi channel signals
CN101484936B (zh) * 2006-03-29 2012-02-15 皇家飞利浦电子股份有限公司 音频解码
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8271290B2 (en) 2006-09-18 2012-09-18 Koninklijke Philips Electronics N.V. Encoding and decoding of audio objects
EP2575130A1 (en) 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
ES2399562T3 (es) 2006-10-13 2013-04-02 Auro Technologies Método y codificador para combinar conjuntos de datos digitales, método para descodificar y descodificador para tales conjuntos de datos digitales combinados y soporte de grabación para almacenar tales conjuntos de datos digitales combinados
CN101529504B (zh) * 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
EP2097895A4 (en) * 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
EP2111616B1 (en) 2007-02-14 2011-09-28 LG Electronics Inc. Method and apparatus for encoding an audio signal
ATE526663T1 (de) 2007-03-09 2011-10-15 Lg Electronics Inc Verfahren und vorrichtung zum verarbeiten eines audiosignals
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
EP2082396A1 (en) 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
CN103151047A (zh) 2007-10-22 2013-06-12 韩国电子通信研究院 多对象音频解码方法
WO2009084914A1 (en) 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8615088B2 (en) 2008-01-23 2013-12-24 Lg Electronics Inc. Method and an apparatus for processing an audio signal using preset matrix for controlling gain or panning
DE102008009024A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
DE102008009025A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
CN102007532B (zh) 2008-04-16 2013-06-19 Lg电子株式会社 用于处理音频信号的方法和装置
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
WO2010008200A2 (en) 2008-07-15 2010-01-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010087627A2 (en) 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
EP2446435B1 (en) 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
JP5635097B2 (ja) 2009-08-14 2014-12-03 ディーティーエス・エルエルシーDts Llc オーディオオブジェクトを適応的にストリーミングするためのシステム
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
US9432790B2 (en) 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
PT2489037T (pt) 2009-10-16 2022-01-07 Fraunhofer Ges Forschung Aparelho, método e programa de computador para fornecer parâmetros ajustados
KR101418661B1 (ko) 2009-10-20 2014-07-14 돌비 인터네셔널 에이비 다운믹스 시그널 표현에 기초한 업믹스 시그널 표현을 제공하기 위한 장치, 멀티채널 오디오 시그널을 표현하는 비트스트림을 제공하기 위한 장치, 왜곡 제어 시그널링을 이용하는 방법들, 컴퓨터 프로그램 및 비트 스트림
MY154641A (en) 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
AP3301A (en) * 2009-12-07 2015-06-30 Dolby Lab Licensing Corp Decoding of multichannel audio encoded bit streamsusing adaptive hybrid transformation
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
DE102010030534A1 (de) * 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US20120076204A1 (en) 2010-09-23 2012-03-29 Qualcomm Incorporated Method and apparatus for scalable multimedia broadcast using a multi-carrier communication system
GB2485979A (en) 2010-11-26 2012-06-06 Univ Surrey Spatial audio coding
KR101227932B1 (ko) 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
JP2012151663A (ja) 2011-01-19 2012-08-09 Toshiba Corp 立体音響生成装置及び立体音響生成方法
US9026450B2 (en) * 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
WO2012125855A1 (en) 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
TWI476761B (zh) * 2011-04-08 2015-03-11 Dolby Lab Licensing Corp 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
EP2829083B1 (en) 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2883366B8 (en) 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
CN117012210A (zh) 2013-05-24 2023-11-07 杜比国际公司 对音频场景进行解码的方法、装置及计算机可读介质
KR101895198B1 (ko) 2013-05-24 2018-09-07 돌비 인터네셔널 에이비 오디오 인코더 및 디코더

Also Published As

Publication number Publication date
US10726853B2 (en) 2020-07-28
CN105247611A (zh) 2016-01-13
US11682403B2 (en) 2023-06-20
MX349394B (es) 2017-07-26
US10468040B2 (en) 2019-11-05
IL302328B1 (en) 2024-01-01
IL265896A (en) 2019-06-30
CA3211326A1 (en) 2014-11-27
CA2910755C (en) 2018-11-20
CA3211308A1 (en) 2014-11-27
EP3005355A1 (en) 2016-04-13
UA113692C2 (xx) 2017-02-27
CN109887517A (zh) 2019-06-14
US10468041B2 (en) 2019-11-05
IL278377B (en) 2021-08-31
IL302328A (en) 2023-06-01
CN110085239B (zh) 2023-08-04
AU2014270299B2 (en) 2017-08-10
IL290275B2 (en) 2023-02-01
IL296208B1 (en) 2023-05-01
AU2014270299A1 (en) 2015-11-12
US10468039B2 (en) 2019-11-05
IL296208A (en) 2022-11-01
KR20150136136A (ko) 2015-12-04
HK1218589A1 (zh) 2017-02-24
IL242264B (en) 2019-06-30
IL302328B2 (en) 2024-05-01
IL296208B2 (en) 2023-09-01
BR112015029132A2 (pt) 2017-07-25
CN109887516B (zh) 2023-10-20
US10026408B2 (en) 2018-07-17
IL290275A (en) 2022-04-01
PL3005355T3 (pl) 2017-11-30
BR122020017152B1 (pt) 2022-07-26
CN109887516A (zh) 2019-06-14
US20220310102A1 (en) 2022-09-29
SG11201508841UA (en) 2015-12-30
MY178342A (en) 2020-10-08
US20160125888A1 (en) 2016-05-05
CA3017077C (en) 2021-08-17
IL284586A (en) 2021-08-31
EP3005355B1 (en) 2017-07-19
US10347261B2 (en) 2019-07-09
CA3123374A1 (en) 2014-11-27
US11315577B2 (en) 2022-04-26
MX2015015988A (es) 2016-04-13
CA3017077A1 (en) 2014-11-27
CA3123374C (en) 2024-01-02
IL284586B (en) 2022-04-01
US20190295557A1 (en) 2019-09-26
KR101761569B1 (ko) 2017-07-27
US20190251976A1 (en) 2019-08-15
WO2014187986A1 (en) 2014-11-27
CN116935865A (zh) 2023-10-24
IL309130A (en) 2024-02-01
CA2910755A1 (en) 2014-11-27
IL290275B (en) 2022-10-01
CN117059107A (zh) 2023-11-14
BR112015029132B1 (pt) 2022-05-03
CN109887517B (zh) 2023-05-23
US20180301156A1 (en) 2018-10-18
US20210012781A1 (en) 2021-01-14
US20230290363A1 (en) 2023-09-14
US20190295558A1 (en) 2019-09-26
CN105247611B (zh) 2019-02-15
RU2608847C1 (ru) 2017-01-25
DK3005355T3 (en) 2017-09-25
CN117012210A (zh) 2023-11-07
HUE033428T2 (en) 2017-11-28
CN110085239A (zh) 2019-08-02
US20200020345A1 (en) 2020-01-16

Similar Documents

Publication Publication Date Title
ES2636808T3 (es) Codificación de escenas de audio
ES2729624T3 (es) Reducción de la correlación entre canales de fondo ambisónicos de orden superior (HOA)
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
ES2913849T3 (es) Concepto para codificación y decodificación de audio para canales de audio y objetos de audio
ES2674819T3 (es) Transición de coeficientes ambisónicos ambientales de orden superior
ES2714356T3 (es) Reconstrucción de vectores descompuestos a partir de señales de audio ambisónicas de orden superior
ES2398573T3 (es) Número reducido de decodificación de canales
ES2922451T3 (es) Indicación de la reusabilidad de parámetros de un marco para la codificación de vectores
ES2900653T3 (es) Adaptación relacionada con pantalla de contenido de HOA
BR112016001243B1 (pt) Aparelho e método para codificação de objetos áudio espaciais melhorada
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
ES2709327T3 (es) Método de descodificación y descodificador para la mejora del diálogo
ES2659019T3 (es) Estructura de descorrelacionador para la reconstrucción paramétrica de señales de audio
ES2624668T3 (es) Codificación y descodificación de objetos de audio
BR112017006278B1 (pt) Método para aprimorar o diálogo num decodificador em um sistema de áudio e decodificador