ES2643789T3

ES2643789T3 - Codificación eficiente de escenas de audio que comprenden objetos de audio

Info

Publication number: ES2643789T3
Application number: ES14726358.6T
Authority: ES
Inventors: Heiko Purnhagen; Kristofer Kjoerling; Toni HIRVONEN; Lars Villemoes; Dirk Jeroen Breebaart
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-05-24
Filing date: 2014-05-23
Publication date: 2017-11-24
Anticipated expiration: 2034-05-23
Also published as: CN109712630A; WO2014187991A1; JP6192813B2; BR112015029113B1; KR20160003039A; CN110085240A; CN109712630B; EP3005353A1; KR102033304B1; RU2017134913A3; EP3712889A1; HK1214027A1; EP3312835B1; EP3005353B1; KR20170075805A; CN110085240B; RU2015150078A; BR112015029113A2; US11270709B2; RU2017134913A

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Codificacion eficiente de escenas de audio que comprenden objetos de audio REFERENCIA CRUZADA A SOLICITUDES DE PATENTE RELACIONADAS

La presente solicitud reivindica el beneficio de la fecha de presentacion de la solicitud de patente provisional de los Estados Unidos n° 61/827,246 presentada con fecha 24 de mayo de 2013, la solicitud de patente provisional de los Estados Unidos n° 61/893,770, presentada con fecha 21 de octubre de 2013 y la solicitud de patente provisional de los Estados Unidos n° 61/973,625 presentada con fecha 1 de abril de 2014.

CAMPO DE LA INVENCION

La idea inventiva se refiere, en general, a la codificacion de una escena de audio que comprende objetos de audio. En particular, se refiere a un codificador, un decodificador y metodos asociados para la codificacion y decodificacion de objetos de audio.

ANTECEDENTES DE LA INVENCION

Una escena de audio puede comprender, en general, objetos de audio y canales de audio. Un objeto de audio es una senal de audio que tiene una posicion espacial asociada que puede variar en el tiempo. Un canal de audio es una senal de audio que corresponde directamente a un canal de una configuracion de altavoces multicanales, tal como una asf denominada configuracion de altavoces 5.1 con tres altavoces frontales, dos altavoces circundantes y un altavoz de efectos de baja frecuencia.

Puesto que el numero de objetos de audio normalmente puede ser muy grande, a modo de ejemplo, en el orden de magnitud de centenares de objetos de audio, existe una necesidad para metodos de codificacion que permiten que los objetos de audio sean reconstruidos eficientemente en el lado del decodificador. Han existido sugerencias para combinar los objetos de audio en una mezcla reducida multicanal (esto es, en una pluralidad de canales de audio que corresponden a los canales de una determinada configuracion de altavoces multicanal tal como una configuracion 5.1) en un lado del decodificador, y para reconstruir los objetos de audio de forma parametrica a partir de la mezcla reducida multicanal en un lado de decodificador.

Un inconveniente de dicho metodo es que un decodificador de legado que no soporta la reconstruccion de objetos de audio puede utilizar la mezcla reducida multicanal directamente para la reproduccion en una configuracion de altavoces multicanal. A modo de ejemplo, una mezcla reducida 5.1 puede reproducirse directamente en los altavoces de una configuracion 5.1.

Un inconveniente con este metodo es, sin embargo, que la mezcla reducida multicanal no puede proporcionar una reconstruccion suficientemente adecuada de los objetos de audio en el lado del decodificador. A modo de ejemplo, considerese dos objetos de audio que tienen la misma posicion horizontal que el altavoz frontal izquierdo de una configuracion 5.1, pero una posicion vertical diferente. Estos objetos de audio normalmente se combinanan en el mismo canal de una mezcla reducida 5.1. Lo que antecede constituina una situacion diffcil de superar la reconstruccion de objetos de audio en el lado del decodificador, que tendna que reconstruir aproximaciones de los dos objetos de audio a partir del mismo canal de mezcla reducida, lo que es un proceso que no puede garantizar una reconstruccion perfecta y que, a veces, incluso dana lugar a los asf denominados artefactos audibles.

Existe, por lo tanto, una necesidad de metodos de codificacion/decodificacion que proporcionen una reconstruccion eficiente y mejorada de los objetos de audio.

La informacion lateral o metadatos se suele utilizar durante la reconstruccion de objetos de audio a partir de, p.ej., una mezcla reducida. La forma y contenido de dicha informacion lateral puede, a modo de ejemplo, afectar a la fidelidad de los objetos de audio reconstruidos y/o la complejidad de calculo para realizar la reconstruccion. Por lo tanto, sena deseable proporcionar metodos de codificacion/decodificacion con una informacion lateral nueva y alternativa que permita aumentar la fidelidad de los objetos de audio reconstruidos y/o que permita reducir la complejidad de calculo de la reconstruccion.

I. Cita de informe de busqueda internacional

El Informe de Busqueda Internacional que corresponde al presente documento cita, inter alia el documento siguiente:

La publicacion de solicitud de patente europea n.° EP 2 273 492 A2, da a conocer un aparato para generar un flujo de bits de informacion lateral de una senal de audio multiobjeto. El aparato incluye una unidad de entrada de informacion de indicacion espacial configurada para recibir informacion de indicacion espacial generada en un codificador de la senal de audio multiobjeto, una unidad de entrada de informacion prefijada configurada para recibir informacion prefijada para la

5

10

15

20

25

30

35

40

45

50

55

60

65

senal de audio multiobjeto, y un generador de flujo de bits de informacion lateral configurado para generar el flujo de bits de informacion lateral sobre la base de la informacion de indicacion espacial y la informacion prefijada. El flujo de bits de informacion lateral incluye una region de cabecera y una region de trama, y la informacion prefijada esta incluida en la region de trama

BREVE DESCRIPCION DE LOS DIBUJOS

Formas de realizacion, a modo de ejemplo, se describiran a continuacion haciendo referencia a los dibujos adjuntos, en los que:

La Figura 1 es una ilustracion esquematica de un codificador en conformidad con formas de realizacion a modo de ejemplo;

La Figura 2 es una ilustracion esquematica de un decodificador que soporta la reconstruccion de objetos de audio en conformidad con formas de realizacion a modo de ejemplo;

La Figura 3 es una ilustracion esquematica de un decodificador de baja complejidad que no soporta la reconstruccion de objetos de audio en conformidad con formas de realizacion a modo de ejemplo;

La Figura 4 es una ilustracion esquematica de un codificador que comprende un componente de agrupamiento secuencialmente dispuesto para simplificacion de una escena de audio en conformidad con formas de realizacion a modo de ejemplo;

La Figura 5 es una ilustracion esquematica de un codificador que comprende un componente de agrupamiento dispuesto en paralelo para simplificacion de una escena de audio en conformidad con formas de realizacion a modo de ejemplo;

La Figura 6 ilustra un proceso conocido tfpico para calcular una matriz de presentacion para un conjunto de instancias de metadatos;

La Figura 7 ilustra la derivacion de una curva de coeficientes utilizada en la presentacion de las senales de audio;

La Figura 8 ilustra un metodo de interpolacion de instancias de metadatos, en conformidad con una forma de realizacion a modo de ejemplo;

Las Figuras 9 y 10 ilustran ejemplos de introduccion de instancias de metadatos adicionales, en conformidad con formas de realizacion a modo de ejemplo; y

La Figura 11 ilustra un metodo de interpolacion que utiliza un circuito de tipo muestreo y retencion (muestreo y retencion) con un filtro de paso bajo, en conformidad con una forma de realizacion a modo de ejemplo.

Todas las figuras son esquematicas y en general, solamente ilustran partes que son necesarias con el fin elucidar la idea inventiva, mientras que otras partes pueden omitirse o meramente sugerirse. A no ser que se indique de otro modo, las referencias numericas similares se refieren a partes similares en diferentes Figuras.

DESCRIPCION DETALLADA DE LA INVENCION

Considerando lo que antecede, es un objetivo dar a conocer un metodo de codificacion, un metodo de decodificacion, un decodificador y un programa informatico, que permiten una reconstruccion eficiente y mejorada de objetos de audio y/o que permiten aumentar la fidelidad de los objetos de audio reconstruidos y/o que permite reducir la complejidad de calculo de la reconstruccion.

Este objetivo se resuelve por las reivindicaciones independientes. Formas de realizacion espedficas se definen en las reivindicaciones subordinadas.

I. Descripcion general -Codificador

Segun un primer aspecto de la idea inventiva, se da a conocer un metodo de codificacion, un codificador y un producto de programa informatico para codificar objetos de audio.

En conformidad con las formas de realizacion a modo de ejemplo, se da a conocer un metodo para codificar objetos de audio en un flujo de datos, que comprende:

la recepcion de N objetos de audio, en donde N>1;

calcular M senales de mezcla reducida, en donde M<N, mediante la formacion de combinaciones de los N objetos de

5

10

15

20

25

30

35

40

45

50

55

60

65

audio en conformidad con un criterio que es independiente de cualquier configuracion de altavoces;

calcular la informacion lateral que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formado sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

incluir las M senales de mezcla reducida y la informacion lateral en el flujo de datos para su transmision a un decodificador.

Con la disposicion antes citada, las M senales de mezcla reducida son formadas, de este modo, a partir de los N objetos de audio con independencia de cualquier configuracion de altavoces. Esto implica que las M senales de mezcla reducida no estan restringidas a senales de audio que son adecuadas para la reproduccion en los canales de una configuracion de altavoces con M canales. En lugar de ello, las M senales de mezcla reducida pueden seleccionarse, con mayor libertad, de conformidad con un criterio de modo que se adapten, a modo de ejemplo, a la dinamica de los N objetos de audio y mejorar asf la reconstruccion de los objetos de audio en el lado del decodificador.

Volviendo al ejemplo con dos objetos de audio que tienen la misma posicion horizontal como el altavoz frontal izquierdo de una configuracion 5.1, pero una posicion verificacion diferente, el metodo propuesto permite poner el primer objeto de audio en una primera senal de mezcla reducida, y el segundo objeto de audio en la segunda senal de mezcla reducida. Lo que antecede permite una reconstruccion perfecta de los objetos de audio en el decodificador. En general, dicha reconstruccion perfecta es posible en tanto que el numero de objetos de audio activos no supere el numero de senales de mezcla reducida. Si el numero de objetos de audio activos es mas alto, en tal caso, el metodo propuesto permite la seleccion de los objetos de audio que han de mezclarse en la misma senal de mezcla reducida, de modo que los posibles errores de aproximacion que se produzcan en el objeto de audio reconstruido en el decodificador no tengan ninguno o el mas pequeno impacto perceptual posible sobre la escena de audio reconstruida.

Una segunda ventaja de las M senales de mezcla reducida que son adaptativas, es la capacidad para mantener algunos objetos de audio estrictamente separados de otros objetos de audio. A modo de ejemplo, puede ser ventajoso mantener cualquier objeto de dialogo separado de objetos de fondo, para garantizar que se presente el dialogo con exactitud en terminos de atributos espaciales, y permite el procesamiento de objetos en el decodificador, tal como la mejora del dialogo o el aumento de la intensidad sonora del dialogo para mejora de la inteligibilidad. Para otras aplicaciones (p.ej., karaoke), puede ser ventajoso permitir el silenciamiento completo de uno o mas objetos, lo que requiere tambien que dichos objetos no esten mezclados con otros objetos. Los metodos convencionales que utilizan una mezcla reducida multicanal correspondiente a una configuracion de altavoces espedfica no permiten un silenciamiento completo de objetos de audio presentes en una mezcla de otros objetos de audio.

El termino de senal de mezcla reducida refleja que una senal de mezcla reducida es una mezcla, esto es, una combinacion, de otras senales. El termino “reducida” indica que el numero M de senales de mezcla reducida suele ser inferior al numero N de objetos de audio.

En conformidad con formas de realizacion a modo de ejemplo, el metodo puede comprender, ademas, asociar cada senal de mezcla reducida con una posicion espacial e incluye las posiciones espaciales de las senales de mezcla reducida en el flujo de datos como metadatos para las senales de mezcla reducida. Esto es conveniente por cuanto que permite la utilizacion de una decodificacion de baja complejidad en caso de un sistema de reproduccion de legado. Mas concretamente, los metadatos asociados con las senales de mezcla reducida pueden utilizarse en un lado del decodificador para la presentacion de las senales de mezcla reducida hacia los canales de un sistema de reproduccion de legado.

De conformidad con formas de realizacion a modo de ejemplo, los N objetos de audio estan asociados con metadatos que incluyen posiciones espaciales de los N objetos de audio, y las posiciones espaciales asociadas con las senales de mezcla reducida se calculan sobre la base de las posiciones espaciales de los N objetos de audio. De este modo, las senales de mezcla reducida pueden interpretarse como objetos de audio que tienen una posicion espacial que depende de las posiciones espaciales de los N objetos de audio.

Ademas, las posiciones espaciales de los N objetos de audio y las posiciones espaciales asociadas con las M senales de mezcla reducida pueden vanan en el tiempo, es decir, pueden variar entre tramas temporales de datos de audio. Dicho de otro modo, las senales de mezcla reducida pueden interpretarse como objetos de audio dinamicos que tienen una posicion asociada que vana entre tramas temporales. Lo que antecede contrasta con los sistemas de la tecnica anterior en donde las senales de mezcla reducida corresponden a posiciones de altavoces espaciales fijas.

En condiciones normales, la informacion lateral es tambien variable en el tiempo lo que permite que vanen temporalmente los parametros que rigen la reconstruccion de los objetos de audio.

El codificador puede aplicar diferentes criterios para el calculo de las senales de mezcla reducida. De conformidad

5

10

15

20

25

30

35

40

45

50

55

60

65

con formas de realizacion a modo de ejemplo en donde los N objetos de audio estan asociados con metadatos que incluyen posiciones espaciales de los N objetos de audio, el criterio para calcular las M senales de mezcla reducida puede basarse en la proximidad espacial de los N objetos de audio. A modo de ejemplo, los objetos de audio que estan proximos entre sf pueden combinarse en la misma senal de mezcla reducida.

En conformidad con formas de realizacion a modo de ejemplo en donde los metadatos asociados con los N objetos de audio comprende, ademas, valores de importancia que indican la importancia de los N objetos de audio en relacion entre sf, el criterio para calcular las M senales de mezcla reducida puede estar basado, ademas, en los valores de importancia de los N objetos de audio. A modo de ejemplo, los mas importantes de los N objetos de audio pueden ser objeto de mapeado de correspondencia directamente para una senal de mezcla reducida, mientras que los objetos de audio restantes se combinan para formar las senales de mezcla reducida restantes.

En particular, en conformidad con formas de realizacion a modo de ejemplo, la etapa de calcular las M senales de mezcla reducida comprende un primer procedimiento de agrupamiento que incluye la asociacion de los N objetos de audio con M agrupamientos basados en la proximidad espacial y en los valores de importancia, si fuera aplicable, de los N objetos de audio, y calcular una senal de mezcla reducida para cada agrupamiento mediante la formacion de una combinacion de objetos de audio asociados con el agrupamiento. En algunos casos, un objeto de audio puede formar parte de, como maximo, un agrupamiento. En otros casos, un objeto de audio puede formar parte de varios agrupamientos. De este modo, grupos diferentes, esto es, agrupamientos, se forman a partir de los objetos de audio. Cada agrupamiento puede, a su vez, representarse por una senal de mezcla reducida que puede considerarse como un objeto de audio. El metodo de agrupamiento permite la asociacion de cada senal de mezcla reducida con una posicion espacial que se calcula sobre la base de las posiciones espaciales de los objetos de audio asociados con el agrupamiento correspondiente a la senal de mezcla reducida. Con esta interpretacion, el primer procedimiento de agrupamiento reduce asf la dimensionalidad de los N objetos de audio a M objetos de audio de una manera flexible.

La posicion espacial asociada con cada senal de mezcla reducida puede calcularse, a modo de ejemplo, como un centroide o un centroide ponderado de las posiciones espaciales de los objetos de audio asociados con el agrupamiento correspondiente a la senal de mezcla reducida. Los valores de ponderacion pueden basarse, a modo de ejemplo, en los valores de importancia de los objetos de audio.

En conformidad con formas de realizacion a modo de ejemplo, los N objetos de audio estan asociados con los M agrupamientos aplicando un denominado algoritmo K-means que tiene las posiciones espaciales de los N objetos de audio como entrada.

Puesto que una escena de audio puede comprender un gran numero de objetos de audio, el metodo puede tomar medidas adicionales para reducir la dimensionalidad de la escena de audio, con lo que se reduce la complejidad de calculo en el lado del decodificador cuando se reconstruyen los objetos de audio. En particular, el metodo puede comprender, ademas, un segundo procedimiento de agrupamiento para reducir una primera pluralidad de objetos de audio a una segunda pluralidad objetos de audio.

En conformidad con una forma de realizacion, el segundo procedimiento de agrupamiento se realiza antes del calculo de las M senales de mezcla reducida. En esa forma de realizacion, la primera pluralidad de objetos de audio corresponden, por lo tanto, a los objetos de audio originales de la escena de audio, y la segunda, reducida, pluralidad de objetos corresponde a los N objetos de audio sobre la base sobre la que se calculan las M senales de mezcla reducida. Ademas, en dicha forma de realizacion, el conjunto de objetos de audio (a reconstruirse en el

decodificador) formados sobre la base de los N objetos de audio corresponden, esto es, es igual a, los N objetos de

audio.

En conformidad con otra forma de realizacion, el segundo procedimiento de agrupamiento se realiza en paralelo con el calculo de las M senales de mezcla reducida. En dicha forma de realizacion, los N objetos de audio sobre la base con la que se calculan las M senales de mezcla reducida, asf como la primera pluralidad de objetos de audio que son entrada para el segundo procedimiento de agrupamiento corresponden a los objetos de audio originales de la

escena de audio. Ademas, en dicha forma de realizacion, el conjunto de objetos de audio (a reconstruirse en el

decodificador) formados sobre la base de los N objetos de audio corresponden a la segunda pluralidad de objetos de audio. Con este metodo, las M senales de mezcla reducida se calculan, por lo tanto, sobre la base de los objetos de audio originales de la escena de audio y no sobre la base de un numero reducido de objetos de audio.

En conformidad con forma de realizacion a modo de ejemplo, el segundo procedimiento de agrupamiento comprende:

la recepcion de la primera pluralidad de objetos de audio y sus posiciones espaciales asociadas;

la asociacion de la primera pluralidad de objetos de audio con al menos un agrupamiento sobre la base de una proximidad espacial de la primera pluralidad de objetos de audio,

la generacion de la segunda pluralidad de objetos de audio representando cada uno de los al menos un

5

10

15

20

25

30

35

40

45

50

55

60

65

agrupamiento por un objeto de audio que es una combinacion de los objetos de audio asociados con el agrupamiento,

el calculo de metadatos que incluyen las posiciones espaciales para la segunda pluralidad de objetos de audio, en donde la posicion espacial de cada objeto de audio de la segunda pluralidad de objetos de audio se calcula sobre la base de las posiciones espaciales de los objetos de audio asociados con el agrupamiento correspondiente; y

la inclusion de los metadatos para la segunda pluralidad de objetos de audio en el flujo de datos.

Dicho de otro modo, el segundo procedimiento de agrupamiento utiliza la redundancia espacial presente en la escena de audio, tal como objetos que tienen localizaciones iguales o muy similares. Ademas, los valores de importancia de los objetos de audio pueden tenerse en cuenta cuando se genera la segunda pluralidad de objetos de audio.

Segun se menciono con anterioridad, la escena de audio puede comprender tambien canales de audio. Dichos canales de audio pueden considerarse como un objeto de audio que esta asociado con una posicion estatica, p.ej., la posicion del altavoz correspondiente al canal de audio. En mas detalle, el segundo procedimiento de agrupamiento puede comprender, ademas:

la recepcion de al menos un canal de audio;

la conversion de cada uno de los al menos un canal de audio en un objeto de audio que tiene una posicion espacial estatica correspondiente a una posicion de altavoz de ese canal de audio; y

la inclusion del al menos un canal de audio convertido en la primera pluralidad de objetos de audio.

De este modo, el metodo permite la codificacion de una escena de audio que comprende canales de audio, asf como objetos de audio.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un producto de programa informatico que comprende un soporte legible por ordenador con instrucciones para realizar el metodo de decodificacion en conformidad con las formas de realizacion a modo de ejemplo.

En conformidad con formas de realizacion ejemplo, se da a conocer un codificador para codificar objetos de audio en un flujo de datos, que comprende:

un componente de recepcion configurado para recibir N objetos de audio, en donde N>1,

un componente de mezcla reducida configurado para calcular las M senales de mezcla reducida, en donde M<N, mediante la formacion de combinaciones de los N objetos de audio en conformidad con un criterio que es independiente de cualquier configuracion de altavoces;

un componente de analisis configurado para calcular informacion lateral que incluye parametros que permiten una reconstruccion del conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

un componente de multiplexacion configurado para incluir las M senales de mezcla reducida y la informacion lateral en el flujo de datos para su transmision a un decodificador.

II. Descripcion general - Decodificador

En conformidad con un segundo aspecto de la idea inventiva, se da a conocer un metodo de decodificacion, un decodificador y un producto de programa informatico para decodificar un contenido de audio multicanal.

El segundo aspecto de la idea inventiva puede tener, en general, las mismas caractensticas y ventajas que el primer aspecto.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un metodo en un decodificador para decodificar un flujo de datos que incluye objetos de audio codificados, que comprende:

la recepcion de un flujo de datos que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio calculados en conformidad con un criterio que es independiente de cualquier configuracion de altavoces, en donde M<N y la informacion lateral incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

5

10

15

20

25

30

35

40

45

50

55

60

65

la reconstruccion del conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida y de la informacion lateral.

En conformidad con formas de realizacion a modo de ejemplo, el flujo de datos comprende, ademas, metadatos para las M senales de mezcla reducida que incluyen posiciones espaciales asociadas con las M senales de mezcla reducida, comprendiendo el metodo, ademas:

en una condicion en donde el decodificador esta configurado para soportar una reconstruccion de objeto de audio, realizar la etapa de reconstruir el conjunto de objetos de audio formado sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida y de la informacion lateral; y

en una condicion en donde el decodificador no esta configurado para soportar una reconstruccion de objeto de audio, utilizar los metadatos para las M senales de mezcla reducida para la presentacion de las M senales de mezcla reducida hacia los canales de salida de un sistema de reproduccion.

De conformidad con las formas de realizacion a modo de ejemplo, las posiciones espaciales asociadas con las M senales de mezcla reducida vanan en el tiempo.

En conformidad con formas de realizacion a modo de ejemplo, la informacion lateral vana en el tiempo.

En conformidad con formas de realizacion a modo de ejemplo, el flujo de datos comprende, ademas, metadatos para el conjunto de objetos de audio formados sobre la base de los N objetos de audio que incluyen las posiciones espaciales del conjunto de objetos de audio formados sobre la base de los N objetos de audio, comprendiendo el metodo, ademas:

la utilizacion de los metadatos para el conjunto de objetos de audio formado sobre la base de los N objetos de audio para la presentacion del conjunto reconstruido de objetos de audio formado sobre la base de los N objetos de audio hacia los canales de salida de un sistema de reproduccion.

De conformidad con formas de realizacion a modo de ejemplo, el conjunto de objetos de audio formado sobre la base de los N objetos de audio es igual a los N objetos de audio.

En conformidad con formas de realizacion a modo de ejemplo, el conjunto de objetos de audio formado sobre la base de los N objeto de audio comprende una pluralidad de objetos de audio que son combinaciones de los N objetos de audio y cuyo numero es inferior a N.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un producto de programa informatico que comprende un soporte con instrucciones para realizar el metodo de decodificacion en conformidad con formas de realizacion a modo de ejemplo.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un decodificador para decodificar un flujo de datos que incluyen objetos de audio decodificados, que comprende:

un componente de recepcion configurado para recibir un flujo de datos que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio calculados en conformidad con un criterio que es independiente de cualquier configuracion de altavoces, en donde M<N, y la informacion lateral que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formado sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

un componente de reconstruccion configurado para la reconstruccion del conjunto de objetos de audio formado sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida y de la informacion lateral.

III. Descripcion general - Formato para la informacion lateral y los metadatos

De conformidad con un tercer aspecto de la idea inventiva, se da a conocer un metodo de codificacion, un codificador y un producto de programa informatico para codificar objetos de audio.

Los metodos, codificadores y producto de programa informatico segun el tercer aspecto de la idea inventiva pueden tener, en general, caractensticas y ventajas en comun con los metodos, codificadores y producto de programa informatico de conformidad con el primer aspecto de la idea inventiva.

De conformidad con las formas de realizacion a modo de ejemplo, se da a conocer un metodo para codificar objetos de audio como un flujo de datos. El metodo comprende:

la recepcion de N objetos de audio, en donde N>1;

5

10

15

20

25

30

35

40

45

50

55

60

65

el calculo de M senales de mezcla reducida, en donde M<N, mediante la formacion de combinaciones de los N objetos de audio;

el calculo de informacion lateral variable en el tiempo que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

la inclusion de las M senales de mezcla reducida y de la informacion lateral en un flujo de datos para su transmision a un decodificador.

En las presentes formas de realizacion a modo de ejemplo, el metodo comprende, ademas, incluir, en el flujo de datos:

una pluralidad de instancias de informacion lateral que especifican respectivos establecimientos de reconstruccion deseados para reconstruir el conjunto de objetos de audio formado sobre la base de los N objetos de audio; y

para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual al establecimiento de reconstruccion deseado que se especifica por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion.

En la presente forma de realizacion a modo de ejemplo, la informacion lateral es variable en el tiempo, p.ej., que vana en el tiempo, permitiendo a los parametros regir la reconstruccion de los objetos de audio para variar con respecto al tiempo, lo que se refleja por la presencia de las instancias de informacion lateral. Utilizando un formato de informacion lateral que incluye datos de transicion que definen puntos en el tiempo para iniciar y punto en el tiempo para completar las transiciones desde los establecimientos de reconstruccion actuales a los establecimientos de reconstruccion deseados respectivos, las instancias de informacion lateral se realizan mas independientes entre sf en el sentido de que puede realizarse interpolacion sobre la base de un establecimiento de reconstruccion actual y un establecimiento de reconstruccion deseado especificado por una instancia de informacion lateral unica, esto es, sin conocimiento de cualesquiera otras instancias de informacion lateral. El formado de informacion lateral proporcionada, por lo tanto, facilita el calculo/introduccion de instancias de informacion lateral adicional entre las instancias de informacion lateral existentes. En particular, el formato de informacion lateral proporcionada permite el calculo/introduccion de instancias de informacion lateral adicionales sin afectar a la calidad de la reproduccion. En esta invencion, el proceso de calculo/introduccion de nuevas instancias de informacion lateral entre instancias de informacion lateral existentes se refiere como “remuestreo” de la informacion lateral. El remuestreo de informacion lateral suele requerirse durante algunas tareas de procesamiento de audio. A modo de ejemplo, cuando se edita un contenido de audio, mediante, por ejemplo, corte/fusion/mezcla, dichas ediciones pueden ocurrir entre instancias de informacion lateral. En este caso, el remuestreo de la informacion lateral puede ser requerido. Otro de dichos casos es cuando las senales de audio y la informacion lateral asociada se codifican con un codec de audio basado en tramas. En este caso, es deseable tener al menos una instancia de informacion lateral para cada trama de codec de audio, preferentemente, con una marca temporal en el inicio de esa trama de codec, para mejorar la resistencia a las perdidas de tramas durante la transmision. A modo de ejemplo, las senales/objetos de audio pueden ser parte de una senal audiovisual o una senal multimedia que incluye un contenido de video. En dichas aplicaciones, puede ser deseable modificar la tasa de tramas del contenido de audio para la adaptacion de una tasa de tramas del contenido de audio, en cuyo caso puede ser deseable un remuestreo correspondiente de la informacion lateral.

El flujo de datos en el que se incluyen la senal de mezcla reducida y la informacion lateral puede ser, a modo de ejemplo, un flujo de bits, en particular, un flujo de bits memorizado o transmitido.

Ha de entenderse que el calculo de las M senales de mezcla reducida mediante la formacion de combinaciones de los N objetos de audio significa que cada una de las M senales de mezcla reducida se obtiene formando una combinacion, esto es, una combinacion lineal, del contenido de audio de los uno o mas de los N objetos de audio. Dicho de otro, cada uno de los N objetos de audio no necesita necesariamente contribuir a cada una de las M senales de mezcla reducida.

El termino de senal de mezcla reducida refleja que una senal de mezcla reducida es una mezcla, esto es, una combinacion, de otras senales. La senal de mezcla reducida puede, a modo de ejemplo, ser una mezcla aditiva de otras senales. El termino “reducida” o descendente, indica que el numero de M de senales de mezcla reducida suele ser inferior al numero N de objetos de audio.

Las senales de mezcla reducida pueden, a modo de ejemplo, calcularse formando combinaciones de las N senales de audio segun un criterio que es independiente de cualquier configuracion de altavoces, de conformidad con cualquiera de las formas de realizacion ejemplo dentro del primer aspecto de la idea inventiva. Como alternativa, las senales de mezcla reducida pueden, a modo de ejemplo, calcularse mediante la formacion de combinacion de las N senales de audio, de modo que las senales de mezcla reducida sean adecuadas para la reproduccion en los canales de una configuracion de altavoces con M canales, referida en esta descripcion como una mezcla reducida

5

10

15

20

25

30

35

40

45

50

55

60

65

compatible con versiones anteriores.

Mediante los datos de transicion que incluyen dos partes independientemente asignables se indica que las dos partes son mutuamente asignables de forma independiente, esto es, se pueden asignar con independencia entre sr Sin embargo, ha de entenderse que las partes de los datos de transicion pueden, a modo de ejemplo, coincidir con partes de datos de transicion para otros tipos de informacion lateral de metadatas.

En la presente forma de realizacion a modo de ejemplo, las dos partes independientemente asignables de los datos de transicion, en combinacion, definen el punto en el tiempo para iniciar la transicion y el punto en el tiempo para completar la transicion, esto es, estos dos puntos en el tiempo son derivables de las dos partes independientemente asignables de los datos de transicion.

En conformidad con una forma de realizacion a modo de ejemplo, el metodo puede incluir, ademas, un procedimiento de agrupamiento para reducir una primera pluralidad de objetos de audio a una segunda pluralidad de objetos de audio, en donde los N objetos de audio constituyen la primera pluralidad de objetos de audio o la segunda pluralidad de objetos de audio, y en donde el conjunto de objetos de audio formado sobre la base de los N objetos de audio coincide con la segunda pluralidad de objetos de audio. En la presente forma de realizacion a modo de ejemplo, el procedimiento de agrupamiento puede comprender:

el calculo de los metadatos del agrupamiento variable en el tiempo que incluye las posiciones espaciales para la segunda pluralidad de objetos de audio; y

la inclusion adicional, en el flujo de datos, para su transmision al decodificador:

de una pluralidad de instancias de metadatos de agrupamiento que especifican los respectivos establecimientos de presentacion deseados para presentar el segundo conjunto de objetos de audio; y

para cada instancia de metadatos de agrupamiento, los datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion actual al establecimiento de presentacion deseado que se especifica por la instancia de metadatos del agrupamiento, y un punto en el tiempo para completar la transicion al establecimiento de presentacion deseado que se especifica por la instancia de metadatos del agrupamiento.

Puesto que una escena de audio puede comprender un amplio numero de objetos de audio, el metodo en conformidad con la presente forma de realizacion a modo de ejemplo, adopta medios adicionales para reducir la dimensionalidad de la escena de audio reduciendo la primera pluralidad de objetos de audio a una segunda pluralidad de objetos de audio. En la presente forma de realizacion a modo de ejemplo, el conjunto de objetos de audio, que se forma sobre la base de los N objetos de audio y que ha de reconstruirse en un lado del decodificador sobre la base de las senales de mezcla reducida y de la informacion lateral, coincide con la segunda pluralidad de objetos de audio, que corresponde a una simplificacion y/o representacion dimensional mas baja de la escena de audio representada por la primera pluralidad de senales de audio, y se reduce la complejidad de calculo para la reconstruccion en un lado del decodificador.

La inclusion de los metadatos de agrupamiento en el flujo de datos permite la presentacion del segundo conjunto de senales de audio en un lado del decodificador, p.ej., despues de que el segundo conjunto de senales de audio se haya reconstruido sobre la base de las senales de mezcla reducida y la informacion lateral.

De forma similar a la informacion lateral, los metadatos del agrupamiento en la presente forma de realizacion a modo de ejemplo, es variable en el tiempo, p.ej., vana en el transcurso del tiempo, lo que permite que los parametros que rigen la presentacion de la segunda pluralidad de objetos de audio vanen con respecto al tiempo. El formato para los metadatos de mezcla reducida pueden ser analogos al formato de la informacion lateral y puede tener las mismas o correspondientes ventajas. En particular, la forma de los metadatos del agrupamiento que se proporciona en la forma de realizacion a modo de ejemplo presente, facilita el remuestreo de los metadatos del agrupamiento. El remuestreo de las metodologfas del agrupamiento puede, a modo de ejemplo, utilizarse para proporcionar puntos comunes en el tiempo para iniciar y completar las transiciones respectivas asociadas con los metadatos del agrupamiento y la informacion lateral, y/o para ajustar los metadatos del agrupamiento para una tasa de tramas de las senales de audio asociadas.

En conformidad con una forma de realizacion a modo de ejemplo, el procedimiento de agrupamiento puede comprender, ademas:

la recepcion de la primera pluralidad de objetos de audio y sus posiciones espaciales;

la asociacion de la primera pluralidad de objetos de audio con al menos un agrupamiento sobre la base de la proximidad espacial de la primera pluralidad de objetos de audio;

5

10

15

20

25

30

35

40

45

50

55

60

65

la generacion de la segunda pluralidad de objetos de audio representando cada uno de los al menos un agrupamiento mediante un objeto de audio que es una combinacion de los objetos de audio asociados con el agrupamiento; y

el calculo de la posicion espacial de cada objeto de audio de la segunda pluralidad de objetos de audio sobre la base de las posiciones espaciales de los objetos de audio asociados con el agrupamiento respectivo, esto es, con el agrupamiento que representa el objeto de audio.

Dicho de otro modo, el procedimiento de agrupamiento utiliza la redundancia espacial presente en la escena de audio, tal como objetos de audio que tienen localizaciones iguales o muy similares. Ademas, los valores de importancia de los objetos de audio pueden tenerse en cuenta cuando se genera la segunda pluralidad de objetos de audio, segun se describe con respecto a las formas de realizacion a modo de ejemplo dentro del primer aspecto de la idea inventiva.

La asociacion de la primera pluralidad de objetos de audio con al menos un agrupamiento incluye la asociacion de cada uno de la primera pluralidad de objetos de audio con uno o mas del al menos un agrupamiento. En algunos casos, un objeto de audio puede formar parte de, como maximo, un agrupamiento, mientras que, en otros casos, un objeto de audio puede formar parte de varios agrupamientos. Dicho de otro modo, en algunos casos, un objeto de audio puede dividirse entre varios agrupamientos como parte del procedimiento de agrupamiento.

La proximidad espacial de la primera pluralidad de objetos de audio puede relacionarse con distancias entre, y/o posiciones relativas de, los respectivos objetos de audio en la primera pluralidad de objetos de audio. A modo de ejemplo, los objetos de audio que esten proximos entre sf pueden asociarse con el mismo agrupamiento.

Mediante un objeto de audio que es una combinacion de los objetos de audio asociados con el agrupamiento se indica que el contenido de audio/senal asociado con el objeto de audio puede formarse como una combinacion de los contenidos de audio/senales asociadas con los respectivos objetos de audio que se asocian con el agrupamiento.

De conformidad con una forma de realizacion a modo de ejemplo, los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de agrupamiento pueden coincidir con los respectivos puntos en el tiempo definidos por los datos de transicion para las instancias de informacion lateral correspondientes.

Utilizando los mismos puntos en el tiempo para iniciar y para completar las transiciones asociadas con la informacion lateral y los metadatos de agrupamiento, se facilita el procesamiento conjunto de la informacion lateral y de los metadatos de agrupamiento, tal como un remuestreo conjunto.

Ademas, el uso de puntos comunes en el tiempo para iniciar y para completar las transiciones asociadas con la informacion lateral y los metadatos del agrupamiento facilita una reconstruccion conjunta y la presentacion en un lado del decodificador. Si, a modo de ejemplo, una reconstruccion y presentacion se realizan como una operacion conjunta en un lado del decodificador, los establecimientos conjuntos para la reconstruccion y presentacion pueden determinarse para instancia de informacion lateral e instancia de metadatos y/o interpolacion entre establecimientos conjuntos para la reconstruccion y presentacion, pueden utilizarse en lugar de realizar una interpolacion por separado para los respectivos establecimientos. Dicha interpolacion conjunta puede reducir la complejidad de calculo en el lado del decodificador puesto que menos coeficientes/parametros necesitan interpolarse.

En conformidad con una forma de realizacion a modo de ejemplo, el procedimiento de agrupamiento puede realizarse antes del calculo de las M senales de mezcla reducida. En la presente forma de realizacion a modo de ejemplo, la primera pluralidad de objetos de audio corresponde a objetos de audio originales de la escena de audio, y los N objetos de audio sobre cuya base se calculan las M senales de mezcla reducida constituyen la segunda, reducida, pluralidad de objetos de audio. Por consiguiente, en la presente forma de realizacion a modo de ejemplo, el conjunto de objetos de audio (a reconstruirse en el lado del decodificador) formado sobre la base de los N objetos de audio coincide con los N objetos de audio.

Como alternativa, el procedimiento de agrupamiento puede realizarse en paralelo con el calculo de las M senales de mezcla reducida. En conformidad con la presente alternativa, los N objetos de audio sobre cuya base se calculan las M senales de mezcla reducida constituyen la primera pluralidad de objetos de audio que corresponde con los objetos de audio originales de la escena de audio. Con este metodo, las M senales de mezcla reducida se calculan, por lo tanto, sobre la base de los objetos de audio originales de la escena de audio y no sobre la base de un numero reducido de objetos de audio.

En conformidad con una forma de realizacion a modo de ejemplo, el metodo puede comprender, ademas:

la asociacion de cada senal de mezcla reducida con una posicion espacial variable en el tiempo para la presentacion de las senales de mezcla reducida, y

5

10

15

20

25

30

35

40

45

50

55

60

65

la inclusion, ademas, en el flujo de datos, de metadatos de mezcla reducida que incluyen las posiciones espaciales de las senales de mezcla reducida,

en donde el metodo comprende, ademas, la inclusion, en el flujo de datos de:

una pluralidad de instancias de metadatos de mezcla reducida que especifican respectivos establecimientos de presentacion de mezcla reducida deseados para la presentacion de las senales de mezcla reducida; y

para cada instancia de metadatos de mezcla reducida, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion de mezcla reducida actual al establecimiento de presentacion de mezcla reducida deseado que se especifica por la instancia de metadatos de mezcla reducida, y un punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado que se especifica por la instancia de metadatos de mezcla reducida.

La inclusion de metadatos de mezcla reducida en el flujo de datos es ventajosa por cuanto que permite utilizarse una decodificacion de baja complejidad en caso de un equipo de reproduccion de legado. Mas concretamente, los metadatos de mezcla reducida pueden utilizarse en un lado del decodificador para presentar las senales de mezcla reducida a los canales de un sistema de reproduccion de legado, esto es, sin reconstruir la pluralidad de objetos de audio formados sobre la base de los N objetos, que suele ser una operacion de calculo mas complejo.

En conformidad con la presente forma de realizacion a modo de ejemplo, las posiciones espaciales asociadas con las M senales de mezcla reducida pueden ser variables en el tiempo, esto es, variar en el transcurso del tiempo, y las senales de mezcla reducida pueden interpretarse como objetos de audio dinamicos que tienen una posicion asociada que puede cambiar entre las tramas temporales o las instancias de metadatos de mezcla reducida. Lo que antecede contrasta con los sistemas de la tecnica anterior, en donde las senales de mezcla reducida corresponden a posiciones de altavoces espaciales fijas. Se recuerda que el mismo flujo de datos puede reproducirse en una forma orientada al objeto de audio en un sistema de decodificacion con capacidades mas evolucionadas.

En algunas formas de realizacion a modo de ejemplo, los N objetos de audio pueden asociarse con metadatos que incluyen posiciones espaciales de los N objetos de audio, y las posiciones espaciales asociadas con las senales de mezcla reducida pueden, a modo de ejemplo, calcularse sobre la base de las posiciones espaciales de los N objetos de audio. De este modo, las senales de mezcla reducida pueden interpretarse como objetos de audio que tienen posiciones espaciales que dependen de las posiciones espaciales de los N objetos de audio.

En conformidad con una forma de realizacion a modo de ejemplo, los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de mezcla reducida pueden coincidir con los respectivos puntos en el tiempo definidos por los datos de transicion para las instancias de informacion lateral correspondientes. La utilizacion de los mismos puntos en el tiempo para iniciar y para completar las transiciones asociadas con la informacion lateral y los metadatos de mezcla reducida facilita un procesamiento conjunto, p.ej., un remuestreo, de la informacion lateral y de los metadatos de mezcla reducida.

De conformidad con una forma de realizacion a modo de ejemplo, los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de mezcla reducida pueden coincidir con los respectivos puntos en el tiempo definidos por los datos de transicion para las instancias de metadatos de agrupamiento correspondientes. La utilizacion de los mismos puntos en el tiempo para iniciar y para finalizar las transiciones asociadas con los metadatos de agrupamiento y los metadatos de mezcla reducida facilita un procesamiento conjunto, a modo de ejemplo, un remuestreo, de los metadatos del agrupamiento y de los metadatos de la mezcla reducida.

En conformidad con las formas de realizacion a modo de ejemplo, se da a conocer un codificador para codificar N objetos de audio como un flujo de datos, en donde N>1. El codificador comprende:

un componente de mezcla reducida configurado para calcular las M senales de mezcla reducida, en donde M<N, mediante la formacion de combinaciones de los N objetos de audio;

un componente de analisis configurado para calcular informacion lateral variable en el tiempo, que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

un componente de multiplexacion configurado para incluir las M senales de mezcla reducida y la informacion lateral en un flujo de datos para su sino a un decodificador,

en donde el componente de multiplexacion esta configurado, ademas, para incluir, en el flujo de datos, para su transmision al decodificador:

5

10

15

20

25

30

35

40

45

50

55

60

65

una pluralidad de instancias de informacion lateral que especifican respectivos establecimientos de reconstruccion deseados para reconstruir el conjunto de objetos de audio formados sobre la base de los N objetos de audio; y

En conformidad con un cuarto aspecto de la idea inventiva, se da a conocer un metodo de decodificacion, un decodificador y un producto de programa informatico para decodificar un contenido de audio multicanal.

Los metodos, decodificadores y los productos de programa informatico en conformidad con el cuarto aspecto de la idea inventiva estan previstos para la cooperacion con los metodos, codificadores y productos de programa informatico de conformidad con el tercer aspecto, y pueden tener caractensticas y ventajas en correspondencia.

Los metodos, decodificadores y productos de programa informatico de conformidad con el cuarto aspecto, pueden tener, en general, caractensticas y ventajas en comun con los metodos, decodificadores y productos de programa informatico de conformidad con el segundo aspecto.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un metodo para reconstruir objetos de audio sobre la base de un flujo de datos. El metodo comprende:

la recepcion de un flujo de datos que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio, en donde N>1 y M<N, y la informacion lateral variable en el tiempo incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

la reconstruccion, sobre la base de las M senales de mezcla reducida y de la informacion lateral, del conjunto de objetos de audio formado sobre la base de los N objetos de audio,

en donde el flujo de datos comprende una pluralidad de instancias de informacion lateral, en donde el flujo de datos comprende, ademas, para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion, y en donde la reconstruccion del conjunto de objetos de audio formado sobre la base de los N objetos de audio comprende:

la realizacion de la reconstruccion en conformidad con un establecimiento de reconstruccion actual;

el inicio, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral, una transicion desde el establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado, que se especifica por la instancia de informacion lateral; y

completar la transicion en el punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral.

Segun se describio con anterioridad, la utilizacion de un formato de informacion lateral que incluye datos de transicion que definen puntos en el tiempo para iniciar y puntos en el tiempo para completar las transiciones de los establecimientos de reconstruccion actuales a los establecimientos de reconstruccion deseados respectivos, p.ej., facilita el remuestreo de la informacion lateral.

El flujo de datos puede, a modo de ejemplo, recibirse en la forma de un flujo de bits, p.ej., generado en un lado del codificador.

La reconstruccion, sobre la base de las M senales de mezcla reducida y de la informacion lateral, del conjunto de objetos de audio formado sobre la base de los N objetos de audio, puede, a modo de ejemplo, incluir la formacion de al menos una combinacion lineal de las senales de mezcla reducida que emplean coeficientes determinados sobre la base de la informacion lateral. La reconstruccion, sobre la base de las M senales de mezcla reducida y la informacion lateral, del conjunto de objetos de audio formados sobre la base de los N objetos de audio, puede, a modo de ejemplo, incluir la formacion de combinaciones lineales de las senales de mezcla reducida y, de modo opcional, una o mas senales adicionales (p.ej., descorrelacionadas) derivadas de las senales de mezcla reducida, que utilizan coeficientes determinados sobre la base de la informacion lateral.

En conformidad con una forma de realizacion a modo de ejemplo, el flujo de datos puede comprender, ademas, metadatos de agrupamiento variables en el tiempo para el conjunto de objetos de audio formado sobre la base de

5

10

15

20

25

30

35

40

45

50

55

60

65

los N objetos de audio, los metadatas de agrupamiento que incluyen las posiciones espaciales para el conjunto de objetos de audio formado sobre la base de los N objetos de audio. El flujo de datos puede comprender una pluralidad de instancias de metadatos de agrupamiento, y el flujo de datos puede comprender, ademas, para cada instancia de metadatos de agrupamiento, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion actual a un establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupamiento, y un punto en el tiempo para completar la transicion al establecimiento de presentacion deseado especificado por la existencia de metadatos de agrupamiento. El metodo puede incluir, ademas:

la utilizacion de los metadatos de agrupamiento para la presentacion del conjunto reconstruido de objetos de audio formado sobre la base de los N objetos de audio hacia los canales de salida de una configuracion de canal predefinida, cuya presentacion comprende:

realizar una presentacion de conformidad con un establecimiento de presentacion actual;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de metadatos de agrupamiento, una transicion desde el establecimiento de presentacion actual a un establecimiento de presentacion deseado que se especifica por la instancia de metadatos de agrupamiento; y

completar la transicion al establecimiento de presentacion deseado en un punto en el tiempo definido por los datos de transicion para la instancia de metadatos de agrupamiento.

La configuracion de canales predefinida puede, a modo de ejemplo, corresponder a una configuracion de los canales de salida compatible con un sistema de reproduccion particular, esto es, adecuado para la reproduccion en un sistema de reproduccion particular.

La presentacion del conjunto reconstruido de objetos de audio formado sobre la base de los N objetos de audio hacia los canales de salida de una configuracion de canal predefinida puede, a modo de ejemplo, incluir el mapeado de correspondencia, en un dispositivo de presentacion, del conjunto reconstruido de senales de audio formadas sobre la base de los N objetos de audio hacia (una configuracion predefinida de) canales de salida del dispositivo de presentacion bajo el control de los metadatos del agrupamiento.

La presentacion del conjunto reconstruido de objetos de audio formados sobre la base de los N objetos de audio hacia los canales de salida de una configuracion de canal predefinida puede, a modo de ejemplo, incluir la formacion de combinaciones lineales del conjunto reconstruido de objetos de audio formado sobre la base de los N objetos de audio, utilizando coeficientes determinados sobre la base de los metadatos de agrupamiento.

En conformidad con una forma de realizacion a modo de ejemplo, los puntos respectivos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de agrupamiento pueden coincidir con los respectivos puntos en el tiempo definidos por los datos de transicion para las correspondientes instancias de informacion lateral.

De conformidad con una forma de realizacion, el metodo puede comprender, ademas:

realizar al menos parte de la reconstruccion y al menos parte de la presentacion como una operacion combinada correspondiente a una primera matriz formada como un producto matricial de una matriz de reconstruccion y una matriz de presentacion asociada con un establecimiento de reconstruccion actual y un establecimiento de presentacion actual, respectivamente;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral y una instancia de metadatos del agrupamiento, una transicion combinada desde los estabas de reconstruccion y presentacion actuales a los establecimientos de reconstruccion y presentacion deseados que se especifican por la instancia de informacion lateral y la instancia de metadatos del agrupamiento, respectivamente; y

realizar la transicion combinada en un punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral y la instancia de metadatos de agrupamiento, en donde la transicion combinada incluye la interpolacion entre elementos matriciales de la primera matriz y elementos matriciales de una segunda matriz formada como un producto matricial de una matriz de reconstruccion y de una matriz de presentacion asociadas con el establecimiento de reconstruccion deseado y el establecimiento de presentacion deseado, respectivamente.

Realizando una transicion combinada en el sentido anterior, en lugar de transiciones separadas de establecimientos de reconstruccion y de establecimientos de presente, menos parametros/coeficientes necesitan interpolarse, lo que permite una reduccion de la complejidad del calculo.

Ha de entenderse que una matriz, tal como una matriz de reconstruccion o una matriz de presentacion, segun son objeto de referencia en la presente forma de realizacion a modo de ejemplo, pueden, por ejemplo, estar constituidas

5

10

15

20

25

30

35

40

45

50

55

60

65

por una fila unica o una columna unica y, por lo tanto, pueden corresponder a un vector.

La reconstruccion de objetos de audio a partir de las senales de mezcla reducida se suele realizar utilizando diferentes matrices de reconstruccion en diferentes bandas de frecuencia, mientras que la presentacion se suele realizar utilizando la misma matriz de presentacion para todas las frecuencias. En tales casos, una matriz correspondiente a una operacion combinada de reconstruccion y de presentacion, a modo de ejemplo, las primera y segunda matrices objeto de referencia en la presente forma de realizacion a modo de ejemplo, pueden normalmente ser dependientes de la frecuencia, esto es, diferentes valores para los elementos matriciales se pueden emplear normalmente para diferentes bandas de frecuencias.

De conformidad con una forma de realizacion a modo de ejemplo, el conjunto de objetos de audio formado sobre la base de los N objetos de audio puede coincidir con los N objetos de audio, esto es, el metodo puede comprender la reconstruccion de los N objetos de audio sobre la base de las M senales de mezcla reducida y de la informacion lateral.

Como alternativa, el conjunto de objetos de audio formado sobre la base de los N objetos de audio puede comprender una pluralidad de objetos de audio que son combinaciones de los N objetos de audio, y cuyo numero es menor que N, esto es, el metodo puede comprender la reconstruccion de estas combinaciones de los N objetos de audio sobre la base de las M senales de mezcla reducida y de la informacion lateral.

En conformidad con una forma de realizacion a modo de ejemplo, el flujo de datos puede comprender, ademas, metadatos de mezcla reducida para las M senales de mezcla reducida que incluyen posiciones espaciales variables en el tiempo asociadas con las M senales de mezcla reducida. El flujo de datos puede comprender una pluralidad de instancias de metadatos de mezcla reducida, y el flujo de datos puede comprender, ademas, para cada instancia de metadatos de mezcla reducida, datos de transicion incluyendo dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion de mezcla reducida actual a un establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida, y un punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado que se especifica por la instancia de metadatos de mezcla reducida. El metodo puede comprender, ademas:

en una condicion en la que el decodificador es utilizable (o esta configurado) para soportar una reconstruccion de objetos de audio, realizar la etapa de reconstruccion, sobre la base de las M senales de mezcla reducida y de la informacion lateral, del conjunto de objetos de audio formado sobre la base de los N objetos de audio; y

en una condicion en la que el decodificador no es utilizable (o no esta configurado) para soportar una reconstruccion de objetos de audio, proporcionar las metodologfas de mezcla reducida y las M senales de mezcla reducida para la presentacion de las M senales de mezcla reducida.

En caso de que el decodificador sea utilizable para soportar una reconstruccion de objetos de audio y el flujo de datos comprende, ademas, metadatos del agrupamiento asociados con el conjunto de objetos de audio formado sobre la base de los N objetos de audio, el decodificador puede, p.ej., proporcionar el conjunto reconstruido de objetos de audio para los metadatos del agrupamiento para la presentacion del conjunto reconstruido de objetos de audio.

En caso de que el decodificador no sea utilizable para soportar una reconstruccion de objetos de audio, puede descartarse, a modo de ejemplo, la informacion lateral y, si fuera aplicable, los metadatos del agrupamiento, y proporcionar los metadatos de mezcla reducida y las M senales de mezcla reducida como salida. En tal caso, la salida puede utilizarse por un dispositivo de presentacion para presentar las M senales de mezcla reducida hacia los canales de salida del dispositivo de presentacion.

De modo opcional, el metodo puede comprender, ademas, la presentacion de las M senales de mezcla reducida hacia canales de salida de una configuracion de salida predefinida, p.ej., hacia los canales de salida de un dispositivo de presentacion, o hacia los canales de salida del decodificador (en caso de que el decodificador tenga capacidades de presentacion), sobre la base de los metadatos de mezcla reducida.

En conformidad con forma de realizacion a modo de ejemplo, se da a conocer un decodificador para la reconstruccion de objetos de audio sobre la base de un flujo de datos. El decodificador comprende:

un componente de recepcion configurado para recibir un flujo de datos que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio, en donde N>1 y M<N, e informacion lateral variable en el tiempo que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formado sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

un componente de reconstruccion configurado para reconstruir, sobre la base de las M senales de mezcla reducida y de la informacion lateral, el conjunto de objetos de audio formado sobre la base de los N objetos de audio,

5

10

15

20

25

30

35

40

45

50

55

60

65

en donde el flujo de datos comprende una pluralidad de instancias de informacion lateral asociadas, y en donde el flujo de datos comprende, ademas, para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado, que se especifica por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion. El componente de reconstruccion esta configurado para reconstruir el conjunto de objetos de audio formado sobre la base de los N objetos de audio por al menos:

la realizacion de una reconstruccion en conformidad con un establecimiento de reconstruccion actual;

la iniciacion, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral, de una transicion desde el establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral; y

completar la transicion en un punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral.

De conformidad con una forma de realizacion a modo de ejemplo, el metodo dentro del tercer o de cuarto aspecto de la idea inventiva puede comprender, ademas, la generacion de una o mas instancias de informacion lateral adicionales que especifican practicamente el mismo establecimiento de reconstruccion como una instancia de informacion lateral que precede directamente o sucede directamente a las una o mas instancias de informacion lateral adicionales. Formas de realizacion a modo de ejemplo son tambien consideradas con instancias de metadatos agrupamiento adicional y/o instancias de metadatos de mezcla reducida que se generan en una forma analoga.

Segun se describio con anterioridad, el remuestreo de la informacion lateral generando mas instancias de informacion lateral puede ser ventajoso en varias situaciones, tales como cuando las senales de audio/objetos de audio y la informacion lateral asociada se codifican utilizando un dispositivo codec de audio basado en tramas; desde entonces, es deseable tener al menos una instancia de informacion lateral para cada trama de codec de audio. En un lado del codificador, las instancias de informacion lateral proporcionadas por un componente de analisis pueden, a modo de ejemplo, distribuirse en el tiempo de tal manera que no coincidan con una tasa de tramas de las senales de mezcla reducida proporcionadas por un componente de mezcla reducida, y la informacion lateral puede, por lo tanto, ventajosamente ser objeto de remuestreo introduciendo nuevas instancias de informacion lateral de modo que exista al menos una instancia de informacion lateral para cada trama de las senales de mezcla reducida. De modo similar, en un lado del decodificador, las instancias de informacion lateral recibidas pueden, a modo de ejemplo, distribuirse en el tiempo de tal manera que no coincidan una tasa de tramas de las senales de mezcla reducida recibidas y la informacion lateral puede, por lo tanto, ventajosamente ser objeto de remuestreo introduciendo nuevas instancias de informacion lateral de modo que exista al menos una instancia de informacion lateral para cada trama de las senales de mezcla reducida.

Una instancia de informacion lateral adicional puede, a modo de ejemplo, generarse para un punto en el tiempo seleccionado: copiando la instancia de informacion lateral que sucede directamente la instancia de informacion lateral adicional y determinando los datos de transicion para la instancia de informacion lateral adicional sobre la base del punto en el tiempo seleccionado y de los puntos en el tiempo definidos por los datos de transicion para la instancia de informacion lateral en sucesion.

En conformidad con un quinto aspecto de la idea inventiva, se da a conocer un metodo, un dispositivo y un producto de programa informatico para transcodificar informacion lateral codificada junto con M senales de audio en un flujo de datos.

Los metodos, los dispositivos y productos de programa informatico en conformidad con el quinto aspecto de la idea inventiva estan previstos para la cooperacion con los metodos, codificadores, decodificador y productos de programa informatico de conformidad con el tercero y cuarto aspectos de la idea inventiva pueden tener caractensticas y ventajas correspondientes.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un metodo para la transcodificacion de informacion lateral codificada junto con M senales de audio en un flujo de datos. El metodo comprende:

la recepcion de un flujo de datos;

la extraccion, desde el flujo de datos, de M senales de audio e informacion lateral variable en el tiempo asociada que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio a partir de las M senales de audio en donde M>1 y en donde la informacion lateral extrafda incluye:

una pluralidad de instancias de informacion lateral que especifican respectivos establecimientos de reconstruccion

5

10

15

20

25

30

35

40

45

50

55

60

65

deseados para reconstruir los objetos de audio, y

para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual al establecimiento de reconstruccion deseado que se especifica por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion;

la generacion de una o mas instancias de informacion lateral adicionales que especifican practicamente el mismo establecimiento de reconstruccion que una instancia de informacion lateral que precede o sucede, directamente, a las una o mas instancias de informacion lateral adicionales; y

la inclusion de las M senales de audio y de la informacion lateral en un flujo de datos.

En la presente forma de realizacion a modo de ejemplo, las una o mas instancias de informacion lateral adicionales pueden generarse despues de que la informacion lateral haya sido extrafda desde el flujo de datos recibido, y las una o mas instancias de informacion lateral generadas pueden incluirse entonces en un flujo de datos junto con las M senales de audio y las otras instancias de informacion lateral.

Segun se describio con anterioridad en relacion con el tercer aspecto de la idea inventiva, el remuestreo de la informacion lateral generando mas instancias de informacion lateral puede ser ventajoso en varias situaciones, tales como cuando las senales de audio/objetos y la informacion lateral asociada se codifican utilizando un dispositivo codec de audio basado en tramas, y desde entonces, es deseable tener al menos una instancia de informacion lateral para cada trama de codec de audio.

Formas de realizacion son tambien consideradas en las que el flujo de datos comprende, ademas, metadatos de agrupamiento y/o metadatos de mezcla reducida, segun se describe en relacion con el tercer y cuarto aspectos de la idea inventiva, y en donde el metodo comprende, ademas, la generacion de instancias de metadatos de mezcla reducida adicionales y/o instancias de metadatos de agrupamiento, de forma analoga a como se generan las instancias de informacion lateral adicionales.

En conformidad con una forma de realizacion a modo de ejemplo, las M senales de audio pueden codificarse en el flujo de datos recibidos en conformidad con una primera tasa de tramas y el metodo puede comprender, ademas:

el procesamiento de las M senales de audio para cambiar la tasa de tramas en conformidad con la cual se codifican las M senales de mezcla reducida para una segunda tasa de tramas diferente de la primera tasa de tramas; y

un remuestreo de la informacion lateral para coincidir, y/o para ser compatible con, la segunda tasa de trama generando al menos las una o mas instancias de informacion lateral adicional.

Segun se describio con anterioridad en relacion con el tercer aspecto, puede ser ventajoso en varias situaciones procesar las senales de audio con el fin de cambiar la tasa de tramas utilizada para su codificacion, a modo de ejemplo, de modo que la tasa de tramas modificada coincida con la tasa de tramas de contenido de video de una senal audiovisual a la que pertenecen las senales de audio. La presencia de datos de transicion parar codificada instancia de informacion lateral facilita el remuestreo de la informacion lateral, segun se describio con anterioridad en relacion con el tercer aspecto. La informacion lateral puede ser objeto de remuestreo para coincidir la nueva tasa de trama p.ej., generando instancias de informacion lateral adicionales de modo que exista al menos una instancia de informacion lateral para cada trama de las senales de audio procesadas.

En conformidad con formas de realizacion a modo de ejemplo, se da a conocer un dispositivo para la transcodificacion de informacion lateral codificada junto con M senales de audio en un flujo de datos. El dispositivo comprende:

un componente de recepcion configurado para recibir un flujo de datos y para extraer, a partir del flujo de datos, M senales de audio e informacion lateral variable en el tiempo que incluyen parametros que permiten la reconstruccion de un conjunto de objetos de audio a partir de las M senales de audio, en donde M>1 y en donde la informacion lateral extrafda incluye:

una pluralidad de instancias de informacion lateral que especifican los establecimientos de reconstruccion deseados respectivos para reconstruir los objetos de audio, y

para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual al establecimiento de reconstruccion deseado que se especifica por la instancia de informacion lateral y un punto en el tiempo para completar la transicion.

El dispositivo comprende, ademas:

5

10

15

20

25

30

35

40

45

50

55

60

65

un componente de remuestreo configurado para generar una o mas instancias de informacion lateral adicionales que especifican practicamente el mismo establecimiento de reconstruccion que una instancia de informacion lateral que precede, o sucede, directamente, a las una o mas instancias de informacion lateral adicionales; y

un componente de multiplexacion configurado para incluir las M senales de audio y la informacion lateral en un flujo de datos.

En conformidad con una forma de realizacion a modo de ejemplo, el metodo dentro del tercer, cuarto o quinto aspecto puede incluir, ademas: el calculo de una diferencia entre un primer establecimiento de reconstruccion deseado que se especifica por una primera instancia de informacion lateral y uno o mas establecimientos de reconstruccion deseados especificados por una o mas instancias de informacion lateral que suceden directamente a la primera instancia de informacion lateral; y la eliminacion de las una o mas instancias de informacion lateral en respuesta a la diferencia calculada que es inferior a un valor umbral predefinido. Formas de realizacion a modo de ejemplo son tambien consideradas en las que las instancias de metadatos del agrupamiento y/o las instancias de metadatos de mezcla reducida se eliminan de una forma analoga.

Eliminando las instancias de informacion lateral en conformidad con la presente forma de realizacion a modo de ejemplo, pueden evitarse calculos innecesarios sobre la base de estas instancias de informacion lateral, p.ej., durante la reconstruccion en un lado del decodificador. Estableciendo el valor umbral predefinido a un nivel adecuado (p.ej., bastante bajo), las instancias de informacion lateral pueden eliminarse mientras que la calidad de la reproduccion y/o la fidelidad de las senales de audio reconstruidas se mantiene al menos aproximadamente.

La diferencia entre los establecimientos de reconstruccion deseados puede, a modo de ejemplo, calcularse sobre la base de las diferencias entre los respectivos valores para un conjunto de coeficientes utilizados como parte de la reconstruccion.

De conformidad con las formas de realizacion a modo de ejemplo dentro de los tercero, cuarto o quinto aspectos, las dos partes independientemente asignables de los datos de transicion para cada instancia de informacion lateral pueden ser:

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado y una marca temporal que indica el punto en el tiempo para completar la transicion al establecimiento de reconstruccion deseado;

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de reconstruccion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado; o

una marca temporal que indica el punto en el tiempo para completar la transicion al establecimiento de reconstruccion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de reconstruccion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado.

Dicho de otro modo, los puntos en el tiempo para iniciar y para finalizar una transicion pueden definirse en los datos de transicion por dos marcas temporales que indican los puntos en el tiempo respectivos, o una combinacion de una de las marcas temporales y un parametro de duracion de interpolacion que indica una duracion de la transicion.

Las respectivas marcas temporales pueden indicar, a modo de ejemplo, los respectivos puntos en el tiempo haciendo referencia a una base de tiempos utilizada para representar las M senales de mezcla reducida y/o los N objetos de audio.

En conformidad con forma de realizacion a modo de ejemplo dentro del tercero, cuarto o quinto aspectos, las dos partes independientemente asignables de los datos de transicion para cada instancia de metadatos del agrupamiento pueden ser:

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado y una marca temporal que indica el punto en el tiempo para completar la transicion el establecimiento de presentacion deseado;

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado; o

5

10

15

20

25

30

35

40

45

50

55

60

65

una marca temporal que indica el punto en el tiempo para completar la transicion al establecimiento de presentacion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado.

En conformidad con formas de realizacion a modo de ejemplo dentro del tercer, cuarto o quinto aspecto, las dos partes independientemente asignables de los datos de transicion para cada instancia de metadatos de mezcla reducida pueden ser:

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado y una marca temporal que indica el punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado;

una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion de mezcla reducida deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado; o

una marca temporal que indica el punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion de mezcla reducida deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado.

En conformidad con las formas de realizacion a modo de ejemplo, se da a conocer un producto de programa informatico que comprende un soporte con instrucciones para realizar el metodo de cualquiera de los metodos dentro del tercero, cuarto o quinto aspectos de la idea inventiva.

IV. Formas de realizacion ejemplo

La Figura 1 ilustra un codificador 100 para codificar objetos de audio 120 en un flujo de datos 140 en conformidad con una a modo de ejemplo. El codificador 100 comprende un componente de recepcion (no ilustrado), un componente de mezcla reducida 102, un componente de decodificador 104, un componente de analisis 106 y un componente de multiplexacion 108. El funcionamiento del codificador 100 para codificar una trama temporal de datos de audio se describe a continuacion. Sin embargo, ha de entenderse que el metodo siguiente se repite sobre la base de trama temporal. Lo mismo se aplica tambien a la descripcion de las Figuras 2 a 5.

El componente de recepcion recibe una pluralidad de objetos de audio (N objetos de audio) 120 y metadatos 122 asociados con los objetos de audio 120. Un objeto de audio, tal como aqrn se utiliza, se refiere a una senal de audio que tiene una posicion espacial asociada que suele variar en el tiempo (entre tramas temporales), esto es, la posicion espacial es dinamica. Los metadatos 122 asociados con los objetos de audio 120 suelen comprender informacion que describe como los objetos de audio 120 han de presentarse para su reproduccion en el lado del decodificador. En particular, los metadatos 122 asociados con los objetos de audio 120 incluyen informacion sobre la posicion espacial de los objetos de audio 120 en el espacio tridimensional de la escena de audio. Las posiciones espaciales pueden representarse en coordenadas Cartesianas o por medio de angulos de direccion, tales como azimut y elevacion, opcionalmente aumentados con la distancia. Los metadatos 122 asociados con los objetos de audio 120 pueden comprender, ademas, el tamano del objeto, el volumen del objeto, la importancia del objeto, el tipo de contenido del objeto, instrucciones de presentacion espedficas tales como aplicacion de mejora de dialogo o exclusion de algunos altavoces de la presentacion (asf denominadas, mascaras de zonas) y/o otras propiedades de los objetos.

Segun se describira haciendo referencia a la Figura 4, los objetos de audio 120 pueden corresponder a una representacion simplificada de una escena de audio.

Los N objetos de audio 120 constituyen una entrada para el componente de mezcla reducida 102. El componente de mezcla reducida 102 calcula un numero de M de senales de mezcla reducida 124 mediante la formacion de combinaciones, que suelen ser combinaciones lineales, de los N objetos de audio 120. En la mayona de los casos, el numero de senales de mezcla reducida 124 es menor que el numero de objetos de audio 120, esto es, M<N, de modo que se reduce la cantidad de datos que se incluyen en el flujo de datos 140. Sin embargo, para las aplicaciones en donde la tasa binaria objetivo del flujo de datos 140 es alta, el numero de senales de mezcla reducida 124 puede ser igual al numero de objetos de audio 120, esto es, M = N.

El componente de mezcla reducida 102 puede calcular, ademas, una o mas senales de audio auxiliares 127, aqrn etiquetadas por L senales de audio auxiliares 127. La funcion de las senales de audio auxiliares 127 es mejorar la reconstruccion de los N objetos de audio 120 en el lado del decodificador. Las senales de audio auxiliares 127 pueden corresponder a uno o mas de los N objetos de audio 120, bien sea directamente, bien sea como una combinacion de ellos. A modo de ejemplo, las senales de audio auxiliares 127 pueden corresponder a objetos

5

10

15

20

25

30

35

40

45

50

55

60

65

particularmente importantes de los N objetos de audio 120, de modo que un objeto de audio 120 corresponda a un dialogo. La importancia puede reflejarse por, o derivarse a partir de los metadatos 122 asociados con los N objetos de audio 120.

Las M senales de mezcla reducida 124 y las L senales auxiliares 127 si estan presentes, pueden codificarse posteriormente por el componente de codificador 104, aqu etiquetado como codificador base, para generar las M senales de mezcla reducida codificadas 126 y L senales auxiliares codificadas 129. El componente de codificador 104 puede ser un dispositivo codec de audio perceptual segun se conoce en esta tecnica. Ejemplos de dispositivos codec de audio perceptuales incluyen Dolby Digital y MPEG AAC.

En algunas formas de realizacion, el componente de mezcla reducida 102 puede asociar, ademas, las M senales de mezcla reducida 124 con metadatos 125. En particular, el componente de mezcla reducida 102 puede asociar cada senal de mezcla reducida 124 con una posicion espacial e incluir la posicion espacial en los metadatos 125. De modo similar a los metadatos 122 asociados con los objetos de audio 120, los metadatos 125 asociados con las senales de mezcla reducida 124 pueden comprender, tambien, parametros relacionados con el tamano, volumen, importancia y/o otras propiedades.

En particular, las posiciones espaciales asociadas con las senales de mezcla reducida 124 pueden calcularse sobre la base de las posiciones espaciales de los N objetos de audio 120. Puesto que las posiciones espaciales de los N objetos de audio 120 pueden ser dinamicas, esto es, variables en el tiempo, tambien las posiciones espaciales asociadas con las M senales de mezcla reducida 124 pueden ser dinamicas. Dicho de otro modo, las M senales de mezcla reducida 124 pueden por sf mismas interpretarse como objetos de audio.

El componente de analisis 106 calcula la informacion lateral 128 que incluye parametros que permiten la reconstruccion de los N objetos de audio 120 (o una aproximacion perceptualmente adecuada de los N objetos de audio 120) desde las M senales de mezcla reducida 124 y las L senales auxiliares 129, si estan presentes. Tambien la informacion lateral 128 puede ser variable en el tiempo. A modo de ejemplo, el componente de analisis 106 puede calcular la informacion lateral 128 analizando las M senales de mezcla reducida 124, las L senales auxiliares 127, si estan presentes, y los N objetos de audio 120 en conformidad con cualquier tecnica conocida para la codificacion parametrica. Como alternativa, el componente de analisis 106 puede calcular la informacion lateral 128 analizando los N objetos de audio y la informacion sobre como las M senales de mezcla reducida se crearon a partir de los N objetos de audio, por ejemplo, proporcionando una matriz de mezcla reducida (variable en el tiempo). En ese caso, las M senales de mezcla reducida 124 no se requieren estrictamente como una entrada para el componente de analisis 106.

Las M senales de mezcla reducida codificadas 126, las L senales auxiliares codificadas 129, la informacion lateral 128, los metadatos 122 asociados con los N objetos de audio y los metadatos 125 asociados con las senales de mezcla reducida son entonces objeto de entrada al componente de multiplexacion 108 que incluye sus datos de entrada en un flujo de datos unico 140 utilizando tecnicas de multiplexacion. El flujo de datos 140 puede, de este modo, incluir cuatro tipos de datos:

a) M senales de mezcla reducida 126 (y de modo opcional, L senales auxiliares 129)

b) Metadatos 125 asociados con las M senales de mezcla reducida,

c) Informacion lateral 128 para la reconstruccion de los N objetos de audio a partir de las M senales de mezcla reducida, y

d) Metadatos 122 asociados con los N objetos de audio.

Segun se indico con anterioridad, algunos sistemas de la tecnica anterior para la codificacion de objetos de audio requieren que las M senales de mezcla reducida sean seleccionadas de modo que sean adecuadas para la reproduccion en los canales de una configuracion de altavoces como M canales, referida aqrn como una mezcla reducida compatible con versiones anteriores. Dicho requisito de la tecnica anterior restringe el calculo de las senales de mezcla reducida por cuanto que los objetos de audio solamente pueden combinarse en una manera preferida. En consecuencia, en conformidad con la tecnica anterior, las senales de mezcla reducida no se seleccionan a partir del punto de vista de optimar la reconstruccion de los objetos de audio en un lado del decodificador.

De forma opuesta a los sistemas de la tecnica anterior, el componente de mezcla reducida 102 calcula las M senales de mezcla reducida 124 en una manera adaptativa de senales con respecto a los N objetos de audio. En particular, el componente de mezcla reducida 102 puede, para cada trama temporal, calcular las M senales de mezcla reducida 124 como la combinacion de los objetos de audio 120 que optimiza actualmente algun criterio. El criterio se suele definir de modo que sea independiente con respecto a cualquier configuracion de altavoces, tal como 5.1 u otra configuracion de altavoces. Lo que antecede implica que las M senales de mezcla reducida 124, o al menos una de ellas, no esten restringidas a senales de audio que sean adecuadas para su reproduccion en los canales de una

5

10

15

20

25

30

35

40

45

50

55

60

65

configuracion de altavoces con M canales. En consecuencia, el componente de mezcla reducida 102 puede adaptar las M senales de mezcla reducida 124 a la variacion temporal de los N objetos de audio 120 (incluyendo la variacion temporal de los metadatas 122 que incluyen posiciones espaciales de los N objetos de audio), con el fin de, p.ej., mejorar la reconstruccion de los objetos de audio 120 en el lado del decodificador.

El componente de mezcla reducida 102 puede aplicar diferentes criterios con el fin de calcular las M senales de mezcla reducida. En conformidad con un ejemplo, las M senales de mezcla reducida pueden calcularse de modo que la reconstruccion de los N objetos de audio, sobre la base de las M senales de mezcla reducida, sea optimizada. A modo de ejemplo, el componente de mezcla reducida 102 puede minimizar un error de reconstruccion formado a partir de los N objetos de audio 120 y una reconstruccion de los N objetos de audio basada en las M senales de mezcla reducida 124.

En conformidad con otro ejemplo, el criterio esta basado en las posiciones espaciales, y en particular, en la proximidad espacial, de los N objetos de audio 120. Segun describio con anterioridad, los N objetos de audio 120 tienen metadatos asociados 122 que incluyen las posiciones espaciales de los N objetos de audio 120. Sobre la base de los metadatos 122, se puede derivar la proximidad espacial de los N objetos de audio 120.

En mas detalle, el componente de mezcla reducida 102 puede aplicar un primer procedimiento de agrupamiento con el fin de determinar las M senales de mezcla reducida 124. El primer procedimiento de agrupamiento puede comprender la asociacion de los N objetos de audio 120 con M agrupamientos sobre la base de la proximidad espacial. Propiedades adicionales de los N objetos de audio 120 segun se representa por los metadatos asociados 122, que incluyen el tamano del objeto, el volumen del objeto, la importancia del objeto, pueden tenerse en cuenta tambien durante la asociacion de los objetos de audio 120 con los M agrupamientos.

En conformidad con un ejemplo, el algoritmo denominado K-means bien conocido, con los metadatos 122 (posiciones espaciales) de los N objetos de audio como entrada, puede utilizarse para asociar los N objetos de audio 120 con los M agrupamientos sobre la base de la proximidad espacial. Las propiedades adicionales de los N objetos de audio 120 pueden utilizarse como factores de ponderacion en el algoritmo K-means.

En conformidad con otra realizacion a modo de ejemplo, el primer procedimiento de agrupamiento puede basarse en un procedimiento de seleccion que utiliza la importancia de los objetos de audio, segun se proporciona por los metadatos 122, como un criterio de seleccion. Con mas detalle, el componente de mezcla reducida 102 puede pasar a traves de los mas importantes objetos de audio 120 de modo que una o mas de las M senales de mezcla reducida correspondan a uno o mas de los N objetos de audio 120. Los restantes, menos importantes, objetos de audio pueden asociarse con agrupamientos basados en la proximidad espacial segun se describio con anterioridad.

Ejemplos adicionales de agrupamiento de objetos de audio se proporcionan en la solicitud de patente provisional de los Estados Unidos n° 61/865,072 o solicitudes posteriores que reivindican la prioridad de esa solicitud.

En conformidad con otro ejemplo de realizacion, el primer procedimiento de agrupamiento puede asociar un objeto de audio 120 con mas de uno de los M agrupamientos. A modo de ejemplo, un objeto de audio 120 puede distribuirse sobre los M agrupamientos, en donde la distribucion p.ej., depende de la posicion espacial del objeto de audio 120 y de modo opcional, tambien de las propiedades del objeto de audio incluyendo el tamano del objeto, el volumen del objeto, la importancia del objeto, etc. La distribucion puede reflejarse por porcentajes, de modo que un objeto de audio, a modo de ejemplo, sea distribuido en tres agrupamientos en conformidad con los porcentajes del 20 %, 30 %, 50 %.

Una vez que los N objetos de audio 120 han sido asociados con los M agrupamientos, el componente de mezcla reducida 102 calcula una senal de mezcla reducida 124 para cada agrupamiento mediante la formacion de una combinacion, normalmente una combinacion lineal, de los objetos de audio 120 asociados con el agrupamiento. En condiciones normales, el componente de mezcla reducida 102 puede utilizar parametros incluidos en los metadatos 122 asociados con los objetos de audio 120 como factores de ponderacion cuando se forma la combinacion. A modo de ejemplo, los objetos de audio 120 que estan asociados por un agrupamiento pueden ponderarse en conformidad con un tamano de objeto de audio, el volumen del objeto, importancia del objeto, posicion del objeto, distancia desde un objeto con respecto a una posicion espacial asociada con el agrupamiento (vease detalles a continuacion), etc. En el caso en donde los objetos de audio 120 son distribuidos entre los M agrupamientos, los porcentajes que reflejan la distribucion pueden utilizarse como factores de ponderacion cuando se forme la combinacion.

El primer procedimiento de agrupamiento es ventajoso por cuanto que permite facilitar la asociacion de cada una de las M senales de mezcla reducida 124 con una posicion espacial. A modo de ejemplo, el componente de mezcla reducida 120 puede calcular una posicion espacial de una senal de mezcla reducida 124 que corresponde a un agrupamiento basado en las posiciones espaciales de los objetos de audio 120 que se asocian con el agrupamiento. El centroide o un centroide ponderado de las posiciones espaciales de los objetos de audio que se asocian con el agrupamiento pueden utilizarse para esta finalidad. En caso de un centroide ponderado, los mismos factores de ponderacion pueden utilizarse como cuando se forma la combinacion de los objetos de audio 120 asociados con el agrupamiento.

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 2 ilustra un decodificador 200 que corresponde al codificador 100 de la Figura 1. El decodificador 200 es del tipo que soporta la reconstruccion de objetos de audio. El decodificador 200 comprende un componente de recepcion 208, un componente de decodificador 204 y un componente de reconstruccion 206. El decodificador 200 puede comprender, ademas, un dispositivo de presentacion 2l0. Como alternativa, el decodificador 200 puede estar acoplado a un dispositivo de presentacion 210 que forma parte de un sistema de reproduccion.

El componente de recepcion 208 esta configurado para recibir un flujo de datos 240 a partir del codificador 100. El componente de recepcion 208 comprende un componente de demultiplexacion configurado para demultiplexar el flujo de datos recibido 240 en sus componentes, en este caso, M senales de mezcla reducida codificadas 226, opcionalmente L senales auxiliares codificadas 229, informacion lateral 228 para la reconstruccion de N objetos de audio a partir de las M senales de mezcla reducida y las L senales auxiliares, y metadatos 222 asociados con los N objetos de audio.

El componente de decodificador 204 procesa las M senales de mezcla reducida codificadas 226 para generar M senales de mezcla reducida 224 y, opcionalmente, L senales auxiliares 227. Segun se describio con anterioridad, las M senales de mezcla reducida 224 se formaron, de forma adaptativa, sobre el lado del codificador a partir de los N objetos de audio, es decir, mediante la formacion de combinaciones de los N objetos de audio en conformidad con un criterio que es independiente de cualquier configuracion de altavoces.

El componente de reconstruccion de objetos 206 reconstruye luego los N objetos de audio 220 (o una aproximacion perceptualmente adecuada de estos objetos de audio) sobre la base de las M senales de mezcla reducida 224 y opcionalmente, las L senales auxiliares 227 guiadas por la informacion lateral 228 derivada en el lado del codificador. El componente de reconstruccion de objeto 206 puede aplicar cualquier tecnica conocida para dicha reconstruccion parametrica de los objetos de audio.

Los N objetos de audio reconstruidos 220 se procesan luego por el dispositivo de presentacion 210 utilizando los metadatos 222 asociados con los objetos de audio 222 y el conocimiento sobre la configuracion de canales del sistema de reproduccion con el fin de generar una senal de salida multicanal 230 adecuada para la reproduccion. Configuraciones de reproduccion en altavoces tfpicas incluyen 22.2 y 11.1. La reproduccion en los sistemas de altavoces de barra acustica o auriculares (presentacion binaural) es tambien posible con los dispositivos de presentacion dedicados para dichos sistemas de reproduccion.

La Figura 3 ilustra un decodificador de baja complejidad 300 que corresponde al codificador 100 de la Figura 1. El decodificador 300 no soporta la reconstruccion de objetos de audio. El decodificador 300 comprende un componente de recepcion 308 y un componente de decodificacion 304. El decodificador 300 puede comprender, ademas, un dispositivo de presentacion 310. Como alternativa, el decodificador esta acoplado a un dispositivo de presentacion 310 que forma parte de un sistema de reproduccion.

Segun se describio con anterioridad, los sistemas de la tecnica anterior que utilizan una mezcla reducida compatible con versiones anteriores (tal como una mezcla reducida 5.1) es decir, una mezcla reducida que comprende M senales de mezcla reducida que son adecuadas para la reproduccion directa en un sistema de reproduccion con M canales, permiten facilmente una decodificacion de baja complejidad para sistemas de reproduccion de legado (que, p.ej., solamente soportan un establecimiento de altavoces multicanal 5.1). Dichos sistemas de la tecnica anterior suelen decodificar las senales de mezcla reducida compatibles hacia atras y desechan las partes adicionales del flujo de datos tales como la informacion lateral (vease elemento 228 ilustrado en la Figura 2) y los metadatos asociados con los objetos de audio (vease elemento de referencia 222 de la Figura 2). Sin embargo, cuando las senales de mezcla reducida se forman, de forma adaptativa, segun se describio con anterioridad, las senales de mezcla reducida no suelen ser adecuadas para la reproduccion directa en un sistema de legado.

El decodificador 300 es un ejemplo de un decodificador que permite una decodificacion de baja complejidad de M senales de mezcla reducida que estan formadas, de forma adaptativa, para la reproduccion en un sistema de reproduccion de legado que solamente soporta una configuracion de reproduccion particular.

El componente de recepcion 308 recibe un flujo binario 340 procedente de un codificador, tal como el codificador 100 representado en la Figura 1. El componente de recepcion 308 demultiplexa el flujo binario 340 en sus componentes. En este caso, el componente de recepcion 308 solamente mantendra las M senales de mezcla reducida codificadas 326 y los metadatos 325 asociados con las M senales de mezcla reducida. Los otros componentes del flujo de datos 340, tal como las L senales auxiliares (vease elemento de referencia 229 en la Figura 2), los metadatos asociados con los N objetos de audio (vease elemento de referencia 222 en la Figura 2) y la informacion lateral (vease elemento de referencia 228 de la Figura 2) son descartados.

El componente de decodificacion 304 decodifica las M senales de mezcla reducida codificadas 326 para generar M senales de mezcla reducida 324. Las M senales de mezcla reducida son luego, junto con los metadatos de mezcla reducida, objeto de entrada para el dispositivo de presentacion 310 que presenta las M senales de mezcla reducida hacia una salida multicanal 330 correspondiente a un formato de reproduccion de legado (que suele tener M

5

10

15

20

25

30

35

40

45

50

55

60

65

canales). Puesto que los metadatos de mezcla reducida 325 comprenden posiciones espaciales de las M senales de mezcla reducida 324, el dispositivo de presentacion 310 puede ser normalmente similar al dispositivo de presentacion 210 ilustrado en la Figura 2, con la unica diferencia de que el dispositivo de presentacion 310 toma ahora las M senales de mezcla reducida 324 y los metadatos 325 asociados con las M senales de mezcla reducida 324 como una entrada en lugar de los objetos de audio 220 en sus metadatos asociados 222.

Segun se describio con anterioridad en relacion con la Figura 1, los N objetos de audio 120 pueden corresponder a una representacion simplificada de una escena de audio.

En general, una escena de audio puede comprender objetos de audio y canales de audio. Por el termino de un canal de audio se considera aqu una senal de audio que corresponde a un canal de una configuracion de altavoces multicanal. Ejemplos de dicha configuracion de altavoces multicanal incluyen una configuracion 22.2, una configuracion 11.1, etc. Un canal de audio puede interpretarse como un objeto de audio estatico que tiene una posicion espacial correspondiente a la posicion del altavoz del canal.

En algunos casos, el numero de objetos de audio y de canales de audio en la escena de audio pueden ser grandes, tal como mas de 100 objetos de audio y 1 a 24 canales de audio. Si la totalidad de estos objetos de audio/canales han de reconstruirse en el lado del decodificador, se requiere una alta potencia de calculo. Ademas, la tasa de datos resultante asociados con los metadatos de objetos y la informacion lateral seran generalmente muy altos si se proporcionan numerosos objetos como entrada. Por este motivo, es ventajoso simplificar la escena de audio con el fin de reducir el numero de objetos de audio a reconstruirse en el lado del decodificador. Para esta finalidad, el codificador puede comprender un componente de agrupamiento que reduce el numero de objetos de audio en la escena de audio sobre la base de un segundo procedimiento de agrupamiento. El segundo procedimiento de agrupamiento tiene como objetivo utilizar la redundancia espacial presente en la escena de audio, tal como los objetos de audio que tienen localizaciones iguales o muy similares. Ademas, la importancia perceptual de los objetos de audio puede tenerse tambien en cuenta. Por lo general, dicho componente de agrupamiento puede disponerse en secuencia o en paralelo con el componente de mezcla reducida 102 de la Figura 1. La disposicion secuencial se describira con referencia a la Figura 4 y la disposicion en paralelo se describira haciendo referencia a la Figura 5.

La Figura 4 ilustra un codificador 400. Ademas de los componentes descritos con referencia a la Figura 1, el codificador 400 comprende un componente de agrupamiento 409. El componente de agrupamiento 409 esta dispuesto en secuencia con el componente de mezcla reducida 102, lo que significa que la salida del componente de agrupamiento 409 es objeto de entrada para el componente de mezcla reducida 102.

El componente de agrupamiento 409 toma objetos de audio 421a y/o los canales de audio 421b como entrada junto con los metadatos asociados 423 incluyendo las posiciones espaciales de los objetos de audio 421a. El componente de agrupamiento 409 convierte los canales de audio 421b en objetos de audio estaticos asociando cada canal de audio 421b con la posicion espacial de la posicion de altavoz correspondiente al canal de audio 421b. Los objetos de audio 421a y los objetos de audio estaticos formados a partir de los canales de audio 421b pueden considerarse como una primera pluralidad de objetos de audio 421.

El componente de agrupamiento 409 suele reducir la primera pluralidad de objetos de audio 421 a una segunda pluralidad de objetos de audio, que corresponde en este caso a los N objetos de audio 120 de la Figura 1. Para esta finalidad, el componente de agrupamiento 409 puede aplicar un segundo procedimiento de agrupamiento.

El segundo procedimiento de agrupamiento suele ser similar al primer procedimiento de agrupamiento anteriormente descrito con respecto al componente de mezcla reducida 102. La descripcion del primer procedimiento de agrupamiento se aplica tambien, por lo tanto, al segundo procedimiento de agrupamiento.

En particular, el segundo procedimiento de agrupamiento implica la asociacion de la primera pluralidad de objetos de audio 121 con al menos un agrupamiento, en este caso, N agrupamientos, sobre la base de la proximidad espacial de la primera pluralidad de los objetos de audio 121. Segun se describio como anterior, la asociacion con los agrupamientos puede basarse tambien en otras propiedades de los objetos de audio segun se representa por los metadatos 423. Cada agrupamiento se representa luego por un objeto que es una combinacion (lineal) de los objetos de audio asociados con ese agrupamiento. En el ejemplo ilustrado, existen N agrupamientos y por ello, se generan N objetos de audio 120. El componente de agrupamiento 409 calcula, ademas, metadatos 122 para los N objetos de audio asf generados 120. Los metadatos 122 incluyen posiciones espaciales de los N objetos de audio 120. La posicion espacial de cada uno de los N objetos de audio 120 puede calcularse sobre la base de las posiciones espaciales de los objetos de audio asociados con el agrupamiento correspondiente. A modo de ejemplo, la posicion espacial puede calcularse como un centroide o un centroide de ponderacion de las posiciones espaciales de los objetos de audio asociados con el agrupamiento segun se explico con anterioridad haciendo referencia a la Figura 1.

Los N objetos de audio 120 generados por el componente de agrupamiento 409 son luego objeto de entrada para el componente de mezcla reducida 120 segun se describio, ademas, haciendo referencia a la Figura 1.

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 5 ilustra un codificador 500. Ademas de los componentes descritos con referencia a la Figura 1, el codificador 500 comprende un componente de agrupamiento 509. El componente de agrupamiento 509 esta dispuesto en paralelo con el componente de mezcla reducida 102, lo que significa que el componente de mezcla reducida 102 y el componente de agrupamiento 509 tienen la misma entrada.

La entrada comprende una primera pluralidad de objetos de audio, correspondientes a los N objetos de audio 120 de la Figura 1, junto con los metadatos asociados 122 que incluyen las posiciones espaciales de la primera pluralidad de objetos de audio. La primera pluralidad de objetos de audio 120 puede, de modo similar a la primera pluralidad de objetos de audio 121 de la Figura 4, comprender objetos de audio y canales de audio que se convierten en objetos de audio estaticos. A diferencia de la disposicion secuencial de la Figura 4, en donde el componente de mezcla reducida 102 opera sobre un numero reducido de objetos de audio correspondientes a una version simplificada de la escena de audio, el componente de mezcla reducida 102 de la Figura 5 opera sobre el contenido de audio completo de la escena de audio con el fin de generar M senales de mezcla reducida 124.

El componente de agrupamiento 509 es similar, en funcionalidad, al componente de agrupamiento 409 descrito con referencia a la Figura 4. En particular, el componente de agrupamiento 509 reduce la primera pluralidad de objetos de audio 120 a una segunda pluralidad de objetos de audio 521, aqu ilustrados por K objetos de audio en donde normalmente M<K<N (para aplicaciones binarias altas M<K<N), aplicando el segundo procedimiento de agrupamiento descrito con anterioridad. La segunda pluralidad de objetos de audio 521 es, de este modo, un conjunto de objetos de audio formados sobre la base de los N objetos de audio 126. Ademas, el componente de agrupamiento 509 calcula los metadatos 522 para la segunda pluralidad de objetos de audio 521 (los K objetos de audio) incluyendo las posiciones espaciales de la segunda pluralidad de los objetos de audio 521. Los metadatos 522 se incluyen en el flujo de datos 540 por el componente de demultiplexacion 108. El componente de analisis 106 calcula la informacion lateral 528 que permite la reconstruccion de la segunda pluralidad de objetos de audio 521, esto es, el conjunto de objetos de audio formado sobre la base de los N objetos de audio (en este caso, los K objetos de audio), a partir de las M senales de mezcla reducida 124. La informacion lateral 528 se incluye en el flujo de datos 540 por el componente de multiplexacion 108. Como se examino con anterioridad, el componente de analisis 106 puede, a modo de ejemplo, derivar la informacion lateral 528 analizando la segunda pluralidad de objetos de audio 521 y las M senales de mezcla reducida 124.

El flujo de datos 540 generado por el codificador 500 puede decodificarse, por lo general, por el decodificador 200 de la Figura 2 o el decodificador 300 de la Figura 3. Sin embargo, los objetos de audio reconstruidos 220 de la Figura 2 (etiquetados N objetos de audio) corresponden ahora a la segunda pluralidad de objetos de audio 521 (etiquetados K objetos de audio) de la Figura 5 y los metadatos 222 asociados con los objetos de audio (etiquetados como metadatos de N objetos de audio) corresponden ahora a los metadatos 522 de la segunda pluralidad de objetos de audio (etiquetados como metadatos de K objetos de audio) de la Figura 5.

En los sistemas de codificacion/decodificacion de audio basados en el objeto, la informacion lateral o los metadatos asociados con los objetos se suelen actualizar con relativamente poca frecuencia (escasamente) en tiempo para limitar la tasa de datos asociada. Los intervalos de actualizacion tfpicos para las posiciones de objetos pueden variar entre 10 y 500 milisegundos, dependiendo de la velocidad del objeto, de la exactitud de la posicion requerida, del ancho de banda disponible para memorizar o transmitir metadatos, etc. Dichas escasas, o incluso irregulares actualizaciones de metadatos requieren una interpolacion de metadatos y/o matrices de presentacion (esto es, matrices utilizadas en la presentacion) para muestras de audio entre dos instancias de metadatos posteriores. Sin interpolacion, los cambios graduales consecuentes en la matriz de presentacion pueden causar la presencia de artefactos de conmutacion indeseables, sonidos de chasquidos, ruidos de cierres u otros artefactos indeseables como resultado de la denominada “salpicadura espectral” introducida por las actualizaciones matriciales graduales.

La Figura 6 ilustra un proceso conocido tfpico para calcular las matrices de presentacion para presentar senales de audio u objetos de audio, sobre la base de un conjunto de instancias de metadatos. Segun se ilustra en la Figura 6, un conjunto de instancias de metadatos (m1 a m4) 610 corresponde a un conjunto de puntos en el tiempo (t1 a t4) que se indican por su posicion a lo largo del eje de tiempos 620. Posteriormente, cada instancia de metadatos se convierte en una respectiva matriz de presentacion (c1 a c4) 630, o establecimiento de presentacion, que tiene validez en el mismo punto en el tiempo que la instancia de metadatos. De este modo, segun se ilustra, la instancia de metadatos m1 crea una matriz de presentacion c1 en el tiempo t1, la instancia de metadatos m2 crea una matriz de presentacion c2 en el tiempo t2 y asf sucesivamente. Por simplicidad, la Figura 6 ilustra solamente una matriz de presentacion para cada instancia de metadatos m1 a m4. En sistemas practicos, sin embargo, una matriz de presentacion c1 puede comprender un conjunto de coeficientes de matrices de presentacion o coeficientes de ganancias cyj a aplicarse a las respectivas senales de audio x(t) para crear senales de salida y(t):

imagen1

Las matrices de presentacion 630 suelen comprender coeficientes que representan valores de ganancias en diferentes puntos en el tiempo. Las instancias de metadatos se definen en algunos puntos en el tiempo discretos y para las muestras de audio entre los puntos en el tiempo de metadatos, la matriz de presentacion es objeto de

5

10

15

20

25

30

35

40

45

50

55

60

65

interpolacion, segun se indica por la lmea de trazos 640 que conecta las matrices de presentacion 630. Dicha interpolacion puede realizarse de forma lineal, pero tambien se pueden utilizar otros metodos de interpolacion (tal como interpolacion de banda limitada, interpolacion senoidal/cosenoidal y etc.). El intervalo de tiempo entre las instancias de metadatas (y las matrices de presentacion correspondientes) se refiere como una “duracion de interpolacion” y dichos intervalos pueden ser uniformes o pueden ser diferentes, tal como la mas larga duracion de interpolacion entre los tiempos t3 y t4 en comparacion con la duracion de interpolacion entre los tiempos t2 y t3.

En numerosos casos, el calculo de los coeficientes de matrices de presentacion a partir de las instancias de metadatos es bien definido, pero el proceso inverso de calcular instancias de metadatos dada una matriz de presentacion (interpolada) suele ser diftail o incluso imposible. A este respecto, el proceso de generar una matriz de presentacion a partir de metadatos puede considerarse, a veces, como una funcion unidireccional criptografica. El proceso de calcular nuevas instancias de metadatos entre instancias de metadatos existentes se refiere como un “remuestreo” de los metadatos. El remuestreo de metadatos se suele requerir durante algunas tareas de procesamiento de audio. A modo de ejemplo, cuando se edita un contenido de audio, mediante corte/fusion/mezcla y asf sucesivamente, dichas ediciones pueden producirse entre instancias de metadatos. En este caso, se requiere un remuestreo de los metadatos. Otro de dichos casos es cuando las senales de audio y los metadatos asociados se codifican con un dispositivo codec de audio basado en la trama. En este caso, es deseable tener al menos una instancia de metadatos para cada trama del codec de audio, preferentemente con una marca temporal al inicio de esa trama de codec, para mejorar la resistencia a las perdidas de tramas durante la transmision. Ademas, la interpolacion de metadatos es tambien ineficaz para algunos tipos de metadatos, tales como metadatos con valoraciones binarias, en donde las tecnicas estandar derivanan el valor incorrecto mas o menos cada segunda vez. A modo de ejemplo, si los indicadores binarios tales como mascaras de exclusion de zonas se utilizan para excluir algunos objetos de la presentacion en algunos puntos en el tiempo, es practicamente imposible estimar un conjunto valido de metadatos a partir de los coeficientes de la matriz de presentacion o de las instancias proximas de metadatos. Este hecho se ilustra en la Figura 6 como un intento fallido para extrapolar o derivar una instancia de metadatos m3a a partir de los coeficientes de matrices de presentacion en la duracion de interpolacion entre los tiempos t3 y t4. Segun se ilustra en la Figura 6, las instancias de metadatos mx son solamente definidas en algunos puntos discretos en el tiempo tx, lo que, a su vez, produce el conjunto asociado de coeficientes de matrices cx. Entre estos tiempos discretos tx, los conjuntos de coeficientes matriciales deben interpolarse sobre la base de instancias de metadatos pasadas o futuras. Sin embargo, segun se describio con anterioridad, los esquemas de interpolacion de metadatos actuales sufren de la perdida de calidad de audio espacial debido a inexactitudes inevitables en los procesos de interpolacion de metadatos. Esquemas de interpolacion alternativos, de conformidad con formas de realizacion a modo de ejemplo se describiran a continuacion haciendo referencia a las Figura 7 a 11.

En las formas de realizacion a modo de ejemplo descritas con referencia a las Figuras 1 a 5, los metadatos 122, 222 asociados con los N objetos de audio 120, 220 y los metadatos 522 asociados con los K objetos 522 se originan, al menos en algunas formas de realizacion a modo de ejemplo, a partir de componentes de agrupamiento 409 y 509 y pueden referirse como metadatos de agrupamiento. Ademas, los metadatos 125, 325 asociados con la senal de mezcla reducida 124, 324 pueden referirse como metadatos de mezcla reducida.

Segun se describe con referencia a las Figuras 1, 4 y 5, el componente de mezcla reducida 102 puede calcular las M senales de mezcla reducida 124 mediante la formacion de combinaciones de los N objetos de audio 120 en una manera adaptativa de las senales, es decir, en conformidad con un criterio que es independiente de cualquier configuracion de altavoces. Dicha operacion del componente de mezcla reducida 102 es caractenstica de formas de realizacion a modo de ejemplo dentro de un primer aspecto. En conformidad con formas de realizacion ejemplo dentro de otros aspectos de la idea inventiva, el componente de mezcla reducida 102 puede, a modo de ejemplo, calcular las M senales de mezcla reducida 124 mediante la formacion de combinaciones de los N objetos de audio 120 en una manera adaptativa de senales o, como alternativa, tal como las M senales de mezcla reducida son adecuadas para la reproduccion en los canales de una configuracion de altavoces con M canales, esto es, como una mezcla reducida compatible con versiones anteriores.

En una forma de realizacion ejemplo, el codificador 400 descrito con referencia a la Figura 4 utiliza un formato de metadatos e informacion lateral particularmente adecuado para un remuestreo, esto es, para generar instancias de informacion lateral y metadatos adicionales. En la presente forma de realizacion ejemplo, el componente de analisis 106 calcula la informacion lateral 128 en una forma que incluye una pluralidad de instancias de informacion lateral que especifican establecimientos de reconstruccion deseados respectivos para reconstruir los N objetos de audio 120 y, para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo en para iniciar una transicion desde un establecimiento de reconstruccion actual al establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral, y un punto en el tiempo para completar la transmision. En la forma de realizacion ejemplo actual, las dos partes independientemente asignables de los datos de transicion para cada instancia de informacion lateral son: una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de reconstruccion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de reconstruccion deseado. El intervalo durante el cual ha de tener lugar una transicion esta, en la presente forma de realizacion ejemplo, definido, de forma unica, por el tiempo en el que ha de iniciarse la transicion y la duracion del

5

10

15

20

25

30

35

40

45

50

55

60

65

intervalo de transicion. Esta forma particular de la informacion lateral 128 se describira a continuacion haciendo referencia a las Figuras 7 a 11. Ha de entenderse que existen varias otras maneras para definir, de forma unica, este intervalo de transicion. A modo de ejemplo, un punto de referencia en la forma de un punto de inicio, final o intermedio del intervalo, acompanado por la duracion del intervalo, puede utilizarse en los datos de transicion para definir, de forma unica, el intervalo. Como alternativa, los puntos inicial y final del intervalo pueden utilizarse en los datos de transicion para definir, de forma unica, el intervalo.

En la presente forma de realizacion a modo de ejemplo, el componente de agrupamiento 409 reduce la primera pluralidad de objetos de audio 421 a una segunda pluralidad de objetos de audio. En este caso, correspondientes a los N objetos de audio 120 de la Figura 1. El componente de agrupamiento 409 calcula los metadatos de agrupamiento 122 para los N objetos de audio generados 120 que permite la presentacion de los N objetos de audio 122 en un dispositivo de presentacion 210 en un lado del decodificador. El componente de agrupamiento 409 proporciona los metadatos de agrupamiento 122 en una forma que incluye una pluralidad de instancias de metadatos de agrupamiento que especifican los respectivos establecimientos de presentacion deseados para presentar los N objetos de audio 120, para cada instancia de metadatos de agrupamiento, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion actual al establecimiento de presentacion deseado que se especifica por la instancia de metadatos de agrupamiento, y un punto en el tiempo para completar la transicion para el establecimiento de presentacion deseado. En la presente forma de realizacion ejemplo, las dos partes independientemente asignables de los datos de transicion para cada instancia de metadatos de agrupamiento son: una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion deseado. Esta forma particular de los metadatos de agrupamiento 122 se describira a continuacion haciendo referencia a las Figuras 7 a 11.

En la presente forma de realizacion ejemplo, el componente de mezcla reducida 102 asocia cada senal de mezcla reducida 124 con una posicion espacial e incluye la posicion espacial en los metadatos de mezcla reducida 125 que permite la presentacion de las M senales de mezcla reducida en un dispositivo de presentacion 310 en un lado del decodificador. El componente de mezcla reducida 102 proporciona los metadatos de mezcla reducida 125 en una forma que incluye una pluralidad de instancias de metadatos de mezcla reducida que especifican los respectivos establecimientos de presentacion de mezcla reducida deseados para presentar las senales de mezcla reducida y, para cada instancia de metadatos de mezcla reducida, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion de mezcla reducida actual al establecimiento de presentacion de mezcla reducida deseado que se especifica por la instancia de metadatos de mezcla reducida y un punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado. En la presente forma de realizacion ejemplo, las dos partes independientemente asignables de los datos de transicion para cada instancia de metadatos de mezcla reducida son: una marca temporal que indica el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado y un parametro de duracion de interpolacion que indica una duracion para alcanzar el establecimiento de presentacion de mezcla reducida deseado desde el punto en el tiempo para iniciar la transicion al establecimiento de presentacion de mezcla reducida deseado.

En la presente forma de realizacion ejemplo, se utiliza el mismo formato para la informacion lateral 128, los metadatos de agrupamiento 122 y los metadatos de mezcla reducida 125. Este formato se describira ahora con referencia a las Figuras 7 a 11 en terminos de metadatos para presentacion de senales de audio. Sin embargo, ha de entenderse que en los siguientes ejemplos descritos con referencia a las Figuras 7 a 11, terminos o expresiones similares a “metadatos para presentacion de senales de audio” pueden solamente sustituirse por los terminos o expresiones correspondientes tales como “informacion lateral para reconstruccion de objetos de audio”, “metadatos de agrupamiento para presentacion de objetos de audio” o “metadatos de mezcla reducida para presentacion de senales de mezcla reducida”.

La Figura 7 ilustra la derivacion, basada en metadatos, de curvas de coeficientes utilizadas en la presentacion de senales de audio, de conformidad con una forma de realizacion ejemplo. Segun se ilustra en la Figura 7, un conjunto de instancias de metadatos mx generadas en diferentes puntos en el tiempo tx p.ej., asociadas con marcas temporales unicas, se convierte por un convertidor 710 en conjuntos correspondientes de valores de coeficientes matriciales Cx. Estos conjuntos de coeficientes representan valores de ganancias, tambien referidos como factores de ganancias a utilizarse para la presentacion de las senales de audio para diversos altavoces y controladores en un sistema de reproduccion para el que ha de presentarse el contenido de audio. Un interpolador 720 interpola luego los factores de ganancia Cx para producir una curva de coeficientes entre los tiempos discretos tx. En una forma de realizacion, las marcas temporales tx asociadas con cada instancia de metadatos mx puede corresponder a puntos aleatorios en el tiempo, puntos smcronos en el tiempo generados por un circuito de reloj, eventos temporales relacionados con el contenido de audio, tales como lfmites de tramas o cualquier evento temporizado adecuado. Conviene senalar que, segun se describio con anterioridad, la descripcion proporcionada con referencia a la Figura 7 se aplica, de forma analoga, a la informacion lateral para la reconstruccion de objetos de audio.

5

10

15

20

25

30

35

40

45

50

55

60

65

La Figura 8 ilustra un formato de metadatos en conformidad con una forma de realizacion (y segun se describio con anterioridad, la siguiente descripcion se aplica, de forma analoga, a un formato de informacion lateral correspondiente), que resuelve al menos algunos de los problemas de interpolacion asociados con los metodos actuales, segun se describio con anterioridad, definiendo una marca temporal como el tiempo de inicio de una transicion o una interpolacion, y aumentando cada instancia de metadatos con un parametro de duracion de interpolacion que representa la duracion de transicion o la duracion de interpolacion (tambien referido como “tamano de rampa”). Segun se ilustra en la Figura 8, un conjunto de instancias de metadatos m2 a m4 (810) especifica un conjunto de matrices de presentacion c2 a c4 (830). Cada instancia de metadatos se genera en un punto en el tiempo particular tx y cada instancia de metadatos se define con respecto a su marca temporal m2 a t2, m3 a t3, y asf sucesivamente. Las matrices de presentacion asociadas 830 se generan despues de realizar transiciones durante las respectivas duraciones de interpolacion d2, d3, d4 (830), a partir de la marca temporal asociada (t1 a t4) de cada instancia de metadatos 810. Un parametro de duracion que indica la duracion de interpolacion (o tamano de rampa) se incluye con cada instancia de metadatos, esto es, la instancia de metadatos m2 incluye d2, m3 incluye d3 y asf sucesivamente. De forma esquematica, lo que antecede puede representarse como sigue: mx = (metadatos (tx), dx) ^ Cx. De esta manera, los metadatos proporcionan esencialmente una forma esquematica de como proceder a partir de un establecimiento de presentacion actual (p.ej., la matriz de presentacion actual resultante de metadatos anteriores) a un nuevo establecimiento de presentacion (p.ej., la nueva matriz de presentacion resultante de los metadatos actuales). Cada instancia de metadatos se considera que tiene efecto en un punto en el tiempo especificado en el futuro relativo al menos en que la instancia de metadatos fue recibida y la curva de coeficientes se deriva a partir del estado anterior del coeficiente. De este modo, en la Figura 8, m2 genera c2 despues de una duracion d2, m3 genera c3 despues de una duracion d3 y m4 genera c4 despues de una duracion d4. En este esquema para interpolacion, los metadatos anteriores no necesitan ser conocidos, solamente se requiere la matriz de presentacion anterior o el estado de presentacion. La interpolacion utilizada puede ser lineal o no lineal dependiendo de las restricciones y configuraciones del sistema.

El formato de metadatos de la Figura 8 permite un remuestreo sin perdidas de metadatos, segun se ilustra en la Figura 9. La Figura 9 ilustra un primer ejemplo de un procesamiento sin perdidas de metadatos, de conformidad con una forma de realizacion a modo de ejemplo (y segun se describio con anterioridad, la siguiente descripcion se aplica de forma analoga a un formato de informacion lateral correspondiente). La Figura 9 ilustra instancias de metadatos m2 a m4 que se refieren a las matrices de presentacion futuras c2 a c4, respectivamente, incluyendo las duraciones de interpolacion d2 a d4. Las marcas temporales de las instancias de metadatos m2 a m4 se proporcionan como t2 a t4. En el ejemplo ilustrado en la Figura 9, una instancia de metadatos m4a, en el tiempo t4a, se anade a este respecto. Dichos metadatos pueden anadirse por varios motivos, tales como para mejorar la resistencia a errores del sistema o para sincronizar instancias de metadatos con el inicio/final de una trama de audio. A modo de ejemplo, el tiempo t4a puede representar el tiempo en que un dispositivo codec de audio utilizado para codificar un contenido de audio asociado con los metadatos inicia una nueva trama. Para funcionamiento sin perdidas, los valores de metadatos de m4a son identicos a los de m4 (esto es, ambos describen una matriz de presentacion objetivo c4), pero el tiempo d4a para alcanzar ese punto ha sido reducido por d4-d4a. Dicho de otro modo, la instancia de metadatos m4a es identica a la instancia de metadatos anterior m4 de modo que la curva de interpolacion entre c3 y c4 no es cambiada. Sin embargo, la nueva duracion de interpolacion d4a es mas corta que la duracion original d4. Esta circunstancia aumenta efectivamente la tasa de datos de las instancias de metadatos, lo que puede ser ventajoso en algunas circunstancias, tales como correccion de errores.

Un segundo ejemplo de interpolacion de metadatos sin perdidas se ilustra en la Figura 10 (y segun se describio con anterioridad, la siguiente descripcion se aplica, de forma analoga, a un formato de informacion lateral correspondiente). En este ejemplo, el objetivo es incluir un nuevo conjunto de metadatos m3a entre dos instancias de metadatos m3 y m4. La Figura 10 ilustra un caso en donde la matriz de presentacion permanece invariable durante un penodo de tiempo. Por lo tanto, en esta situacion, los valores del nuevo conjunto de metadatos m3a son identicos a los de los metadatos anteriores m3, excepto para la duracion de interpolacion d3a. El valor de la duracion de interpolacion d3a debe establecerse al valor correspondiente de t4-t3a, esto es, a la diferencia entre el tiempo t4 asociado con la siguiente instancia de metadatos m4 y el tiempo t3a asociado con el nuevo conjunto de metadatos m3a. El caso ilustrado en la Figura 10 puede presentarse, por ejemplo, cuando un objeto de audio es estatico y una herramienta de autona creadora interrumpe el envfo de nuevos metadatos para objeto debido a esta naturaleza estatica. En tal caso, puede ser deseable insertar nuevas instancias de metadatos m3a p.ej., para sincronizar los metadatos con tramas de codec.

En los ejemplos ilustrados en las Figuras 8 a 10, la interpolacion desde una matriz de presentacion actual a una matriz de presentacion deseada o un estado de presentacion fue realizada mediante interpolacion lineal. En otras formas de realizacion a modo de ejemplo, se pueden utilizar tambien diferentes sistemas de interpolacion. Uno de dichos esquemas de interpolacion alternativos utiliza un circuito de muestreo y retencion combinado con un filtro de paso bajo posterior. La Figura 11 ilustra un esquema de interpolacion utilizando un circuito de muestreo y retencion con un filtro de paso bajo, de conformidad con una forma de realizacion a modo de ejemplo (y segun se describio con anterioridad, la siguiente descripcion se aplica, de forma analoga, a un formato de informacion lateral correspondiente). Segun se ilustra en la Figura 11, las instancias de metadatos m2 a m4 se convierten a coeficientes de matriz de presentacion de muestreo y retencion c2 y c3. El proceso de muestreo y retencion causa que los estados de los coeficientes pasen inmediatamente al estado deseado, lo que da lugar a una curva gradual 1110,

5

10

15

20

25

30

35

40

45

50

55

60

65

segun se ilustra. Esta curva 1110 es luego filtrada con un filtro de paso bajo posteriormente para obtener una curva interpolada suave 1120. Los parametros del filtro de interpolacion (p.ej., frecuencia de corte o constante de tiempo) pueden senalizarse como parte de los metadatos, ademas de las marcas temporales y los parametros de duracion de interpolacion. Ha de entenderse que diferentes parametros pueden utilizarse dependiendo de los requisitos del sistema y de las caractensticas de la senal de audio.

En una forma de realizacion a modo de ejemplo, la duracion de interpolacion o tamano de rampa pueden tener cualquier valor practico, incluyendo un valor de practicamente proximo a cero. Dicha pequena duracion de interpolacion es especialmente de utilidad para casos tales como inicializacion con el fin de permitir el establecimiento de la matriz de presentacion inmediatamente en la primera muestra de un fichero, o permitir ediciones, empalmes o concatenacion de flujos. Con este tipo de ediciones destructivas, que tienen la posibilidad de cambiar instantaneamente la matriz de presentacion puede ser beneficioso mantener las propiedades espaciales del contenido despues de la edicion.

En una forma de realizacion a modo de ejemplo, el esquema de interpolacion aqu descrito es compatible con la eliminacion de instancias de metadatos (y, de forma analoga, con la eliminacion de instancias informacion lateral, segun se describio con anterioridad), tal como en un esquema de declive operativo que reduce las tasas binarias de metadatos. La eliminacion de instancias de metadatos permite al sistema un remuestreo a una tasa de tramas que es inferior a una tasa de tramas inicial. En este caso, las instancias de metadatos y sus datos de duracion de interpolacion asociados que se proporcionan por un codificador pueden eliminarse sobre la base algunas caractensticas. A modo de ejemplo, un componente de analisis en un codificador puede analizar la senal de audio para determinar si existe un penodo de inmovilismo significativo de la senal y en tal caso, eliminar algunas instancias de metadatos ya generadas para reducir los requisitos del ancho de banda para la transmision de datos a un lado del decodificador. La eliminacion de instancias de metadatos puede realizarse de forma alternativa o adicional, en un componente separado del codificador, tal como en un decodificador o en un transcodificador. Un transcodificador puede eliminar instancias de metadatos que hayan sido generadas o anadidas por el codificador, y pueden utilizarse en un convertidor de tasas de datos que remuestrea una senal de audio a partir de una primera tasa a una segunda tasa, en donde la segunda tasa puede ser, o no, un multiplo entero de la primera tasa. Como alternativa al analisis de la senal de audio con el fin de determinar que instancias de metadatos eliminar, el codificador, decodificador o transcodificador puede analizar los metadatos. A modo de ejemplo, haciendo referencia a la Figura 10, una diferencia puede calcularse entre un primer establecimiento de reconstruccion deseado c3 (o matriz de reconstruccion), que se especifica por una primera instancia de metadatos m3 y los establecimientos de reconstruccion deseados c3a y c4 (o matrices de reconstruccion) que se especifican por instancias de metadatos m3a y m4 que suceden directamente a la primera instancia de metadatos m3. La diferencia puede calcularse, a modo de ejemplo, utilizando una norma matricial a las respectivas matrices de presentacion. Si la diferencia es inferior a un valor umbral predefinido, p.ej., correspondiente a una distorsion tolerada de las senales de audio reconstruidas, las instancias de metadatos m3a y m4 que suceden a la primera instancia de metadatos m2 pueden eliminarse. En el ejemplo ilustrado en la Figura 10, la instancia de metadatos m3a que sucede directamente a la primera instancia de metadatos m3 especifica los mismos establecimientos de presentacion c3 = c3a que la primera instancia de metadatos m3 y, por lo tanto, sera eliminada, mientras que el siguiente establecimiento de metadatos m4 especifica un establecimiento de presentacion diferente c4 y puede, dependiendo del valor umbral utilizado, mantenerse como metadatos.

En el decodificador 200 descrito con referencia a la Figura 2, el componente de reconstruccion de objeto 206 puede emplear la interpolacion como parte de la reconstruccion de los N objetos de audio 220 sobre la base de las M senales de mezcla reducida 224 y la informacion lateral 228. En analogfa con el esquema de interpolacion descrito con referencia a las Figuras 7 a 11, la reconstruccion de los N objetos de audio 220 puede incluir, a modo de ejemplo: realizar una reconstruccion de conformidad con un establecimiento de reconstruccion actual; iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral, una transicion desde el establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral; y completar la transicion para el establecimiento de reconstruccion deseado en un punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral.

De modo similar, el dispositivo de presentacion 210 puede utilizar la interpolacion como parte de la presentacion de los N objetos de audio reconstruidos 220 con el fin de generar la senal de salida multicanal 230 adecuada para la reproduccion. En analogfa con el esquema de interpolacion descrito con referencia a las Figuras 7 a 11, la presentacion puede incluir: realizar una presentacion de configuracion con un establecimiento de presentacion actual; iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de metadatos de agrupamiento, una transicion desde el establecimiento de presentacion actual a un establecimiento de presentacion deseado especificado por la instancia de metadatos del agrupamiento y completar la transicion al establecimiento de presentacion deseado en un punto en el tiempo definido por los datos de transicion para la instancia de metadatos del agrupamiento.

En algunas formas de realizacion a modo de ejemplo, la seccion de reconstruccion de objetos 206 y el dispositivo de presentacion 210 pueden ser unidades separadas y/o pueden corresponder a operaciones realizadas como procesos separados. En otras formas de realizacion a modo de ejemplo, la seccion de reconstruccion de objetos 206

5

10

15

20

25

30

35

40

45

50

55

60

65

y el dispositivo de presentacion 210 pueden materializarse como una unidad o proceso unico en el que el restablecimiento y la reconstruccion se realizan como una operacion combinada. En dicha forma de realizacion ejemplo, las matrices empleadas para la reconstruccion y presentacion pueden combinarse en una matriz unica que puede ser interpolada, en lugar de realizar una interpolacion sobre una matriz de presentacion y una matriz de reconstruccion, por separado.

En el decodificador de baja complejidad 300, descrito con referencia a la Figura 3, el dispositivo de presentacion 310 puede realizar una interpolacion como parte de la presentacion de las M senales de mezcla reducida 324 a la salida multicanal 330. En analogfa con el esquema de interpolacion descrito con referencia a las Figuras 7 a 11, la presentacion puede incluir: realizar una presentacion de conformidad con un establecimiento de presentacion de mezcla reducida actual; iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de metadatos de mezcla reducida, una transicion desde el establecimiento de presentacion de mezcla reducida actual a un establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida; y completar la transicion para el establecimiento de presentacion de mezcla reducida deseado en un punto en el tiempo definido por los datos de transicion para la instancia de metadatos de mezcla reducida. Segun se describio con anterioridad, el dispositivo de presentacion 310 puede estar incluido en el decodificador 300 o puede ser un dispositivo/unidad separada. En formas de realizacion a modo de ejemplo en donde el dispositivo de presentacion 310 esta separado del decodificador 300, el decodificador puede proporcionar, a la salida, los metadatos de mezcla reducida 325 y las M senales de mezcla reducida 324 para la presentacion de las M senales de mezcla reducida en el dispositivo de presentacion 310.

Equivalentes, extensiones, alternativas y disposiciones varias

Formas de realizacion adicionales de la presente invencion se haran evidentes para un experto en esta tecnica despues de estudiar la descripcion anterior. Aun cuando la presente descripcion y los dibujos adjuntos dan a conocer formas de realizacion y ejemplos, la invencion no esta restringida a estos ejemplos espedficos. Numerosas modificaciones y variaciones pueden realizarse sin desviarse por ello del alcance de la presente invencion, que se define por las reivindicaciones adjuntas. Cualquier signo de referencia que aparece en las reivindicaciones no ha de entenderse como limitacion de su alcance.

Ademas, las variaciones a las formas de realizacion dadas a conocer pueden entenderse y efectuarse por el experto en esta tecnica en la practica de la invencion, a partir de un estudio de los dibujos, la descripcion y las reivindicaciones adjuntas. En las reivindicaciones, la expresion “que comprende” no excluye otros elementos o etapas y el artfculo indefinido “un” o “una” no excluye una pluralidad. El mero hecho de que algunas medidas se indiquen en realizaciones dependientes mutuamente distintas no indica que no se pueda utilizar una combinacion de estas medidas de forma ventajosa.

Los sistemas y metodos aqu dados a conocer pueden realizarse como software, firmware, hardware o una de sus combinaciones. En una puesta en practica de hardware, la division de tareas entre unidades funcionales referidas en la anterior descripcion no corresponden necesariamente a la division en unidades ffsicas; al contrario, una componente ffsica puede tener multiples funcionalidades y una tarea puede realizarse por varios componentes ffsicos en cooperacion. Algunos componentes o todos los componentes pueden ponerse en practica como software ejecutado por un procesador de senal digital o microprocesador, o ponerse en practica como hardware o como un circuito integrado espedfico de la aplicacion. Dicho software puede distribuirse en soporte legible por ordenador que puede comprender soportes de memorizacion legibles por ordenador (o soportes no transitorios) y soportes de comunicaciones (o soportes transitorios). Como es bien conocido por un experto en esta tecnica, el termino de soporte de memorizacion legible por ordenador incluye soportes volatiles y no volatiles, extrafbles y no extrafbles, puestos en practica en cualquier metodo o tecnologfa para almacenamiento de informacion tal como instrucciones legibles por ordenador, estructuras de datos, modulos de programas u otros datos. Los soportes de memorizacion legibles por ordenador incluyen, sin limitacion, a memoria RAM, memoria ROM, memoria EEPROM, memoria instantanea u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD) u otro tipo de almacenamiento de disco optico, casete magnetica, cinta magnetica, memoria de disco magnetico u otros dispositivos de memorizacion magnetica o cualquier otro soporte que pueda utilizarse para memorizar la informacion deseada y que pueda ser objeto de acceso por un ordenador. Ademas, es bien conocido por los expertos en esta tecnica que los soportes de comunicaciones suelen materializar instrucciones legibles por ordenador, estructuras de datos, modulos de programas u otros datos en una senal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluyen cualquier soporte de entrega de informacion.

Todas las Figuras son de tipo esquematico y por lo general, solamente muestran partes que son necesarias para poder elucidar la idea inventiva, mientras que otras partes pueden omitirse o simplemente sugerirse. A no ser que se indique de otro modo, las referencias numericas similares se refieren a partes similares en diferentes figuras.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un metodo para codificar objetos de audio como un flujo de datos, que comprende: la recepcion de N objetos de audio (120), en donde N>1;

calcular M senales de mezcla reducida (124), donde M<N, mediante la formacion de combinaciones de los N objetos de audio;

calcular informacion lateral variable en el tiempo (128) que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; e

incluir las M senales de mezcla reducida y la informacion lateral en un flujo de datos (140) para su transmision a un decodificador,

donde el metodo comprende ademas incluir, en el flujo de datos:

una pluralidad de instancias de informacion lateral que especifican respectivos establecimientos de reconstruccion deseados para reconstruir dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio; y para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual al establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion.
2. - El metodo segun la reivindicacion 1, que comprende ademas un procedimiento de agrupamiento para reducir una primera pluralidad de objetos de audio a una segunda pluralidad de objetos de audio, donde los N objetos de audio constituyen o bien la primera pluralidad de objetos de audio o la segunda pluralidad de objetos de audio, donde dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio coincide con la segunda pluralidad de objetos de audio, y donde el procedimiento de agrupamiento comprende:

calcular metadatos de agrupamiento variables en el tiempo que incluyen posiciones espaciales para la segunda

pluralidad de objetos de audio; y

que incluye ademas, en el flujo de datos:

una pluralidad de instancias de metadatos de agrupamiento que especifican respectivos establecimientos de presentacion deseados para presentar el segundo conjunto de objetos de audio; y para cada instancia de metadatos de agrupamiento, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion actual al establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupamiento, y un punto en el tiempo para completar la transicion al establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupamiento.
3. - El metodo segun la reivindicacion 2, en el que el procedimiento de agrupamiento comprende ademas:

recibir la primera pluralidad de objetos de audio y sus posiciones espaciales asociadas;

asociar la primera pluralidad de objetos de audio con al menos un agrupamiento sobre la base de la proximidad espacial de la primera pluralidad de objetos de audio;

generar la segunda pluralidad de objetos de audio representando cada uno del al menos un agrupamiento mediante un objeto de audio que es una combinacion de los objetos de audio asociados con el agrupamiento; y calcular la posicion espacial de cada objeto de audio de la segunda pluralidad de objetos de audio sobre la base de las posiciones espaciales de los objetos de audio asociados con el agrupamiento que representa el objeto de audio.
4. - El metodo segun la reivindicacion 2 o 3, en el que los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de agrupamiento coinciden con los respectivos puntos en el tiempo definidos por los datos de transicion para instancias de informacion lateral correspondientes.
5. - El metodo segun una cualquiera de las reivindicaciones 2 a 4, en el que los N objetos de audio constituyen la segunda pluralidad de objetos de audio, o

donde los N objetos de audio constituyen la primera pluralidad de objetos de audio.
6. - El metodo segun cualquiera de las reivindicaciones anteriores, que comprende ademas:

asociar cada senal de mezcla reducida con una posicion espacial variable en el tiempo para presentar las senales de mezcla reducida; e

incluir ademas, en el flujo de datos, metadatos de mezcla reducida que incluyen las posiciones espaciales de las senales de mezcla reducida,

5

10

15

20

25

30

35

40

45

50

55

60

65

donde el metodo comprende ademas incluir, en el flujo de datos:

una pluralidad de instancias de metadatas de mezcla reducida que especifican establecimientos de presentacion de mezcla reducida deseados para presentar las senales de mezcla reducida; y para cada instancia de metadatas de mezcla reducida, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion de mezcla reducida actual al establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida, y un punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida, y opcionalmente, donde los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de mezcla reducida coinciden con los respectivos puntos en el tiempo definidos por los datos de transicion para instancias de informacion lateral correspondientes.
7. - Un metodo para reconstruir objetos de audio sobre la base de un flujo de datos, que comprende:

recibir un flujo de datos (240, 340) que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio, donde N>1 y M<N, e informacion lateral variable en el tiempo que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

reconstruir, sobre la base de las M senales de mezcla reducida y la informacion lateral, dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio,

donde el flujo de datos comprende una pluralidad de instancias de informacion lateral, donde el flujo de datos comprende ademas, para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion, y donde la reconstruccion de dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio comprende:

realizar una reconstruccion segun un establecimiento de reconstruccion actual;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral, una transicion desde el establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral; y

completar la transicion en un punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral.
8. - El metodo segun la reivindicacion 7, en el que el flujo de datos comprende ademas metadatos de agrupamiento variables en el tiempo para dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio, incluyendo los metadatos de agrupamiento posiciones espaciales para dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio, donde el flujo de datos comprende una pluralidad de instancias de metadatos de agrupamiento, donde el flujo de datos comprende ademas, para cada instancia de metadatos de agrupamiento, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion actual a un establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupacion, y un punto en el tiempo para completar la transicion al establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupamiento, y donde el metodo comprende ademas:

usar los metadatos de agrupamiento para presentar el conjunto reconstruido de objetos de audio formados sobre la base de los N objetos de audio para proporcionar canales de una configuracion de canal predefinida, comprendiendo la presentacion:

realizar una presentacion segun un establecimiento de presentacion actual;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de metadatos de agrupamiento, una transicion desde el establecimiento de presentacion actual a un establecimiento de presentacion deseado especificado por la instancia de metadatos de agrupamiento; y completar la transicion al establecimiento de presentacion deseado en un punto en el tiempo definido por los datos de transicion para la instancia de metadatos de agrupamiento.
9. - El metodo segun la reivindicacion 8, en el que los respectivos puntos en el tiempo definidos por los datos de transicion para las respectivas instancias de metadatos de agrupamiento coinciden con los respectivos puntos en el tiempo definidos por los datos de transicion para instancias de informacion lateral correspondientes, y

opcionalmente, donde el metodo comprende:

realizar al menos parte de la reconstruccion y la presentacion como una operacion combinada correspondiente a una primera matriz formada como un producto matricial de una matriz de reconstruccion y una matriz de

5

10

15

20

25

30

35

40

45

50

55

60

65

presentacion asociadas con un establecimiento de reconstruccion actual y un establecimiento de presentacion actual, respectivamente;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral y una instancia de metadatas de agrupamiento, una transicion combinada desde los establecimientos de reconstruccion y presentacion actuales a los establecimientos de reconstruccion y presentacion deseados especificados por la instancia de informacion lateral y la instancia de metadatos de agrupamiento, respectivamente; y

completar la transicion combinada en un punto en el tiempo definido por los datos de transicion para la instancia de informacion lateral y la instancia de metadatos de agrupamiento, donde la transicion combinada incluye una interpolacion entre los elementos matriciales de la primera matriz y los elementos matriciales de una segunda matriz formada como un producto matricial de una matriz de reconstruccion y una matriz de presentacion asociadas con el establecimiento de reconstruccion deseado y el establecimiento de presentacion deseado, respectivamente.
10. - El metodo segun cualquiera de las reivindicaciones 7 a 9, en el que dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio coincide con los N objetos de audio.
11. - El metodo segun cualquiera de las reivindicaciones 7 a 9, en el que dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio comprende una pluralidad de objetos de audio que son combinaciones de los N objetos de audio, y cuyo numero es inferior a N.
12. - El metodo segun cualquiera de las reivindicaciones 7 a 11 realizado en un decodificador, donde el flujo de datos comprende ademas metadatos de mezcla reducida para las M senales de mezcla reducida que incluyen posiciones espaciales variables en el tiempo asociadas con las M senales de mezcla reducida, donde el flujo de datos comprende una pluralidad de instancias de metadatos de mezcla reducida, donde el flujo de datos comprende ademas, para cada instancia de metadatos de mezcla reducida, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de presentacion de mezcla reducida actual a un establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida, y un punto en el tiempo para completar la transicion al establecimiento de presentacion de mezcla reducida deseado especificado por la instancia de metadatos de mezcla reducida, y donde el metodo comprende ademas:

en una condicion en la que el decodificador es utilizable para soportar una reconstruccion de objeto de audio, realizar la etapa de reconstruccion, sobre la base de las M senales de mezcla descendente y la informacion lateral, de dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio; y en una condicion en la que el decodificador no es utilizable para soportar una reconstruccion de objeto de audio, proporcionar los metadatos de mezcla reducida y las M senales de mezcla reducida para presentar las M senales de mezcla reducida.
13. - El metodo segun cualquiera de las reivindicaciones 1 a 6, o el metodo segun una cualquiera de las reivindicaciones 7 a 12, que comprende ademas:

generar una o mas instancias adicionales de informacion lateral que especifican sustancialmente el mismo establecimiento de reconstruccion como una instancia de informacion lateral que precede directamente o sucede directamente a las una o mas instancias adicionales de informacion lateral.
14. - Un decodificador (200, 300, 400, 500) para reconstruir objetos de audio sobre la base de un flujo de datos, que comprende:

un componente de recepcion configurado para recibir un flujo de datos que comprende M senales de mezcla reducida que son combinaciones de N objetos de audio, donde N>1 y M<N, e informacion lateral variable en el tiempo que incluye parametros que permiten la reconstruccion de un conjunto de objetos de audio formados sobre la base de los N objetos de audio a partir de las M senales de mezcla reducida; y

un componente de reconstruccion, configurado para reconstruir, sobre la base de las M senales de mezcla reducida y la informacion lateral, el conjunto de objetos de audio formados sobre la base de los N objetos de audio,

donde el flujo de datos comprende una pluralidad de instancias de informacion lateral, donde el flujo de datos comprende ademas, para cada instancia de informacion lateral, datos de transicion que incluyen dos partes independientemente asignables que, en combinacion, definen un punto en el tiempo para iniciar una transicion desde un establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral, y un punto en el tiempo para completar la transicion, y donde el componente de reconstruccion esta configurado para reconstruir dicho conjunto de objetos de audio formados sobre la base de los N objetos de audio mediante al menos las siguientes etapas:

realizar una reconstruccion segun un establecimiento de reconstruccion actual;

iniciar, en un punto en el tiempo definido por los datos de transicion para una instancia de informacion lateral, una transicion desde el establecimiento de reconstruccion actual a un establecimiento de reconstruccion deseado especificado por la instancia de informacion lateral; y

completar la transicion en un punto en el tiempo definido por los datos de transicion para la instancia de 5 informacion lateral.
15. Un producto de programa informatico que comprende un soporte legible por ordenador con instrucciones para realizar el metodo segun cualquiera de las reivindicaciones 1 a 6, o con instrucciones para realizar el metodo segun cualquiera de las reivindicaciones 7 a 13.

10