ES2606678T3

ES2606678T3 - Presentación de sonido reflejado para audio con base de objeto

Info

Publication number: ES2606678T3
Application number: ES13759397.6T
Authority: ES
Inventors: Brett G. Crockett; Spencer HOOKS; Alan Seefeldt; Joshua B. LANDO; C. Phillip Brown; Sripal S. MEHTA; Stewart MURRIE
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2012-08-31
Filing date: 2013-08-28
Publication date: 2017-03-27
Anticipated expiration: 2033-08-28
Also published as: RU2015111450A; KR101676634B1; RU2602346C2; US9794718B2; CN107509141A; US20150350804A1; JP6167178B2; CN107509141B; HK1205846A1; EP2891337A1; US20210029482A1; US20180020310A1; CN104604256A; BR112015004288B1; US11277703B2; JP2015530824A; WO2014036085A1; US10743125B2; EP2891337B8; KR20150038487A

Abstract

Un sistema (500, 1300) que sirve para realizar una presentación del sonido utilizando elementos sonoros reflejados, que comprende: una red de controladores de audio para distribución alrededor de un entorno de escucha (800), en donde al menos un controlador de la red de controladores de audio es un controlador de proyección hacia arriba (706), que está configurado para proyectar ondas sonoras hacia una o más superficies del entorno de escucha para reflexión hacia una zona de escucha dentro del entorno de escucha; un dispositivo de presentación (310) configurado para recibir y procesar un flujo de bits que incluye flujos de audio y uno o más conjuntos de metadatos que están asociados con cada uno de los flujos de audio y que especifican un emplazamiento de reproducción en el entorno de escucha de un flujo de audio respectivo, en donde los flujos de audio comprenden uno o más flujos de audio reflejados y uno o más flujos de audio directos; y un componente de reproducción acoplado al dispositivo de presentación y configurado para presentar los flujos de audio a una pluralidad de señales de alimentación de audio que corresponde a la red de controladores de audio en conformidad con los uno o más conjuntos de metadatos y en donde los uno o más flujos de audio reflejados se transmiten a al menos un controlador de proyección hacia arriba, caracterizado por cuanto que el sistema realiza un procesamiento de señal para introducir pistas de altura de percepción en los uno o más flujos de audio reflejados transmitidos a al menos un controlador de proyección hacia arriba.

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Presentacion de sonido reflejado para audio con base de objeto.

CAMPO DE LA INVENCION

Una o mas realizaciones se refieren, en general, al procesamiento de senales sonoras y mas en particular, a la presentacion de un contenido de audio adaptativo a traves de controladores directos y reflejados en algunos entornos de escucha.

ANTECEDENTES DE LA INVENCION

El contenido en la seccion de antecedentes de la invencion no debe suponerse que es la tecnica anterior sino simplemente un resultado de su mencion en la seccion de antecedentes. De modo similar, un problema mencionado en la seccion de antecedentes de la invencion o asociado con el contenido de dicha seccion no debe suponerse que ha sido anteriormente reconocido en la tecnica anterior.

Las pistas de sonido cinematografico suelen comprender numerosos elementos sonoros diferentes que corresponden a imagenes en la pantalla, ventanas de dialogo, ruidos y efectos sonoros que emanan de diferentes lugares en la pantalla y se combinan con la musica de fondo y los efectos ambientales para crear la experiencia de audiencia global. Una reproduccion exacta requiere que los sonidos se reproduzcan en una manera que corresponda lo mas estrechamente posible a lo que aparece en la pantalla con respecto a la posicion de la fuente del sonido, intensidad, movimiento y profundidad. Los sistemas de audio basados en canales tradicionales envfan el contenido de audio en la forma de senales de alimentacion de altavoces para altavoces individuales en un entorno de reproduccion. La introduccion del sistema cinematografico digital ha creado nuevas normas para el sonido cinematografico, tal como la incorporacion de multiples canales de audio para permitir una mayor creatividad para creadores de contenidos y una experiencia de audicion mas envolvente y realista para las audiencias. La expansion mas alla de las alimentaciones de altavoces tradicionales y de audio basado en canales como un medio para distribuir la senal de audio espacial es cntica y existe un interes considerable en una descripcion de audio basada en un modelo que permita a quien escucha seleccionar una configuracion de reproduccion deseada con la senal de audio presentada espedficamente para su configuracion elegida. Para mejorar todavfa mas la experiencia del oyente, la reproduccion del sonido en entornos verdaderamente tridimensionales (3D) o 3D virtuales se ha convertido en un area de investigacion y desarrollo cada vez mayor. La presentacion espacial del sonido utiliza objetos de audio, que son senales de audio con descripciones de fuentes parametricas asociadas de la posicion de la fuente aparente (p.ej., coordenadas de 3D), anchura de fuente aparente y otros parametros. La senal de audio basada en el objeto puede utilizarse para numerosas aplicaciones multimedia, tales como pelfculas cinematograficas digitales, juegos de video, simuladores y siendo de particular importancia en un entorno residencial en donde el numero de altavoces y su emplazamiento suelen estar limitado o restringido por los confines de un entorno de escucha relativamente pequeno.

Varias tecnologfas se han desarrollado para mejorar los sistemas acusticos en entornos cinematograficos y para capturar y reproducir, con mayor exactitud, la intencion artfstica del creador para una pista sonora de imagenes en movimiento. A modo de ejemplo, se ha desarrollado un formato de audio espacial de la siguiente generacion (tambien referido como “audio adaptativo”), que comprende una mezcla de objetos de audio y altavoces basados en canales tradicionales que se alimentan junto con metadatos posicionales para los objetos de audio. En un decodificador de audio espacial, los canales se envfan directamente a sus altavoces asociados (si existen altavoces adecuados) o son un objeto de una mezcla descendente hacia un conjunto de altavoces existente y los objetos de audio son presentados por el decodificador en una manera flexible. La descripcion de fuente parametrica asociada con cada objeto, tal como una trayectoria posicional en un espacio en 3D se toma como una entrada junto con el numero y la posicion de altavoces conectados al decodificador. El dispositivo de presentacion utiliza entonces algunos algoritmos, tal como una ley para obtener panoramicas, para distribuir el audio asociado con cada objeto a traves del conjunto adjunto de altavoces. De este modo, la intencion espacial de autor de cada objeto se presenta de forma optima a traves de la configuracion de altavoz espedfica que esta presente en el entorno de escucha.

Los sistemas de audio espacial actuales han sido generalmente desarrollados para uso cinematografico y por ello, implican su despliegue en grandes recintos y el uso de equipos de coste relativamente alto, incluyendo redes de multiples altavoces distribuidos alrededor del entorno de escucha. Una cantidad creciente de contenidos cinematografico que actualmente se produce se esta haciendo disponible para su reproduccion en el entorno residencial por intermedio de tecnologfa de flujos continuos y tecnologfa de soportes avanzados, tal como un asf denominado Blu-ray, etc. Ademas, tecnologfas emergentes tales como television en 3D y juegos informaticos avanzados y simulares estan estimulando el uso de equipos relativamente sofisticados, tales como monitores de pantallas de grandes dimensiones, reflectores de sonido envolvente y redes de altavoces en el entorno residencial y otros entornos de escucha (no de cine/teatro). Sin embargo, el coste del equipo, la complejidad de la informacion y las dimensiones de la sala son limitaciones realistas que impiden la plena explotacion de las senales de audio espaciales en la mayona de los entornos residenciales. A modo de ejemplo, sistemas de audio basados en objetos avanzados suelen emplear altavoces de altura o aereos para reproducir el sonido que esta provisto que se origine

5

10

15

20

25

30

35

40

45

50

55

60

65

por encima de la cabeza de la persona que los escucha. En numerosos casos, y en particular, en el entorno residencial, dichos altavoces de altura pueden no estar disponibles. En este caso, la informacion de altura se pierde si dichos objetos de sonido se reproducen solamente a traves de altavoces montados en la pared o en el suelo.

Por lo tanto lo que se necesita es un sistema que permita que una informacion espacial completa de un sistema de audio adaptativo se reproduzca en un entorno de escucha que puede incluir solamente una parte de la red de altavoces completa prevista para la reproduccion, tal como altavoces limitados o sin sobrecarga, y que se pueda utilizar altavoces reflejados para emanar sonido desde lugares en donde no pueden existir altavoces directos.

El denominado Informe de Investigacion Internacional emitido en relacion con el presente documento citaba inter alia los siguientes documentos:

La publicacion de solicitud de patente de Estados Unidos numero US 2007/0263890 A1 da a conocer un receptor de sonido envolvente (AVR) de audio-video reconfigurable. Un circuito de procesamiento dentro del receptor AVR genera senales para altavoces de canal principal y envolventes que proporcionan una operacion seleccionable entre el emplazamiento del altavoz en instalacion sonora envolvente ordinaria o en una instalacion sonora envolvente simulada con altavoces situados en un extremo de una sala de escucha.

La publicacion de solicitud de patente europea n° EP 1 971 187 A2 da a conocer un aparato que incluye una red de altavoces en donde las unidades de altavoces plurales estan dispuestas en un cuerpo unico, una unidad de adicion de localizacion de fuente sonora que genera un senal de audio izquierda y derecha realizando un procesamiento de localizacion para anadir caractensticas del sonido a senales de audio de un canal frontal-izquierdo y un canal frontal- derecho sobre la base de funciones de transferencia de cabezas y una unidad de control de direccion de emision sonora que distribuye las senales de audio izquierda y derecha a una o varias unidades de altavoces de la red de altavoces.

La publicacion de solicitud de patente europea n° EP 1 416 769 A1 da a conocer una unidad de edicion/produccion de audio que separa las fuentes sonoras aplicadas por intermedio de la unidad de entrada de audio en sonidos objeto y sonidos de fondo en funcion de la seleccion del oyente y los convierte en informacion de escena de audio tridimensional (3-D). Una unidad de codificacion de audio codifica informacion en 3-D y senales objeto de informacion de escena de audio de 3-D, con el fin de transmitir por intermedio del soporte.

La publicacion de solicitud de patente de Estados Unidos n° US 2006/0109992 A1 da a conocer, para una correccion de nivel en un sistema de smtesis de campo de ondas que tiene un modulo de smtesis de campo de ondas y una red de altavoces para proporcionar sonido a una zona de presentacion, un valor de correccion que esta basado en un estado de amplitud establecido en una zona de presentacion es objeto de determinacion. El estado de amplitud establecido depende de una posicion de la fuente virtual o un tipo de la fuente virtual, y el estado de amplitud real en la zona de presentacion depende de las senales componentes para los altavoces debido a la fuente virtual. El valor de correccion se alimenta a un manipulador que manipula la senal de audio asociada a la fuente virtual antes de la alimentacion al modulo de smtesis de campo de ondas o las senales componentes para los altavoces individuales debido a la fuente virtual se manipulan para reducir una desviacion entre un estado de amplitud establecido y un estado de amplitud real en un punto o varios puntos en la zona de presentacion.

SUMARIO DE LAS FORMAS DE REALIZACION

En conformidad con la presente invencion, el objetivo anterior se consigue mediante un sistema para presentar sonido utilizando elementos sonoros reflejados segun se define en la reivindicacion independiente 1 y mediante un metodo correspondiente segun se define en la reivindicacion independiente 11.

Ademas, se describen sistemas y metodos para un formato de audio y un sistema que incluye herramientas de creacion de contenidos actualizadas, metodos de distribucion y una mejor experiencia del oyente basada en un sistema de audio adaptativo que incluye nuevas configuraciones de altavoces y canales, asf como un nuevo formato de descripcion espacial hecho posible por un conjunto de herramientas de creacion de contenidos avanzadas creadas para mezcladores de sonido cinematograficos. Las formas de realizacion incluyen un sistema que expande el concepto de audio adaptativo basado en cinematograffa para un ecosistema de reproduccion de audio particular que incluye un entorno residencial (p.ej., receptor A/V, barra de sonido y reproductor blu-ray), soportes electronicos (p.ej., ordenador personal PC, tableta electronica, dispositivo movil y reproduccion de auriculares), difusion (p.ej., TV y decodificador), musica, juegos, sonido en vivo, contenido generado por el oyente ("UGC"),etc. El sistema de entorno residencial incluye componentes que proporcionan compatibilidad con el contenido de la sala de audicion e incluye definiciones de metadatos que comprende informacion de creacion de contenidos para transmitir la idea creativa, informacion de inteligencia de soporte con respecto a objetos de audio, alimentaciones de altavoces, informacion de presentacion espacial y metadatos dependientes de los contenidos que indican el tipo de contenido tal como dialogo, musica, ambiente, etc. Las definiciones de audio adaptativo pueden incluir un altavoz estandar que se alimenta por intermedio de canales de audio mas objetos de audio con informacion de presentacion espacial asociada (tal como tamano, velocidad y emplazamiento en un espacio tridimensional). Una nueva disposicion de altavoces (o configuracion de canales) y un nuevo formato de descripcion espacial adjunto que soportara multiples

5

10

15

20

25

30

35

40

45

50

55

60

65

tecnologfas de presentacion se describen tambien a este respecto. Flujos de audio (que incluyen, en general, canales y objetos) se transmiten junto con los metadatos que describen la intencion del creador de contenidos o del mezclador de sonidos, incluyendo la posicion deseada del flujo de audio. La posicion puede expresarse como un canal nombrado (desde dentro de la configuracion de canal predefinida) o una informacion de posicion espacial en 3D. Este canal junto con el formato del objeto proporciona los mejores metodos de descripcion de escenas de audio basadas en canales y basadas en modelos.

Las formas de realizacion estan concretamente dirigidas a un sistema para presentar sonido utilizando elementos sonoros reflejados, que comprende una red de controladores de audio para distribucion alrededor de un entorno de escucha, en donde algunos de los excitaciones son excitaciones directos y otros son excitaciones reflejados que estan configurados para proyectar ondas sonoras hacia una o mas superficies del entorno de escucha para reflexion a una zona de escucha espedfica; un dispositivo de presentacion para procesar flujos de audio y uno o mas conjuntos de metadatos que estan asociados con cada flujo de audio y que especifican un emplazamiento de reproduccion en el entorno de escucha de un flujo de audio respectivo, en donde los flujos de audio comprenden uno o mas flujos de audio reflejados y uno o mas flujos de audio directos; y un sistema de reproduccion para presentar los flujos de audio a la red de controladores de audio en conformidad con los uno o mas conjuntos de metadatos, y en donde los uno o mas flujos de audio reflejados se transmiten a los controladores de audio reflejados.

BREVE DESCRIPCION DE LOS DIBUJOS

En los dibujos siguientes se utilizan referencias numericas similares para referirse a elementos similares. Aunque las siguientes Figuras ilustran varios ejemplos, las una o mas puestas en practica no estan limitadas a los ejemplos ilustrados en las Figuras.

La Figura 1 ilustra un emplazamiento de altavoz ejemplo en un sistema envolvente (p.ej., 9.1 envolvente) que proporciona altavoces de altura para reproduccion de canales de altura.

La Figura 2 ilustra la combinacion de datos basados en objetos y en canales para obtener una mezcla de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 3 es un diagrama de bloques de una arquitectura de reproduccion para uso en un sistema de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 4A es un diagrama de bloques que ilustra los componentes funcionales para adaptar el contenido de audio con base cinematografica para uso en un entorno de escucha en conformidad con un forma de realizacion.

La Figura 4B es un diagrama de bloques detallado de los componentes representados en la Figura 3A, en conformidad con una forma de realizacion.

La Figura 4C es un diagrama de bloques de los componentes funcionales de un entorno de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 5 ilustra el despliegue de un sistema de audio adaptativo en entorno de auditorio residencial a modo de ejemplo.

La Figura 6 ilustra el uso de un controlador de proyeccion hacia arriba que utiliza el sonido reflejado para simular un altavoz aereo en un entorno de escucha.

La Figura 7A ilustra un altavoz que tiene una pluralidad de excitaciones en una primera configuracion para uso en un sistema de audio adaptativo que tiene un dispositivo de presentacion de sonido reflejado, en conformidad con una forma de realizacion.

La Figura 7B ilustra un sistema de altavoces que tiene excitaciones distribuidos en multiples recintos para uso en un sistema de audio adaptativo que tiene un dispositivo de presentacion de sonido reflejado, en conformidad con una forma de realizacion.

La Figura 7C ilustra una configuracion ejemplo para una barra de sonido utiliza en un sistema de audio adaptativo que usa un dispositivo de presentacion de sonido reflejado, en conformidad con una forma de realizacion.

La Figura 8 ilustra un emplazamiento, a modo de ejemplo, de altavoces que tienen excitaciones direccionables individualmente que incluyen excitaciones de proyeccion hacia arriba situados dentro de un entorno de escucha.

La Figura 9A ilustra una configuracion de altavoces para un sistema de audio adaptativo 5.1 que utiliza multiples excitaciones direccionables para audio reflejado, en conformidad con una forma de realizacion.

La Figura 9B ilustra una configuracion de altavoces para un sistema de audio adaptativo 7.1 que utiliza multiples

5

10

15

20

25

30

35

40

45

50

55

60

65

excitaciones direccionables para audio reflejado, en conformidad con una forma de realizacion.

La Figura 10 es un diagrama que ilustra la composicion de una interconexion bidireccional, en conformidad con una forma de realizacion.

La Figura 11 ilustra una configuracion automatica y un proceso de calibracion del sistema para uso en un sistema de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 12 es un diagrama de flujo que ilustra las etapas de proceso para un metodo de calibracion utilizado en un sistema de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 13 ilustra el uso de un sistema de audio adaptativo en un caso de uso, a modo de ejemplo, de television y barra de sonido.

La Figura 14 ilustra una representacion simplificada de una virtualizacion de auriculares binaurales tridimensionales en un sistema de audio adaptativo, en conformidad con una forma de realizacion.

La Figura 15 es una tabla que ilustra algunas definiciones de metadatos para uso en un sistema de audio adaptativo que utiliza un dispositivo de presentacion de sonido reflejado para entornos de escucha, en conformidad con una forma de realizacion.

La Figura 16 es un grafico que ilustra la respuesta de frecuencia para un filtro combinado, en conformidad con una forma de realizacion.

DESCRIPCION DETALLADA DE LA INVENCION

Se describen sistemas y metodos para un sistema de audio adaptativo que presenta sonido reflejado para sistemas de audio adaptativos que carecen de altavoces aereos. Los aspectos de las una o mas formas de realizacion aqu descritas pueden ponerse en practica en un sistema audiovisual o de audio que procesa informacion de audio origen en un sistema de mezcla, presentacion y reproduccion que incluye uno o mas ordenadores o dispositivos de procesamiento que ejecutan instrucciones de software. Cualquieras de las formas de realizacion descritas puede utilizarse sola o junto con otra en cualquier combinacion. Aunque varias formas de realizacion pueden haber sido motivadas por diversas deficiencias de la tecnica anterior, que pueden describirse o referirse en uno o mas lugares en esta especificacion, las formas de realizacion no eliminan necesariamente cualquiera de estas deficiencias. Dicho de otro modo, diferentes formas de realizacion pueden resolver diferentes deficiencias que pueden examinarse en la especificacion. Algunas formas de realizacion solo pueden resolver parcialmente algunas deficiencias o solamente una deficiencia que puede describirse en la especificacion, y algunas formas de realizacion no pueden resolver ninguna de estas deficiencias.

Para los fines de la presente descripcion, los terminos siguientes tienen los significados asociados: el termino “canal” significa una senal de audio mas metadatos en donde la posicion esta codificada como un identificador de canal, p.ej., envolvente de parte frontal izquierda o parte superior derecha; “audio basado en canal” es un audio formateado para la reproduccion por intermedio de un conjunto predefinido de zonas de altavoces con localizaciones nominales asociadas, p.ej., 5.1, 7.1, y asf sucesivamente; el termino “objeto” u “objeto basado en objeto” significa uno o mas canales de audio con una descripcion de origen parametrico, tal como una posicion de fuente aparente (p.ej., coordenadas de 3D), anchura de fuente aparente, etc.; y el termino “audio adaptativo” significa senales de audio basadas en canal y/o basadas en objeto mas metadatos que presentan las senales de audio sobre la base del entorno de reproduccion utilizando un flujo de audio mas metadatos en los que la posicion se codifica como una posicion 3D en el espacio; y el termino “entorno de escucha” significa cualquier zona abierta, parcialmente cerrada o completamente cerrada, tal como una sala que puede utilizarse para la reproduccion de contenido de audio solo o con video u otro contenido, y puede modificarse en un entorno residencial, sala cinematografica, teatro, auditorio, estudio, consola de juegos y soportes similares. Dicha zona puede tener una o mas superficies dispuestas en ella, tales como paredes o deflectores que pueden reflejar, de forma directa o difusa, ondas sonoras.

Formato y sistema de audio adaptativo

Las formas de realizacion estan destinadas a un sistema de presentacion de sonido reflejado que esta configurado para funcionar con un formato de sonido y un sistema de procesamiento que puede referirse como un “sistema de audio espacial” o “sistema de audio adaptativo” que esta basado en un formato de audio y tecnologfa de presentacion para permitir la mejora de la inmersion de la audiencia, mayor control artfstico y mejor flexibilidad y escalabilidad del sistema. Un sistema de audio adaptativo global suele comprender un sistema de codificacion, distribucion y decodificacion de audio configurado para generar uno o mas flujos de bits que contienen ambos elementos de audio basados en canales convencionales y elementos de codificacion de objetos de audio. Dicho metodo combinado proporciona mayor eficiencia de codificacion y flexibilidad de presentacion en comparacion con los metodos basados en el objeto o basados en el canal que se consideran por separado. Un ejemplo de un sistema de audio adaptativo que puede utilizarse en conjuncion con las presentes formas de realizacion se describe en la

5

10

15

20

25

30

35

40

45

50

55

60

65

solicitud de patente provisional de Estados Unidos pendiente 61/636,429, presentada con fecha 20 de abril de 2012 y titulada "Sistema y metodo para la generacion, codificacion y presentacion de senales de audio adaptativo”.

Una puesta en practica ejemplo de un sistema de audio adaptativo y formato de audio asociado es la plataforma de Dolby® Atmos™. Dicho sistema incorpora una dimension de altura (arriba/abajo) que puede ponerse en practica como un sistema envolvente 9.1 o una configuracion sonora envolvente similar. La Figura 1 ilustra el emplazamiento de los altavoces en un presente sistema envolvente (p.ej., envolvente 9.1) que proporciona altavoces de altura para la reproduccion de canales de altura. La configuracion de altavoces del sistema 9.1 100 esta constituido por cinco altavoces 102 en el plano del suelo y cuatro altavoces 104 en el plano de altura. En general, estos altavoces pueden utilizarse para producir sonido que este disenado para emanar desde cualquier posicion, con mayor o menor exactitud dentro del entorno de escucha. Configuraciones de altavoces predefinidas, tales como las ilustras en la Figura 1, pueden limitar naturalmente la capacidad para representar, con exactitud, la posicion de una fuente sonora dada. A modo de ejemplo, una fuente sonora no puede ser objeto de panoramicas mas a la izquierda que el propio altavoz izquierdo. Esto se aplica a cada altavoz, constituyendo, por lo tanto, una forma geometrica unidimensional (p.ej., izquierda-derecha), bidimensional (p.ej., frontal-posterior) o tridimensional (p.ej., izquierda-derecha, frontal- posterior, arriba-abajo), en donde esta limitada la mezcla. Varias diferentes configuraciones y tipos de altavoces pueden utilizarse para dicha configuracion de altavoces. A modo de ejemplo, algunos sistemas de audio mejorados pueden utilizarse altavoces en una configuracion 9.1, 11.1, 13.1, 19.4, u otra configuracion. Los tipos de altavoces pueden incluir una gama completa de altavoces directos, redes de altavoces, altavoces envolventes, altavoces de graves, altavoces de agudos y otros tipos de altavoces.

Los objetos de audio pueden considerarse como grupos de elementos sonoros que pueden percibirse para emanar desde un lugar ffsico particular o ubicaciones en el entorno de escucha. Dichos objetos pueden ser estaticos (es decir, estacionarios) o dinamicos (es decir, moviles). Los objetos de audio estan controlados por metadatos que definen la posicion del sonido en un punto dado en el tiempo, junto con otras funciones. Cuando se reproducen objetos, se presentan en funcion de los metadatos posicionales que utilizan los altavoces que estan presentes, y no necesariamente siendo salida a un canal ffsico predefinido. Una pista en una sesion puede ser un objeto de audio, y datos de obtener panoramicas estandar que sean analogas a los metadatos posicionales. De este modo, el contenido colocado en la pantalla podna obtener panoramicas efectivamente de la misma manera que con un contenido basado en canal, pero el contenido colocado en las envolventes puede presentarse a un altavoz individual si asf se desea. Aunque el uso de objetos de audio proporciona el control deseado para efectos discretos, otros aspectos de una pista sonora pueden funcionar efectivamente en un entorno basado en canal. A modo de ejemplo numerosos efectos ambientales o reverberacion se benefician actualmente de ser alimentados a redes de altavoces. Aunque podnan tratarse con objetos con anchura suficiente para rellenar un conjunto matricial, es conveniente retener alguna funcionalidad basada en canal.

El sistema de audio adaptativo esta configurado para soportar “lechos” ademas de los objetos de audio, en donde los lechos son efectivamente mezclas o derivaciones basadas en canal. Se pueden proporcionar para la reproduccion final (presentacion) bien sea individualmente, bien sea en combinacion en un lecho auditivo unico, dependiendo de la intencion del creador de contenidos. Estos lechos pueden crearse en diferentes configuraciones basadas en canal tales como 5.1, 7.1 y 9.1, y redes matriciales que incluyen altavoces aereos, tales como los ilustrados en la Figura 1. La Figura 2 ilustra la combinacion de datos basados en canal y datos basados en objeto para proporcionar una mezcla de audio adaptativa, en conformidad con una forma de realizacion. Segun se ilustra en el proceso 200, los datos basados en canal 202 que, a modo de ejemplo, pueden ser datos sonoros envolventes 5.1 o 7.1 proporcionados en la forma de datos modulados por codigos de pulsos (PCM) se combinan con los datos de objetos de audio 204 para obtener una mezcla de audio adaptativo 208. Los datos de objeto de audio 204 se obtienen combinando los elementos de los datos basados en canal originales con metadatos asociados que especifican algunos parametros que pertenecen a la localizacion de los objetos de audio. Segun se ilustra conceptualmente en la Figura 2, las herramientas de autona de edicion proporcionan la capacidad para crear programas de audio que contengan una combinacion de grupos de canales de altavoces y canales de objetos, simultaneamente. A modo de ejemplo, un programa de audio podna contener uno o mas canales de altavoces opcionalmente organizados en grupos (o pistas, p.ej., una pista estereo o 5.1), metadatos descriptivos para uno o mas canales de altavoces, uno o mas canales de objetos y metadatos descriptivos para uno o mas canales de objetos.

Un sistema de audio adaptativo se mueve efectivamente mas alla de simples “alimentaciones de altavoces” como un medio para distribuir audio espacial, y se han desarrollado descripciones de audio basadas en modelos de caracter avanzado que permiten al oyente la libertad para seleccionar una configuracion de reproduccion que se adapte mejor a sus necesidades individuales o presupuesto y tienen el audio presentado espedficamente para su configuracion individualmente elegida. A un nivel alto, existen cuatro formatos de descripcion de audio espaciales principales: (1) alimentacion de altavoz, en donde el contenido de audio se describe como senales previstas para altavoces situados en posiciones nominales; (2) alimentacion de microfono, en donde el contenido de audio se describe como senales capturadas por microfonos reales o virtuales en una configuracion predefinida (el numero de microfonos y su posicion relativa); (3) descripcion basada en el modelo, en donde el contenido de audio se describe en terminos de una secuencia de eventos de audio en tiempos y posiciones que se describen y (4) binaurales, en donde el contenido de audio se describe por las senales que llegan a los dos ofdos de la persona que escucha.

5

10

15

20

25

30

35

40

45

50

55

60

65

Los cuatro formates de descripcion se suelen asociar con las tecnologfas de presentacion comunes siguientes, en donde el termino “presentacion” significa la conversion a senales electricas utilizadas como alimentaciones de altavoces: (1) obtener panoramicas en donde el flujo de audio se convierte a alimentaciones de altavoces que utilizan un conjunto de leyes para obtener panoramicas y posiciones de altavoces conocidas o asumidas (normalmente presentadas antes de la distribucion); (2) la asf denominada ambisonica, en donde las senales microfonicas se convierten a alimentaciones para una red escalable de altavoces (normalmente presentados despues de la distribucion); (3) Smtesis de Campo de Ondas (WFS), en donde los eventos sonoros se convierten en las senales de altavoces adecuadas para sintetizar un campo sonoro (normalmente presentado despues de la distribucion); y (4) binaurales, en donde las senales binaurales de izquierda/derecha se entregan al ofdo izquierdo/derecho normalmente a traves de auriculares, pero tambien por intermedio de altavoces en conjuncion con una cancelacion de la diafoma.

En general, cualquier formato puede convertirse a otro formato (aunque esta operacion pueda requerir una separacion de ongenes a ciegas o una tecnologfa similar) y presentado utilizando cualquiera de las tecnologfas antes citadas; sin embargo, no todas las transformaciones proporcionan resultados adecuados en la practica. El formato de alimentacion de altavoz es el mas comun porque resulta simple y eficaz. Los mejores resultados sonicos (es decir, los mas exactos y fiables) se consiguen mezclando/supervisando y distribuyendo luego las alimentaciones de altavoces directamente puesto que no existe ningun procesamiento requerido entre el creador de contenidos y el oyente. Si el sistema de reproduccion se conoce por anticipado, una descripcion de alimentacion de altavoz proporciona la mas alta fidelidad, sin embargo, el sistema de reproduccion y su configuracion no suele ser conocidos de antemano. Por el contrario, la descripcion basada en el modelo es la mas adaptable puesto que no establece ningun supuesto sobre el sistema de reproduccion y por lo tanto, es de mas facil aplicacion a multiples tecnologfas de presentacion. La descripcion basada en el modelo puede capturar eficientemente informacion espacial, pero se hace muy ineficiente cuando aumenta el numero de fuentes de audio.

El sistema de audio adaptativo combina los beneficios de ambos sistemas basados en canal y basados en el modelo, con beneficios espedficos que incluyen alta calidad del timbre, reproduccion optima de la intencion artfstica cuando se mezclan y presentan utilizando la misma configuracion de canal, inventario unico con adaptacion “descendente” para la configuracion de presentacion, impacto relativamente bajo sobre la conduccion acustica del sistema y mayor inmersion mediante una resolucion espacial del altavoz horizontal mas final y nuevos canales de altura. El sistema de audio adaptativo proporciona varias nuevas caractensticas que incluyen: un inventario unico con adaptacion en sentido descendente y ascendente a una configuracion de presentacion cinematografica espedfica, esto es, presentacion de retardo y uso optimo de altavoces disponibles en un entorno de reproduccion; envolvente aumentada, incluyendo la mezcla descendente optimizada para evitar artefactos de correlacion intercanales (ICC); mayor resolucion espacial mediante redes denominadas steer-thru (p.ej., que permiten a un objeto de audio asignarse dinamicamente a uno o mas altavoces dentro de una red de sonido); y aumento de la resolucion del canal frontal mediante una configuracion de altavoces similares o centrales de alta resolucion.

Los efectos espaciales de senales de audio son cnticas para proporcionar una experiencia inmersiva para el oyente. Los sonidos que se conoce que emanan desde una zona espedfica de una pantalla de vision o de un entorno de escucha deben reproducirse a traves de altavoces situados en esa misma localizacion relativa. De este modo, el metadatos de audio primario de un evento sonoro en una descripcion basada en el modelo es la posicion, aunque otros parametros tales como tamano, orientacion, velocidad y dispersion acustica pueden describirse tambien. Para transmitir la posicion, una descripcion espacial de audio en 3D, basada en el modelo, requiere un sistema de coordenadas de 3D. El sistema de coordenadas utilizado para la transmision (euclidiana, esferica, cilmdrica) suele elegirse por conveniencia o por naturaleza compacta; sin embargo, otros sistemas de coordenadas pueden utilizarse para el procesamiento de presentacion. Ademas de un sistema de coordenadas, se requiere una trama de referencia para representar las localizaciones de los objetos en el espacio. Para sistemas para reproducir, con exactitud, el sonido basado en la posicion en una diversidad de entornos diferentes, la seleccion de la trama de referencia adecuada puede resultar cntica. Con una trama de referencia alocentrica, una posicion de fuente de audio se define en relacion con caractensticas dentro del entorno de presentacion tales como paredes y esquinas de la sala, localizaciones de altavoces estandar y localizacion de la pantalla. En una trama de referencia egocentrica, las localizaciones se representan con respecto a la perspectiva del oyente, tal como “en frente de mP’, “ligeramente a la izquierda”, etc. Estudios cientfficos de la percepcion espacial (audio y de otro modo) han demostrado que la perspectiva egocentrica se utiliza casi universalmente. Para el evento cinematografico, sin embargo, la trama de referencia alocentrica suele ser la mas adecuada. A modo de ejemplo, la localizacion precisa de un objeto de audio es mas importante cuando existe un objeto asociado en la pantalla. Cuando se utiliza una referencia alocentrica, para cada posicion de escucha y para cualquier tamano de la pantalla, el sonido se localizara en la misma posicion relativa en la pantalla, p.ej., “un tercio a la izquierda del centro de la pantalla”. Otra razon es que los mezcladores tienden a considerar y mezclar en terminos alocentricos, y las herramientas para obtener panoramicas se depositan con una trama alocentrica (es decir, las paredes de la sala) y los mezcladores esperan que se presenten de esa manera, p.ej., “este sonido debe estar en la pantalla”, “este sonido debe estar fuera de la pantalla” o “desde la pared izquierda”, etc.

A pesar del uso de la trama alocentrica de referencia en el entorno cinematografico, existen algunos casos en donde

5

10

15

20

25

30

35

40

45

50

55

60

65

una trama egocentrica de referencia puede ser de utilidad y mas adecuado. Estos casos incluyen sonidos no diegeticos, esto es, los que no estan presentes en el “espacio de historia”, p.ej., musica de fondo de ambiente, para los cuales puede ser deseable una presentacion egocentricamente uniforme. Otro caso es el de los efectos de campos cercanos (p.ej., un zumbido de mosquito en el ofdo izquierdo del oyente) que requieren una representacion egocentrica. Ademas, fuentes sonoras infinitamente lejanas (y las ondas planas resultantes) pueden aparecer desde una posicion egocentrica constante (p.ej., 30 grados a la izquierda), y dichos sonidos son mas faciles de describir en terminos egocentricos que en terminos alocentricos. En algunos casos, es posible utilizar una trama de referencia alocentrica en tanto que se defina una posicion de escucha nominal, mientras que algunos ejemplos requieren una representacion egocentrica que no es todavfa posible presentar. Aunque una referencia alocentrica puede ser mas util y adecuada, la representacion de audio debe ser extensible, puesto que numerosas nuevas caractensticas, incluyendo la presentacion egocentrica, pueden ser mas deseables para determinadas aplicaciones y entornos de escucha.

Las formas de realizacion del sistema de audio adaptativo incluyen un metodo de descripcion espacial hforido que comprende una configuracion de canal recomendada para una fidelidad optima y para la presentacion de fuentes difusas o complejas, de tipo multipunto (p.ej., congestion de estadio, ambiente) utilizando una referencia egocentrica, junto con una descripcion del sonido basada en el modelo alocentrica para permitir un aumento eficiente de la resolucion espacial y de la escalabilidad. La Figura 3 es un diagrama de bloques de una arquitectura de reproduccion para uso en un sistema de audio adaptativo, en conformidad con una forma de realizacion. El sistema ilustrado en la Figura 3 incluye el procesamiento de bloques que realizan una decodificacion de audio de canal y de objeto, como legado, presentacion de objetos, remapeado de canales y procesamiento de senales antes de que la senal de audio se envfe para las etapas de post-procesamiento y/o amplificacion y altavoces.

El sistema de reproduccion 300 esta configurado para presentar y reproducir un contenido de audio que se genera mediante uno o mas componentes de captura, pre-procesamiento, autona de edicion y codificacion. Un preprocesador de audio adaptativo puede incluir una funcionalidad de deteccion del tipo de contenidos y de separacion de fuentes que genera automaticamente metadatos adecuados mediante analisis de audio de salida. A modo de ejemplo, metadatos posicionales pueden derivarse desde un registro multicanal mediante un analisis de los niveles relativos de entrada correlacionada entre pares de canales. La deteccion del tipo de contenido, tal como “voz” o “musica”, puede conseguirse, a modo de ejemplo, mediante extraccion y clasificacion de caractensticas. Algunas herramientas de autona de edicion permiten determinar la autona del programa de audio optimizando la entrada y la codificacion de la intencion creativa del ingeniero de sonido que le permite crear la mezcla de audio final una vez que este optimizada para su reproduccion en practicamente cualquier entorno de reproduccion. Lo que antecede puede conseguirse mediante el uso de objetos de audio y datos posicionales que estan asociados y codificados con el contenido de audio original. Con el fin de situar, con exactitud los sonidos en torno a un auditorio, el ingeniero de sonido necesita controlar como el sonido se presentara, en ultima instancia, sobre la base de las limitaciones reales y las caractensticas del entorno de reproduccion. El sistema de audio adaptativo proporciona este control permitiendo al ingeniero de sonido cambiar como el contenido de audio esta disenado y mezclado mediante el uso de objetos de audio y datos posicionales. Una vez que el contenido de audio adaptativo haya sido objeto de determinacion de autona y codificado en los dispositivos codec adecuados, se decodifica y presenta en los diversos componentes del sistema de reproduccion 300.

Segun se ilustra en la Figura 3, (1) el audio de sonido envolvente de legado 302, (2) el audio de objeto incluyendo metadatos de objeto 304, y (3) audio de canal incluyendo metadatos de canales 306 son objeto de entrada a los datos de decodificador 308, 309 dentro del bloque de procesamiento 310. Los metadatos de objetos se presentan en dispositivos de presentacion de objetos 312, mientras que los metadatos de canales pueden ser objeto de un nuevo mapeado de correspondencia si es necesario. La informacion de configuracion del entorno de escucha 307 se proporciona al dispositivo presentador de objetos y al componente de remapeado de canales. Los datos de audio hfbridos se procesan luego por intermedio de una o mas etapas de procesamiento de senales, tales como ecualizadores y limitadores 314 antes de la salida a la etapa de procesamiento de cadena B 316 y la reproduccion por intermedio de altavoces 318. El sistema 300 representa un ejemplo de un sistema de reproduccion para audio adaptativo, y son posibles tambien otras configuraciones, componentes e interconexiones.

El sistema de la Figura 3 ilustra una forma de realizacion en la que el dispositivo de presentacion comprende un componente que aplica metadatos de objetos a los canales de audio de entrada para procesar el contenido de audio basado en el objeto en conjuncion con el contenido de audio basado en el canal opcional. Las formas de realizacion pueden destinarse tambien a un caso en el que los canales de audio de entrada comprenden un contenido basado en canal de legado solamente, y el dispositivo de presentacion comprende un componente que genera alimentaciones de altavoces para la transmision a un conjunto de excitaciones en una configuracion de sonido envolvente. En este caso, la entrada no es necesariamente un contenido con base en el objeto, sino un contenido de legado 5.1 o 7.1 (u registro contenido basado no basado en el objeto), tal como se proporciona en el sistema de Dolby Digital o Dolby Digital Pluralidades o sistemas similares.

Aplicaciones de reproduccion

Segun se indico con anterioridad, una puesta en practica inicial del formato de audio adaptativo y del sistema

5

10

15

20

25

30

35

40

45

50

55

60

65

correspondiente esta en el contexto cinematografico digital (D-cinema) que incluye la captura del contenido (objetos y canales) cuya autona se consigue utilizando nuevas herramientas de autona de edicion, empaquetados utilizados un codificador cinematografico de audio adaptativo, y distribuido utilizando PCM sin perdidas patentado que utiliza el mecanismo de distribucion de Iniciativa Cinematografica Digital (DCI). En este caso, el contenido de audio esta previsto para decodificarse y presentarse en una sala cinematografica digital para crear una experiencia cinematografica de audio espacial inmersiva. Sin embargo, como con las anteriores mejoras cinematograficas, tales como sonido envolvente analogico, audio multicanal digital, etc., existe un imperativo para proporcionar una experiencia del oyente mejorada, proporcionada por el formato de audio adaptativo directamente a los oyentes en su entorno residencial. Lo que antecede requiere que algunas caractensticas del formato y del sistema sean adaptadas para uso en entornos de escucha mas limitados. A modo de ejemplo, domicilios propios, salas, pequenos auditorios o lugares similares pueden tener un espacio reducido, con propiedades acusticas y capacidades de equipo comparables a las de un entorno de sala cinematografica o teatro. Para los fines de la descripcion, el termino “entorno basado en el consumo” esta previsto que se incluya cualquier entorno no cinematografico que comprenda un entorno de escucha para uso por consumidores o profesionales normales, tal como una vivienda, un estudio, una sala, una zona de consola, un auditorio y recinto similar. El contenido de audio puede ser captado en origen y presentado solo o puede asociarse con contenido de graficos, p.ej., imagenes fijas, visualizacion luminosa, video, etc.

La Figura 4A es un diagrama de bloques que ilustra los componentes funcionales para adaptar el contenido de audio basado en cinematograffa para uso en un entorno de escucha en conformidad con una forma de realizacion. Segun se ilustra en la Figura 4A, el contenido cinematografico suele comprender una pista sonora de imagenes animadas que se captura y/o es objeto de autona de edicion utilizando un equipo adecuado y herramientas contenidas en el bloque 402. En un sistema de audio adaptativo, este contenido se procesa mediante la codificacion/decodificacion y presentacion de componentes e interfaces en el bloque 404. El objeto resultante y las alimentaciones de audio de canales se envfan luego a los altavoces adecuados en la sala cinematografica o teatro 406. En el sistema 400, el contenido del sistema se procesa tambien para su reproduccion en un entorno de escucha, tal como un sistema de entorno residencial 416. Se presupone que el entorno de escucha no es global o capaz de reproducir todo el contenido sonoro que esta previsto por el creador de contenidos debido a la limitacion de espacio, numero reducido de altavoces, etc. Sin embargo, las formas de realizacion estan destinadas a sistemas y metodos que permitan que el contenido de audio original sea presentado en una manera que reduzca al mmimo las restricciones impuestos por la capacidad reducida del entorno de escucha y permitan el procesamiento de las pistas posicionales en una manera que haga maximo el rendimiento del equipo disponible. Segun se ilustra en la Figura 4A, el contenido de audio cinematografico se procesa mediante un componente de conversion de ambiente cinematografico a de consumo 408, en donde se procesa en la cadena de codificacion y presentacion de contenidos de consumidores 414. Esta cadena procesa tambien el contenido de audio que se captura y/o es objeto de autona de edicion en el bloque 412. El contenido original y/o el contenido cinematografico convertido se reproducen luego en el entorno de escucha 416. De este modo, la informacion espacial pertinente que se codifica en el contenido de audio puede utilizarse para presentar el sonido en una manera mas inmersiva, incluso utilizando la configuracion de altavoces posiblemente limitada del entorno de escucha o residencial 416.

La Figura 4B ilustra los componentes de la Figura 4A con mayor detalle. La Figura 4B ilustra un mecanismo de distribucion ejemplo para contenido cinematografico de audio adaptativo por intermedio de un ecosistema de reproduccion de audio. Segun se ilustra en la diagrama 420, el contenido de TV y cinematografico original se captura 422 y es objeto de autona de edicion 423 para su reproduccion en una diversidad de entornos diferentes para proporcionar una experiencia cinematografica 427 o experiencias de entornos de consumidores 434. Analogamente, algun contenido generado por el usuario (UGC) o contenido de consumidor se captura 423 y es objeto de autona de edicion 425 para su reproduccion en el entorno de escucha 434. El contenido cinematografico para reproduccion en el entorno cinematografico 427 se procesa mediante procesos cinematograficos conocidos 426. Sin embargo, en el sistema 420, la salida de la caja de herramientas de autona cinematografica 423 consiste tambien en objetos de audio, canales de audio y metadatos que transmiten la intencion artfstica del mezclador de sonidos. Lo que antecede puede conseguirse como un paquete de audio de estilo intermedio que puede utilizarse para crear multiples versiones del contenido cinematografico para su reproduccion. En una forma de realizacion, esta funcionalidad se proporciona por un convertidor de audio adaptativo de entorno cinematografico a entorno del consumidor 430. Este convertidor tiene una entrada para el contenido de audio adaptativo y obtiene a partir de dicho contenido el contenido de audio adecuado y metadatos para los puntos finales del consumidor deseados 434. El convertidor crea salidas de audio y metadatos separadas, y posiblemente diferentes, dependiendo del mecanismo de distribucion y del punto final.

Segun se ilustra en el ejemplo del sistema 420, el convertidor de entorno cinematografico al del consumidor 430 alimenta el sonido para la imagen (difusion, disco, OTT, etc.) y modulos de creacion de flujos de bits de audio de juegos 428. Estos dos modulos que son adecuados para proporcionar un contenido cinematografico, pueden alimentarse en multiples conductos acusticos de distribucion 432, todos los cuales se pueden proporcionar a los puntos finales de consumidores. A modo de ejemplo, el contenido cinematografico de audio adaptativo puede codificarse utilizando un codec adecuado para fines de difusion tal como un Dolby Digital Plus, que puede modificarse para transmitir canales, objetos y metadatos asociados, y se transmite por intermedio de la cadena de difusion mediante cable o satelite y luego, se decodifica y presenta en un entorno residencial o reproduccion

5

10

15

20

25

30

35

40

45

50

55

60

65

televisiva. De modo similar, el mismo contenido podna codificarse utilizando un codec adecuado para distribucion en lmea en donde este limitado el ancho de banda, en donde se transmite luego a traves de una red movil 3G o 4G y luego, se decodifica y presenta para su reproduccion por intermedio de un dispositivo movil con el uso de auriculares. Otras fuentes de contenido tales como TV, difusion en directo, juegos y musica pueden utilizar tambien el formato de audio adaptativo para crear y proporcionar un contenido para un formato de audio de la siguiente generacion.

El sistema de la Figura 4B proporciona experiencia del oyente mejorada por intermedio del ecosistema de audio del consumidor global que puede incluir un entorno residencial (receptor A/V, barra de sonido y BluRay), soportes electronicos (ordenador personal PC, tableta electronica, sistema movil incluyendo reproduccion por auriculares), difusion (TV y decodificador, musica, juegos, sonido en directo, contenido generado por el usuario ("UGC"). Dicho sistema proporciona: una inmersion mejorada para la audiencia para todos los dispositivos de punto final, mayor control artfstico para los creadores de contenido de audio, mejores metadatos dependientes del contenido (descriptivos) para una presentacion mejorada, mayor flexibilidad y escalabilidad para los sistemas de reproduccion, preservacion y coincidencia del timbre y la oportunidad para la presentacion dinamica del contenido sobre la base de la posicion del oyente y de la interaccion. El sistema incluye varios componentes que comprenden nuevas herramientas mezcladoras para creadores de contenidos, herramientas de empaquetado y codificacion nueva y actualizada para distribucion y reproduccion, mezcla y presentacion dinamica en el entorno residencial (adecuado para diferentes configuraciones), localizaciones y disenos de altavoces adicionales.

El sistema de audio adaptativo esta configurado para ser un sistema de audio global, de extremo a extremo y de la siguiente generacion con el uso del formato de audio adaptativo que incluye creacion de contenidos, empaquetado, distribucion y reproduccion/presentacion a traves de un numero amplio de dispositivos de punto final y casos de uso. Segun se ilustra en la Figura 4B, el sistema tiene su origen con el contenido capturado desde y para varios diferentes casos de uso 422 y 424. Estos puntos de captura incluyen todos los formatos de contenido pertinentes incluyendo el formato cinematografico, TV, difusion en directo (y sonido), UGC, juegos y musica. El contenido cuando pasa a traves del ecosistema, pasa a traves de varias fases claves, tales como preprocesamiento y herramientas de autona de audicion, herramientas de conversion (p.ej., conversion de contenido de audio adaptativo para aplicaciones de distribucion de contenidos cinematograficos o de consumidores), empaquetado de audio adaptativo espedfico/codificacion de flujo de bits (que captura datos esenciales de audio asf como metadatos adicionales y la informacion de reproduccion de audio), codificacion de distribucion utilizando codecs nuevos o existentes (p.ej., DD+, TrueHD, Dolby Pulse) para una distribucion eficiente a traves de varios canales de audio, una transmision a traves de los canales de distribucion pertinentes (difusion, disco, movil, Internet, etc.) y por ultimo, presentacion dinamica dependiendo del punto final para reproducir y transmitir la experiencia del oyente de audio adaptativo definida por el creador de contenidos que proporciona las ventajas de la experiencia de audio espacial. El sistema de audio adaptativo puede utilizarse durante la presentacion para un numero ampliamente variable de puntos finales del consumidor, y la tecnica de presentacion que se aplica puede optimizarse dependiendo del dispositivo del punto final. A modo de ejemplo, los sistemas de entorno residencial y barras de sonido pueden tener 2, 3, 5, 7 o incluso 9 altavoces separados en varias localizaciones. Muchos otros tipos de dispositivos tienen solamente dos altavoces (TV, ordenador portatil, caja de musica) y casi todos los dispositivos de uso comun tienen una salida de auriculares (ordenador personal PC, ordenador portatil, tableta electronica, telefono movil, reproductor de musica, etc.).

Los sistemas de autona de edicion y de distribucion actuales para crear un audio sonoro envolvente y proporcionar audio que este previsto para reproduccion para localizaciones de altavoces fijas y predefinidas con conocimiento limitado del tipo de contenido transmitido en la esencia de audio (esto es, el audio real que se reproduce por el sistema de reproduccion). El sistema de audio adaptativo, sin embargo, proporciona un nuevo metodo tubrido para creacion de audio que incluye la opcion para a la vez, audio espedfico de localizacion de altavoz fija (canal izquierdo, canal derecho, etc.) y elementos de audio basados en el objeto que tienen informacion espacial en 3D generalizada que incluye la posicion, magnitud y velocidad. Este metodo dbrido proporciona un enfoque equilibrado para la fidelidad (proporcionada por localizaciones de altavoces fijas) y flexibilidad en la presentacion (objetos de audio generalizados). Este sistema proporciona tambien informacion de utilidad adicional sobre el contenido de audio por intermedio de nuevos metadatos que estan emparejados con la esencia de audio por el creador de contenidos en el momento de la creacion/autona de edicion de contenidos. Esta informacion proporciona detalles sobre los atributos de la senal de audio que pueden utilizarse durante la presentacion. Dichos atributos pueden incluir el tipo de contenido (dialogo, musica, efecto, Foley, fondo/ambiente, etc.) asf como informacion de objeto de audio tal como atributos espaciales (posicion 3D, magnitud de objeto, velocidad, etc.) e informacion de presentacion de utilidad (permitir localizacion de altavoces, pesos de canales, ganancia, informacion de gestion de bajos, etc.). El contenido de audio y los metadatos de intencion de reproduccion pueden crearse bien sea manualmente por el creador de contenidos o bien, crearse mediante el uso de algoritmos de inteligencia multimedia automaticos que pueden ejecutarse en la estructura de fondo durante el proceso de autona de edicion y revisarse por el creador de contenidos durante una fase de control de calidad final, si asf se desea.

La Figura 4C es un diagrama de bloques de los componentes funcionales de un entorno de audio adaptativo en conformidad con una forma de realizacion. Segun se ilustra en el diagrama 450, el sistema procesa un flujo de bits codificado 452 que soporta un flujo de audio basado en canal y basado en objeto dbrido. El flujo de bits se procesa

5

10

15

20

25

30

35

40

45

50

55

60

65

mediante el bloque de procesamiento de senal/presentacion 454. En una forma de realizacion, al menos partes de este bloque funcional pueden ponerse en practica en el bloque de presentacion 312 ilustrado en la Figura 3. La funcion de presentacion 454 pone en practica varios algoritmos de presentacion para audio adaptativo, asf como algunos algoritmos post-procesamiento tales como mezcla ascendente, procesamiento de sonido directo en comparacion con el sonido reflejado, y similares. La salida desde el dispositivo de presentacion se proporciona a los altavoces 458 mediante interconexiones bidireccionales 456. En una forma de realizacion, los altavoces 458 comprenden varios controladores individuales que pueden disponerse en una configuracion de sonido envolvente o similar. Los controladores son individualmente direccionables y pueden materializarse en recintos individuales o armarios o redes de multiples controladores. El sistema 450 puede incluir tambien microfonos 460 que proporcionan mediciones del entorno de escucha o caractensticas de la sala que puede utilizarse para calibrar el proceso de presentacion. Las funciones de calidad y configuracion del sistema se proporcionan en el bloque 462. Estas funciones pueden incluirse como parte de los componentes de presentacion, o pueden ponerse en practica como componentes separados que estan funcionalmente acoplados al dispositivo de presentacion. Las interconexiones bidireccionales 456 proporcionan la ruta de senal de realimentacion acustica desde los altavoces en el entorno de escucha de nuevo hacia el componente de calibracion 462.

Entornos de escucha

Puestas en practica del sistema de audio adaptativo pueden desplegarse en una diversidad de entornos de escucha diferentes. Estos ultimos incluyen tres areas primarias de aplicaciones de reproduccion de audio: sistemas de entorno residencial, televisiones y barras acusticas asf como auriculares. La Figura 5 ilustra el despliegue de un sistema de audio adaptativo en un entorno residencial a modo de ejemplo. El sistema ilustrado en la Figura 5 es un superconjunto de componentes y funciones que puede proporcionarse por un sistema de audio adaptativo y algunos aspectos pueden reducirse o eliminarse sobre la base de las necesidades del oyente, al mismo tiempo que se proporciona una experiencia mejorada. El sistema 500 incluye varios altavoces diferentes y controladores en una diversidad de armarios o redes diferentes 504. Los altavoces incluyen controladores individuales que proporcionan opciones de proyeccion frontal, lateral y hacia arriba asf como una virtualizacion dinamica de audio utilizando algunas tecnicas de procesamiento de audio. El diagrama 500 ilustra varios altavoces desplegados en una configuracion de altavoces 9.1 estandar. Estos altavoces de altura izquierdo y derecho (LH, RH), altavoces izquierdos y derechos (L, R), un altavoz central (ilustrado como un altavoz central modificado) y altavoces envolventes izquierdo y derecho y posteriores (LS, RS, LB y RB, no siendo ilustrado el elemento de baja frecuencia LFE).

La Figura 5 ilustra el uso de un altavoz de canal central 510 utilizado en una localizacion central del entorno de escucha. En una forma de realizacion, este altavoz se pone en practica utilizando un canal central modificado o un canal central de alta resolucion 510. Dicho altavoz puede ser una red de canal central de proyeccion frontal con altavoces individualmente direccionables que permiten panoramicas discretas de objetos de audio mediante la red que hace coincidir el movimiento de los objetos de video en la pantalla. Puede materializarse como un altavoz de canal central de alta resolucion (HRC), tal como se describe en la solicitud internacional n° PCT/US2011/028783. El altavoz HRC 510 puede incluir tambien altavoces de proyeccion lateral, segun se ilustra. Estos ultimos podnan activarse y utilizarse si el altavoz HRC se utiliza no solamente como un altavoz central sino tambien como un altavoz con capacidades de barra de sonido. El altavoz HRC puede incorporarse tambien por encima y/o las partes laterales de la pantalla 502 para proporcionar una opcion de obtener panoramicas de alta resolucion bidimensional para objetos de audio. El altavoz central 510 podna incluir tambien controladores adicionales y poner en practica un haz sonoro direccionable con zonas sonoras controladas por separado.

El sistema 500 incluye tambien un altavoz de efecto de campo cercano (NFE) 512 que puede localizarse en la parte frontal derecha o proximo en frente del oyente que escucha, tal como sobre la base en frente de un lugar de asiento. Con el audio adaptativo es posible llevar objetos de audio a la sala y no solamente enclavarse para el penmetro de la sala. Por lo tanto, tener objetos en sentido transversal a traves del espacio tridimensional es una opcion. Una realizacion ejemplo es donde un objeto puede originarse en el altavoz L, desplazarse a traves del entorno de escucha hacia el altavoz NFE y terminar en el altavoz RS. Varios altavoces diferentes pueden ser adecuados para uso como un altavoz NFE, tal como un altavoz inalambrico alimentado por batenas.

La Figura 5 ilustra el uso de virtualizacion de altavoz dinamica para proporcionar una experiencia del oyente inmersiva en el entorno de escucha residencial. La virtualizacion de altavoces de tipo dinamico se permite mediante el control dinamico de los parametros de algoritmos de virtualizacion de altavoces sobre la base de la informacion espacial de objetos que se proporciona por el contenido de audio adaptativo. Esta virtualizacion dinamica se ilustra en la Figura 5 para los altavoces L y R en donde es natural considerarla para crear la percepcion de objeto que se desplazan a lo largo de las partes laterales del entorno de escucha. Un virtualizador separado puede utilizarse para cada objeto pertinente y la senal combinada puede enviarse a los altavoces L y R para crear un efecto de virtualizacion de objeto multiple. Los efectos de virtualizacion de tipo dinamico se ilustran para los altavoces L y R, asf como para el altavoz NFE, que esta previsto para ser un altavoz estereo (con dos entradas independientes). Este altavoz, junto con la informacion de magnitud y posicion de audio, podna utilizarse para crear una experiencia de audio de campos cercanos de origen puntual o difuso. Efectos de virtualizacion similares pueden aplicarse tambien a cualquiera o la totalidad de los demas altavoces en el sistema. En una forma de realizacion, una camara puede

5

10

15

20

25

30

35

40

45

50

55

60

65

proporcionar informacion de posicion y de identidad adicional del oyente que podna utilizarse por el dispositivo de presentacion de audio adaptativo para proporcionar una experiencia mas impresionante y mas verdadera para la intencion artfstica del mezclador.

El dispositivo de presentacion de audio adaptativo entiende la relacion espacial entre el sistema de mezcla y de reproduccion. En algunas instancias operativas de un entorno de reproduccion, altavoces discretos pueden estar disponibles en todas las zonas pertinentes del entorno de escucha, incluyendo posiciones de auriculares segun se ilustra en la Figura 1. En estos casos en donde altavoces discretos estan disponibles en algunas localizaciones, el dispositivo de presentacion puede configurarse para fijar objetos para los altavoces mas proximos en lugar de crear una imagen fantasma entre dos o mas altavoces mediante la funcion de obtener panoramicas o el uso de algoritmos de virtualizacion de altavoces. Aunque distorsiona ligeramente la representacion espacial de la mezcla, permite tambien al dispositivo de presentacion evitar imagenes fantasmas imprevistas. A modo de ejemplo, si la posicion angular de altavoz izquierdo de la etapa de mezcla no corresponde a la posicion angular del altavoz izquierdo del sistema de reproduccion, lo que permite a esta funcion evitar tener una imagen fantasma constante del canal izquierdo inicial.

En numerosos casos, sin embargo, y en particular en un entorno residencial, algunos altavoces, tales como los altavoces aereos montados en el techo no estan disponibles. En este caso, algunas tecnicas de virtualizacion son puestas en practica por el dispositivo de presentacion para reproducir un contenido de audio aereo a traves de los altavoces montados en las paredes o suelo existentes. En una forma de realizacion, el sistema de audio adaptativo incluye una modificacion para la configuracion estandar mediante la inclusion de, a la vez, una capacidad de proyeccion frontal y una capacidad de proyeccion superior (o "hacia arriba") para cada altavoz. En las aplicaciones domesticas tradicionales, los fabricantes de altavoces han intentado introducir nuevas configuraciones controladoras distintas a los transductores de proyeccion frontal y se han enfrentado con el problema de intentar identificar cuales de las senales de audio originales (o modificaciones de ellas) deben enviarse a estos nuevos controladores. Con el sistema de audio adaptativo, existen una informacion muy espedfica con respecto a que objeto de audio debe presentarse por encima del plano horizontal estandar. En una forma de realizacion, se presenta la informacion de altura presente en el sistema de audio adaptativo utilizando los controladores de proyeccion hacia arriba. Analogamente, los altavoces de proyeccion lateral pueden utilizarse para presentar algun otro contenido, tal como efectos ambientales.

Una ventaja de los controladores de proyeccion hacia arriba es que pueden utilizarse para reflejar sonido fuera de una superficie de techo para simular la presencia de altavoces aereos/de altura situados en el techo. Un atributo importante del contenido de audio adaptativo es que el audio espacialmente diverso se reproduce utilizando una red de altavoces aereos. Segun se indico con anterioridad, sin embargo, en numerosos casos, la instalacion de altavoces aereos es demasiado costosa o no resulta practica en un entorno residencial. Simulando altavoces de altura que utilizan altavoces normalmente situados en el plano horizontal, una experiencia en 3D impresionante puede crearse con facilidad para situar los altavoces. En este caso, el sistema de audio adaptativo esta utilizando los controladores de simulacion de altura/proyeccion hacia arriba en una nueva forma en la que los objetos de audio y su informacion de reproduccion espacial se esta utilizando para crear el audio que se reproduce por los controladores de proyeccion hacia arriba.

La Figura 6 ilustra el uso de un controlador de proyeccion hacia arriba que utiliza sonido reflejado para simular un altavoz aereo unico en un entorno residencial. Conviene senalar que cualquier numero de controladores de proyeccion hacia arriba podna utilizarse en combinacion para crear multiples altavoces de altura simulados. Como alternativa, varios controladores de proyeccion hacia arriba pueden configurarse para transmitir sonido a practicamente el mismo lugar en el techo para conseguir un determinado efecto o intensidad sonora. El diagrama 600 ilustra un ejemplo en el que la posicion de escucha usual 602 esta situada en un lugar particular dentro de un entorno de escucha. El sistema no incluye cualesquiera altavoces de altura para transmitir un contenido de audio que contenga pistas de altura. En cambio, el armario de altavoces o la red de altavoces 604 incluye un controlador de proyeccion hacia arriba junto con los controladores de proyeccion frontal. El controlador de proyeccion hacia arriba esta configurado (con respecto al angulo de localizacion e inclinacion) para enviar la onda sonora 606 hasta un punto particular en el techo 608 en donde se reflejara de nuevo hacia la posicion de escucha 602. Se supone que el techo esta constituido por un material y composicion adecuados para reflejar adecuadamente el sonido hacia abajo en el entorno de escucha. Las caractensticas pertinentes del controlador de proyeccion hacia arriba (p.ej., tamano, potencia, localizacion, etc.) pueden seleccionarse sobre la base de la composicion del techo, magnitud de la sala y otras caractensticas pertinentes del entorno de escucha. Aunque solamente el controlador de proyeccion hacia arriba se ilustra en la Figura 6, multiples controladores de proyeccion hacia arriba pueden incorporarse en un sistema de reproduccion en algunas formas de realizacion.

En conformidad con la invencion, el sistema de audio adaptativo utiliza controladores de proyeccion hacia arriba para proporcionar el elemento de altura. En conformidad con la invencion, la incorporacion de procesamiento de senal para introducir pistas de altura de percepcion en la senal de audio que se alimenta a los controladores de proyeccion hacia arriba mejora el posicionamiento y la calidad percibida de la senal de altura virtual. A modo de ejemplo, un modelo de audicion binaural perceptual parametrica se ha desarrollado para crear un filtro de pista de altura, que cuando se utiliza para procesar las senales de audio que se reproducen por un controlador de proyeccion

5

10

15

20

25

30

35

40

45

50

55

60

65

hacia arriba mejora la calidad percibida de la reproduccion. En una forma de realizacion, el filtro de pista de altura se deriva de la localizacion del altavoz ffsico (aproximadamente a nivel con el oyente y la localizacion del altavoz reflejado (por encima del oyente). Para la localizacion del altavoz ffsico, se determina un filtro direccional sobre la base de un modelo del ofdo exterior (o pabellon aurficular). Una forma inversa de este filtro se determina a continuacion y se utiliza para eliminar las pistas de altura desde el altavoz ffsico. A continuacion, para la localizacion del altavoz reflejado, se determina un segundo filtro direccional utilizando el mismo modelo del ofdo externo. Este filtro se aplica directamente, con la reproduccion esencial de las pistas que el ofdo recibiffa si el sonido estuviera por encima del oyente. En la practica, estos filtros pueden combinarse en una manera que permita un filtro unico que, a la vez, (1) elimina la pista de altura desde la localizacion del altavoz ffsico y (2) inserte la pista de altura desde la localizacion del altavoz reflejado. La Figura 16 es un grafico que ilustra la respuesta de frecuencia para dicho filtro combinado. El filtro combinado puede utilizarse de tal manera que permita alguna ajustabilidad con respecto a la 'agresividad' o la magnitud del filtrado que se aplica. A modo de ejemplo, en algunos casos, puede ser ventajoso no eliminar completamente la pista de altura del altavoz ffsico, o aplicar totalmente la pista de altura del altavoz reflejado puesto que solamente parte del sonido del altavoz ffsico llega directamente al oyente (con el resto siendo reflejado desde el techo).

Configuracion de altavoces

Una consideracion principal del sistema de audio adaptativo es la configuracion de altavoces. El sistema utiliza controladores individualmente direccionables y una red de dichos controladores esta configurada para proporcionar una combinacion de fuentes sonoras directas y reflejadas. Un enlace bidireccional al controlador del sistema (p.ej., receptor A/V, decodificador), permite que los datos de audio y de configuracion sean enviados al altavoz y la informacion del altavoz y del sensor sea enviada de nuevo al controlador, creando un sistema en bucle cerrado activo.

Para los fines de la descripcion, el termino “controlador” significa un transductor electroacustico unico que produce sonidos en respuesta a una senal de entrada de audio electrica. Un controlador puede ponerse en practica en cualquier tipo, geometffa y tamano adecuados y puede incluir bocinas, conos, transductores de cinta y componentes similares. El termino “altavoz” significa uno o mas controladores en un recinto unitario. La Figura 7A ilustra un altavoz que tiene una pluralidad de controladores en una primera configuracion, en conformidad con una forma de realizacion. Segun se ilustra en la Figura 7A, un recinto de altavoces 700 tiene varios controladores individuales montados dentro del recinto. En condiciones normales, el recinto incluira uno o mas controladores de proyeccion frontal 702, tales como altavoces de graves, altavoces de gama media o altavoces de agudos o cualquiera de sus combinaciones. Uno o mas controladores de proyeccion lateral 704 pueden incluirse tambien a este respecto. Los controladores de proyeccion frontal y lateral suelen estar montados a tope contra la parte lateral del recinto, de modo que proyecten el sonido perpendicularmente hacia fuera desde el plano vertical definido por el altavoz y estos controladores suelen estar permanentemente fijos dentro del armario 700. Para el sistema de audio adaptativo que tiene la funcionalidad de presentacion del sonido reflejado se proporcionan tambien uno o mas controladores inclinados hacia arriba 706. Estos controladores estan situados de modo que proyecten sonido en un angulo hacia arriba al techo en donde pueden rebotar luego hacia un oyente, segun se ilustra en la Figura 6. El lado de inclinacion puede establecerse dependiendo de las caracteffsticas del entorno de escucha y de los requisitos del sistema. A modo de ejemplo, el controlador de proyeccion hacia arriba 706 puede incluirse entre 30 y 60 grados y puede situarse por encima del controlador de proyeccion frontal 702 en el recinto de altavoces 700 con el fin de minimizar la interferencia con las ondas sonoras producidas desde el controlador de proyeccion frontal 702. El controlador de proyeccion hacia arriba 706 puede instalarse en un angulo fijo, o puede instalarse de modo que el angulo de inclinacion se pueda ajustar manualmente. Como alternativa, un servomecanismo puede utilizarse para permitir el control automatico o electrico del angulo de inclinacion y la direccion de proyeccion del controlador de proyeccion hacia arriba. Para algunos sonidos, tal como un sonido ambiente, el controlador de proyeccion hacia arriba puede apuntarse directamente desde una superficie superior del recinto de altavoces 700 para crear lo que podffa referirse como un controlador de "proyeccion superior". En este caso, una gran componente del sonido puede reflejarse de nuevo hacia el altavoz, dependiendo de las caracteffsticas acusticas del techo. En la mayor parte de los casos, sin embargo, algun angulo de inclinacion se suele utilizar para ayudar a proyectar el sonido mediante la recepcion desde el techo a una posicion diferente o mas central dentro del entorno de escucha, segun se ilustra en la Figura 6.

La Figura 7A esta prevista para ilustrar un ejemplo de una configuracion de altavoces y controladores, y son posibles muchas otras configuraciones. A modo de ejemplo, el controlador de proyeccion hacia arriba puede proporcionarse en su propio recinto para permitir el uso de los altavoces existentes. La Figura 7B ilustra un sistema de altavoces que tienen controladores distribuidos en multiples recintos, en conformidad con una forma de realizacion. Segun se ilustra en la Figura 7B, el controlador de proyeccion hacia arriba 712 esta provisto en un recinto separado 710, que puede colocarse luego proximo a o por encima de un recinto 714 que tiene controladores de proyeccion frontal y/o lateral 716 y 718. Los controladores pueden encerrarse tambien dentro de una barra de sonido de altavoz, tal como se utiliza en numerosos entornos de salas residenciales, en donde un numero de controladores de tamano pequeno o medio estan dispuestos a lo largo de un eje dentro de un recinto vertical u horizontal unico. La Figura 7C ilustra la colocacion de controladores dentro de una barra de sonido, en conformidad con una forma de realizacion. En este ejemplo, el recinto de barra de sonido 730 es una barra de sonido horizontal que incluye controladores de proyeccion lateral 734, controladores de proyeccion hacia arriba 736 y controladores de proyeccion frontal 732. La

5

10

15

20

25

30

35

40

45

50

55

60

65

Figura 7C esta prevista para ser una configuracion ejemplo solamente, y cualquier numero practico de controladores para cada una de las funciones - proyeccion frontal, lateral y hacia arriba - puede utilizase a este respecto.

Para la forma de realizacion ilustrada en las Figuras 7A-C, debe indicarse que los controladores pueden ser de cualquier forma, tamano y tipo adecuados, dependiendo de las caractensticas de respuestas de frecuencias requeridas, asf como de cualesquiera otras limitaciones pertinentes, tales como magnitud, potencia nominal, coste de componentes, etc.

En un entorno de audio adaptativo tfpico, varios recintos de altavoces estaran contenidos dentro del entorno de escucha. La Figura 8 ilustra una colocacion, a modo de ejemplo, de altavoces que tienen controladores individualmente direccionables incluyendo controladores de proyeccion hacia arriba situados dentro de un entorno de escucha. Segun se ilustra en la Figura 8, el entorno de escucha 800 incluye cuatro altavoces individuales 806 teniendo cada uno de ellos al menos un controlador de proyeccion frontal, proyeccion lateral y proyeccion hacia arriba. El entorno de escucha puede contener tambien controladores fijos utilizados para aplicaciones de sonido envolvente, tales como un altavoz central 802 y altavoz de graves o LFE 804. Como puede observarse en la Figura 8, dependiendo de la magnitud del entorno de escucha y de las respectivas unidades de altavoces, la colocacion adecuada de altavoces 806 dentro del entorno de escucha puede proporcionar un entorno de audio funcionalmente rico que resulte de la recepcion de sonidos desde el techo procedente de varios controladores de proyeccion hacia arriba. Los altavoces pueden tener como objetivo proporcionar una reflexion de uno o mas puntos en el plano del techo dependiendo del contenido, de la magnitud del entorno de escucha, de la posicion del oyente, de las caractensticas acusticas y de otros parametros pertinentes.

Los altavoces utilizados en un sistema de audio adaptativo para un entorno residencial o entorno de escucha similar puede utilizar una configuracion que este basada en configuraciones de sonido envolvente ya existentes (p.ej., 5.1, 7.1, 9.1, etc.). En este caso, varios controladores se proporcionan y definen segun el convenio de sonido envolvente conocido, con controladores adicionales y definiciones establecidas para los componentes de sonido de proyeccion hacia arriba.

La Figura 9A ilustra una configuracion de altavoz para un sistema de audio adaptativo 5.1 que utiliza multiples controladores direccionables para audio reflejado, en conformidad con una forma de realizacion. En la configuracion 900, una huella de altavoz 5.1 estandar que comprende LFE 901, un altavoz central 902, altavoces frontales L/R 904/906 y altavoces posteriores L/R 908/910 estan provistos de ocho controladores adicionales que proporcionan un total de 14 controladores direccionables. Estos ocho controladores adicionales se indican como "hacia arriba" y "hacia parte lateral" ademas de "hacia delante" (o "frontal") en cada unidad de altavoces 902-910. Los controladores hacia delante directos senan controlados por subcanales que contienen objetos de audio adaptativo y cualesquiera otros componentes que designen para tener un alto grado de direccionalidad. Los controladores con proyeccion hacia arriba (reflejados) podnan contener un contenido de subcanales que sea mas omnidireccional o sin direccion, pero no esta asf limitado. Ejemplos incluinan la musica de fondo, o sonidos medioambientales. Si la entrada al sistema comprende un contenido de sonido envolvente de legado, en tal caso, este contenido podna ser inteligentemente plasmado en subcanales directos y reflejados y alimentados a los controladores adecuados.

Para los subcanales directos, el recinto de altavoces contendna controladores en los que el eje medio del controlador bisecta el "punto ideal", o el centro acustico del entorno de escucha. Los controladores de proyeccion hacia arriba estanan situados de modo que el angulo entre el plano medio del controlador y el centro acustico sena a un angulo en el margen de 45 a 180 grados. En el caso de posicionamiento del controlador a 180 grados, el controlador de proyeccion hacia atras podna proporcionar difusion acustica mediante la reflexion desde una pared posterior. Esta configuracion utiliza el principal acustico que despues de la alineacion temporal de los controladores con proyeccion hacia arriba con los controladores directos, las componentes de senal de llegada pronta sena coherente mientras que los componentes de llegada tardfa se beneficianan de la difusion natural proporcionada por el entorno de escucha.

Con el fin de conseguir las pistas de altura proporcionadas por el sistema de audio adaptativo, los controladores de proyeccion hacia arriba podnan angularse hacia arriba desde el plano horizontal y en el extremo, podnan posicionarse para radiar en sentido directo y reflejar desde una o mas superficies reflectoras tales como un falso techo, o un difusor acustico situado inmediatamente por encima del recinto. Para proporcionar una direccionalidad adicional, el altavoz central podna utilizar una configuracion de barra de sonido (tal como la ilustrada en la Figura 7C) con la capacidad para dirigir el sonido a traves de la pantalla para proporcionar un canal central de alta resolucion.

La configuracion 5.1 de la Figura 9A podna expandirse anadiendo dos recintos posteriores adicionales similares a una configuracion estandar 7.1. La Figura 9B ilustra una configuracion de altavoces para un sistema de audio adaptativo 7.1 que utiliza multiples controladores direccionables para el audio reflejado, en conformidad con dicha forma de realizacion. Segun se ilustra en la configuracion 920, los dos recintos adicionales 922 y 924 estan colocados en las posiciones de “envolvente del lado izquierdo” y “envolvente del lado derecho” con los altavoces laterales apuntando hacia las paredes laterales en forma similar a los recintos frontales y los controladores de proyeccion hacia arriba establecidos para el rebote desde el techo a medio camino entre los pares frontales y

5

10

15

20

25

30

35

40

45

50

55

60

65

posteriores existentes. Dichas adiciones incrementales pueden realizarse tantas veces como sea deseable, con los pares adicionales rellenado los espacios vados a lo largo de las paredes laterales o posteriores. Las Figuras 9A y 9B ilustran solamente algunos ejemplos de posibles configuraciones de disposiciones de altavoces de sonido envolvente extendidas que pueden utilizarse en conjuncion con altavoces de proyeccion hacia arriba o lateral en un sistema de audio adaptativo para entornos de escucha, y muchas otras configuraciones son tambien posibles.

Como una alternativa a las n.1 configuraciones anteriormente descritas, se puede utilizar un sistema basado en un soporte mas flexible en donde cada controlador esta contenido dentro de su propio recinto, que podna montarse luego en cualquier posicion conveniente. Esta disposicion utilizana una configuracion de controladores tal como se ilustra en la Figura 7B. Estas unidades individuales pueden agruparse luego en una manera similar a las n.1 configuraciones, o podnan dispersarse individualmente alrededor del entorno de escucha. Los soportes no estan necesariamente restringidos a colocarse en los bordes del entorno de escucha, sino que podnan colocarse tambien en cualquier superficie en su interior (p.ej., mesa de cafe, estante de librena, etc.). Dicho sistema sena facil de expandir, permitiendo al usuario anadir mas altavoces en el transcurso del tiempo para crear una experiencia mas inmersiva. Si los altavoces son inalambricos, entonces el sistema de soporte podna incluir la capacidad para establecer altavoces para fines de recarga. En este diseno, los soportes podnan establecerse juntos de modo que actuaran como un altavoz unico mientras se recargan, quizas para la escucha de una musica estereo, y luego, desbloqueados y situados alrededor del entorno de escucha para contenido de audio adaptativo.

Con el fin de mejorar la configurabilidad y exactitud del sistema de audio adaptativo utilizando controladores direccionables de proyeccion hacia arriba, varios sensores y dispositivos de realimentacion podnan anadirse a los recintos para informar al presentador sobre las caractensticas que podnan utilizarse en el algoritmo de presentacion. A modo de ejemplo, un microfono instalado en el recinto permitina al sistema medir las caractensticas de fase, frecuencia y reverberacion del entorno de escucha, junto con la posicion de los altavoces en relacion mutua con cada uno utilizando una triangulacion y las funciones de HRTF (Transferencia relacionada con la cabeza) de los propios recintos. Sensores inerciales (p.ej., giroscopios, brujulas, etc.) podnan utilizarse para detectar la direccion y el angulo de los recintos; y sensores opticos y visuales (p.ej., utilizando un goniometro de infrarrojos basado en laser) podnan utilizarse para proporcionar informacion posicional relativa al propio entorno de escucha. Lo que antecede representa solamente unas pocas posibilidades de sensores adicionales que podnan utilizarse en el sistema, siendo tambien posible la incorporacion de otros.

Dichos sistemas sensores pueden ampliarse todavfa mas permitiendo la posicion de los controladores y/o los modificadores acusticos de los recintos para ser automaticamente ajustables mediante servomecanismos electromecanicos. Lo que antecede permitina el cambio de la direccionalidad de los controladores en el tiempo de ejecucion para adaptar su posicionamiento en el entorno de escucha en relacion con las paredes y otros controladores (“direccion activa”). De modo similar, cualesquiera modificadores acusticos (tales como deflectores, bocinas o grnas de ondas) podnan sintonizarse para proporcionar las respuesta de frecuencia y de fase correctas para una reproduccion optima en cualquier configuracion del entorno de escucha (“sintonizacion activa”). Ambas funciones de direccion activa y sintoma activa podnan realizarse durante la configuracion del entorno de escucha inicial (p.ej., en conjuncion con el sistema de configuracion de sala automatica/EQ automatica) o durante la reproduccion en respuesta al contenido que se presenta.

Interconexion bidireccional

Una vez configurados, los altavoces deben conectarse al sistema de presentacion. Las interconexiones tradicionales suelen ser de dos tipos: entrada al nivel de altavoz para altavoces pasivos y entrada a nivel de lmea para altavoces activos. Segun se ilustra en la Figura 4C, el sistema de audio adaptativo 450 incluye una funcion de interconexion bidireccional. Esta interconexion se materializa dentro de un conjunto de conexiones ffsicas y logicas entre la etapa de presentacion 454 y el amplificador/altavoz 458 y las etapas microfonicas 460. La capacidad para dirigir multiples controladores en cada armario de altavoces se soporta por estas interconexiones inteligentes entre la fuente sonora y el altavoz. La interconexion bidireccional permite la transmision de senales desde la fuente sonora (presentador) al altavoz con la inclusion de las senales de control y de la senales de audio. La senal desde el altavoz a la fuente del sonido consiste en senales de control y senales de audio, en donde las senales de audio, en este caso, tienen un origen de audio desde los microfonos incorporados opcionales. La potencia puede proporcionarse tambien como para de la interconexion bidireccional, al menos para el caso en donde no se alimentan por separado los altavoces/controladores.

La Figura 10 es un diagrama 1000 que ilustra la composicion de una interconexion bidireccional en conformidad con una forma de realizacion. La fuente sonora 1002, que puede representar un dispositivo presentador mas una cadena de procesadores de sonido/amplificadores, esta logica y ffsicamente acoplada al armario de altavoces 1004 por intermedio de un par de enlaces de interconexion 1006 y 1008. La interconexion 1006 desde la fuente sonora 1002 a los controladores 1005 dentro del armario de altavoces 1004 comprende una senal electroacustica para cada controlador, una o mas senales de control y una potencia opcional. La interconexion 1008 desde el armario de altavoces 1004 de nuevo hacia la fuente del sonido 1002 comprende senales sonoras procedentes del microfono 1007 u otros sensores para calibracion del presentador u otra funcionalidad de procesamiento de sonido similar. La interconexion de realimentacion 1008 contiene tambien algunas definiciones y parametros de controladores que se

5

10

15

20

25

30

35

40

45

50

55

60

65

utilizan por el presentador para modificar o procesar las senales sonoras establecidas para los controladores sobre la interconexion 1006.

En una forma de realizacion, a cada controlador en cada uno de los armarios del sistema se le asigna un identificador (p.ej., una asignacion numerica) durante la configuracion del sistema. Cada armario de altavoces (recinto) puede ser tambien identificado de forma unica. Esta asignacion numerica se utiliza por el armario de altavoces para determinar que senal de audio se envfa a que controlador dentro del armario. La asignacion se memoriza en el armario de altavoces en un dispositivo de memoria adecuado. Como alternativa, cada controlador puede configurarse para memorizar su propio identificador en la memoria local. En otra alternativa, tal como una en la que los controladores/altavoces no tengan ninguna capacidad de memorizacion local, los identificadores pueden memorizarse en la etapa de presentacion u otro componente dentro de la fuente del sonido 1002. Durante un proceso de descubrimiento de altavoces, cada altavoz (o una base de datos central) se consulta por la fuente de sonido para conocer su perfil. El perfil define algunas definiciones de controladores incluyendo el numero de controladores en un armario de altavoces u otra red definida, las caractensticas acusticas de cada controlador (p.ej., tipo de controlador, respuesta de frecuencia, etc.), la posicion x,y,z del centro de cada controlador en relacion con el centro de la cara frontal del armario de altavoces, el angulo de cada controlador con respecto a un plano definido (p.ej., techo, suelo, ejes verticales del armario, etc.) y el numero de microfonos y caractensticas microfonicas. Otro controlador pertinente y parametros de microfono/sensor pueden tambien definirse a este respecto. En una forma de realizacion, las definiciones de controladores y el perfil del armario de altavoces puede expresarse como uno o mas documentos XML utilizados por el presentador.

En una posible puesta en practica, se crea una red de control de Protocolo Internet (IP) entre la fuente de sonido 1002 y el armario de altavoces 1004. Cada armario de altavoces y fuente del sonido actua como un punto final de red unico y se les proporciona una direccion local-enlace en la inicializacion o activacion inicial. Un mecanismo de autodescubrimiento tal como una red de configuracion cero (zeroconf) puede utilizarse para permitir a la fuente de sonido localizar cada altavoz en la red. Las redes de configuracion de ceros son un ejemplo de un proceso que crea automaticamente una red IP utilizable sin intervencion manual del operador o servidores de configuracion especiales, y se pueden utilizar otras tecnicas similares. Dado un sistema de red inteligente, multiples fuentes pueden residir en la red IP como los altavoces. Esto permite que multiples fuentes exciten directamente los altavoces sin encaminar el sonido a traves de una fuente de audio “maestra” (p.ej., receptor A/V tradicional). Si otra fuente intenta direccionar los altavoces, se realizan comunicaciones entre todas las fuentes para determinar que fuente esta actualmente “activa”, si el hecho de estar activa es necesario y si el control puede ser objeto de transicion a una nueva fuente de sonido. A las fuentes se les puede asignar una prioridad durante la fabricacion sobre la base de su clasificacion, a modo de ejemplo, una fuente de telecomunicaciones puede tener una mas alta prioridad que una fuente de actividades recreativas. En un entorno de multiples espacios, tal como un entorno residencial tfpico, todos los altavoces dentro del entorno global pueden residir en una red unica, pero pueden no necesitar direccionarse de forma simultanea. Durante el establecimiento y configuracion automatica, el nivel acustico proporcionado sobre la interconexion 1008 puede utilizarse para determinar que altavoces estan situados en el mismo espacio ffsico. Una vez que se determine esta informacion, los altavoces pueden agruparse en agrupamientos denominados cluster. En este caso, los identificadores IDs de cluster pueden asignarse y formar parte de las definiciones del controlador. El ID de cluster se envfa a cada altavoz, y cada cluster puede direccionarse simultaneamente por la fuente de sonido 1002.

Segun se ilustra en la Figura 10, una senal de potencia opcional puede transmitirse a traves de la interconexion bidireccional. Los altavoces pueden ser pasivos (que necesitan alimentacion externa desde la fuente del sonido) o activos (que requieren alimentacion desde una toma de energfa electrica). Si el sistema de altavoces consiste en altavoces activos sin soporte inalambrico, la entrada al altavoz consiste en una entrada Ethernet cableada en cumplimiento con la norma IEEE 802.3. Si el sistema de altavoces consiste en altavoces activos con soporte inalambrico, la entrada al altavoz consiste en una entrada Ethernet inalambrica en cumplimiento con la norma IEEE 802.11 o como alternativa, un estandar inalambrico especificado por la organizacion de WISA. Altavoces pasivos pueden proporcionarse por senales de alimentacion adecuadas proporcionadas directamente por la fuente del sonido.

Configuracion y calibracion del sistema

Segun se ilustra en la Figura 4C, la funcionalidad del sistema de audio adaptativo incluye una funcion de calibracion 462. Esta funcion esta habilitada por el microfono 1007 y los enlaces de interconexion 1008 ilustrados en la Figura 10. La funcion del componente microfonico en el sistema 1000 es medir la respuesta de los controladores individuales en el entorno de escucha con el fin de derivar una respuesta del sistema global. Multiples topologfas microfonicas pueden utilizarse para esta finalidad, incluyendo un microfono unico o una red de microfonos. El caso mas simple es donde un microfono de medicion omnidireccional unico, situado en el centro del entorno de escucha, se utiliza para medir la respuesta de cada controlador. Si el entorno de escucha y las condiciones de reproduccion garantizan un analisis mas refinado, pueden utilizarse, en su lugar, multiples microfonos. La localizacion mas adecuada para multiples microfonos es dentro de los armarios de altavoces ffsicos de la configuracion de altavoces particulares que se utiliza en el entorno de escucha. Los microfonos instalados en cada recinto permiten al sistema medir la respuesta de cada controlador, en multiples posiciones en un entorno de escucha. Una alternativa a esta

5

10

15

20

25

30

35

40

45

50

55

60

65

topologfa es utilizar multiples microfonos de medicion omnidireccional situados en localizaciones mas probables dentro del entorno de escucha.

Los microfonos se utilizan para permitir la configuracion automatica y la calibracion de los algoritmos de post- procesamiento y del presentador. En el sistema de audio adaptativo, el presentador es responsable de convertir un objeto tffbrido y un flujo de audio basado en canal en senales de audio individuales designadas para controladores direccionables espedficos, dentro de uno o mas altavoces individuales. El componente de post-procesamiento puede incluir: funcionalidades de retardo, ecualizacion, ganancia, virtualizacion de altavoces y mezcla ascendente. La configuracion de los altavoces representa una informacion frecuentemente cntica que el componente del presentador puede utilizar para convertir un objeto tffbrido y flujo de audio basado en canal en senales de audio individuales por controlador para proporcionar una reproduccion optima del contenido de audio. La informacion de configuracion del sistema incluye: (1) el numero de altavoces ffsicos en el sistema, (2) el numero de controladores individualmente direccionables en cada altavoz, y (3) la posicion y la direccion de cada controlador individualmente direccionable, en relacion con la geometna del entorno de escucha. Otras caractensticas son tambien posibles. La Figura 11 ilustra la funcion de una configuracion automatica y de un componente de calibracion del sistema, en conformidad con una forma de realizacion. Segun se ilustra en el diagrama 1100, una red matricial 1102 de uno o mas microfonos proporciona informacion acustica al componente de configuracion y de calibracion 1104. Esta informacion acustica captura algunas caractensticas pertinentes del entorno de escucha. El componente de configuracion y de calibracion 1104 proporciona, entonces, esta informacion al dispositivo presentador 1106 y cualesquiera componentes de post-procesamiento pertinentes 1108 de modo que las senales de audio que se envfan, en ultima instancia, a los altavoces sean ajustadas y optimizadas para el entorno de escucha.

El numero de altavoces ffsicos en el sistema y el numero de controladores individualmente direccionables en cada altavoz son las propiedades de los altavoces ffsicos. Estas propiedades se transmiten directamente desde los altavoces a traves de la interconexion bidireccional 456 al presentador 454. El presentador y los altavoces utilizan un protocolo de descubrimiento comun, de modo que cuando altavoces estan conectados o desconectados del sistema, la presentacion es notificada del cambio y puede reconfigurar el sistema en consecuencia.

La geometna (tamano y forma) del entorno de escucha es un elemento necesario de informacion en el proceso de configuracion y de calibracion. La geometna puede determinarse en varias maneras diferentes. En un modulo de configuracion manual, la anchura, la longitud y la altura del cubo de aglutinacion minima para el entorno de escucha se introducen en el sistema por el oyente o un tecnico a traves de una interfaz de usuario que proporciona entrada al presentador u otra unidad de procesamiento dentro del sistema de audio adaptativo. Varias diferentes tecnicas y herramientas de interfaz de usuario pueden utilizarse para esta finalidad. A modo de ejemplo, la geometna del entorno de escucha puede enviarse al presentador mediante que un programa que efectua un mapeado o trazos automaticos de la geometna del entorno de escucha. Dicho sistema puede utilizar una combinacion de vision por ordenador, sonar y mapeado ffsico basado en laser 3D.

El presentador utiliza la posicion de los altavoces dentro de la geometna del entorno de escucha para derivar las senales de audio para cada controlador individualmente direccionable, incluyendo los controladores directos y reflejados (proyeccion hacia arriba). Los controladores directos son los que tienen como objetivo que la mayona de su modelo de dispersion intersecte la posicion de escucha antes de difundirse por una o mas superficies reflectantes (tal como suelo, pared o techo). Los controladores reflejados son los que tienen como objetivo que la mayona de sus modelos de dispersion sean reflejados antes de intersectar la posicion de escucha segun se ilustra en la Figura 6. Si un sistema esta en un modo de configuracion manual, las coordenadas 3D para cada controlador director puede introducirse en el sistema por intermedio de una interfaz UI. Para los controladores reflejados, las coordenadas 3D de la reflexion primaria se introducen en la UI. Laseres o tecnicas similares pueden utilizarse para visualizar el modelo de dispersion de los controladores difundidos sobre las superficies del entorno de escucha, de modo que las coordenadas 3d puedan medirse e introducirse manualmente en el sistema.

La posicion del controlador y su apuntamiento orientativo se suele realizar utilizando tecnicas manuales o automaticas. En algunos casos, sensores inerciales pueden incorporarse en cada altavoz. En este modo, el altavoz central es designado como el altavoz “maestro” y su medicion de brujula se considera como la referencia. Los otros altavoces pueden transmitir los modelos de dispersion y las posiciones de brujulas para cada uno de sus controladores individualmente direccionables. Acoplada con la geometna del entorno de escucha, entre el angulo de referencia del altavoz central y cada controlador adicional proporciona informacion suficiente para que el sistema pueda determinar automaticamente si un controlador es directo o reflejado.

La configuracion de posiciones de altavoces puede ser completamente automatizada si se utiliza un microfono posicional 3D (esto es, la tecnica Ambisonic). En este modo, el sistema envfa una senal de prueba a cada controlador y registra la respuesta. Dependiendo del tipo de microfono, las senales pueden necesitar transformarse en una representacion de x, y, z. Estas senales se analizan para encontrar las componentes de x, y, y z de la primera llegada dominante. Acoplada con la geometna del entorno de escucha, suele proporcionar informacion suficiente para el sistema para establecer automaticamente las coordenadas 3D para todas las posiciones de altavoces, directas o reflejadas. Dependiendo de la geometna del entorno de escucha, una combinacion tffbrida de los tres modos descritos para configurar las coordenadas de los altavoces puede ser mas efectiva que utilizar

5

10

15

20

25

30

35

40

45

50

55

60

65

solamente una tecnica.

La informacion de configuracion de altavoces es una componente requerida para configurar el presentador. La informacion de calibracion de altavoces es tambien necesaria para configurar la cadena de post-procesamiento: retardo, ecualizacion y ganancia. La Figura 12 es un diagrama de flujo que ilustra las etapas del proceso de realizacion de la calibracion automatica de altavoces utilizando un microfono unico, en conformidad con una forma de realizacion. En este modo, el retardo, la ecualizacion y la ganancia se calculan automaticamente por el sistema utilizando un microfono de multidifusion omnidireccional unico situado en la parte media de la posicion de escucha. Segun se ilustra en el diagrama 1200, el proceso se inicia midiendo la respuesta de impulsos del espacio para cada controlador unico solo, en el bloque 1202. El retardo para cada controlador se calcula luego con la averiguacion de la compensacion del valor maximo de la correlacion cruzada de la respuesta de impulsos acustica (capturada con el microfono) con respuesta de impulsos electricos directamente capturados, bloque 1204. En el bloque 1206, el retardo calculado se aplica a la respuesta de impulsos de captura directa (referencia). El proceso determina, entonces, los valores de banda ancha y de ganancia por banda que, cuando se aplican a una respuesta de impulsos medida, dan lugar a una diferencia minima entre ella y la respuesta de impulsos de captura directa (referencia), bloque 1208. Lo que antecede puede realizarse tomando la FFT con funcion de ventana de la respuesta de impulsos de referencia y medidos, calculando las relaciones de magnitud por contenedor entre las dos senales, aplicando un filtro de la mediana a las relaciones de magnitud por contenedor, calculando los valores de ganancia por banda promediando la ganancia para la totalidad de los contenedores que caen completamente dentro de una banda, calcular una ganancia de banda base tomando la media de todas las ganancias por banda, restando la ganancia de banda ancha desde las ganancias por banda y aplicando la curva X de pequeno espacio (-2 dB/octava por encima de 2 kHz). Una vez que se determinen los valores de la ganancia en el bloque 1208, el proceso determina los valores del retardo finales restando el retardo mmimo de los demas, de modo que al menos un controlador en el sistema tendra siempre un retardo adicional nulo, bloque 1210.

En el caso de calibracion automatica utilizando multiples microfonos, el retardo, la ecualizacion y la ganancia se calculan automaticamente por el sistema utilizando multiples microfonos de medicion omnidireccionales. El proceso es practicamente identico a la tecnica de microfono unico, con la excepcion de que se repite para cada uno de los microfonos, y los resultados son promediados.

Aplicaciones alternativas

En lugar de poner en practica un sistema de audio adaptativo en un entorno de escucha completo o sala, es posible poner en practica aspectos del sistema de audio adaptativo en aplicaciones mas localizadas, tales como television, ordenadores, consolas de juego o dispositivos similares. Este caso se basa efectivamente en altavoces que estan dispuestos de forma matricial en un plano sin relieve que corresponde a la pantalla de vision o superficie del monitor. La Figura 13 ilustra el uso de un sistema de audio adaptativo en un caso de uso de television y barra de sonido, a modo de ejemplo. En general, el caso de uso de television proporciona retos operativos para crear una experiencia de audio inmersiva sobre la base de la calidad frecuentemente reducida de los equipos (altavoces de TV, barra de sonido, altavoces, etc.) y las localizaciones/configuraciones de altavoces, que pueden limitarse en terminos de resolucion espacial (es decir, sin altavoces posteriores o circundantes). El sistema 1300 de la Figura 13 incluye altavoces en las localizaciones izquierda y derecha de la television estandar (TV-L y TV-R) asf como controladores de proyeccion hacia la izquierda, hacia la derecha o hacia arriba (TV-LH y TV-RH). La television 1302 puede incluir tambien una barra de sonido 1304 o altavoces en alguna clase de red de altura. En general, la magnitud y la calidad de los altavoces de television se reducen debido a limitaciones de coste y opciones de diseno en comparacion con los altavoces autonomos o de entorno residencial. El uso de la denominada virtualizacion dinamica, sin embargo, puede ayudar a superar estas deficiencias. En la Figura 13, el efecto de virtualizacion dinamica se ilustra para los altavoces TV-L y TV-R, de modo que las personas en una posicion de escucha espedfica 1308 oinan elementos horizontales asociados con objetos de audio adecuados individualmente presentados en el plano horizontal. Ademas, los elementos de altura asociados con objetos de audio adecuados seran presentados correctamente por intermedio del audio reflejado transmitido por los controladores LH y RH. El uso de la virtualizacion estereo en los altavoces izquierdo y derecho de la television es similar a los altavoces de entorno residencial L y R en donde una experiencia de usuario de virtualizacion de altavoces dinamicos potencialmente inmersivos puede ser posible mediante el control dinamico de los parametros de los algoritmos de virtualizacion de altavoces basados en la informacion espacial del objeto proporcionada por el contenido de audio adaptativo. Esta virtualizacion dinamica puede utilizarse para crear la percepcion de objetos que se desplazan a lo largo de las partes laterales en el entorno de escucha.

El entorno de television puede incluir tambien un altavoz HRC segun se ilustra dentro de la barra de sonido 1304. Dicho altavoz HRC puede ser una unidad direccionable que permite obtener panoramicas por intermedio de la red HRC. Lo que antecede puede ser beneficioso (en particular para grandes pantallas) al tener una red de canales centrales de proyeccion frontal con altavoces individualmente direccionables que permiten panoramicas discretas de objetos de audio mediante una red que establece la coincidencia del movimiento de los objetos de video en la pantalla. Este altavoz se ilustra tambien como teniendo altavoces de proyeccion lateral. Estos podnan activarse y utilizarse si el altavoz se utiliza como una barra de sonido de modo que los controladores de proyeccion lateral proporcionen mas inmersion debido a la falta de altavoces envolventes o posteriores. El concepto de virtualizacion

5

10

15

20

25

30

35

40

45

50

55

60

65

dinamica es tambien conocido para el altavoz de barra de sonido /HRC. La virtualizacion dinamica se ilustra para los altavoces L y R en los lados mas alejados de la red de altavoces de proyeccion frontal. De nuevo, lo que antecede podna utilizarse para crear la percepcion de objetos que se desplazan a lo largo de las partes laterales del entorno de escucha. Este altavoz central modificado podna incluir tambien mas altavoces y poner en practica un haz sonoro direccionable con zonas acusticas controladas por separado. Tambien conocido en la puesta en practica a modo de ejemplo de la Figura 13 es un altavoz NFE 1306 situado en frente de la posicion de escucha principal 1308. La inclusion del altavoz NFE puede proporcionar una mayor envolvente por el sistema de audio adaptativo desplazando el sonido alejandose de la parte frontal del entorno de escucha y mas proxima al oyente.

Con respecto a la presentacion de auriculares, el sistema de audio adaptativo mantiene la intencion original del creador haciendo coincidir los HRTFs con la posicion espacial. Cuando se reproduce audio a traves de los auriculares, una virtualizacion espacial binaural puede conseguirse por la aplicacion de una denominada Funcion de Transferencia Relacionada con la Cabeza (HRTF), que procesa la senal de audio y anade pistas perceptuales que crean la percepcion del audio que se reproduce en el espacio tridimensional y no sobre auriculares estereo estandar. La exactitud de la reproduccion espacial depende de la seleccion de la funcion HRTF adecuada que puede variar sobre la base de varios factores, incluyendo la posicion espacial de los canales de audio u objetos que se presentan. La utilizacion de la informacion espacial proporcionada por el sistema de audio adaptativo puede dar lugar a la seleccion de uno o un numero variable continuo de HRTFs que representan un espacio 3D para mejorar todavfa mas la experiencia de la reproduccion.

El sistema facilita tambien la adicion guiada, la presentacion binaural tridimensional y la virtualizacion. De forma similar al caso de la presentacion espacial, utilizando nuevos tipos y localizaciones de altavoces que sean nuevos y modificados, es posible mediante el uso de HRTFs tridimensionales crear pistas para simular el sonido de audio procedente del plano horizontal y del eje vertical. Formatos de audio anteriores que proporcionan solamente presentacion de informacion de localizacion de altavoces fijas han sido mas limitados. Con la informacion del formato de audio adaptativo, un sistema de auriculares de presentacion binaural, tridimensional, tiene informacion detallada y de utilidad que puede utilizarse para dirigir que elementos del audio son adecuados para su presentacion en los planos horizontal y vertical. Algun contenido puede basarse en el uso de altavoces aereos para proporcionar un mayor sentido de envolvente. Esos objetos de audio y la informacion podnan utilizarse para la presentacion binaural que se percibe por encima de la cabeza del oyente cuando se utilizan auriculares. La Figura 14 ilustra una representacion simplificada de una experiencia de virtualizacion de auriculares binaurales tridimensional para uso en un sistema de audio adaptativo, en conformidad con una forma de realizacion. Segun se ilustra en la Figura 14, un conjunto de auriculares 1402 utilizado para reproducir audio desde un sistema de audio adaptativo incluye senales de audio 1404 en el plano x, y, estandar asf como en el plano z de modo que la altura asociada con algunos objetos de audio o sonidos sea reproducida de modo que sonana de forma similar a su origen por encima o por debajo de los sonidos originados en el sistema x, y.

Definiciones de metadatos

En una forma de realizacion, el sistema de audio adaptativo incluye componentes que generan metadatos a partir del formato de audio espacial original. Los metodos y componentes del sistema 300 comprenden un sistema de presentacion de audio configurado para procesar uno o mas flujos de bits que contienen elementos de audio basados en canales convencionales y elementos de codificacion de objetos de audio. Una nueva capa de extension que contiene los elementos de codificacion de objetos de audio se define y anade a uno de entre el flujo de bits de codec de audio basados en canal o el flujo de bits de objetos de audio. Este metodo habilita a los flujos de bits, que incluyen la capa de extension a procesarse por los presentadores para uso con disenos de controladores y altavoces existentes o con altavoces de la siguiente generacion que utilizan controladores individualmente direccionables y definiciones de controladores. El contenido de audio espacial procedente del procesador de audio espacial comprende objetos de audio, canales y metadatos de posiciones. Cuando se presenta un objeto, se le asigna uno o mas altavoces en funcion de los metadatos de posiciones y la localizacion de los altavoces de reproduccion. Metadatos adicionales pueden asociarse con el objeto para modificar la localizacion de reproduccion o limitar, de cualquier otro modo, los altavoces que han de utilizarse para la reproduccion. Los metadatos se generan en la estacion de trabajo de audio en respuesta a las entradas de mezcla del ingeniero de sonido para proporcionar colas de espera de la presentacion que controlan los parametros espaciales (p.ej., posicion, velocidad, intensidad, timbre, etc.) y especifican que controladores o altavoces, en el entorno de escucha, reproducen su sonido respectivo durante la exhibicion. Los metadatos se asocian con los respectivos datos de audio en la estacion de trabajo para el empaquetado y transporte por el procesador de audio espacial.

La Figura 15 es una tabla que ilustra algunas definiciones de metadatos para uso en un sistema de audio adaptativo para entornos de escucha en conformidad con una forma de realizacion. Segun se ilustra en la tabla 1500, las definiciones de metadatos incluyen: tipo de contenido de audio, definiciones de controladores (numero, caractensticas, posicion, angulo de proyeccion), senales de control para sintonizacion/direccion activa e informacion de calibracion que incluye informacion del espacio de escucha y de los altavoces.

Caractensticas y capacidades

5

10

15

20

25

30

35

40

45

50

55

60

65

Segun se indico con anterioridad, el ecosistema de audio adaptativo permite al creador de contenidos incorporar la intencion espacial de la mezcla (posicion, magnitud, velocidad, etc.) dentro de los flujos de bits mediante metadatos. Esto permite una magnitud increfble de flexibilidad en la reproduccion espacial de audio. Desde un punto de vista de la presentacion espacial, el formato de audio adaptativo permite al creador de contenidos adaptar la mezcla a la posicion exacta de los altavoces en el entorno de escucha para evitar una distorsion espacial causada por la geometna del sistema de reproduccion que no es identico al sistema de autona de edicion. En sistemas de reproduccion de audio actuales, en donde solamente se envfa audio para un canal de altavoces, la intencion del creador de contenidos es desconocidas para las localizaciones en el entorno de escucha que no sean localizaciones de altavoces fijas. Bajo el paradigma de canales/altavoces actuales, la unica informacion que se conoce es que un canal de audio espedfico debe enviarse a un altavoz espedfico que tiene una localizacion predefinida en un entorno de escucha. En el sistema de audio adaptativo, que utiliza metadatos transmitidos a traves de los conductos de distribucion y creacion, el sistema de reproduccion puede utilizar esta informacion para reproducir el contenido en una manera que coincida con la intencion original del creador de contenidos. A modo de ejemplo, la relacion entre altavoces es conocida para diferentes objetos de audio. Proporcionado la localizacion espacial para un objeto de audio, la intencion del creador de contenidos es conocida y esta intencion puede ser objeto de “mapeado” de correspondencia en la configuracion de altavoces, incluyendo su localizacion. Con el sistema de presentacion de audio de tipo dinamico, esta presentacion puede actualizarse y mejorarse anadiendo altavoces adicionales.

El sistema permite tambien anadir una presentacion espacial tridimensional guiada. Se han realizado numerosos intentos para crear una experiencia de presentacion de audio mas inmersiva mediante el uso de nuevos disenos y configuraciones de altavoces. Incluyen el uso de altavoces bipolares y dipolares, controladores de proyeccion lateral, proyeccion posterior y proyeccion hacia arriba. Con los sistemas de localizacion de altavoces fijos y de canal anteriores, la determinacion de que elementos de audio deben enviarse a estos altavoces modificados es relativamente diffcil. Con el uso de un formato de audio adaptativo, un sistema de presentacion tiene informacion util y detallada de que elementos del audio (objetos o cualquier otro) son adecuados para enviarse a nuevas configuraciones de altavoces. Es decir, el sistema permite el control sobre que senales de audio se envfan a los controladores de proyeccion frontal y que senales se envfan a los controladores de proyeccion hacia arriba. A modo de ejemplo, el contenido cinematografico de audio adaptativo se basa principalmente en el uso de altavoces aereos para proporcionar un mayor sentido de envolvente. Estos objetos de audio e informacion pueden enviarse a los controladores de proyeccion hacia arriba para proporcionar un audio reflejado en el entorno de escucha para crear un efecto similar.

El sistema permite tambien la adaptacion de la mezcla a la configuracion de hardware exacta del sistema de reproduccion. Existen numerosos diferentes tipos de altavoces y configuraciones posibles en el equipo de presentacion tales como televisiones, entornos residenciales, barras acusticas, sistemas de reproductores de musica portatiles, etc. Cuando se envfan estos sistemas, con la informacion de audio espedfica del canal (esto es, canal izquierdo y derecho o audio multicanal estandar), el sistema debe procesar el audio para su adaptacion adecuada a las capacidades del equipo de presentacion. Un ejemplo tfpico es cuando un audio estereo estandar (izquierdo/derecho) se envfa a una barra de sonido, que tiene mas de dos altavoces. En los sistemas de audio actuales en donde solamente se envfa audio para un canal de altavoces, la intencion del creador de contenidos es desconocida y una experiencia de audio mas inmersiva hecha posible por el equipo mejorado debe crearse por algoritmos que hagan supuestos de como modificar el audio para su reproduccion en el hardware. Un ejemplo de lo que antecede es el uso de PLII, PLII-z, o Envolvente de la Siguiente Generacion para "mezclar" audio basado en canal para mas altavoces que el numero original de alimentaciones de canal. Con el sistema de audio adaptativo, utilizando metadatos transmitidos a traves de los conductos de creacion y distribucion, un sistema de reproduccion puede utilizar esta informacion para reproducir el contenido en una manera que coincida mas estrechamente con la intencion original del creador de contenidos. A modo de ejemplo, algunas barras acusticas tienen altavoces de proyeccion lateral para crear un sentido de envolvente. Con el audio adaptativo, la informacion espacial y la informacion del tipo de contenido (esto es, dialogo, musica, efectos ambientales, etc.) pueden utilizarse por la barra de sonido cuando se controla por un sistema de presentacion, tal como un receptor de TV o A/V para enviar solamente el audio adecuado a estos altavoces de proyeccion lateral.

La informacion espacial transmitida por el audio adaptativo permite la presentacion dinamica del contenido con un conocimiento de la localizacion y tipo de los altavoces presentes. Ademas, la informacion sobre la relacion de los oyentes o del oyente para los equipos de reproduccion de audio esta ahora potencialmente disponible y puede utilizarse en la presentacion. La mayor parte de las consolas de juego incluyen un accesorio de camara y procesamiento de imagen inteligente que puede determinar la posicion e identidad de una persona en el entorno de escucha. Esta informacion puede utilizarse por un sistema de audio adaptativo para modificar la presentacion para transmitir, con mayor exactitud, la intencion creativa del creador de contenidos sobre la base de la posicion del oyente. A modo de ejemplo, en casi todos los casos, el audio presentado para reproduccion supone que el oyente esta situado en un “punto ideal”, que suele ser equidistante de cada altavoz y la misma posicion en la que el mezclador de sonidos estaba situado durante la creacion de contenidos. Sin embargo, en numerosas ocasiones, la persona no esta en esta posicion ideal y su experiencia no coincide con la intencion creativa del mezclador. Un ejemplo tfpico es cuando un oyente esta sentado en el lado izquierdo del entorno de escucha en una silla o sofa. Para este caso, el sonido que se reproduce desde los altavoces mas cercanos a la izquierda seran percibidos como siendo mas fuertes y sesgando la percepcion espacial de la mezcla de audio a la izquierda. Mediante el

5

10

15

20

25

30

35

40

45

50

55

60

65

entendimiento de la posicion del oyente el sistema podna ajustar la presentacion del audio para hacer mas bajo el nivel de sonido en los altavoces izquierdos y elevar el nivel de los altavoces derechos para reequilibrar la mezcla de audio y hacerla mas perceptualmente correcta. Retardando el audio para compensar la distancia del oyente desde el llamado punto ideal, es tambien posible. La posicion del oyente podna detectarse mediante el uso de una camara o un control a distancia modificado con alguna senalizacion incorporada que senalana la posicion del oyente para el sistema de presentacion.

Ademas de utilizar altavoces estandar y localizaciones de altavoces para direccionar la posicion de escucha, es tambien posible utilizar tecnologfas de direccionamiento de haces para crear campos sonoros “zonas” que vanan dependiendo de la posicion del oyente y de su contenido. La formacion de haces de audio utiliza una red de altavoces (normalmente 8 a 16 altavoces horizontalmente espaciados) y utiliza una manipulacion de fase y procesamiento para crear un haz acustico direccionable. La red de altavoces de formacion de haces permite la creacion de zonas de audio en donde el audio es principalmente audible que puede utilizarse para dirigir sonidos u objetos espedficos con procesamiento selectivo hacia una localizacion espacial espedfica. Un caso de uso obvio es procesar el dialogo en una pista sonora utilizando un algoritmo de post-procesamiento de mejora del dialogo y un dirigir ese objeto de audio directamente a un usuario que esta en una escucha impedida.

Codificacion matricial y mezcla espacial

En algunos casos, los objetos de audio pueden ser un componente deseado de contenido de audio adaptativo; sin embargo, sobre la base de las limitaciones del ancho de banda, puede no ser posible enviar objetos de audio y audio de altavoces/canal. Anteriormente, se ha utilizado la codificacion matricial para transmitir mas informacion de audio que es posible para un sistema de distribucion dado. A modo de ejemplo, este era el caso en los dfas iniciales de la industria cinematografica en donde fue creado audio de multicanales por los mezcladores de sonido pero los formatos de pelfculas solamente proporcionaban audio estereo. La codificacion matricial fue utilizada para la mezcla inteligente del audio de multicanal para dos canales estereo, que fueron luego procesados con algunos algoritmos para recrear una aproximacion estrecha de la mezcla multicanales desde el audio estereo. De modo similar, es posible una mezcla inteligente de objetos de audio en los canales de altavoces base y mediante el uso de metadatos de audio adaptativos y algoritmos envolventes de la siguiente generacion sensibles a la frecuencia y al tiempo sofisticados para extraer los objetos y presentarlos de forma espacialmente correcta con un sistema de presentacion de audio adaptativo.

Ademas, cuando existen limitaciones de ancho de banda del sistema de transmision para el audio (aplicaciones inalambricas 3G y 4G, a modo de ejemplo), existen tambien ventajas al transmitir lechos suditivos multicanales espacialmente diversos que se codifican matricialmente junto con los objetos de audio individuales. Un caso de uso de dicha metodologfa de transmision sena para la transmision de una difusion de eventos deportivos con dos lechos auditivos distintos y multiples objetos de audio. Los lechos auditivos podnan representar el audio multicanal capturado en dos secciones de gradas de equipos diferentes y los objetos de audio podnan representar diferentes anunciadores que pueden tener simpatfas por un equipo o el otro. La utilizacion de una codificacion estandar de una representacion 5.1 de cada lecho auditivo junto con dos o mas objetos podna superar las limitaciones de ancho de banda del sistema de transmision. En este caso, si cada uno de los lechos auditivos 5.1 fueran codificados matricialmente para una senal estereo, en tal caso, los dos lechos que fueron originalmente capturados como canales 5.1 podnan transmitirse como lecho auditivo de dos canales 1, lecho auditivo de dos canales 2, objeto 1 y objeto 2 como solamente cuatro canales en lugar de los canales 5.1 + 5.1 + 2 o 12.1.

Procesamiento dependiente de la posicion y del contenido

El ecosistema de audio adaptativo permite al creador de contenidos crear objetos de audio individuales y anadir informacion sobre el contenido que puede transmitirse al sistema de reproduccion. Esto permite una gran cantidad de flexibilidad en el procesamiento de audio antes de la reproduccion. El procesamiento puede adaptarse a la posicion y tipo de objeto mediante un control dinamico de la virtualizacion de altavoces sobre la base de una posicion y tamano del objeto. La virtualizacion de altavoces se refiere a un metodo de procesamiento de audio de modo que un altavoz virtual sea percibido por un oyente. Este metodo se suele utilizar para la reproduccion de altavoces estereo cuando el audio origen es un audio multicanal que incluye alimentaciones de canales de altavoces envolventes. El procesamiento de altavoces virtuales modifica el audio de canal de altavoz envolvente de tal manera que cuando se reproduce en altavoces estereo, los elementos de audio envolventes se virtualizan en la parte lateral y posterior del oyente como si estuviera un altavoz allf situado. Actualmente, los atributos de localizacion de la posicion del altavoz virtual son estaticos porque la localizacion prevista de los altavoces envolventes era fija. Sin embargo, con el contenido de audio adaptativo, las localizaciones espaciales de objetos de audio diferentes son dinamicas y distintas (esto es, unicas para cada objeto). Es posible que el post-procesamiento tal como la virtualizacion de altavoces virtuales pueda controlarse ahora en una manera mas informada controlando dinamicamente los parametros tales como el angulo posicional del altavoz para cada objeto y combinando luego las salidas presentadas de varios objetos virtualizados para crear una experiencia de audio mas inmersiva que represente mas estrecha la intencion del mezclador de sonidos.

Ademas de la virtualizacion horizontal estandar de objetos de audio, es posible utilizar pistas de altura perceptuales

5

10

15

20

25

30

35

40

45

50

55

60

65

que procesan audio de objetos dinamicos y de canal fijo y obtienen la percepcion de la reproduccion de altura de audio a partir de un par estandar de altavoces estereo en la localizacion normal del plano horizontal.

Algunos efectos o procesos de mejora pueden ser conscientemente aplicados a tipos adecuados de contenidos de audio. A modo de ejemplo, una mejora del dialogo puede aplicarse a objetos de dialogos solamente. La mejora del dialogo se refiere a un metodo de procesamiento de audio que contiene dialogo de modo que se aumente y/o mejore la audibilidad y/o inteligibilidad del dialogo. En numerosos casos, el procesamiento de audio que se aplica al dialogo es inadecuado para el contenido de audio no de dialogo (p.ej., musica, efectos ambientales, etc.) y pueden dar lugar a un artefacto audible no deseable. Con el audio adaptativo, un objeto de audio podna contener solamente el dialogo en un elemento de contenido y puede etiquetarse en consecuencia de modo que una solucion de presentacion aplicara, de forma selectiva, la mejora del dialogo a solamente el contenido de dialogo. Ademas, si el objeto de audio es solamente dialogo (y no una mezcla de dialogo y otro contenido, lo que suele ser el caso), entonces, el procesamiento de la mejora del dialogo puede procesar el dialogo exclusivamente (con lo que se limita que se realice cualquier procesamiento sobre cualquier otro contenido).

De modo similar, la gestion de respuesta de audio o de ecualizacion puede personalizarse tambien para caractensticas de audio espedficas. A modo de ejemplo, la gestion de bajos (filtrado, atenuacion, ganancia) orientada a un objeto espedfico basado en su tipo. La gestion de bajos se refiere al aislamiento y procesamiento selectivo de solamente la frecuencia de bajos (o inferiores) en un elemento de contenido particular. Con los sistemas de audio actuales y los mecanismos de entrega, este es un proceso “a degas” que se aplica a la totalidad del audio. Con un audio adaptativo, los objetos de audio espedficos en los que la gestion de bajos es adecuada pueden identificarse por metadatos y aplicar secuencialmente el procesamiento de presentacion.

El sistema de audio adaptativo facilita tambien la compresion del margen dinamico basado en el objeto. Las pistas de audio tradicionales tienen la misma duracion que su propio contenido, mientras que un objeto de audio pudiera producirse durante una cantidad de tiempo limitada en el contenido. Los metadatos asociados con un objeto pueden contener informacion relacionada con el nivel sobre su amplitud de senal media y maxima, asf como su tiempo de inicio o ataque (en particular, para material transitorio). Esta informacion permitira a un compresor adaptar mejor su compresion y constante de tiempo (ataque, liberacion, etc.) para adaptarse mejor al contenido.

El sistema facilita tambien la ecualizacion automatica de la sala de altavoces. La acustica del entorno de escucha y altavoces desempena un importante papel en la introduccion de coloracion audible al sonido con el consiguiente impacto sobre el timbre del sonido reproducido. Ademas, las acusticas son dependientes de la posicion debido a las reflexiones del entorno de escucha y a las variaciones de la directividad de los altavoces y debido a esta variacion, el timbre percibido variara notablemente para diferentes posiciones de escucha. Una funcion de AutoEQ (ecualizacion automatica de salas), proporcionada en el sistema , ayuda a mitigar algunas de estas anomalfas mediante una medicion automatica espectral de la sala de altavoces y la ecualizacion, compensacion del retardo automatizada (que proporciona una creacion de imagenes adecuada y posiblemente una deteccion de localizacion de altavoces relativa basada en mmimos cuadraticos) y ajustes del nivel, con la redireccion de bajos basada en la capacidad del espacio de los altavoces, asf como la segmentacion optima de los altavoces principales con los altavoces de graves o subwoofers. En una sala de entorno residencial u otro entorno de escucha, el sistema de audio adaptativo incluye algunas funciones adicionales, tales como: (1) calculo de curva objetivo automatizado basado en la acustica de la sala de reproduccion (que se considera un problema abierto en la investigacion para la ecualizacion en los entornos de escucha residenciales), (2) la influencia del control del decaimiento modal utilizando un analisis de tiempo- frecuencia, (3) el entendimiento de los parametros derivados de las mediciones que rigen las envolventes/espacios/anchura de fuentes/inteligibilidad y control de estos parametros para proporcionar la mejor experiencia de escucha posible, (4) filtrado direccional que incorpora modelos de auriculares para la adaptacion del timbre entre los altavoces frontales y “otros” y (5) la deteccion de posiciones espaciales de los altavoces en una configuracion discreta en relacion con el oyente y el re-mapeado espacial (p.ej., un denominado Summit inalambrico sena un ejemplo). La desadaptacion en el timbre entre altavoces es especialmente revelada en algun contenido de panoramicas entre un altavoz de anclaje frontal (p.ej., central) y los altavoces de sonido envolvente/posteriores/de anchura/de altura.

En un sentido global, el sistema de audio adaptativo permite tambien una experiencia de reproduccion de audioMdeo muy atractiva, en particular, con grandes tamanos de pantallas en un entorno residencial, si la localizacion espacial reproducida de algunos elementos de audio coincide con los elementos de imagen en la pantalla. Un ejemplo es tener el dialogo en un programa cinematografico o de television que coincida espacialmente con una persona o personaje que este hablando en la pantalla. Con el audio basado en canal de altavoces normal, no existe un metodo facil para determinar en donde el dialogo debe situarse espacialmente para coincidir con la localizacion de la persona o personaje en la pantalla. Con la informacion de audio disponible en un sistema de audio adaptativo, este tipo de alineacion de audio/visual podna logarse facilmente, incluso en sistemas de entorno residencial que se caracterizan por pantallas de tamano mayor. La alineacion posicional visual y espacial de audio podna utilizarse tambien para objetos de dialogo/no personaje tales como veldculos, camiones, animacion, etc.

El ecosistema de audio adaptativo permite tambien la mejora de la gestion de los contenidos, permitiendo a un creador de contenidos crear objetos de audio individuales y anadir informacion sobre el contenido que puede

5

10

15

20

25

30

35

40

45

50

55

60

65

transmitirse al sistema de reproduccion. Lo que antecede permite una mayor flexibilidad en la gestion de contenidos de audio. Desde un punto de vista de gestion de contenidos, el audio adaptativo permite varias acciones tales como cambiar el idioma del contenido de audio solamente sustituyendo un objeto de dialogo para reducir el tamano del fichero de contenidos y/o reducir el tiempo de descarga. Los programas cinematograficos, televisivos y otros programas de actividades recreativas suelen distribuirse a un nivel internacional. Esta circunstancia suele requerir que el idioma en el elemento de contenido cambie dependiendo de donde sera reproducido (frances para pelfculas que se muestren Francia, aleman para programas de TV que se muestren en Alemania, etc.). Actualmente, esta circunstancia suele requerir la creacion de una pista sonora de audio completamente independiente, empaquetada y distribuida para cada idioma. Con el sistema de audio adaptativo, y el concepto inherente de objeto de audio, el dialogo para un elemento de contenido podna ser un objeto de audio independiente. Esto permite que el idioma del contenido sea facilmente modificado sin necesidad de actualizar o modificar otros elementos de la pista sonora de audio tal como musica, efectos, etc. Esto no se aplicana solamente a idiomas extranjeros sino tambien a un lenguaje inadecuado para determinada audiencia, publicidad dirigida, etc.

Aspectos del entorno de audio aqrn descritos representan la reproduccion del contenido de audio o audiovisual a traves de altavoces adecuados y dispositivos de reproduccion pertinentes y puede representar cualquier entorno en el que un oyente este experimentando la reproduccion del contenido capturado, tal como sala cinematografica, sala de conciertos, teatro de exteriores, un entorno residencial, cabinas de escucha, veldculos, consola de juegos, sistema de auriculares o telefonica, sistema de megafoma (PA) o cualquier otro entorno de reproduccion. Aunque las formas de realizacion han sido descritas principalmente con respecto a ejemplos y puestas en practica en un entorno residencial, en el que el contenido de audio espacial esta asociado con el contenido de television, conviene senalar que las formas de realizacion podnan ponerse en practica tambien en otros sistemas. El contenido de audio espacial, que comprende audio basado en el objeto y audio basado en el canal, puede utilizarse en conjuncion con cualquier contenido relacionado (audio, video, graficos, etc. asociados) o puede constituir un contenido de audio autonomo. El entorno de reproduccion puede ser cualquier entorno de escucha adecuado desde auriculares o monitores de campos cercanos para salas pequenas o grandes, veldculos instalaciones al aire libre, salas de concierto, etc.

Aspectos de los sistemas aqrn descritos pueden ponerse en practica en un entorno de red de procesamiento de sonido basado en ordenador adecuado para procesar ficheros de audio digitales o digitalizados. Partes del sistema de audio adaptativo pueden incluir una o mas redes que comprenden cualquier numero deseado de maquinas individuales, incluyendo uno o mas controladores (no ilustrados) que sirven para memorizar y enrutar los datos transmitidos entre los ordenadores. Dicha red puede construirse sobre varios protocolos de red diferentes y puede ser Internet, una Red de Area Amplia (WAN), una Red de Area Local (LAN), o cualquiera de sus combinaciones. En una forma de realizacion en la que la red comprenda Internet, una o mas maquinas pueden configurarse para acceder a Internet a traves de los programas del explorador de la red.

Uno o mas de los componentes, bloques, procesos u otros componentes funcionales pueden ponerse en practica mediante un programa informatico que controle la ejecucion de un dispositivo informatico basado en el procesador del sistema. Conviene senalar que las diversas funciones aqrn dadas a conocer pueden describirse utilizando cualquier numero de combinaciones de hardware, firmware y/o datos y/o instrucciones que se materializan en varios soportes legibles por ordenador o legibles por maquina, en terminos de su comportamiento operativo, transferencia de registro, componente logico y/o otras caractensticas. Los soportes legibles por ordenador en los que puede materializarse dichos datos y/o instrucciones formateadas incluyen, sin limitacion, soportes ffsicos (no transitorios), soportes de almacenamiento no volatil en varias formas tales como soportes de memorizacion optico, magnetico o de semiconductores.

A no ser que el contexto lo requiera claramente de otro modo, mediante la descripcion y las reivindicaciones, los terminos “comprende, “comprendiendo” y similares han de interpretarse en un sentido inclusivo a diferencia de un sentido exclusivo o exhaustivo; es decir, en un sentido de “incluir, sin limitacion”. Los terminos que utilizan singular o plural tambien incluyen el plural o el singular respectivamente. Ademas, los terminos “aqrn”, “en el presente”, “anterior”, “siguiente” y terminos de significado similar se refieren a esta solicitud como un conjunto y no a cualesquiera partes particulares de la misma. Cuando la palabra “o” se utiliza en referencia a una lista de dos o mas elementos, dicha palabra cubre la totalidad de las interpretaciones siguientes de la palabra: cualquiera de los elementos en la lista, todos los elementos en la lista y cualquier combinacion de los elementos en la lista.

Aunque una o mas puestas en practica han sido descritas a modo de ejemplo y en terminos de las formas de realizacion espedficas, ha de entenderse que una o mas puestas en practica no estan limitadas a las formas de realizacion dadas a conocer. Por el contrario, estan previstas para cubrir varias modificaciones y disposiciones similares que podnan ser evidentes para los expertos en esta tecnica. Por lo tanto, el alcance de las reivindicaciones adjuntas debe estar conforme con la mas amplia interpretacion con el fin de abarcar todas dichas modificaciones y disposiciones similares.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

65

REIVINDICACIONES

1. Un sistema (500, 1300) que sirve para realizar una presentacion del sonido utilizando elementos sonoros reflejados, que comprende:

una red de controladores de audio para distribucion alrededor de un entorno de escucha (800), en donde al menos un controlador de la red de controladores de audio es un controlador de proyeccion hacia arriba (706), que esta configurado para proyectar ondas sonoras hacia una o mas superficies del entorno de escucha para reflexion hacia una zona de escucha dentro del entorno de escucha;

un dispositivo de presentacion (310) configurado para recibir y procesar un flujo de bits que incluye flujos de audio y uno o mas conjuntos de metadatas que estan asociados con cada uno de los flujos de audio y que especifican un emplazamiento de reproduccion en el entorno de escucha de un flujo de audio respectivo, en donde los flujos de audio comprenden uno o mas flujos de audio reflejados y uno o mas flujos de audio directos; y

un componente de reproduccion acoplado al dispositivo de presentacion y configurado para presentar los flujos de audio a una pluralidad de senales de alimentacion de audio que corresponde a la red de controladores de audio en conformidad con los uno o mas conjuntos de metadatos y en donde los uno o mas flujos de audio reflejados se transmiten a al menos un controlador de proyeccion hacia arriba,

caracterizado por cuanto que el sistema realiza un procesamiento de senal para introducir pistas de altura de percepcion en los uno o mas flujos de audio reflejados transmitidos a al menos un controlador de proyeccion hacia arriba.
2. El sistema segun la reivindicacion 1, en donde cada controlador de audio de la red de controladores de audio es direccionable, de manera unica, en conformidad con un protocolo de comunicacion utilizado por el dispositivo de presentacion y el componente de reproduccion.
3. El sistema segun la reivindicacion 2, en donde el al menos un controlador de audio comprende uno de entre: un controlador de proyeccion lateral y un controlador de proyeccion hacia arriba y en donde el al menos un controlador de audio esta materializado, ademas, en uno de entre: un controlador autonomo dentro de un recinto acustico de altavoces y un controlador colocado proximo a uno o mas controladores de proyeccion frontal en un recinto acustico unitario.
4. El sistema segun la reivindicacion 3, en donde la red de controladores de audio comprende controladores que estan distribuidos alrededor del entorno de escucha en conformidad con una configuracion de sonido de ambiente envolvente definido.
5. El sistema segun la reivindicacion 4, en donde el entorno de escucha comprende un entorno residencial y en

donde el dispositivo de presentacion y el componente de reproduccion comprende parte de un sistema de audio residencial y en donde, ademas, los flujos de audio comprenden un contenido de audio seleccionado de entre el grupo constituido por: un contenido cinematografico transformado para reproduccion en un entorno residencial, contenido de television, contenido generado por el usuario, contenido de juegos informaticos y musica.
6. El sistema segun la reivindicacion 4, en donde un conjunto de metadatos asociado con el flujo de audio

transmitido al por lo menos un controlador define una o mas caractensticas que pertenecen a la reflexion.
7. El sistema segun la reivindicacion 6, en donde el conjunto de metadatos complementa un conjunto de metadatos base que incluye elementos de metadatos asociados con un flujo basado en el objeto de informacion de audio espacial, y en donde los elementos de metadatos para el flujo basado en el objeto especifican parametros espaciales que controlan la reproduccion de un sonido basado en objeto correspondiente y comprende uno o mas de entre: posicion de sonido, anchura del sonido y velocidad del sonido.
8. El sistema segun la reivindicacion 7, en donde el conjunto de metadatos incluye, ademas, elementos de

metadatos asociados con un flujo basado en los canales de la informacion de audio espacial y en donde los

elementos de metadatos asociados con cada flujo basado en los canales comprende designaciones de canales de sonido de ambiente envolvente de los controladores de audio en la configuracion de sonido de ambiente envolvente definida.
9. El sistema segun la reivindicacion 6, en donde el al menos un controlador esta asociado con un microfono situado en el entorno de escucha, estando el microfono configurado para transmitir informacion de audio de configuracion que encapsula caractensticas del entorno de escucha hacia un componente de calibracion acoplado al dispositivo de presentacion y en donde la informacion de audio de configuracion se utiliza por el dispositivo de presentacion para definir o modificar el conjunto de metadatos asociado con el flujo de audio transmitido al por lo menos un controlador de audio.

5

10

15

20

25
10. El sistema segun la reivindicacion 1, en donde el al menos un controlador comprende uno de entre: un transductor de audio manualmente ajustable dentro de un recinto que es ajustable con respecto al angulo de proyeccion de sonido relativo a un plano de implantacion del entorno de escucha y un transductor de audio controlable electricamente en el interior de un recinto que es automaticamente ajustable con respecto al angulo de proyeccion del sonido.
11. Un metodo en un sistema (500, 1300) que sirve para presentar el sonido utilizando elementos sonoros reflejados, comprendiendo el sistema una red de controladores de audio para distribucion alrededor de un entorno de escucha (800), en donde al menos un controlador de la red de controladores de audio es un controlador de proyeccion hacia arriba (706), que esta configurado para proyectar ondas sonoras hacia una o mas superficies del entorno de escucha para reflexion a una zona de escucha dentro del entorno de escucha, comprendiendo dicho metodo:

recibir y procesar un flujo de bits que incluye flujos de audio y uno o mas conjuntos de metadatos que estan asociados con cada uno de los flujos de audio y que especifican un emplazamiento de reproduccion en el entorno de escucha de un flujo de audio respectivo, en donde los flujos de audio comprenden uno o mas flujos de audio reflejados y uno o mas flujos de audio directos; y

presentar los flujos de audio a una pluralidad de senales de alimentacion de audio que corresponden a la red de controladores de audio en funcion con los uno o mas conjuntos de metadatos y en donde los uno o mas flujos de audio reflejados se transmiten al por lo menos un controlador de proyeccion hacia arriba.

caracterizado por cuanto que realiza un procesamiento de senal para introducir pistas de altura de percepcion en el uno o mas flujos de audio reflejados transmitidos a al menos un controlador de proyeccion hacia arriba.
12. Un soporte legible por ordenador que comprende un programa informatico, estando el programa informatico configurado para controlar la ejecucion de un dispositivo informatico basado en procesador de un sistema para presentar sonido de manera que se realice el metodo descrito en la reivindicacion 11.