ES2909532T3 - Aparato y método para renderizar objetos de audio - Google Patents

Aparato y método para renderizar objetos de audio Download PDF

Info

Publication number
ES2909532T3
ES2909532T3 ES12738278T ES12738278T ES2909532T3 ES 2909532 T3 ES2909532 T3 ES 2909532T3 ES 12738278 T ES12738278 T ES 12738278T ES 12738278 T ES12738278 T ES 12738278T ES 2909532 T3 ES2909532 T3 ES 2909532T3
Authority
ES
Spain
Prior art keywords
speaker
playback
audio
audio object
rendering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12738278T
Other languages
English (en)
Inventor
Nicolas R Tsingos
Charles Q Robinson
Jurgen W Scharpf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2909532T3 publication Critical patent/ES2909532T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

Un aparato, que comprende: un sistema (2105) de interfaz; y un sistema lógico (2110) configurado para: recibir, a través del sistema (2105) de interfaz, datos de reproducción de audio que comprenden uno o más objetos de audio y metadatos asociados; en el que los datos de reproducción de audio se han creado con respecto a un entorno de reproducción virtual que comprende una pluralidad de zonas de altavoz a diferentes alturas; recibir, a través del sistema (2105) de interfaz, datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción de un entorno de reproducción tridimensional real y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción real; mapear los datos de reproducción de audio creados con referencia a la pluralidad de zonas de altavoz del entorno de reproducción virtual a los altavoces de reproducción del entorno de reproducción real; y renderizar uno o más objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados, en el que cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción real, caracterizado porque los metadatos asociados con cada objeto de audio incluyen metadatos de restricción de zona de altavoz que indican si renderizar el objeto de audio respectivo implica imponer restricciones de zona de altavoz, y en el que renderizar uno o más objetos de audio incluye renderizar el objeto de audio respectivo imponiendo restricciones de zona de altavoz en respuesta a los metadatos de restricción de zona de altavoz.

Description

DESCRIPCIÓN
Aparato y método para renderizar objetos de audio
Campo técnico
Esta divulgación se refiere a la creación y renderizado de datos de reproducción de audio. En particular, esta divulgación se refiere a la creación y renderizado de datos de reproducción de audio para entornos de reproducción tales como sistemas de reproducción de sonido de cine.
Antecedentes
Desde la introducción del sonido con la película en 1927, ha habido una evolución constante de la tecnología usada para capturar la intención artística de la banda sonora de la película y reproducirla en un entorno cinematográfico. En la década de 1930, el sonido sincronizado en el disco dio paso al sonido de área variable en la película, que se mejoró aún más en la década de 1940 con consideraciones acústicas teatrales y un diseño de altavoz mejorado, junto con la introducción temprana de la grabación multipista y la reproducción orientable (usando tonos de control para sonidos de movimiento). En las décadas de 1950 y 1960, la banda magnética de la película permitió la reproducción multicanal en el cine, introduciendo canales envolventes y hasta cinco canales de pantalla en los cines premium.
En la década de 1970, Dolby introdujo la reducción de ruido, tanto en la posproducción como en la película, junto con un medio rentable de codificación y distribución de mezclas con 3 canales de pantalla y un canal de sonido envolvente mono. La calidad del sonido del cine se mejoró aún más en la década de 1980 con programas de certificación y reducción de ruido Dolby Spectral Recording (SR) como THX. Dolby llevó el sonido digital al cine durante la década de 1990 con un formato de 5.1 canales que proporciona canales discretos de pantalla izquierdo, central y derecho, conjuntos de sonido envolvente izquierdo y derecho y un canal de subwoofer para efectos de baja frecuencia. Dolby Surround 7.1, introducido en 2010, aumentó la cantidad de canales de sonido envolvente al dividir los canales de sonido envolvente izquierdo y derecho existentes en cuatro "zonas".
A medida que aumenta la cantidad de canales y la disposición de los altavoces cambia de un conjunto plana bidimensional (2D) a un conjunto tridimensional (3d ) que incluye la elevación, la tarea de posicionar y reproducir sonidos se vuelve cada vez más difícil. Sería deseable mejorar los métodos de creación y renderizado de audio.
El documento JP 2012 049967 A generalmente se refiere a proporcionar un dispositivo de conversión de señales acústicas que, al seleccionar automáticamente tres canales en el lado de reproducción que constituyen las unidades básicas de reproducción de sonido tridimensional, puede convertir la señal acústica original en una señal acústica de reproducción que difiere en el número de canales.
El documento JP 2011 066868 A divulga un método para codificar una señal de audio. El método implica la salida de información de mapeo de canales. Se produce un elemento de codificación codificando un plano bidimensional considerando una señal de audio de un canal basándose en la información del plano y la información de mapeo del canal. La información posicional del plano que contiene la información se genera para mostrar el mapeo de canales en el plano bidimensional. Se emiten el elemento de codificación y la información de posición del plano para el plano bidimensional, donde se unifican la salida del elemento de codificación y la información de posición del plano.
Sumario
Algunos aspectos del tema descrito en esta divulgación pueden implementarse en herramientas para crear y renderizar datos de reproducción de audio. Algunas de estas herramientas de creación permiten generalizar los datos de reproducción de audio para una amplia variedad de entornos de reproducción. De acuerdo con algunas implementaciones de este tipo, los datos de reproducción de audio pueden crearse mediante la creación de metadatos para objetos de audio. Los metadatos pueden crearse con referencia a las zonas de altavoz. Durante el proceso de reproducción, los datos de reproducción de audio pueden reproducirse de acuerdo con la disposición de los altavoces de reproducción de un entorno de reproducción particular. En particular, se proporciona un aparato, un método y un medio no transitorio, que tiene las características de las respectivas reivindicaciones independientes. Las reivindicaciones dependientes se refieren a realizaciones preferidas.
Algunas implementaciones descritas en el presente documento proporcionan un aparato que incluye un sistema de interfaz y un sistema lógico. El sistema lógico está configurado para recibir, a través del sistema de interfaz, datos de reproducción de audio que incluyen uno o más objetos de audio y metadatos asociados y datos del entorno de reproducción. Los datos del entorno de reproducción incluyen una indicación de un número de altavoces de reproducción en el entorno de reproducción y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción. El sistema lógico está configurado para renderizar los objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados y los datos del entorno de reproducción, en el que cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción. El sistema lógico puede configurarse para calcular las ganancias de los altavoces correspondientes a las posiciones virtuales de los altavoces.
El entorno de reproducción puede ser, por ejemplo, un entorno de sistema de sonido de cine. El entorno de reproducción puede tener una configuración Dolby Surround 5.1, una configuración Dolby Surround 7.1 o una configuración de sonido envolvente Hamasaki 22.2. Los datos del entorno de reproducción pueden incluir datos de disposición de los altavoces de reproducción que indican las ubicaciones de los altavoces de reproducción. Los datos del entorno de reproducción pueden incluir datos de disposición de zona de altavoz de reproducción que indican áreas de altavoces de reproducción y ubicaciones de altavoces de reproducción que se corresponden con las áreas de altavoces de reproducción.
Los metadatos pueden incluir información para mapear una posición de objeto de audio a una única ubicación de altavoz de reproducción. El renderizado puede implicar la creación de una ganancia agregada basada en uno o más de una posición de objeto de audio deseada, una distancia desde la posición de objeto de audio deseada a una posición de referencia, una velocidad de un objeto de audio o un tipo de contenido de objeto de audio. Los metadatos pueden incluir datos para restringir una posición de un objeto de audio a una curva unidimensional o una superficie bidimensional. Los metadatos pueden incluir datos de trayectoria para un objeto de audio.
El renderizado implica imponer restricciones de zona de altavoz. Por ejemplo, el aparato puede incluir un sistema de entrada de usuario. De acuerdo con algunas implementaciones, el renderizado puede implicar la aplicación de un control de equilibrio de pantalla a sala de acuerdo con los datos de control de equilibrio de pantalla a sala recibidos del sistema de entrada del usuario.
El aparato puede incluir un sistema de visualización. El sistema lógico puede configurarse para controlar el sistema de visualización para mostrar una vista tridimensional dinámica del entorno de reproducción.
El renderizado puede implicar el control de la dispersión de objetos de audio en una o más de tres dimensiones. El renderizado puede implicar bloquear objetos dinámicos en respuesta a la sobrecarga del altavoz. El renderizado puede implicar el mapeo de ubicaciones de objetos de audio a planos de conjuntos de altavoces del entorno de reproducción.
El aparato puede incluir uno o más medios de almacenamiento no transitorios, como dispositivos de memoria de un sistema de memoria. Los dispositivos de memoria pueden incluir, por ejemplo, memoria de acceso aleatorio (RAM), memoria de solo lectura (ROM), memoria flash, uno o más discos duros, etc. El sistema de interfaz puede incluir una interfaz entre el sistema lógico y uno o más de tales dispositivos de memoria. El sistema de interfaz también puede incluir una interfaz de red.
Los metadatos incluyen metadatos de restricción de zona de altavoz. El sistema lógico puede configurarse para atenuar las señales de alimentación de altavoz seleccionadas realizando las siguientes operaciones: calcular las primeras ganancias que incluyen las contribuciones de los altavoces seleccionados; calcular las segundas ganancias que no incluyen las contribuciones de los altavoces seleccionados; y mezclar las primeras ganancias con las segundas ganancias. El sistema lógico puede configurarse para determinar si aplicar reglas de panoramización para una posición de objeto de audio o mapear una posición de objeto de audio a una sola ubicación de altavoz. El sistema lógico puede configurarse para suavizar las transiciones en las ganancias de los altavoces cuando se pasa de mapear una posición de objeto de audio desde una primera ubicación de un solo altavoz a una segunda ubicación de un solo altavoz. El sistema lógico puede configurarse para suavizar las transiciones en las ganancias de los altavoces cuando se realiza la transición entre el mapeo de una posición de objeto de audio a una ubicación de un solo altavoz y la aplicación de reglas de panoramización para la posición del objeto de audio. El sistema lógico puede configurarse para calcular las ganancias de los altavoces para posiciones de objetos de audio a lo largo de una curva unidimensional entre posiciones de altavoces virtuales.
Algunos métodos descritos en el presente documento implican recibir datos de reproducción de audio que incluyen uno o más objetos de audio y metadatos asociados y recibir datos del entorno de reproducción que incluyen una indicación de una cantidad de altavoces de reproducción en el entorno de reproducción. Los datos del entorno de reproducción incluyen una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción. Los métodos implican renderizar los objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados. Cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción. El entorno de reproducción puede ser un entorno de sistema de sonido de cine.
El renderizado puede implicar la creación de una ganancia agregada basada en uno o más de una posición de objeto de audio deseada, una distancia desde la posición de objeto de audio deseada a una posición de referencia, una velocidad de un objeto de audio o un tipo de contenido de objeto de audio. Los metadatos pueden incluir datos para restringir una posición de un objeto de audio a una curva unidimensional o una superficie bidimensional. El renderizado implica imponer restricciones de zona de altavoz.
Algunas implementaciones pueden manifestarse en uno o más medios no transitorios que tienen software almacenado en ellos. El software incluye instrucciones para controlar uno o más dispositivos para realizar las siguientes operaciones: recibir datos de reproducción de audio que comprenden uno o más objetos de audio y metadatos asociados; recibir datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción en el entorno de reproducción y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción; y renderizar los objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados. Cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción. El entorno de reproducción puede ser, por ejemplo, un entorno de sistema de sonido de cine.
El renderizado puede implicar la creación de una ganancia agregada basada en uno o más de una posición de objeto de audio deseada, una distancia desde la posición de objeto de audio deseada a una posición de referencia, una velocidad de un objeto de audio o un tipo de contenido de objeto de audio. Los metadatos pueden incluir datos para restringir una posición de un objeto de audio a una curva unidimensional o una superficie bidimensional. El renderizado puede implicar la imposición de restricciones en la zona de altavoz. El renderizado puede implicar bloquear objetos dinámicos en respuesta a la sobrecarga del altavoz.
Los detalles de una o más implementaciones del objeto descrito en esta memoria descriptiva se exponen en los dibujos adjuntos y en la descripción a continuación. Otras características, aspectos y ventajas serán evidentes a partir de la descripción, los dibujos y las reivindicaciones. Tenga en cuenta que las dimensiones relativas de las siguientes figuras pueden no estar dibujadas a escala.
Breve descripción de los dibujos
La figura 1 muestra un ejemplo de un entorno de reproducción con una configuración Dolby Surround 5.1.
La figura 2 muestra un ejemplo de un entorno de reproducción con una configuración Dolby Surround 7.1.
La figura 3 muestra un ejemplo de un entorno de reproducción con una configuración de sonido envolvente Hamasaki 22.2.
La figura 4A muestra un ejemplo de una interfaz gráfica de usuario (GUI) que representa las zonas de altavoz a diferentes alturas en un entorno de reproducción virtual.
La figura 4B muestra un ejemplo de otro entorno de reproducción.
Las figuras 5A-5C muestran ejemplos de respuestas del altavoz correspondientes a un objeto de audio que tiene una posición restringida a una superficie bidimensional de un espacio tridimensional.
Las figuras 5D y 5E muestran ejemplos de superficies bidimensionales a las que se puede restringir un objeto de audio.
La figura 6A es un diagrama de flujo que describe un ejemplo de un proceso de restricción de posiciones de un objeto de audio a una superficie bidimensional.
La figura 6B es un diagrama de flujo que describe un ejemplo de un proceso de mapeo de una posición de objeto de audio a una única ubicación de altavoz o una única zona de altavoz.
La figura 7 es un diagrama de flujo que describe un proceso de establecimiento y uso de altavoces virtuales.
Las figuras 8A-8C muestran ejemplos de altavoces virtuales mapeados a puntos finales de línea y respuestas de los altavoces correspondientes.
Las figuras 9A-9C muestran ejemplos del uso de una fijación virtual para mover un objeto de audio.
La figura 10A es un diagrama de flujo que describe un proceso de uso de una fijación virtual para mover un objeto de audio.
La figura 10B es un diagrama de flujo que describe un proceso alternativo de uso de una fijación virtual para mover un objeto de audio.
Las figuras 10C-10E muestran ejemplos del proceso descrito en la figura 10B.
La figura 11 muestra un ejemplo de aplicación de la restricción de la zona de altavoz en un entorno de reproducción virtual.
La figura 12 es un diagrama de flujo que describe algunos ejemplos de la aplicación de reglas de restricción de zona de altavoz.
Las figuras 13A y 13B muestran un ejemplo de una GUI que puede cambiar entre una vista bidimensional y una vista tridimensional de un entorno de reproducción virtual.
Las figuras 13C-13E muestran combinaciones de representaciones bidimensionales y tridimensionales de entornos de reproducción.
La figura 14A es un diagrama de flujo que describe un proceso de control de un aparato para presentar las GUI como las que se muestran en las figuras 13C-13E.
La figura 14B es un diagrama de flujo que describe un proceso de renderizado de objetos de audio para un entorno de reproducción.
La figura 15A muestra un ejemplo de un objeto de audio y el ancho del objeto de audio asociado en un entorno de reproducción virtual.
La figura 15B muestra un ejemplo de un perfil de dispersión correspondiente al ancho del objeto de audio que se muestra en la figura 15A.
La figura 16 es un diagrama de flujo que describe un proceso de bloqueo de objetos de audio.
Las figuras 17A y 17B muestran ejemplos de un objeto de audio posicionado en un entorno de reproducción virtual tridimensional.
La figura 18 muestra ejemplos de zonas que se corresponden con los modos de panoramización.
Las figuras 19A-19D muestran ejemplos de aplicación de técnicas de panoramización de campo cercano y campo lejano a objetos de audio en diferentes ubicaciones.
La figura 20 indica las zonas de altavoz de un entorno de reproducción que pueden usarse en un proceso de control de polarización de pantalla a sala.
La figura 21 es un diagrama de bloques que proporciona ejemplos de componentes de un aparato de creación y/o renderizado.
La figura 22A es un diagrama de bloques que representa algunos componentes que pueden usarse para la creación de contenido de audio.
La figura 22B es un diagrama de bloques que representa algunos componentes que pueden usarse para la reproducción de audio en un entorno de reproducción.
Los números de referencia y las designaciones similares en los diversos dibujos indican elementos similares.
Descripción de realizaciones de ejemplo
La siguiente descripción está dirigida a ciertas implementaciones con el fin de describir algunos aspectos innovadores de esta divulgación, así como ejemplos de contextos en los que estos aspectos innovadores pueden implementarse. Sin embargo, las enseñanzas del presente documento se pueden aplicar de varias maneras diferentes. Por ejemplo, aunque se han descrito varias implementaciones en términos de entornos de reproducción particulares, las enseñanzas del presente documento son ampliamente aplicables a otros entornos de reproducción conocidos, así como entornos de reproducción que puedan introducirse en el futuro. De manera similar, mientras que en el presente documento se presentan ejemplos de interfaces gráficas de usuario (GUI), algunas de las cuales proporcionan ejemplos de ubicaciones de altavoces, zonas de altavoz, etc., los inventores contemplan otras implementaciones. Además, las implementaciones descritas pueden implementarse en diversas herramientas de creación y/o renderizado, que pueden implementarse en una variedad de hardware, software, firmware, etc. En consecuencia, no se pretende que las enseñanzas de esta divulgación se limiten a las implementaciones mostradas en las figuras y/o descritas en el presente documento, sino que tienen una amplia aplicabilidad.
La figura 1 muestra un ejemplo de un entorno de reproducción con una configuración Dolby Surround 5.1. Dolby Surround 5.1 se desarrolló en la década de 1990, pero esta configuración aún se despliega ampliamente en entornos de sistemas de sonido de cine. Un proyector 105 puede configurarse para proyectar imágenes de video, por ejemplo, para una película, en la pantalla 150. Los datos de reproducción de audio pueden sincronizarse con las imágenes de video y procesarse mediante el procesador 110 de sonido. Los amplificadores 115 de potencia pueden proporcionar señales de alimentación de altavoz a los altavoces del entorno 100 de reproducción.
La configuración de Dolby Surround 5.1 incluye el conjunto 120 de sonido envolvente izquierdo, el conjunto 125 de sonido envolvente derecho, cada una de las cuales está controlada en grupo por un solo canal. La configuración de Dolby Surround 5.1 también incluye canales separados para el canal 130 de pantalla izquierdo, el canal 135 de pantalla central y el canal 140 de pantalla derecho. Se proporciona un canal separado para el subwoofer 145 para efectos de baja frecuencia (LFE).
En 2010, Dolby proporcionó mejoras al sonido del cine digital al presentar Dolby Surround 7.1. La figura 2 muestra un ejemplo de un entorno de reproducción con una configuración Dolby Surround 7.1. Un proyector digital 205 puede configurarse para recibir datos de video digital y proyectar imágenes de video en la pantalla 150. Los datos de reproducción de audio pueden ser procesados por el procesador 210 de sonido. Los amplificadores 215 de potencia pueden proporcionar señales de alimentación de altavoz a los altavoces del entorno 200 de reproducción.
La configuración de Dolby Surround 7.1 incluye el conjunto 220 de sonido envolvente del lado izquierdo y el conjunto 225 de sonido envolvente del lado derecho, cada uno de los cuales puede ser accionado por un solo canal. Al igual que Dolby Surround 5.1, la configuración de Dolby Surround 7.1 incluye canales separados para el canal 230 de pantalla izquierdo, el canal 235 de pantalla central, el canal 240 de pantalla derecho y el subwoofer 245. Sin embargo, Dolby Surround 7.1 aumenta el número de canales de sonido envolvente al dividir los canales de sonido envolvente izquierdo y derecho de Dolby Surround 5.1 en cuatro zonas: además del conjunto 220 de sonido envolvente del lado izquierdo y el conjunto 225 de sonido envolvente del lado derecho, se incluyen canales separados para los altavoces 224 de sonido envolvente traseros izquierdos y los altavoces 226 de sonido envolvente traseros derechos. Aumentar el número de zonas de sonido envolvente dentro del entorno 200 de reproducción puede mejorar significativamente la localización del sonido.
En un esfuerzo por crear un entorno más inmersivo, algunos entornos de reproducción pueden configurarse con una mayor cantidad de altavoces, accionados por una mayor cantidad de canales. Además, algunos entornos de reproducción pueden incluir altavoces desplegados a varias alturas, algunos de los cuales pueden estar por encima de un área de asientos del entorno de reproducción.
La figura 3 muestra un ejemplo de un entorno de reproducción con una configuración de sonido envolvente Hamasaki 22.2. Hamasaki 22.2 se desarrolló en los laboratorios de investigación científica y tecnológica de NHK en Japón como el componente de sonido envolvente de la televisión de ultra alta definición. Hamasaki 22.2 proporciona 24 canales de altavoces, que se pueden usar para accionar los altavoces dispuestos en tres capas. La capa superior 310 de altavoces del entorno 300 de reproducción puede ser accionada por 9 canales. La capa intermedia 320 de altavoces puede ser accionada por 10 canales. La capa inferior 330 de altavoces puede ser accionada por 5 canales, dos de los cuales son para los subwoofers 345a y 345b.
En consecuencia, la tendencia moderna es incluir no solo más altavoces y más canales, sino también incluir altavoces a diferentes alturas. A medida que aumenta la cantidad de canales y la disposición de los altavoces cambia de un conjunto 2D a un conjunto 3D, las tareas de posicionamiento y renderizado de sonidos se vuelven cada vez más difíciles.
Esta divulgación proporciona varias herramientas, así como interfaces de usuario relacionadas, que aumentan la funcionalidad y/o reducen la complejidad de creación para un sistema de sonido de audio 3D.
La figura 4A muestra un ejemplo de una interfaz gráfica de usuario (GUI) que representa las zonas de altavoz a diferentes alturas en un entorno de reproducción virtual. La GUI 400 puede, por ejemplo, mostrarse en un dispositivo de visualización de acuerdo con las instrucciones de un sistema lógico, de acuerdo con las señales recibidas de los dispositivos de entrada del usuario, etc. Algunos de estos dispositivos se describen a continuación con referencia a la figura 21.
Como se usa en el presente documento con referencia a entornos de reproducción virtual como el entorno 404 de reproducción virtual, el término "zona de altavoz" generalmente se refiere a una construcción lógica que puede tener o no una correspondencia uno a uno con un altavoz de reproducción de un entorno de reproducción real. Por ejemplo, una "ubicación de zona de altavoz" puede corresponder o no a una ubicación de altavoces de reproducción particular de un entorno de reproducción de cine. En cambio, el término "ubicación de zona de altavoz" puede referirse en general a una zona de un entorno de reproducción virtual. En algunas implementaciones, una zona de altavoz de un entorno de reproducción virtual puede corresponder a un altavoz virtual, por ejemplo, mediante el uso de tecnología de virtualización como Dolby Headphone™ (a veces denominada Mobile Surround™), que crea un entorno de sonido envolvente virtual. en tiempo real usando un conjunto de auriculares estéreo de dos canales. En la GUI 400, hay siete zonas 402a de altavoz en una primera elevación y dos zonas 402b de altavoz en una segunda elevación, haciendo un total de nueve zonas de altavoz en el entorno 404 de reproducción virtual. En este ejemplo, las zonas 1-3 de altavoz están en el área frontal 405 del entorno 404 de reproducción virtual. El área frontal 405 puede corresponder, por ejemplo, a una zona de un entorno de reproducción de cine en el que se sitúa una pantalla 150, a una zona de una vivienda en la que se sitúa una pantalla de televisión, etc.
Aquí, la zona 4 de altavoz corresponde generalmente a los altavoces del área izquierda 410 y la zona 5 de altavoz corresponde a los altavoces del área derecha 415 del entorno 404 de reproducción virtual. La zona 6 de altavoz corresponde a un área trasera izquierda 412 y la zona 7 de altavoz corresponde a un área trasera derecha 414 del entorno 404 de reproducción virtual. La zona 8 de altavoz corresponde a altavoces en un área superior 420a y la zona
9 de altavoz corresponde a altavoces en un área superior 420b, que puede ser un área de techo virtual como un área del techo virtual 520 que se muestra en las figuras 5d y 5E. En consecuencia, y como se describe con más detalle a continuación, las ubicaciones de las zonas 1-9 de altavoz que se muestran en la figura 4A pueden corresponder o no a las ubicaciones de los altavoces de reproducción de un entorno de reproducción real. Además, otras implementaciones pueden incluir más o menos zonas de altavoz y/o elevaciones.
En varias implementaciones descritas en el presente documento, una interfaz de usuario como la GUI 400 puede usarse como parte de una herramienta de creación y/o una herramienta de renderizado. En algunas implementaciones, la herramienta de creación y/o la herramienta de renderizado pueden implementarse mediante software almacenado en uno o más medios no transitorios. La herramienta de creación y/o la herramienta de renderizado puede implementarse (al menos en parte) mediante hardware, firmware, etc., como el sistema lógico y otros dispositivos que se describen a continuación con referencia a la figura 21. En algunas implementaciones de creación, se puede usar una herramienta de creación asociada para crear metadatos para datos de audio asociados. Los metadatos pueden, por ejemplo, incluir datos que indiquen la posición y/o trayectoria de un objeto de audio en un espacio tridimensional, datos de restricción de la zona de altavoz, etc. Los metadatos pueden crearse con respecto a las zonas 402 de altavoz del entorno 404 de reproducción virtual, en lugar de con respecto a una disposición de los altavoces particular de un entorno de reproducción real. Una herramienta de renderizado puede recibir datos de audio y metadatos asociados, y puede calcular las ganancias de audio y las señales de alimentación de altavoz para un entorno de reproducción.
Tales ganancias de audio y señales de alimentación de altavoz pueden calcularse de acuerdo con un proceso de panoramización de amplitud, que puede crear la percepción de que un sonido proviene de una posición P en el entorno de reproducción. Por ejemplo, las señales de alimentación de altavoz pueden proporcionarse a los altavoces de reproducción 1 a N del entorno de reproducción de acuerdo con la siguiente ecuación:
x,M = g M .
Figure imgf000007_0001
i=
i. . . .N (Ecuació
En la ecuación 1, xi(t) representa la señal de alimentación de altavoz que se aplicará al altavoz i, gi representa el factor de ganancia del canal correspondiente, x(t) representa la señal de audio y t representa el tiempo. Los factores de ganancia pueden determinarse, por ejemplo, de acuerdo con los métodos de panoramización de amplitud descritos en la sección 2, páginas 3-4 de V. Pulkki, Compensar desplazamiento de fuentes virtuales panoramizadas en amplitud
(Audio Engineering Society (AES) Conferencia internacional sobre audio virtual, sintético y de ocio). En algunas implementaciones, las ganancias pueden depender de la frecuencia. En algunas implementaciones, se puede introducir un retraso de tiempo reemplazando x(t) por x(t-At).
En algunas implementaciones de renderizado, los datos de reproducción de audio creados con referencia a las zonas
402 de altavoz pueden mapearse a ubicaciones de altavoces de una amplia gama de entornos de reproducción, que pueden estar en una configuración Dolby Surround 5.1, una configuración Dolby Surround 7.1, una configuración Hamasaki 22.2, u otra configuración. Por ejemplo, con referencia a la figura 2, una herramienta de renderizado puede mapear datos de reproducción de audio para las zonas 4 y 5 de altavoz a el conjunto de sonido envolvente del lado izquierdo 220 y a el conjunto de sonido envolvente del lado derecho 225 de un entorno de reproducción que tiene una configuración Dolby Surround 7.1. Los datos de reproducción de audio para las zonas 1, 2 y 3 de altavoz pueden mapearse al canal 230 de pantalla izquierdo, al canal 240 de pantalla derecho y al canal 235 de pantalla central, respectivamente. Los datos de reproducción de audio para las zonas 6 y 7 de altavoz pueden mapearse a los altavoces
224 de sonido envolvente traseros izquierdos y a los altavoces 226 de sonido envolvente traseros derechos.
La figura 4B muestra un ejemplo de otro entorno de reproducción. En algunas implementaciones, una herramienta de renderizado puede mapear datos de reproducción de audio para las zonas 1, 2 y 3 de altavoz a los altavoces 455 de pantalla correspondientes del entorno 450 de reproducción. Una herramienta de renderizado puede mapear datos de reproducción de audio para las zonas 4 y 5 de altavoz a el conjunto 460 de sonido envolvente del lado izquierdo y a el conjunto 465 de sonido envolvente del lado derecho y puede mapear datos de reproducción de audio para las zonas
8 y 9 de altavoz a los altavoces superiores izquierdos 470a y los altavoces superiores derechos 470b. Los datos de reproducción de audio para las zonas 6 y 7 de altavoz pueden mapearse a los altavoces 480a de sonido envolvente traseros izquierdos y a los altavoces 480b de sonido envolvente traseros derechos.
En algunas implementaciones de creación, se puede usar una herramienta de creación para crear metadatos para objetos de audio. Como se usa en el presente documento, el término "objeto de audio" puede referirse a un flujo de datos de audio y metadatos asociados. Los metadatos indican típicamente la posición 3D del objeto, las restricciones de renderizado y el tipo de contenido (por ejemplo, diálogo, efectos, etc.). Dependiendo de la implementación, los metadatos pueden incluir otros tipos de datos, como datos de ancho, datos de ganancia, datos de trayectoria, etc.
Algunos objetos de audio pueden estar estáticos, mientras que otros pueden moverse. Los detalles del objeto de audio se pueden crear o renderizar de acuerdo con los metadatos asociados que, entre otras cosas, pueden indicar la posición del objeto de audio en un espacio tridimensional en un momento determinado. Cuando los objetos de audio
se monitorean o reproducen en un entorno de reproducción, los objetos de audio pueden renderizarse de acuerdo con los metadatos posicionales usando los altavoces de reproducción que están presentes en el entorno de reproducción, en lugar de enviarse a un canal físico predeterminado, como es el caso con sistemas tradicionales basados en canales como Dolby 5.1 y Dolby 7.1.
En el presente documento, se describen varias herramientas de creación y renderizado con referencia a una GUI que es sustancialmente la misma que la GUI 400. Sin embargo, otras interfaces de usuario, incluidas, entre otras, las GUI, se pueden usar en asociación con estas herramientas de creación y renderizado. Algunas de estas herramientas pueden simplificar el proceso de creación mediante la aplicación de varios tipos de restricciones. Algunas implementaciones se describirán ahora con referencia a las figuras 5A y siguientes.
Las figuras 5A-5C muestran ejemplos de respuestas de los altavoces correspondientes a un objeto de audio que tiene una posición restringida a una superficie bidimensional de un espacio tridimensional, que es un hemisferio en este ejemplo. En estos ejemplos, las respuestas de los altavoces han sido calculadas por un renderizador asumiendo una configuración de 9 altavoces, con cada altavoz correspondiente a una de las zonas 1-9 de altavoz. Sin embargo, como se indica en otra parte del presente documento, generalmente no puede haber un mapeo uno a uno entre las zonas de altavoz de un entorno de reproducción virtual y los altavoces de reproducción en un entorno de reproducción. Con referencia primero a la figura 5A, el objeto 505 de audio se muestra en una ubicación en la porción frontal izquierda del entorno 404 de reproducción virtual. En consecuencia, el altavoz correspondiente a la zona 1 de altavoz indica una ganancia sustancial y los altavoces correspondientes a las zonas 3 y 4 de altavoz indican ganancias moderadas.
En este ejemplo, la ubicación del objeto 505 de audio se puede cambiar colocando un cursor 510 en el objeto 505 de audio y "arrastrando" el objeto 505 de audio a una ubicación deseada en el plano x, y del entorno 404 de reproducción virtual. A medida que el objeto es arrastrado hacia el centro del entorno de reproducción, también se mapea en la superficie de un hemisferio y su elevación aumenta. Aquí, los aumentos en la elevación del objeto 505 de audio se indican mediante un aumento en el diámetro del círculo que representa el objeto 505 de audio: como se muestra en las figuras 5B y 5C, a medida que el objeto 505 de audio se arrastra al centro superior del entorno 404 de reproducción virtual, el objeto 505 de audio parece cada vez más grande. Alternativamente, o adicionalmente, la elevación del objeto 505 de audio puede indicarse mediante cambios de color, brillo, una indicación de elevación numérica, etc. Cuando el objeto 505 de audio se posiciona en el centro superior del entorno 404 de reproducción virtual, como se muestra en la figura 5C, los altavoces correspondientes a las zonas 8 y 9 de altavoz indican ganancias sustanciales y los otros altavoces indican poca o ninguna ganancia.
En esta implementación, la posición del objeto 505 de audio está restringida a una superficie bidimensional, como una superficie esférica, una superficie elíptica, una superficie cónica, una superficie cilíndrica, una cuña, etc. Las figuras 5D y 5E muestran ejemplos de superficies bidimensionales a las que se puede restringir un objeto de audio. Las figuras 5D y 5E son vistas en corte transversal a través del entorno 404 de reproducción virtual, con el área frontal 405 mostrada a la izquierda. En las figuras 5D y 5E, los valores y del eje y-z aumentan en la dirección del área frontal 405 del entorno 404 de reproducción virtual, para mantener la coherencia con las orientaciones de los ejes x-y que se muestran en las figuras 5A-5C.
En el ejemplo que se muestra en la figura 5D, la superficie bidimensional 515a es una sección de un elipsoide. En el ejemplo que se muestra en la figura 5E, la superficie bidimensional 515b es una sección de una cuña. Sin embargo, las formas, orientaciones y posiciones de las superficies bidimensionales 515 mostradas en las figuras 5D y 5E son meros ejemplos. En implementaciones alternativas, al menos una porción de la superficie bidimensional 515 puede extenderse fuera del entorno 404 de reproducción virtual. En algunas de tales implementaciones, la superficie bidimensional 515 puede extenderse por encima del techo virtual 520. En consecuencia, el espacio tridimensional dentro del cual se extiende la superficie bidimensional 515 no tiene necesariamente la misma extensión que el volumen del entorno 404 de reproducción virtual. En otras implementaciones, un objeto de audio puede estar restringido a características unidimensionales como curvas, líneas rectas, etc.
La figura 6A es un diagrama de flujo que describe un ejemplo de un proceso de restricción de posiciones de un objeto de audio a una superficie bidimensional. Al igual que con otros diagramas de flujo que se proporcionan en el presente documento, las operaciones del proceso 600 no se realizan necesariamente en el orden mostrado. Además, el proceso 600 (y otros procesos proporcionados en el presente documento) pueden incluir más o menos operaciones que las que se indican en los dibujos y/o se describen. En este ejemplo, los bloques 605 a 622 los realiza una herramienta de creación y los bloques 624 a 630 los realiza una herramienta de renderizado. La herramienta de creación y la herramienta de renderizado pueden implementarse en un solo aparato o en más de un aparato. Aunque la figura 6A (y otros diagramas de flujo proporcionados en el presente documento) pueden crear la impresión de que los procesos de creación y renderizado se realizan de manera secuencial, en muchas implementaciones los procesos de creación y renderizado se realizan sustancialmente al mismo tiempo. Los procesos de creación y los procesos de renderizado pueden ser interactivos. Por ejemplo, los resultados de una operación de creación pueden enviarse a la herramienta de renderizado, los resultados correspondientes de la herramienta de renderizado pueden ser evaluados por un usuario, que puede realizar una creación adicional basada en estos resultados, etc.
En el bloque 605, se recibe una indicación de que la posición de un objeto de audio debe restringirse a una superficie bidimensional. La indicación puede, por ejemplo, ser recibida por un sistema lógico de un aparato que está configurado para proporcionar herramientas de creación y/o renderizado. Al igual que con otras implementaciones descritas en el presente documento, el sistema lógico puede estar funcionando de acuerdo con las instrucciones del software almacenadas en un medio no transitorio, de acuerdo con el firmware, etc. La indicación puede ser una señal de un dispositivo de entrada del usuario (como una pantalla táctil, un ratón, una bola de seguimiento, un dispositivo de reconocimiento de gestos, etc.) en respuesta a la entrada de un usuario.
En el bloque opcional 607, se reciben datos de audio. El bloque 607 es opcional en este ejemplo, ya que los datos de audio también pueden ir directamente a un renderizador desde otra fuente (por ejemplo, una mesa de mezclas) que está sincronizada en el tiempo con la herramienta de creación de metadatos. En algunas de estas implementaciones, puede existir un mecanismo implícito para vincular cada flujo de audio a un flujo de metadatos entrante correspondiente para formar un objeto de audio. Por ejemplo, el flujo de metadatos puede contener un identificador para el objeto de audio que representa, por ejemplo, un valor numérico de 1 a N. Si el aparato de reproducción está configurado con entradas de audio que también están numeradas de 1 a N, la herramienta de renderizado puede automáticamente suponer que un objeto de audio está formado por el flujo de metadatos identificado con un valor numérico (por ejemplo, 1) y los datos de audio recibidos en la primera entrada de audio. De manera similar, cualquier flujo de metadatos identificado con el número 2 puede formar un objeto con el audio recibido en el segundo canal de entrada de audio. En algunas implementaciones, el audio y los metadatos pueden ser empaquetados previamente por la herramienta de creación para formar objetos de audio y los objetos de audio pueden proporcionarse a la herramienta de renderizado, por ejemplo, enviados a través de una red como paquetes TCP/IP.
En implementaciones alternativas, la herramienta de creación puede enviar solo los metadatos en la red y la herramienta de renderizado puede recibir audio de otra fuente (por ejemplo, a través de un flujo de modulación de código de pulso (PCM), a través de audio analógico, etc.). En dichas implementaciones, la herramienta de renderizado puede configurarse para agrupar los datos y metadatos de audio para formar los objetos de audio. Los datos de audio pueden, por ejemplo, ser recibidos por el sistema lógico a través de una interfaz. La interfaz puede ser, por ejemplo, una interfaz de red, una interfaz de audio (por ejemplo, una interfaz configurada para la comunicación a través del estándar AES3 desarrollado por Audio Engineering Society y la Unión Europea de Radiodifusión, también conocida como AES/EBU, a través del protocolo de interfaz digital de audio multicanal (MADI), a través de señales analógicas, etc.) o una interfaz entre el sistema lógico y un dispositivo de memoria. En este ejemplo, los datos recibidos por el renderizador incluyen al menos un objeto de audio.
En el bloque 610, se reciben las coordenadas (x,y) o (x,y,z) de una posición de objeto de audio. El bloque 610 puede, por ejemplo, implicar recibir una posición inicial del objeto de audio. El bloque 610 también puede implicar recibir una indicación de que un usuario ha posicionado o reposicionado el objeto de audio, por ejemplo, como se describe anteriormente con referencia a las figuras 5A-5C. Las coordenadas del objeto de audio se mapean a una superficie bidimensional en el bloque 615. La superficie bidimensional puede ser similar a una de las descritas anteriormente con referencia a las figuras 5D y 5E, o puede ser una superficie bidimensional diferente. En este ejemplo, cada punto del plano x-y se mapeará a un solo valor z, por lo que el bloque 615 implica mapear las coordenadas x e y recibidas en el bloque 610 a un valor de z. En otras implementaciones, se pueden usar diferentes procesos de mapeo y/o sistemas de coordenadas. El objeto de audio puede mostrarse (bloque 620) en la ubicación (x, y, z) que se determina en el bloque 615. Los datos y metadatos de audio, incluida la ubicación mapeada (x, y, z) que se determina en el bloque 615, pueden almacenarse en el bloque 621. Los datos de audio y los metadatos pueden enviarse a una herramienta de renderizado (bloque 622). En algunas implementaciones, los metadatos pueden enviarse continuamente mientras se realizan algunas operaciones de creación, por ejemplo, mientras el objeto de audio se posiciona, restringe, visualiza en la GUI 400, etc.
En el bloque 623, se determina si continuará el proceso de creación. Por ejemplo, el proceso de creación puede finalizar (bloque 625) al recibir una entrada desde una interfaz de usuario que indica que un usuario ya no desea restringir las posiciones de los objetos de audio a una superficie bidimensional. De lo contrario, el proceso de creación puede continuar, por ejemplo, volviendo al bloque 607 o al bloque 610. En algunas implementaciones, las operaciones de renderizado pueden continuar tanto si continúa el proceso de creación como si no. En algunas implementaciones, los objetos de audio pueden grabarse en un disco en la plataforma de creación y luego reproducirse desde un procesador de sonido dedicado o un servidor de cine conectado a un procesador de sonido, por ejemplo, un procesador de sonido similar al procesador 210 de sonido de la figura 2, con fines de exhibición.
En algunas implementaciones, la herramienta de renderizado puede ser un software que se ejecuta en un aparato que está configurado para proporcionar la funcionalidad de creación. En otras implementaciones, la herramienta de renderizado se puede proporcionar en otro dispositivo. El tipo de protocolo de comunicación usado para la comunicación entre la herramienta de creación y la herramienta de renderizado puede variar según si ambas herramientas se ejecutan en el mismo dispositivo o si se comunican a través de una red.
En el bloque 626, los datos y metadatos de audio (incluidas las posiciones (x, y, z) determinadas en el bloque 615 son recibidos por la herramienta de renderizado. En implementaciones alternativas, los datos y metadatos de audio pueden recibirse por separado e interpretarse mediante la herramienta de renderizado como un objeto de audio a través de un mecanismo implícito. Como se indicó anteriormente, por ejemplo, un flujo de metadatos puede contener un código de identificación de objeto de audio (por ejemplo, 1, 2, 3, etc.) y puede adjuntarse respectivamente con la primera, segunda y tercera entradas de audio (es decir, conexión de audio digital o analógica) en el sistema de renderizado para formar un objeto de audio que se puede renderizar en los altavoces.
Durante las operaciones de renderizado del proceso 600 (y otras operaciones de renderizado descritas en el presente documento), las ecuaciones de ganancia de panoramización pueden aplicarse de acuerdo con la disposición de los altavoces de reproducción de un entorno de reproducción particular. En consecuencia, el sistema lógico de la herramienta de renderizado puede recibir datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción en el entorno de reproducción y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción. Estos datos pueden recibirse, por ejemplo, accediendo a una estructura de datos que está almacenada en una memoria accesible por el sistema lógico o recibida a través de un sistema de interfaz.
En este ejemplo, se aplican ecuaciones de ganancia de panoramización para la posición o posiciones (x,y,z) para determinar los valores de ganancia (bloque 628) para aplicar a los datos de audio (bloque 630). En algunas implementaciones, los datos de audio cuyo nivel se ha ajustado en respuesta a los valores de ganancia pueden ser reproducidos por altavoces de reproducción, por ejemplo, por altavoces de auriculares (u otros altavoces) que están configurados para comunicarse con un sistema lógico de la herramienta de renderizado. En algunas implementaciones, las ubicaciones de los altavoces de reproducción pueden corresponder a las ubicaciones de las zonas de altavoz de un entorno de reproducción virtual, como el entorno 404 de reproducción virtual descrito anteriormente. Las respuestas correspondientes del altavoz pueden mostrarse en un dispositivo de visualización, por ejemplo, como se muestra en las figuras 5A-5C.
En el bloque 635, se determina si el proceso continuará. Por ejemplo, el proceso puede finalizar (bloque 640) al recibir una entrada desde una interfaz de usuario que indica que un usuario ya no desea continuar con el proceso de renderizado. De lo contrario, el proceso puede continuar, por ejemplo, volviendo al bloque 626. Si el sistema lógico recibe una indicación de que el usuario desea volver al proceso de creación correspondiente, el proceso 600 puede volver al bloque 607 o al bloque 610.
Otras implementaciones pueden implicar la imposición de otros tipos de restricciones y la creación de otros tipos de metadatos de restricciones para objetos de audio. La figura 6B es un diagrama de flujo que describe un ejemplo de un proceso de mapeo de una posición de objeto de audio a una ubicación de un solo altavoz. Este proceso también puede denominarse en el presente documento "ajuste". En el bloque 655, se recibe una indicación de que la posición de un objeto de audio puede ajustarse a una sola ubicación de altavoz o una sola zona de altavoz. En este ejemplo, la indicación es que la posición del objeto de audio se ajustará a una sola ubicación de altavoz, cuando corresponda. La indicación puede, por ejemplo, ser recibida por un sistema lógico de un aparato que está configurado para proporcionar herramientas de creación. La indicación puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. Sin embargo, la indicación también puede corresponder con una categoría del objeto de audio (por ejemplo, como un sonido de bala, una vocalización, etc.) y/o un ancho del objeto de audio. La información sobre la categoría y/o el ancho puede, por ejemplo, recibirse como metadatos para el objeto de audio. En tales implementaciones, el bloque 657 puede ocurrir antes del bloque 655.
En el bloque 656, se reciben datos de audio. Las coordenadas de la posición de un objeto de audio se reciben en el bloque 657. En este ejemplo, se muestra la posición del objeto de audio (bloque 658) de acuerdo con las coordenadas recibidas en el bloque 657. Los metadatos, incluidas las coordenadas del objeto de audio y un indicador de ajuste, que indica la funcionalidad de ajuste, se guardan en el bloque 659. Los datos y metadatos de audio son enviados por la herramienta de creación a una herramienta de renderizado (bloque 660).
En el bloque 662, se determina si continuará el proceso de creación. Por ejemplo, el proceso de creación puede finalizar (bloque 663) al recibir una entrada desde una interfaz de usuario que indica que un usuario ya no desea ajustar las posiciones de los objetos de audio a la ubicación de un altavoz. De lo contrario, el proceso de creación puede continuar, por ejemplo, volviendo al bloque 665. En algunas implementaciones, las operaciones de renderizado pueden continuar tanto si continúa el proceso de creación como si no.
Los datos de audio y los metadatos enviados por la herramienta de creación son recibidos por la herramienta de renderizado en el bloque 664. En el bloque 665, se determina (por ejemplo, por el sistema lógico) si ajustar la posición del objeto de audio a la ubicación de altavoz. Esta determinación puede basarse, al menos en parte, en la distancia entre la posición del objeto de audio y la ubicación de altavoz de reproducción más cercana de un entorno de reproducción.
En este ejemplo, si se determina en el bloque 665 ajustar la posición del objeto de audio a la ubicación de un altavoz, la posición del objeto de audio se mapeará a una ubicación de altavoz en el bloque 670, generalmente la más cercana a la posición deseada (x, y, z) recibida para el objeto de audio. En este caso, la ganancia de los datos de audio reproducidos por esta ubicación de altavoz será 1,0, mientras que la ganancia de los datos de audio reproducidos por otros altavoces será cero. En implementaciones alternativas, la posición del objeto de audio puede mapearse a un grupo de ubicaciones de altavoces en el bloque 670.
Por ejemplo, con referencia nuevamente a la figura 4B, el bloque 670 puede implicar ajustar la posición del objeto de audio a uno de los altavoces superiores izquierdos 470a. Alternativamente, el bloque 670 puede involucrar ajustar la posición del objeto de audio a un solo altavoz y altavoces vecinos, por ejemplo, 1 o 2 altavoces vecinos. En consecuencia, los metadatos correspondientes pueden aplicarse a un pequeño grupo de altavoces de reproducción y/o a un altavoz de reproducción individual.
Sin embargo, si se determina en el bloque 665 que la posición del objeto de audio no se ajustará a la ubicación de un altavoz, por ejemplo, si esto diese como resultado una gran discrepancia en la posición en relación con la posición original prevista recibida para el objeto, las reglas de panoramización serán aplicadas (bloque 675). Las reglas de panoramización se pueden aplicar de acuerdo con la posición del objeto de audio, así como otras características del objeto de audio (como ancho, volumen, etc.).
Los datos de ganancia determinados en el bloque 675 pueden aplicarse a los datos de audio en el bloque 681 y el resultado puede guardarse. En algunas implementaciones, los datos de audio resultantes pueden ser reproducidos por altavoces que están configurados para comunicarse con el sistema lógico. Si se determina en el bloque 685 que el proceso 650 continuará, el proceso 650 puede volver al bloque 664 para continuar con las operaciones de renderizado. Alternativamente, el proceso 650 puede volver al bloque 655 para reanudar las operaciones de creación.
El proceso 650 puede implicar varios tipos de operaciones de suavizado. Por ejemplo, el sistema lógico puede configurarse para suavizar las transiciones en las ganancias aplicadas a los datos de audio cuando se pasa de mapear una posición de objeto de audio desde una primera ubicación de un solo altavoz a una segunda ubicación de un solo altavoz. Con referencia nuevamente a la figura 4B, si la posición del objeto de audio fue mapeada inicialmente a uno de los altavoces superiores izquierdos 470a y luego fue mapeada a uno de los altavoces envolventes traseros derechos 480b, el sistema lógico puede configurarse para suavizar la transición entre los altavoces para que el objeto de audio no parezca "saltar" repentinamente de un altavoz (o zona de altavoz) a otro. En algunas implementaciones, el suavizado puede implementarse de acuerdo con un parámetro de velocidad de desvanecimiento cruzado.
En algunas implementaciones, el sistema lógico puede configurarse para suavizar las transiciones en las ganancias aplicadas a los datos de audio cuando se realiza la transición entre el mapeo de una posición de objeto de audio a una ubicación de un solo altavoz y la aplicación de reglas de panoramización para la posición del objeto de audio. Por ejemplo, si se determinara posteriormente en el bloque 665 que la posición del objeto de audio se había movido a una posición que se determinó que estaba demasiado lejos del altavoz más cercano, se pueden aplicar reglas de panoramización para la posición del objeto de audio en el bloque 675. Sin embargo, cuando se pasa de ajuste a panoramización (o viceversa), el sistema lógico puede configurarse para suavizar las transiciones en las ganancias aplicadas a los datos de audio. El proceso puede terminar en el bloque 690, por ejemplo, al recibir la entrada correspondiente desde una interfaz de usuario.
Algunas implementaciones alternativas pueden implicar la creación de restricciones lógicas. En algunos casos, por ejemplo, un mezclador de sonido puede desear un control más explícito sobre el conjunto de altavoces que se usa durante una operación de panoramización particular. Algunas implementaciones permiten a un usuario generar "mapeos lógicos" de una o dos dimensiones entre conjuntos de altavoces y una interfaz de panoramización.
La figura 7 es un diagrama de flujo que describe un proceso de establecimiento y uso de altavoces virtuales. Las figuras 8A-8C muestran ejemplos de altavoces virtuales mapeados a puntos finales de línea y respuestas de zona de altavoz correspondientes. Con referencia primero al proceso 700 de la figura 7, se recibe una indicación en el bloque 705 para crear altavoces virtuales. La indicación puede ser recibida, por ejemplo, por un sistema lógico de un aparato de creación y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario.
En el bloque 710, se recibe una indicación de la ubicación de un altavoz virtual. Por ejemplo, con referencia a la figura 8A, un usuario puede usar un dispositivo de entrada de usuario para colocar el cursor 510 en la posición del altavoz virtual 805a y seleccionar esa ubicación, por ejemplo, mediante un clic del ratón. En el bloque 715, se determina (por ejemplo, de acuerdo con la entrada del usuario) que se seleccionarán altavoces virtuales adicionales en este ejemplo. El proceso vuelve al bloque 710 y el usuario selecciona la posición del altavoz virtual 805b, que se muestra en la figura 8A, en este ejemplo.
En este caso, el usuario solo desea establecer dos ubicaciones de altavoces virtuales. Por lo tanto, en el bloque 715, se determina (por ejemplo, de acuerdo con la entrada del usuario) que no se seleccionarán altavoces virtuales adicionales. Se puede mostrar una polilínea 810, como se muestra en la figura 8A, conectando las posiciones del altavoz virtual 805a y 805b. En algunas implementaciones, la posición del objeto 505 de audio estará restringida a la polilínea 810. En algunas implementaciones, la posición del objeto 505 de audio puede estar restringida a una curva paramétrica. Por ejemplo, se puede proporcionar un conjunto de puntos de control de acuerdo con la entrada del usuario y se puede usar un algoritmo de ajuste de curvas, como un spline, para determinar la curva paramétrica. En el bloque 725, se recibe una indicación de la posición de un objeto de audio a lo largo de la polilínea 810. En algunas de estas implementaciones, la posición se indicará como un valor escalar entre cero y uno. En el bloque 725, pueden visualizarse las coordenadas (x, y, z) del objeto de audio y la polilínea definida por los altavoces virtuales. Se pueden mostrar los datos de audio y los metadatos asociados, incluida la posición escalar obtenida y las coordenadas (x,y,z) de los altavoces virtuales (bloque 727). Aquí, los datos de audio y los metadatos pueden enviarse a una herramienta de renderizado a través de un protocolo de comunicación apropiado en el bloque 728.
En el bloque 729, se determina si continuará el proceso de creación. Si no, el proceso 700 puede terminar (bloque 730) o puede continuar con las operaciones de renderizado, de acuerdo con la entrada del usuario. Sin embargo, como se indicó anteriormente, en muchas implementaciones, al menos algunas operaciones de renderizado pueden realizarse simultáneamente con las operaciones de creación.
En el bloque 732, la herramienta de renderizado recibe los datos y metadatos de audio. En el bloque 735, las ganancias a aplicar a los datos de audio se calculan para cada posición de altavoz virtual. La figura 8B muestra las respuestas del altavoz para la posición del altavoz virtual 805a. La figura 8C muestra las respuestas del altavoz para la posición del altavoz virtual 805b. En este ejemplo, como en muchos otros ejemplos descritos en el presente documento, las respuestas de los altavoces indicadas son para altavoces de reproducción que tienen ubicaciones correspondientes a las ubicaciones que se muestran para las zonas de altavoz de la GUI 400. Aquí, los altavoces virtuales 805a y 805b y la línea 810 se han posicionado en un plano que no está cerca de los altavoces de reproducción que tienen ubicaciones correspondientes a las zonas 8 y 9 de altavoz. Por lo tanto, no se indica ninguna ganancia para estos altavoces en las figuras 8B o 8C.
Cuando el usuario mueve el objeto 505 de audio a otras posiciones a lo largo de la línea 810, el sistema lógico calculará el desvanecimiento cruzado que corresponde a estas posiciones (bloque 740), por ejemplo, de acuerdo con el parámetro de posición escalar del objeto de audio. En algunas implementaciones, se puede usar una ley de panoramización por pares (por ejemplo, una ley de seno o potencia que conserva la energía) para combinar las ganancias que se aplicarán a los datos de audio para la posición del altavoz virtual 805a y las ganancias que se aplicarán a los datos de audio para la posición del altavoz virtual 805b.
En el bloque 742, se puede determinar (por ejemplo, de acuerdo con la entrada del usuario) si se continúa con el proceso 700. A un usuario se le puede presentar, por ejemplo, (por ejemplo, a través de una GUI) la opción de continuar con las operaciones de renderizado o de volver a las operaciones de creación. Si se determina que el proceso 700 no continuará, el proceso finaliza (bloque 745).
Al realizar una panorámica de objetos de audio que se mueven rápidamente (por ejemplo, objetos de audio que corresponden a automóviles, aviones, etc.), puede ser difícil crear una trayectoria suave si el usuario selecciona las posiciones de los objetos de audio punto por punto. La falta de suavidad en la trayectoria del objeto de audio puede influir en la imagen de sonido percibida. En consecuencia, algunas implementaciones de creación proporcionadas en el presente documento aplican un filtro de paso bajo a la posición de un objeto de audio para suavizar las ganancias de panoramización resultantes. Las implementaciones de creación alternativas aplican un filtro de paso bajo a la ganancia aplicada a los datos de audio.
Otras implementaciones de creación pueden permitir que un usuario simule agarrar, tirar, lanzar o interactuar de manera similar con objetos de audio. Algunas de estas implementaciones pueden implicar la aplicación de leyes físicas simuladas, como conjuntos de reglas que se usan para describir la velocidad, la aceleración, el impulso, la energía cinética, la aplicación de fuerzas, etc.
Las figuras 9A-9C muestran ejemplos del uso de una fijación virtual para arrastrar un objeto de audio. En la figura 9A, se ha formado una fijación virtual 905 entre el objeto 505 de audio y el cursor 510. En este ejemplo, la fijación virtual 905 tiene una constante de resorte virtual. En algunas de tales implementaciones, la constante de resorte virtual puede seleccionarse de acuerdo con la entrada del usuario.
La figura 9B muestra el objeto 505 de audio y el cursor 510 en un momento posterior, después del cual el usuario ha movido el cursor 510 hacia la zona 3 de altavoz. El usuario puede haber movido el cursor 510 usando un ratón, un joystick, una bola de seguimiento, un aparato de detección de gestos u otro tipo de dispositivo de entrada de usuario. La fijación virtual 905 se ha estirado y el objeto 505 de audio se ha movido cerca de la zona 8 de altavoz. El objeto 505 de audio tiene aproximadamente el mismo tamaño en las figuras 9A y 9B, lo que indica (en este ejemplo) que la elevación del objeto 505 de audio no ha cambiado sustancialmente.
La figura 9C muestra el objeto 505 de audio y el cursor 510 en un momento posterior, después de lo cual el usuario ha movido el cursor alrededor de la zona 9 de altavoz. La fijación virtual 905 se ha estirado aún más. El objeto 505 de audio se ha movido hacia abajo, como lo indica la disminución del tamaño del objeto 505 de audio. El objeto 505 de audio se ha movido en un arco suave. Este ejemplo ilustra un beneficio potencial de tales implementaciones, que es que el objeto 505 de audio se puede mover en una trayectoria más suave que si un usuario simplemente selecciona posiciones para el objeto 505 de audio punto por punto.
La figura 10A es un diagrama de flujo que describe un proceso de uso de una fijación virtual para mover un objeto de audio. El proceso 1000 comienza con el bloque 1005, en el que se reciben los datos de audio. En el bloque 1007, se recibe una indicación para unir una fijación virtual entre un objeto de audio y un cursor. La indicación puede ser recibida por un sistema lógico de un aparato de creación y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. Con referencia a la figura 9A, por ejemplo, un usuario puede colocar el cursor 510 sobre el objeto 505 de audio y luego indicar, a través de un dispositivo de entrada de usuario o una GUI, que la fijación virtual 905 debe formarse entre el cursor 510 y el objeto 505 de audio. Se pueden recibir datos de posición del cursor y del objeto. (Bloque 1010).
En este ejemplo, los datos de velocidad y/o aceleración del cursor pueden ser calculados por el sistema lógico de acuerdo con los datos de posición del cursor, a medida que se mueve el cursor 510. (Bloque 1015). Los datos de posición y/o datos de trayectoria para el objeto 505 de audio se pueden calcular de acuerdo con la constante de resorte virtual de la fijación virtual 905 y los datos de posición, velocidad y aceleración del cursor. Algunas implementaciones de este tipo pueden implicar la asignación de una masa virtual al objeto 505 de audio. (Bloque 1020). Por ejemplo, si el cursor 510 se mueve a una velocidad relativamente constante, la fijación virtual 905 puede no estirarse y el objeto 505 de audio puede ser arrastrado a una velocidad relativamente constante. Si el cursor 510 acelera, la fijación virtual 905 puede estirarse y la fijación virtual 905 puede aplicar una fuerza correspondiente al objeto 505 de audio. Puede haber un retraso de tiempo entre la aceleración del cursor 510 y la fuerza aplicada por la fijación virtual 905. En implementaciones alternativas, la posición y/o la trayectoria del objeto 505 de audio se pueden determinar de una manera diferente, por ejemplo, sin asignar una constante de resorte virtual a la fijación virtual 905, aplicando reglas de fricción y/o inercia al objeto 505 de audio, etc.
Pueden visualizarse posiciones discretas y/o la trayectoria del objeto 505 de audio y el cursor 510 (bloque 1025). En este ejemplo, el sistema lógico muestrea posiciones de objetos de audio en un intervalo de tiempo (bloque 1030). En algunas de tales implementaciones, el usuario puede determinar el intervalo de tiempo para el muestreo. Se pueden guardar la ubicación del objeto de audio y/o los metadatos de la trayectoria, etc. (Bloque 1034).
En el bloque 1036 se determina si continuará este modo de creación. El proceso puede continuar si el usuario así lo desea, por ejemplo, volviendo al bloque 1005 o al bloque 1010. De lo contrario, el proceso 1000 puede terminar (bloque 1040).
La figura 10B es un diagrama de flujo que describe un proceso alternativo de usar una fijación virtual para mover un objeto de audio. Las figuras 10C-10E muestran ejemplos del proceso descrito en la figura 10B. Con referencia primero a la figura 10B, el proceso 1050 comienza con el bloque 1055, en el que se reciben los datos de audio. En el bloque 1057, se recibe una indicación para unir una fijación virtual entre un objeto de audio y un cursor. La indicación puede ser recibida por un sistema lógico de un aparato de creación y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. Con referencia a la figura 10C, por ejemplo, un usuario puede colocar el cursor 510 sobre el objeto 505 de audio y luego indicar, a través de un dispositivo de entrada de usuario o una GUI, que la fijación virtual 905 debe formarse entre el cursor 510 y el objeto 505 de audio.
Los datos de posición del cursor y del objeto de audio pueden recibirse en el bloque 1060. En el bloque 1062, el sistema lógico puede recibir una indicación (a través de un dispositivo de entrada de usuario o una GUI, por ejemplo), de que el objeto 505 de audio debe mantenerse en una posición indicada, por ejemplo, una posición indicada por el cursor 510. En el bloque 1065, el dispositivo lógico recibe una indicación de que el cursor 510 se ha movido a una nueva posición, que puede mostrarse junto con la posición del objeto 505 de audio (bloque 1067). Con referencia a la figura 10D, por ejemplo, el cursor 510 se ha movido del lado izquierdo al lado derecho del entorno 404 de reproducción virtual. Sin embargo, el objeto 510 de audio aún se mantiene en la misma posición indicada en la figura 10C. Como resultado, la fijación virtual 905 se ha estirado sustancialmente.
En el bloque 1069, el sistema lógico recibe una indicación (a través de un dispositivo de entrada de usuario o una GUI, por ejemplo) de que el objeto 505 de audio se va a liberar. El sistema lógico puede calcular los datos de la posición del objeto de audio y/o la trayectoria resultantes, que pueden visualizarse (bloque 1075). La pantalla resultante puede ser similar a la que se muestra en la figura 10E, que muestra el objeto 505 de audio moviéndose suave y rápidamente a través del entorno 404 de reproducción virtual. El sistema lógico puede guardar la ubicación del objeto de audio y/o los metadatos de la trayectoria en un sistema de memoria (bloque 1080).
En el bloque 1085, se determina si continuará el proceso 1050 de creación. El proceso puede continuar si el sistema lógico recibe una indicación de que el usuario desea hacerlo. Por ejemplo, el proceso 1050 puede continuar volviendo al bloque 1055 o al bloque 1060. De lo contrario, la herramienta de creación puede enviar los datos y metadatos de audio a una herramienta de renderizado (bloque 1090), después de lo cual el proceso 1050 puede finalizar (bloque 1095).
Para optimizar la verosimilitud del movimiento percibido de un objeto de audio, puede ser conveniente permitir que el usuario de una herramienta de creación (o una herramienta de renderizado) seleccione un subconjunto de altavoces en un entorno de reproducción y limitar el conjunto de altavoces activos al subconjunto elegido. En algunas implementaciones, las zonas de altavoz y/o los grupos de zonas de altavoz pueden designarse como activos o inactivos durante una operación de creación o renderizado. Por ejemplo, con referencia a la figura 4A, las zonas de altavoz del área frontal 405, el área izquierda 410, el área derecha 415 y/o el área superior 420 pueden controlarse como un grupo. Las zonas de altavoz de un área posterior que incluye las zonas 6 y 7 de altavoz (y, en otras implementaciones, una o más zonas de altavoz ubicadas entre las zonas 6 y 7 de altavoz) también pueden controlarse como un grupo. Se puede proporcionar una interfaz de usuario para habilitar o deshabilitar dinámicamente todos los altavoces que corresponden a una zona de altavoz particular o a un área que incluye una pluralidad de zonas de altavoz.
En algunas implementaciones, el sistema lógico de un dispositivo de creación (o un dispositivo de renderizado) puede configurarse para crear metadatos de restricción de zona de altavoz de acuerdo con la entrada del usuario recibida a través de un sistema de entrada del usuario. Los metadatos de restricción de la zona de altavoz pueden incluir datos para deshabilitar zonas de altavoz seleccionadas. Algunas de tales implementaciones se describirán ahora con referencia a las figuras 11 y 12.
La figura 11 muestra un ejemplo de aplicación de una restricción de zona de altavoz en un entorno de reproducción virtual. En algunas implementaciones de este tipo, un usuario puede seleccionar zonas de altavoz haciendo clic en sus representaciones en una GUI, como la GUI 400, usando un dispositivo de entrada de usuario como un ratón. Aquí, un usuario ha desactivado las zonas 4 y 5 de altavoz, a los lados del entorno 404 de reproducción virtual. Las zonas 4 y 5 de altavoz pueden corresponder a la mayoría (o todos) de los altavoces en un entorno de reproducción física, como un entorno de sistema de sonido de cine. En este ejemplo, el usuario también ha restringido las posiciones del objeto 505 de audio a posiciones a lo largo de la línea 1105. Con la mayoría o todos los altavoces a lo largo de las paredes laterales deshabilitadas, una panorámica desde la pantalla 150 hasta la parte posterior del entorno 404 de reproducción virtual estaría limitada a no usar los altavoces laterales. Esto puede crear un movimiento percibido mejorado de adelante hacia atrás para un área de audiencia amplia, particularmente para los miembros de la audiencia que están sentados cerca de los altavoces de reproducción correspondientes a las zonas 4 y 5 de altavoz.
En algunas implementaciones, las restricciones de la zona de altavoz pueden llevarse a cabo a través de todos los modos de rerenderizado. Por ejemplo, las restricciones de la zona de altavoz pueden llevarse a cabo en situaciones en las que hay menos zonas disponibles para renderizar, por ejemplo, cuando se renderiza para una configuración Dolby Surround 7.1 o 5.1 que expone solo 7 o 5 zonas. Las restricciones de la zona de altavoz también se pueden llevar a cabo cuando hay más zonas disponibles para renderizar. Como tal, las restricciones de la zona de altavoz también se pueden ver como una forma de guiar el rerenderizado, proporcionando una solución no ciega al proceso tradicional de "mezcla ascendente/mezcla descendente".
La figura 12 es un diagrama de flujo que describe algunos ejemplos de la aplicación de reglas de restricción de zona de altavoz. El proceso 1200 comienza con el bloque 1205, en el que se reciben una o más indicaciones para aplicar reglas de restricción de zona de altavoz. La indicación o indicaciones pueden ser recibidas por un sistema lógico de un aparato de creación o renderizado y puede corresponder con la entrada recibida desde un dispositivo de entrada de usuario. Por ejemplo, las indicaciones pueden corresponder a la selección de un usuario de una o más zonas de altavoz para desactivar. En algunas implementaciones, el bloque 1205 puede implicar recibir una indicación de qué tipo de reglas de restricción de zona de altavoz deben aplicarse, por ejemplo, como se describe a continuación.
En el bloque 1207, una herramienta de creación recibe los datos de audio. Los datos de posición del objeto de audio pueden recibirse (bloque 1210), por ejemplo, de acuerdo con la entrada de un usuario de la herramienta de creación, y visualizarse (bloque 1215). Los datos de posición son coordenadas (x, y, z) en este ejemplo. Aquí, las zonas de altavoz activas e inactivas para las reglas de restricción de zonas de altavoz seleccionadas también se muestran en el bloque 1215. En el bloque 1220, se guardan los datos de audio y los metadatos asociados. En este ejemplo, los metadatos incluyen la posición del objeto de audio y los metadatos de restricción de la zona de altavoz, que pueden incluir un indicador de identificación de la zona de altavoz.
En algunas implementaciones, los metadatos de restricción de la zona de altavoz pueden indicar que una herramienta de renderizado debe aplicar ecuaciones de panoramización para calcular las ganancias de forma binaria, por ejemplo, considerando que todos los altavoces de las zonas de altavoz seleccionadas (deshabilitadas) están "apagados" y todos los demás altavoces zonas como "activadas". El sistema lógico puede configurarse para crear metadatos de restricción de zonas de altavoz que incluyen datos para deshabilitar las zonas de altavoz seleccionadas.
En implementaciones alternativas, los metadatos de restricción de la zona de altavoz pueden indicar que la herramienta de renderizado aplicará ecuaciones de panoramización para calcular las ganancias de una manera combinada que incluye cierto grado de contribución de los altavoces de las zonas de altavoz deshabilitadas. Por ejemplo, el sistema lógico puede configurarse para crear metadatos de restricción de zonas de altavoz que indiquen que la herramienta de renderizado debe atenuar las zonas de altavoz seleccionadas realizando las siguientes operaciones: calcular las primeras ganancias que incluyen las contribuciones de las zonas de altavoz seleccionadas (desactivadas); calcular las segundas ganancias que no incluyen las contribuciones de las zonas de altavoz seleccionadas; y mezclar las primeras ganancias con las segundas ganancias. En algunas implementaciones, se puede aplicar una polarización a las primeras ganancias y/o las segundas ganancias (por ejemplo, desde un valor mínimo seleccionado hasta un valor máximo seleccionado) para permitir un rango de contribuciones potenciales desde zonas de altavoz seleccionadas.
En este ejemplo, la herramienta de creación envía los datos y metadatos de audio a una herramienta de renderizado en el bloque 1225. El sistema lógico puede entonces determinar si el proceso de creación continuará (bloque 1227). El proceso de creación puede continuar si el sistema lógico recibe una indicación de que el usuario desea hacerlo. De lo contrario, el proceso de creación puede finalizar (bloque 1229). En algunas implementaciones, las operaciones de renderizado pueden continuar, de acuerdo con la entrada del usuario.
Los objetos de audio, incluidos los datos de audio y los metadatos creados por la herramienta de creación, son recibidos por la herramienta de renderizado en el bloque 1230. Los datos de posición para un objeto de audio particular se reciben en el bloque 1235 en este ejemplo. El sistema lógico de la herramienta de renderizado puede aplicar ecuaciones de panoramización para calcular las ganancias de los datos de posición del objeto de audio, de acuerdo con las reglas de restricción de la zona de altavoz.
En el bloque 1245, las ganancias calculadas se aplican a los datos de audio. El sistema lógico puede guardar la ganancia, la ubicación del objeto de audio y los metadatos de limitación de la zona de altavoz en un sistema de memoria. En algunas implementaciones, los datos de audio pueden ser reproducidos por un sistema de altavoces. Las respuestas correspondientes del altavoz pueden mostrarse en una pantalla en algunas implementaciones.
En el bloque 1248, se determina si el proceso 1200 continuará. El proceso puede continuar si el sistema lógico recibe una indicación de que el usuario desea hacerlo. Por ejemplo, el proceso de renderizado puede continuar volviendo al bloque 1230 o al bloque 1235. Si se recibe una indicación de que un usuario desea volver al proceso de creación correspondiente, el proceso puede volver al bloque 1207 o al bloque 1210. De lo contrario, el proceso 1200 puede terminar (bloque 1250).
Las tareas de posicionamiento y renderizado de objetos de audio en un entorno de reproducción virtual tridimensional se están volviendo cada vez más difíciles. Parte de la dificultad se relaciona con los desafíos de representar el entorno de reproducción virtual en una GUI. Algunas implementaciones de creación y renderizado proporcionadas en el presente documento permiten que un usuario cambie entre una panoramización bidimensional del espacio de la pantalla y una panoramización tridimensional del espacio de la sala. Tal funcionalidad puede ayudar a preservar la precisión del posicionamiento del objeto de audio mientras proporciona una GUI que es conveniente para el usuario.
Las figuras 13A y 13B muestran un ejemplo de una GUI que puede cambiar entre una vista bidimensional y una vista tridimensional de un entorno de reproducción virtual. Con referencia primero a la figura 13A, la GUI 400 representa una imagen 1305 en la pantalla. En este ejemplo, la imagen 1305 es la de un tigre dientes de sable. En esta vista superior del entorno 404 de reproducción virtual, un usuario puede observar fácilmente que el objeto 505 de audio está cerca de la zona 1 de altavoz. La elevación puede inferirse, por ejemplo, por el tamaño, el color o algún otro atributo del objeto 505 de audio. Sin embargo, la relación de la posición con la de la imagen 1305 puede ser difícil de determinar en esta vista.
En este ejemplo, puede parecer que la GUI 400 gira dinámicamente alrededor de un eje, como el eje 1310. La figura 13B muestra la GUI 1300 después del proceso de rotación. En esta vista, un usuario puede ver más claramente la imagen 1305 y puede usar la información de la imagen 1305 para posicionar el objeto 505 de audio con mayor precisión. En este ejemplo, el objeto de audio corresponde a un sonido hacia el que mira el tigre dientes de sable. Ser capaz de cambiar entre la vista superior y una vista de pantalla del entorno 404 de reproducción virtual permite al usuario seleccionar de forma rápida y precisa la elevación adecuada para el objeto 505 de audio, usando información del material en pantalla.
En el presente documento, se proporcionan varias otras GUI convenientes para la creación y/o el renderizado. Las figuras 13C-13E muestran combinaciones de representaciones bidimensionales y tridimensionales de entornos de reproducción. Con referencia primero a la figura 13c , se representa una vista superior del entorno 404 de reproducción virtual en un área izquierda de la GUI 1310. La GUI 1310 también incluye una representación tridimensional 1345 de un entorno de reproducción virtual (o real). El área 1350 de la representación tridimensional 1345 se corresponde con la pantalla 150 de la GUI 400. La posición del objeto 505 de audio, particularmente su elevación, puede verse claramente en la representación tridimensional 1345. En este ejemplo, el ancho del objeto 505 de audio también se muestra en la representación tridimensional 1345.
La disposición 1320 de los altavoces representa las ubicaciones de los altavoces 1324 a 1340, cada una de las cuales puede indicar una ganancia correspondiente a la posición del objeto 505 de audio en el entorno 404 de reproducción virtual. En algunas implementaciones, la disposición 1320 de los altavoces puede, por ejemplo, representar ubicaciones de altavoces de reproducción de un entorno de reproducción real, como una configuración Dolby Surround 5.1, una configuración Dolby Surround 7.1, una configuración Dolby 7.1 aumentada con altavoces superiores, etc. Cuando un sistema lógico recibe una indicación de una posición del objeto 505 de audio en el entorno 404 de reproducción virtual, el sistema lógico puede configurarse para mapear esta posición a ganancias para las ubicaciones 1324 a 1340 de los altavoces de la disposición 1320 de los altavoces, por ejemplo, mediante el proceso de panoramización de amplitud descrito anteriormente. Por ejemplo, en la figura 13C, las ubicaciones 1325, 1335 y 1337 de los altavoces tienen cada una un cambio de color que indica las ganancias correspondientes a la posición del objeto 505 de audio.
Con referencia ahora a la figura 13D, el objeto de audio se ha movido a una posición detrás de la pantalla 150. Por ejemplo, un usuario puede haber movido el objeto 505 de audio colocando un cursor sobre el objeto 505 de audio en la GUI 400 y arrastrándolo a una nueva posición. Esta nueva posición también se muestra en la representación tridimensional 1345, que se ha girado a una nueva orientación. Las respuestas de la disposición 1320 de los altavoces pueden parecer sustancialmente iguales en las figuras 13C y 13D. Sin embargo, en una GUI real, las ubicaciones 1325, 1335 y 1337 de los altavoces pueden tener una apariencia diferente (como un brillo o color diferente) para indicar las diferencias de ganancia correspondientes causadas por la nueva posición del objeto 505 de audio.
Con referencia ahora a la figura 13E, el objeto 505 de audio se ha movido rápidamente a una posición en la porción trasera derecha del entorno 404 de reproducción virtual. En el momento representado en la figura 13E, la ubicación 1326 del altavoz está respondiendo a la posición actual del objeto 505 de audio y las ubicaciones 1325 y 1337 de los altavoces siguen respondiendo a la posición anterior del objeto 505 de audio.
La figura 14A es un diagrama de flujo que describe un proceso de control de un aparato para presentar las GUI como las que se muestran en las figuras 13C-13E. El proceso 1400 comienza con el bloque 1405, en el que se reciben una o más indicaciones para visualizar ubicaciones de objetos de audio, ubicaciones de zonas de altavoz y ubicaciones de altavoces de reproducción para un entorno de reproducción. Las ubicaciones de las zonas de altavoz pueden corresponder a un entorno de reproducción virtual y/o un entorno de reproducción real, por ejemplo, como se muestra en las figuras 13C-13E. La indicación o indicaciones pueden ser recibidas por un sistema lógico de un aparato de reproducción y/o creación y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. Por ejemplo, las indicaciones pueden corresponder a la selección de un usuario de una configuración de entorno de reproducción.
En el bloque 1407, se reciben datos de audio. Los datos de posición y ancho del objeto de audio se reciben en el bloque 1410, por ejemplo, de acuerdo con la entrada del usuario. En el bloque 1415, se muestran el objeto de audio, las ubicaciones de las zonas de altavoz y las ubicaciones de los altavoces de reproducción. La posición del objeto de audio puede mostrarse en vistas bidimensionales y/o tridimensionales, por ejemplo, como se muestra en las figuras 13C-13E. Los datos de ancho pueden usarse no solo para el renderizado de objetos de audio, sino que también pueden afectar cómo se muestra el objeto de audio (véase la representación del objeto 505 de audio en la representación tridimensional 1345 de las figuras 13C-13E).
Los datos de audio y los metadatos asociados pueden grabarse. (Bloque 1420). En el bloque 1425, la herramienta de creación envía los datos y metadatos de audio a una herramienta de renderizado. El sistema lógico puede entonces determinar (bloque 1427) si continuará el proceso de creación. El proceso de creación puede continuar (por ejemplo, volviendo al bloque 1405) si el sistema lógico recibe una indicación de que el usuario desea hacerlo. De lo contrario, el proceso de creación puede finalizar. (Bloque 1429).
Los objetos de audio, incluidos los datos de audio y los metadatos creados por la herramienta de creación, son recibidos por la herramienta de renderizado en el bloque 1430. Los datos de posición para un objeto de audio particular se reciben en el bloque 1435 en este ejemplo. El sistema lógico de la herramienta de renderizado puede aplicar ecuaciones de panoramización para calcular las ganancias de los datos de posición del objeto de audio, de acuerdo con los metadatos de ancho.
En algunas implementaciones de renderizado, el sistema lógico puede mapear las zonas de altavoz a los altavoces de reproducción del entorno de reproducción. Por ejemplo, el sistema lógico puede acceder a una estructura de datos que incluye zonas de altavoz y ubicaciones de altavoces de reproducción correspondientes. A continuación se describen más detalles y ejemplos con referencia a la figura 14B.
En algunas implementaciones, pueden aplicarse ecuaciones de panoramización, por ejemplo, mediante un sistema lógico, de acuerdo con la posición del objeto de audio, el ancho y/u otra información, como las ubicaciones de los altavoces del entorno de reproducción (bloque 1440). En el bloque 1445, los datos de audio se procesan de acuerdo con las ganancias que se obtienen en el bloque 1440. Al menos algunos de los datos de audio resultantes pueden almacenarse, si así se desea, junto con los datos de posición del objeto de audio correspondiente y otros metadatos recibidos de la herramienta de creación. Los datos de audio pueden ser reproducidos por altavoces.
El sistema lógico puede entonces determinar (bloque 1448) si el proceso 1400 continuará. El proceso 1400 puede continuar si, por ejemplo, el sistema lógico recibe una indicación de que el usuario desea hacerlo. De lo contrario, el proceso 1400 puede finalizar (bloque 1449).
La figura 14B es un diagrama de flujo que describe un proceso de renderizado de objetos de audio para un entorno de reproducción. El proceso 1450 comienza con el bloque 1455, en el que se reciben una o más indicaciones para generar objetos de audio para un entorno de reproducción. La indicación o indicaciones pueden ser recibidas por un sistema lógico de un aparato de renderizado y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. Por ejemplo, las indicaciones pueden corresponder a la selección de un usuario de una configuración de entorno de reproducción.
En el bloque 1457, se reciben datos de reproducción de audio (incluyendo uno o más objetos de audio y metadatos asociados). Los datos del entorno de reproducción pueden recibirse en el bloque 1460. Los datos del entorno de reproducción pueden incluir una indicación de un número de altavoces de reproducción en el entorno de reproducción y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción. El entorno de reproducción puede ser un entorno de sistema de sonido de cine, un entorno de cine en casa, etc. En algunas implementaciones, los datos del entorno de reproducción pueden incluir datos de disposición de zona de altavoz de reproducción que indican zonas de altavoz de reproducción y ubicaciones de altavoces de reproducción que se corresponden con las zonas de altavoz.
El entorno de reproducción puede visualizarse en el bloque 1465. En algunas implementaciones, el entorno de reproducción puede mostrarse de manera similar a la disposición 1320 de los altavoces que se muestra en las figuras 13C-13E.
En el bloque 1470, los objetos de audio pueden renderizarse en una o más señales de alimentación de altavoz para el entorno de reproducción. En algunas implementaciones, los metadatos asociados con los objetos de audio pueden haber sido creados de una manera como la descrita anteriormente, de modo que los metadatos pueden incluir datos de ganancia correspondientes a las zonas de altavoz (por ejemplo, correspondientes a las zonas 1-9 de altavoz de la GUI 400). El sistema lógico puede mapear las zonas de altavoz a los altavoces de reproducción del entorno de reproducción. Por ejemplo, el sistema lógico puede acceder a una estructura de datos, almacenada en una memoria, que incluye zonas de altavoz y ubicaciones de altavoces de reproducción correspondientes. El dispositivo de renderizado puede tener una variedad de tales estructuras de datos, cada una de las cuales corresponde a una configuración de altavoz diferente. En algunas implementaciones, un aparato de renderizado puede tener tales estructuras de datos para una variedad de configuraciones de entorno de reproducción estándar, como una configuración Dolby Surround 5.1, una configuración Dolby Surround 7.1 y/o una configuración de sonido envolvente Hamasaki 22.2.
En algunas implementaciones, los metadatos de los objetos de audio pueden incluir otra información del proceso de creación. Por ejemplo, los metadatos pueden incluir datos de restricción de altavoz. Los metadatos pueden incluir información para mapear una posición de objeto de audio a una ubicación de altavoz de reproducción única o una zona de altavoz de reproducción única. Los metadatos pueden incluir datos que restringen la posición de un objeto de audio a una curva unidimensional o una superficie bidimensional. Los metadatos pueden incluir datos de trayectoria para un objeto de audio. Los metadatos pueden incluir un identificador para el tipo de contenido (por ejemplo, diálogo, música o efectos).
En consecuencia, el proceso de renderizado puede implicar el uso de los metadatos, por ejemplo, para imponer restricciones de zona de altavoz. En algunas de tales implementaciones, el aparato de reproducción puede proporcionar al usuario la opción de modificar las restricciones indicadas por los metadatos, por ejemplo, modificar las restricciones del altavoz y volver a procesar en consecuencia. El renderizado puede implicar la creación de una ganancia agregada basada en uno o más de una posición de objeto de audio deseada, una distancia desde la posición de objeto de audio deseada a una posición de referencia, una velocidad de un objeto de audio o un tipo de contenido de objeto de audio. Es posible que se visualicen las respuestas correspondientes de los altavoces de reproducción. (Bloque 1475). En algunas implementaciones, el sistema lógico puede controlar los altavoces para reproducir el sonido correspondiente a los resultados del proceso de renderizado.
En el bloque 1480, el sistema lógico puede determinar si el proceso 1450 continuará. El proceso 1450 puede continuar si, por ejemplo, el sistema lógico recibe una indicación de que el usuario desea hacerlo. Por ejemplo, el proceso 1450 puede continuar volviendo al bloque 1457 o al bloque 1460. De lo contrario, el proceso 1450 puede terminar (bloque 1485).
El control de ancho de fuente aparente y la dispersión son características de algunos sistemas de creación/renderización de sonido envolvente existentes. En esta divulgación, el término "difusión" se refiere a distribuir la misma señal sobre múltiples altavoces para difuminar la imagen del sonido. El término "ancho" se refiere a la decorrelación de las señales de salida a cada canal para el control del ancho aparente. El ancho puede ser un valor escalar adicional que controla la cantidad de decorrelación aplicada a cada señal de alimentación de altavoz.
Algunas implementaciones descritas en el presente documento proporcionan un control de dispersión orientado al eje 3D. Una implementación de este tipo se describirá ahora con referencia a las figuras 15A y 15B. La figura 15A muestra un ejemplo de un objeto de audio y el ancho del objeto de audio asociado en un entorno de reproducción virtual. Aquí, la GUI 400 indica un elipsoide 1505 que se extiende alrededor del objeto 505 de audio, indicando el ancho del objeto de audio. El ancho del objeto de audio puede indicarse mediante metadatos del objeto de audio y/o recibirse de acuerdo con la entrada del usuario. En este ejemplo, las dimensiones x e y del elipsoide 1505 son diferentes, pero en otras implementaciones estas dimensiones pueden ser las mismas. Las dimensiones z del elipsoide 1505 no se muestran en la figura 15A.
La figura 15B muestra un ejemplo de un perfil de dispersión correspondiente al ancho del objeto de audio que se muestra en la figura 15A. La dispersión se puede representar como un parámetro vectorial tridimensional. En este ejemplo, el perfil 1507 de dispersión se puede controlar de forma independiente a lo largo de 3 dimensiones, por ejemplo, de acuerdo con la entrada del usuario. Las ganancias a lo largo de los ejes x e y están representadas en la figura 15B por la altura respectiva de las curvas 1510 y 1520. La ganancia para cada muestra 1512 también se indica mediante el tamaño de los círculos correspondientes 1515 dentro del perfil 1507 de dispersión. Las respuestas de los altavoces 1510 se indican mediante sombreado gris en la figura 15B.
En algunas implementaciones, el perfil 1507 de dispersión puede implementarse mediante una integral separable para cada eje. De acuerdo con algunas implementaciones, se puede establecer automáticamente un valor de dispersión mínimo en función de la ubicación de los altavoces para evitar discrepancias tímbricas durante la panoramización. Alternativamente, o adicionalmente, se puede establecer automáticamente un valor mínimo de dispersión en función de la velocidad del objeto de audio panoramizado, de modo que a medida que aumenta la velocidad del objeto de audio, un objeto se vuelve más disperso espacialmente, de manera similar a la rapidez con la que se mueven las imágenes en una película parecen desdibujarse.
Cuando se usan implementaciones de reproducción de audio basadas en objetos de audio como las descritas en el presente documento, es posible que se entreguen sin mezclar al entorno de reproducción una cantidad potencialmente grande de pistas de audio y los metadatos que las acompañan (incluidos, entre otros, los metadatos que indican las posiciones de los objetos de audio en el espacio tridimensional). Una herramienta de renderizado en tiempo real puede usar dichos metadatos e información sobre el entorno de reproducción para calcular las señales de alimentación de altavoz para optimizar la reproducción de cada objeto de audio.
Cuando se mezcla una gran cantidad de objetos de audio en las salidas de los altavoces, puede producirse una sobrecarga en el dominio digital (por ejemplo, la señal digital puede recortarse antes de la conversión analógica) o en el dominio analógico, cuando la señal analógica amplificada es reproducida por los altavoces de reproducción. Ambos casos pueden dar como resultado una distorsión audible, lo cual no es deseable. La sobrecarga en el dominio analógico también podría dañar los altavoces de reproducción.
En consecuencia, algunas implementaciones descritas en el presente documento implican el "bloqueo" de objetos dinámicos en respuesta a la sobrecarga del altavoz de reproducción. Cuando los objetos de audio se renderizan con un perfil de dispersión dado, en algunas implementaciones la energía puede dirigirse a un mayor número de altavoces de reproducción vecinos mientras se mantiene la energía global constante. Por ejemplo, si la energía para el objeto de audio se distribuyera uniformemente entre N altavoces de reproducción, podría contribuir a cada salida de altavoz de reproducción con una ganancia de 1/sqrt(N). Este enfoque proporciona un "margen superior" de mezcla adicional y puede aliviar o prevenir la distorsión del altavoz de reproducción, como el recorte.
Para usar un ejemplo numérico, supóngase que un altavoz se recortará si recibe una entrada mayor que 1,0. Supóngase que se indica que se mezclan dos objetos en el altavoz A, uno en el nivel 1,0 y el otro en el nivel 0,25. Si no se usara el bloqueo, el nivel de mezcla en el altavoz A totalizaría 1,25 y se produciría un recorte. Sin embargo, si el primer objeto se bloquea con otro altavoz B, entonces (de acuerdo con algunas implementaciones) cada altavoz recibiría el objeto a 0,707, lo que daría como resultado un "margen superior" adicional en el altavoz A para mezclar objetos adicionales. El segundo objeto se puede mezclar de forma segura en el altavoz A sin recorte, ya que el nivel de mezcla para el altavoz A será 0,707 0,25 = 0,957.
En algunas implementaciones, durante la fase de creación, cada objeto de audio puede mezclarse con un subconjunto de las zonas de altavoz (o todas las zonas de altavoz) con una ganancia de mezcla determinada. Por lo tanto, se puede construir una lista dinámica de todos los objetos que contribuyen a cada altavoz. En algunas implementaciones, esta lista se puede ordenar por niveles de energía decrecientes, por ejemplo, usando el producto del nivel original de raíz cuadrática media (RMS) de la señal multiplicado por la ganancia de mezcla. En otras implementaciones, la lista puede clasificarse de acuerdo con otros criterios, como la importancia relativa asignada al objeto de audio.
Durante el proceso de renderizado, si se detecta una sobrecarga para una salida de altavoz de reproducción determinada, la energía de los objetos de audio puede dispersarse entre varios altavoces de reproducción. Por ejemplo, la energía de los objetos de audio puede dispersarse usando un ancho o un factor de dispersión que sea proporcional a la cantidad de sobrecarga y a la contribución relativa de cada objeto de audio al altavoz de reproducción dado. Si el mismo objeto de audio contribuye a que varios altavoces de reproducción se sobrecarguen, su ancho o factor de dispersión puede, en algunas implementaciones, aumentarse de forma aditiva y aplicarse a la siguiente trama renderizada de datos de audio.
En general, un limitador duro recortará cualquier valor que exceda un umbral al valor del umbral. Como en el ejemplo anterior, si un altavoz recibe un objeto mixto en el nivel 1,25 y solo puede permitir un nivel máximo de 1,0, el objeto estará "limitado" a 1,0. Un limitador suave comenzará a aplicar la limitación antes de alcanzar el umbral absoluto para proporcionar un resultado más suave y agradable al oído. Los limitadores suaves también pueden usar una función de "mirar hacia adelante" para predecir cuándo puede ocurrir un recorte futuro para reducir suavemente la ganancia antes de que ocurra el recorte y así evitar el recorte.
Varias implementaciones de "bloqueo" proporcionadas en el presente documento pueden usarse junto con un limitador duro o suave para limitar la distorsión audible mientras se evita la degradación de la precisión/nitidez espacial. A diferencia de una difusión global o el uso exclusivo de limitadores, las implementaciones de bloqueo pueden apuntar selectivamente a objetos ruidosos u objetos de un tipo de contenido determinado. Tales implementaciones pueden ser controladas por el mezclador. Por ejemplo, si los metadatos de restricción de zona de altavoz para un objeto de audio indican que no se debe usar un subconjunto de altavoces de reproducción, el aparato de reproducción puede aplicar las reglas de restricción de zona de altavoz correspondientes además de implementar un método de bloqueo.
La figura 16 es un diagrama de flujo que describe un proceso de creación/bloqueo de objetos de audio. El proceso 1600 comienza con el bloque 1605, en el que se reciben una o más indicaciones para activar la funcionalidad de creación/bloqueo de objetos de audio. La indicación o indicaciones pueden ser recibidas por un sistema lógico de un aparato de renderizado y puede corresponder con la entrada recibida desde un dispositivo de entrada del usuario. En algunas implementaciones, las indicaciones pueden incluir la selección de un usuario de una configuración de entorno de reproducción. En implementaciones alternativas, el usuario puede haber seleccionado previamente una configuración de entorno de reproducción.
En el bloque 1607, se reciben datos de reproducción de audio (incluyendo uno o más objetos de audio y metadatos asociados). En algunas implementaciones, los metadatos pueden incluir metadatos de restricción de zona de altavoz, por ejemplo, como se describe anteriormente. En este ejemplo, la posición del objeto de audio, el tiempo y los datos de dispersión se analizan a partir de los datos de reproducción de audio (o se reciben de otro modo, por ejemplo, a través de la entrada desde una interfaz de usuario) en el bloque 1610.
Las respuestas de los altavoces de reproducción se determinan para la configuración del entorno de reproducción aplicando ecuaciones de panoramización para los datos del objeto de audio, por ejemplo, como se describe anteriormente (bloque 1612). En el bloque 1615, se visualizan la posición del objeto de audio y las respuestas del altavoz de reproducción (bloque 1615). Las respuestas de los altavoces de reproducción también pueden reproducirse a través de altavoces que están configurados para comunicarse con el sistema lógico.
En el bloque 1620, el sistema lógico determina si se detecta una sobrecarga para cualquier altavoz de reproducción del entorno de reproducción. Si es así, pueden aplicarse reglas de bloqueo de objetos de audio como las descritas anteriormente hasta que no se detecte sobrecarga (bloque 1625). La salida de datos de audio en el bloque 1630 se puede guardar, si así se desea, y se puede enviar a los altavoces de reproducción.
En el bloque 1635, el sistema lógico puede determinar si el proceso 1600 continuará. El proceso 1600 puede continuar si, por ejemplo, el sistema lógico recibe una indicación de que el usuario desea hacerlo. Por ejemplo, el proceso 1600 puede continuar volviendo al bloque 1607 o al bloque 1610. De lo contrario, el proceso 1600 puede terminar (bloque 1640).
Algunas implementaciones proporcionan ecuaciones de ganancia de panoramización extendidas que se pueden usar para generar una imagen de la posición de un objeto de audio en un espacio tridimensional. A continuación se describirán algunos ejemplos con referencia a las figuras 17A y 17B. Las figuras 17A y 17B muestran ejemplos de un objeto de audio posicionado en un entorno de reproducción virtual tridimensional. Con referencia primero a la figura 17A, la posición del objeto 505 de audio puede verse dentro del entorno 404 de reproducción virtual. En este ejemplo, las zonas 1-7 de altavoz están ubicadas en un plano y las zonas 8 y 9 de altavoz están ubicadas en otro plano, como se muestra en la figura 17B. Sin embargo, los números de zonas de altavoz, planos, etc., se dan meramente a modo de ejemplo; los conceptos descritos en el presente documento pueden extenderse a diferentes números de zonas de altavoz (o altavoces individuales) y más de dos planos de elevación.
En este ejemplo, un parámetro de elevación "z", que puede variar de cero a 1, mapea la posición de un objeto de audio a los planos de elevación. En este ejemplo, el valor z = 0 corresponde al plano base que incluye las zonas 1-7 de altavoz, mientras que el valor z = 1 corresponde al plano superior que incluye las zonas 8 y 9 de altavoz. Los valores de e entre cero y 1 corresponden a una mezcla entre una imagen de sonido generada usando solo los altavoces en el plano base y una imagen de sonido generada usando solo los altavoces en el plano superior.
En el ejemplo que se muestra en la figura 17B, el parámetro de elevación para el objeto 505 de audio tiene un valor de 0,6. En consecuencia, en una implementación, se puede generar una primera imagen de sonido usando ecuaciones de panoramización para el plano base, de acuerdo con las coordenadas (x, y) del objeto 505 de audio en el plano base. Se puede generar una segunda imagen de sonido usando ecuaciones de panoramización para el plano superior, de acuerdo con las coordenadas (x, y) del objeto 505 de audio en el plano superior. Se puede producir una imagen de sonido resultante combinando la primera imagen de sonido con la segunda imagen de sonido, de acuerdo con la proximidad del objeto 505 de audio a cada plano. Se puede aplicar una función de conservación de energía o amplitud de la elevación z. Por ejemplo, suponiendo que z puede variar de cero a uno, los valores de ganancia de la primera imagen de sonido pueden multiplicarse por Cos(z*^/2) y los valores de ganancia de la segunda imagen de sonido pueden multiplicarse por sin(z*rc/2), de modo que la suma de sus cuadrados sea 1 (preservación de energía).
Otras implementaciones descritas en el presente documento pueden implicar el cálculo de ganancias basándose en dos o más técnicas de panoramización y la creación de una ganancia agregada basada en uno o más parámetros. Los parámetros pueden incluir uno o más de los siguientes: posición deseada del objeto de audio; distancia desde la posición deseada del objeto de audio hasta una posición de referencia; la velocidad o velocidad del objeto de audio; o tipo de contenido de objeto de audio.
Algunas implementaciones de este tipo se describirán ahora con referencia a las figuras 18 y siguientes. La figura 18 muestra ejemplos de zonas que se corresponden con diferentes modos de panoramización. Los tamaños, formas y extensión de estas zonas se dan simplemente a modo de ejemplo. En este ejemplo, los métodos de panoramización de campo cercano se aplican a los objetos de audio ubicados dentro de la zona 1805 y los métodos de panoramización de campo lejano se aplican a los objetos de audio ubicados en la zona 1815, fuera de la zona 1810.
Las figuras 19A-19D muestran ejemplos de aplicación de técnicas de panoramización de campo cercano y campo lejano a objetos de audio en diferentes ubicaciones. Con referencia primero a la figura 19A, el objeto de audio está sustancialmente fuera del entorno 1900 de reproducción virtual. Esta ubicación corresponde a la zona 1815 de la figura 18. Por lo tanto, en este caso se aplicarán uno o más métodos de panoramización de campo lejano. En algunas implementaciones, los métodos de panoramización de campo lejano pueden basarse en ecuaciones de panoramización de amplitud basada en vectores (VBAP) que son conocidas por los expertos en la técnica. Por ejemplo, los métodos de panoramización de campo lejano pueden basarse en las ecuaciones VBAP descritas en la Sección 2.3, página 4 de V. Pulkki, Compensar el desplazamiento de fuentes virtuales panoramizadas en amplitud (AES Conferencia internacional sobre audio virtual, sintético y de ocio). En implementaciones alternativas, se pueden usar otros métodos para panoramizar objetos de audio de campo lejano y de campo cercano, por ejemplo, métodos que involucran la síntesis de planos acústicos u ondas esféricas correspondientes. D. de Vries, Wave Field Synthesis (AES Monográfico 1999), métodos relevantes.
Con referencia ahora a la figura 19B, el objeto de audio está dentro del entorno 1900 de reproducción virtual. Esta ubicación corresponde a la zona 1805 de la figura 18. Por lo tanto, en este caso se aplicarán uno o más métodos de panoramización de campo cercano. Algunos de estos métodos de panoramización de campo cercano usarán una serie de zonas de altavoz que encierran el objeto 505 de audio en el entorno 1900 de reproducción virtual.
En algunas implementaciones, el método de panoramización de campo cercano puede implicar una panoramización de "equilibrio dual" y la combinación de dos conjuntos de ganancias. En el ejemplo representado en la figura 19B, el primer conjunto de ganancias corresponde a un equilibrio izquierdo/derecho entre dos conjuntos de zonas de altavoz que encierran posiciones del objeto 505 de audio a lo largo del eje y. Las respuestas correspondientes implican todas las zonas de altavoz del entorno 1900 de reproducción virtual, excepto las zonas 1915 y 1960 de altavoz.
En el ejemplo representado en la figura 19C, el segundo conjunto de ganancias corresponde a un equilibrio delantero/trasero entre dos conjuntos de zonas de altavoz que encierran posiciones del objeto 505 de audio a lo largo del eje x. Las respuestas correspondientes involucran las zonas 1905 a 1925 de altavoz. La figura 19D indica el resultado de combinar las respuestas indicadas en las figuras 19B y 19C.
Puede ser deseable combinar diferentes modos de panoramización cuando un objeto de audio entra o sale del entorno 1900 de reproducción virtual. En consecuencia, se aplica una combinación de ganancias calculadas de acuerdo con métodos de panoramización de campo cercano y métodos de panoramización de campo lejano para objetos de audio ubicados en la zona 1810 (consúltese la figura 18). En algunas implementaciones, se puede usar una ley de panoramización por pares (por ejemplo, una ley del seno o potencia que conserva la energía) para combinar las ganancias calculadas de acuerdo con los métodos de panoramización de campo cercano y los métodos de panoramización de campo lejano. En implementaciones alternativas, la ley de panoramización por pares puede conservar la amplitud en lugar de conservar la energía, de modo que la suma sea igual a uno en lugar de que la suma de los cuadrados sea igual a uno. También es posible combinar las señales procesadas resultantes, por ejemplo, para procesar la señal de audio usando ambos métodos de panoramización de forma independiente y para atenuar las dos señales de audio resultantes.
Puede ser deseable proporcionar un mecanismo que permita al creador de contenido y/o al reproductor de contenido ajustar fácilmente los diferentes rerenderizados para una trayectoria creada determinada. En el contexto de la mezcla para películas, el concepto de equilibrio de energía de pantalla a sala se considera importante. En algunos casos, una reproducción automática de una trayectoria de sonido determinada (o "panorámica") dará como resultado un equilibrio diferente de pantalla a sala, de acuerdo con la cantidad de altavoces de reproducción en el entorno de reproducción. De acuerdo con algunas implementaciones, la polarización de pantalla a sala puede controlarse de acuerdo con los metadatos creados durante un proceso de creación. De acuerdo con implementaciones alternativas, la polarización de pantalla a sala puede controlarse únicamente en el lado del renderizado (es decir, bajo el control del reproductor de contenido), y no en respuesta a los metadatos.
En consecuencia, algunas implementaciones descritas en el presente documento proporcionan una o más formas de control de polarización de pantalla a sala. En algunas implementaciones de este tipo, la polarización de pantalla a sala puede implementarse como una operación de escalado. Por ejemplo, la operación de escalado puede implicar la trayectoria prevista original de un objeto de audio a lo largo de la dirección de adelante hacia atrás y/o un escalado de las posiciones de los altavoces usadas en el renderizador para determinar las ganancias de panoramización. En algunas de tales implementaciones, el control de polarización de pantalla a sala puede ser un valor variable entre cero y un valor máximo (por ejemplo, uno). La variación puede, por ejemplo, ser controlable con una GUI, un control deslizante virtual o físico, un botón, etc.
Alternativamente, o adicionalmente, el control de polarización de pantalla a sala puede implementarse usando alguna forma de restricción del área del altavoz. La figura 20 indica las zonas de altavoz de un entorno de reproducción que pueden usarse en un proceso de control de polarización de pantalla a sala. En este ejemplo, se pueden establecer el área 2005 de altavoz delantero y el área 2010 (o 2015) de altavoz traseros. La polarización de pantalla a sala se puede ajustar en función de las áreas de altavoz seleccionadas. En algunas implementaciones de este tipo, se puede implementar una polarización de pantalla a sala como una operación de escala entre el área 2005 de altavoz delantero y el área 2010 (o 2015) de altavoz trasero. En implementaciones alternativas, la polarización de pantalla a sala puede implementarse de forma binaria, por ejemplo, permitiendo que un usuario seleccione una polarización del lado frontal, una polarización del lado posterior o ninguna polarización. Los ajustes de polarización para cada caso pueden corresponder con niveles de polarización predeterminados (y generalmente distintos de cero) para el área 2005 de altavoz delantero y el área 2010 (o 2015) de altavoz trasero. En esencia, tales implementaciones pueden proporcionar tres ajustes preestablecidos para el control de polarización de pantalla a sala en lugar de (o además de) una operación de escalado de valor continuo.
De acuerdo con algunas implementaciones de este tipo, se pueden crear dos zonas de altavoz lógicas adicionales en una GUI de creación (por ejemplo, 400) dividiendo las paredes laterales en una pared lateral delantera y una pared lateral trasera. En algunas implementaciones, las dos zonas de altavoz lógicas adicionales corresponden a las áreas de pared izquierda/sonido envolvente izquierdo y pared derecha/sonido envolvente derecho del renderizador. Dependiendo de la selección de un usuario de cuál de estas dos zonas lógicas de altavoz están activas, la herramienta de renderizado podría aplicar factores de escala preestablecidos (por ejemplo, como se describe arriba) al renderizar en configuraciones Dolby 5.1 o Dolby 7.1. La herramienta de renderizado también puede aplicar dichos factores de escala preestablecidos al renderizar para entornos de reproducción que no admitan la definición de estas dos zonas lógicas adicionales, por ejemplo, porque sus configuraciones de altavoz físico no tienen más de un altavoz físico en la pared lateral.
La figura 21 es un diagrama de bloques que proporciona ejemplos de componentes de un aparato de creación y/o renderizado. En este ejemplo, el dispositivo 2100 incluye un sistema 2105 de interfaz. El sistema 2105 de interfaz puede incluir una interfaz de red, como una interfaz de red inalámbrica. Como alternativa, o adicionalmente, el sistema 2105 de interfaz puede incluir una interfaz de bus universal en serie (USB) u otra interfaz similar.
El dispositivo 2100 incluye un sistema lógico 2110. El sistema lógico 2110 puede incluir un procesador, tal como un procesador de chip único o multichip de uso general. El sistema lógico 2110 puede incluir un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un conjunto de puertas programables en campo (FPGA) u otro dispositivo lógico programable, lógica de puerta discreta o transistor, o componentes de hardware discretos, o combinaciones de los mismos. El sistema lógico 2110 puede configurarse para controlar los otros componentes del dispositivo 2100. Aunque en la figura 21 no se muestran interfaces entre los componentes del dispositivo 2100, el sistema lógico 2110 puede configurarse con interfaces para la comunicación con los otros componentes. Los otros componentes pueden o no estar configurados para comunicarse entre sí, según corresponda.
El sistema lógico 2110 puede configurarse para realizar funciones de creación y/o renderizado de audio, incluidos, entre otros, los tipos de funciones de creación y/o renderizado de audio descritos en el presente documento. En algunas de tales implementaciones, el sistema lógico 2110 puede configurarse para operar (al menos en parte) de acuerdo con el software almacenado en uno o más medios no transitorios. Los medios no transitorios pueden incluir memoria asociada con el sistema lógico 2110, como memoria de acceso aleatorio (RAM) y/o memoria de solo lectura (ROM). Los medios no transitorios pueden incluir la memoria del sistema 2115 de memoria. El sistema 2115 de memoria puede incluir uno o más tipos adecuados de medios de almacenamiento no transitorios, como memoria flash, disco duro, etc.
El sistema 2130 de visualización puede incluir uno o más tipos de visualización adecuados, dependiendo de la manifestación del dispositivo 2100. Por ejemplo, el sistema 2130 de visualización puede incluir una pantalla de cristal líquido, una pantalla de plasma, una pantalla biestable, etc.
El sistema 2135 de entrada de usuario puede incluir uno o más dispositivos configurados para aceptar entradas de un usuario. En algunas implementaciones, el sistema 2135 de entrada de usuario puede incluir una pantalla táctil que superpone una pantalla del sistema 2130 de visualización. El sistema 2135 de entrada de usuario puede incluir un ratón, una bola de seguimiento, un sistema de detección de gestos, un joystick, una o más GUI y/o menús presentados en el sistema 2130 de visualización, botones, un teclado, interruptores, etc. En algunas implementaciones, el sistema 2135 de entrada del usuario puede incluir el micrófono 2125: un usuario puede proporcionar comandos de voz para el dispositivo 2100 a través del micrófono 2125. El sistema lógico puede configurarse para reconocimiento de voz y para controlar al menos algunas operaciones del dispositivo 2100 de acuerdo con dichos comandos de voz.
El sistema 2140 de potencia puede incluir uno o más dispositivos de almacenamiento de energía adecuados, como una batería de níquel-cadmio o una batería de iones de litio. El sistema 2140 de potencia puede configurarse para recibir potencia de una toma de corriente.
La figura 22A es un diagrama de bloques que representa algunos componentes que pueden usarse para la creación de contenido de audio. El sistema 2200 puede, por ejemplo, usarse para la creación de contenido de audio en estudios de mezcla y/o escenarios de doblaje. En este ejemplo, el sistema 2200 incluye una herramienta 2205 de creación de audio y metadatos y una herramienta 2210 de renderizado. En esta implementación, la herramienta 2205 de creación de audio y metadatos y la herramienta 2210 de renderizado incluyen interfaces 2207 y 2212 de conexión de audio, respectivamente, que pueden configurarse para comunicación a través de AES/EBU, MADI, analógico, etc. La herramienta 2205 de creación de audio y metadatos y la herramienta 2210 de renderizado incluyen interfaces 2209 y 2217de red, respectivamente, que pueden configurarse para enviar y recibir metadatos a través de TCP/IP o cualquier otro protocolo adecuado. La interfaz 2220 está configurada para enviar datos de audio a los altavoces.
El sistema 2200 puede, por ejemplo, incluir un sistema de creación existente, tal como un sistema Pro Tools™, ejecutando una herramienta de creación de metadatos (es decir, un panoramizador como se describe en el presente documento) como complemento. El panoramizador también podría ejecutarse en un sistema independiente (por ejemplo, un PC o una mesa de mezclas) conectado a la herramienta 2210 de renderizado, o podría ejecutarse en el mismo dispositivo físico que la herramienta 2210 de renderizado. En el último caso, el panoramizador y el renderizador podrían usar una conexión local, por ejemplo, a través de la memoria compartida. La GUI del panoramizador también se puede controlar de forma remota en una tableta, una computadora portátil, etc. La herramienta 2210 de renderizado puede comprender un sistema de renderizado que incluye un procesador de sonido que está configurado para ejecutar software de renderizado. El sistema de reproducción puede incluir, por ejemplo, una computadora personal, una computadora portátil, etc., que incluya interfaces para entrada/salida de audio y un sistema lógico apropiado.
La figura 22B es un diagrama de bloques que representa algunos componentes que pueden usarse para la reproducción de audio en un entorno de reproducción (por ejemplo, una sala de cine). El sistema 2250 incluye un servidor 2255 de cine y un sistema 2260 de renderizado en este ejemplo. El servidor 2255 de cine y el sistema 2260 de renderizado incluyen interfaces 2257 y 2262 de red, respectivamente, que pueden configurarse para enviar y recibir objetos de audio a través de TCP/IP o cualquier otro protocolo adecuado. La interfaz 2264 está configurada para enviar datos de audio a los altavoces.
Varias modificaciones a las implementaciones descritas en esta divulgación pueden ser fácilmente evidentes para los expertos en la técnica. Los principios generales definidos en el presente documento pueden aplicarse a otras implementaciones. Por lo tanto, no se pretende que las reivindicaciones se limiten a las implementaciones que se muestran en el presente documento, sino que deben otorgarles el alcance más amplio compatible con esta divulgación, los principios y las características novedosas que se divulgan en el presente documento.

Claims (9)

REIVINDICACIONES
1. - Un aparato, que comprende:
un sistema (2105) de interfaz; y
un sistema lógico (2110) configurado para:
recibir, a través del sistema (2105) de interfaz, datos de reproducción de audio que comprenden uno o más objetos de audio y metadatos asociados; en el que los datos de reproducción de audio se han creado con respecto a un entorno de reproducción virtual que comprende una pluralidad de zonas de altavoz a diferentes alturas;
recibir, a través del sistema (2105) de interfaz, datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción de un entorno de reproducción tridimensional real y una indicación de la ubicación de cada altavoz de reproducción dentro del entorno de reproducción real;
mapear los datos de reproducción de audio creados con referencia a la pluralidad de zonas de altavoz del entorno de reproducción virtual a los altavoces de reproducción del entorno de reproducción real; y
renderizar uno o más objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados, en el que cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción real,
caracterizado porque
los metadatos asociados con cada objeto de audio incluyen metadatos de restricción de zona de altavoz que indican si renderizar el objeto de audio respectivo implica imponer restricciones de zona de altavoz, y
en el que renderizar uno o más objetos de audio incluye renderizar el objeto de audio respectivo imponiendo restricciones de zona de altavoz en respuesta a los metadatos de restricción de zona de altavoz.
2. - El aparato de la reivindicación 1, en el que los datos del entorno de reproducción real incluyen datos de disposición de los altavoces de reproducción que indican ubicaciones de altavoces de reproducción o datos de disposición de zona de altavoz que indican ubicaciones de altavoces de reproducción.
3. - El aparato de la reivindicación 1, en el que el renderizado implica crear una ganancia basada en uno o más de una posición de objeto de audio deseada, una distancia desde la posición de objeto de audio deseada a una posición de referencia, una velocidad de un objeto de audio o un tipo de contenido de objeto de audio.
4. - El aparato de la reivindicación 1, en el que el renderizado implica el bloqueo dinámico de objetos en respuesta a la sobrecarga del altavoz, dirigiendo la energía de audio a un mayor número de altavoces de reproducción vecinos mientras se mantiene la energía global constante.
5. - El aparato de la reivindicación 1, en el que el renderizado implica el mapeo de posiciones de objetos de audio a planos de conjuntos de altavoz del entorno de reproducción real.
6. - El aparato de cualquiera de las reivindicaciones 1-5, en el que el sistema lógico está además configurado para calcular las ganancias de los altavoces correspondientes a la pluralidad de zonas de altavoz.
7. - El aparato de la reivindicación 6, en el que el sistema lógico está configurado además para calcular las ganancias de los altavoces para posiciones de objetos de audio a lo largo de una curva unidimensional entre posiciones de altavoces virtuales.
8. - Un método, que comprende:
recibir datos de reproducción de audio que comprenden uno o más objetos de audio y metadatos asociados; en el que los datos de reproducción de audio se han creado con respecto a un entorno de reproducción virtual que comprende una pluralidad de zonas de altavoz a diferentes alturas;
recibir datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción en un entorno de reproducción real y una indicación de la ubicación de cada altavoz de reproducción del entorno de reproducción real tridimensional;
mapear los datos de reproducción de audio creados con referencia a la pluralidad de zonas de altavoz del entorno de reproducción virtual a los altavoces de reproducción del entorno de reproducción real; y
renderizar uno o más objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados, en el que cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción real, caracterizado porque
los metadatos asociados con cada objeto de audio incluyen metadatos de restricción de zona de altavoz que indican si renderizar el objeto de audio respectivo implica imponer restricciones de zona de altavoz, y
en el que renderizar uno o más objetos de audio incluye renderizar el objeto de audio respectivo imponiendo restricciones de zona de altavoz en respuesta a los metadatos de restricción de zona de altavoz.
9.- Un medio no transitorio que tiene software almacenado, el software incluye instrucciones que, cuando son ejecutadas por una computadora, hacen que la computadora lleve a cabo las siguientes operaciones:
recibir datos de reproducción de audio que comprenden uno o más objetos de audio y metadatos asociados; en el que los datos de reproducción de audio se han creado con respecto a un entorno de reproducción virtual que comprende una pluralidad de zonas de altavoz a diferentes alturas;
recibir datos del entorno de reproducción que comprenden una indicación de un número de altavoces de reproducción en un entorno de reproducción real y una indicación de la ubicación de cada altavoz de reproducción del entorno de reproducción real tridimensional;
mapear los datos de reproducción de audio creados con referencia a la pluralidad de zonas de altavoz del entorno de reproducción virtual a los altavoces de reproducción del entorno de reproducción real; y
renderizar uno o más objetos de audio en una o más señales de alimentación de altavoz basándose, al menos en parte, en los metadatos asociados, en el que cada señal de alimentación de altavoz corresponde a al menos uno de los altavoces de reproducción dentro del entorno de reproducción real, caracterizado porque
los metadatos asociados con cada objeto de audio incluyen metadatos de restricción de zona de altavoz que indican si renderizar el objeto de audio respectivo implica imponer restricciones de zona de altavoz, y
en el que renderizar uno o más objetos de audio incluye renderizar el objeto de audio respectivo imponiendo restricciones de zona de altavoz en respuesta a los metadatos de restricción de zona de altavoz.
ES12738278T 2011-07-01 2012-06-27 Aparato y método para renderizar objetos de audio Active ES2909532T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161504005P 2011-07-01 2011-07-01
US201261636102P 2012-04-20 2012-04-20
PCT/US2012/044363 WO2013006330A2 (en) 2011-07-01 2012-06-27 System and tools for enhanced 3d audio authoring and rendering

Publications (1)

Publication Number Publication Date
ES2909532T3 true ES2909532T3 (es) 2022-05-06

Family

ID=46551864

Family Applications (2)

Application Number Title Priority Date Filing Date
ES12738278T Active ES2909532T3 (es) 2011-07-01 2012-06-27 Aparato y método para renderizar objetos de audio
ES21179211T Active ES2932665T3 (es) 2011-07-01 2012-06-27 Aparato para renderizar audio, método y medios de almacenamiento para él

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES21179211T Active ES2932665T3 (es) 2011-07-01 2012-06-27 Aparato para renderizar audio, método y medios de almacenamiento para él

Country Status (21)

Country Link
US (8) US9204236B2 (es)
EP (4) EP2727381B1 (es)
JP (8) JP5798247B2 (es)
KR (8) KR102548756B1 (es)
CN (2) CN103650535B (es)
AR (1) AR086774A1 (es)
AU (7) AU2012279349B2 (es)
BR (1) BR112013033835B1 (es)
CA (7) CA3151342A1 (es)
CL (1) CL2013003745A1 (es)
DK (1) DK2727381T3 (es)
ES (2) ES2909532T3 (es)
HK (1) HK1225550A1 (es)
HU (1) HUE058229T2 (es)
IL (8) IL307218A (es)
MX (5) MX337790B (es)
MY (1) MY181629A (es)
PL (1) PL2727381T3 (es)
RU (2) RU2554523C1 (es)
TW (6) TWI816597B (es)
WO (1) WO2013006330A2 (es)

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102548756B1 (ko) 2011-07-01 2023-06-29 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
KR101901908B1 (ko) * 2011-07-29 2018-11-05 삼성전자주식회사 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치
KR101744361B1 (ko) * 2012-01-04 2017-06-09 한국전자통신연구원 다채널 오디오 신호 편집 장치 및 방법
US9264840B2 (en) * 2012-05-24 2016-02-16 International Business Machines Corporation Multi-dimensional audio transformations and crossfading
US9622014B2 (en) * 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US10158962B2 (en) 2012-09-24 2018-12-18 Barco Nv Method for controlling a three-dimensional multi-layer speaker arrangement and apparatus for playing back three-dimensional sound in an audience area
CN104798383B (zh) * 2012-09-24 2018-01-02 巴可有限公司 控制三维多层扬声器装置的方法和在听众区回放三维声音的设备
RU2612997C2 (ru) * 2012-12-27 2017-03-14 Николай Лазаревич Быченко Способ управления звуком для зрительного зала
JP6174326B2 (ja) * 2013-01-23 2017-08-02 日本放送協会 音響信号作成装置及び音響信号再生装置
EP2974384B1 (en) 2013-03-12 2017-08-30 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
JP6082160B2 (ja) 2013-03-28 2017-02-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 任意n角形のメッシュとして編成されたスピーカーを用いたオーディオレンダリング
KR20230144652A (ko) * 2013-03-28 2023-10-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링
US9786286B2 (en) 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
RU2015146300A (ru) 2013-04-05 2017-05-16 Томсон Лайсенсинг Способ для управления полем реверберации для иммерсивного аудио
WO2014168618A1 (en) * 2013-04-11 2014-10-16 Nuance Communications, Inc. System for automatic speech recognition and audio entertainment
WO2014171706A1 (ko) * 2013-04-15 2014-10-23 인텔렉추얼디스커버리 주식회사 가상 객체 생성을 이용한 오디오 신호 처리 방법
JP6515802B2 (ja) * 2013-04-26 2019-05-22 ソニー株式会社 音声処理装置および方法、並びにプログラム
WO2014175076A1 (ja) * 2013-04-26 2014-10-30 ソニー株式会社 音声処理装置および音声処理システム
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
CN105191354B (zh) 2013-05-16 2018-07-24 皇家飞利浦有限公司 音频处理装置及其方法
US9491306B2 (en) * 2013-05-24 2016-11-08 Broadcom Corporation Signal processing control in an audio device
KR101458943B1 (ko) * 2013-05-31 2014-11-07 한국산업은행 가상 스크린 내 오브젝트 위치를 이용한 스피커 제어 장치 및 방법
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
EP3011764B1 (en) 2013-06-18 2018-11-21 Dolby Laboratories Licensing Corporation Bass management for audio rendering
EP2818985B1 (en) * 2013-06-28 2021-05-12 Nokia Technologies Oy A hovering input field
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP3028273B1 (en) 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
US9483228B2 (en) 2013-08-26 2016-11-01 Dolby Laboratories Licensing Corporation Live engine
US8751832B2 (en) * 2013-09-27 2014-06-10 James A Cashin Secure system and method for audio processing
WO2015054033A2 (en) * 2013-10-07 2015-04-16 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
KR102226420B1 (ko) * 2013-10-24 2021-03-11 삼성전자주식회사 다채널 오디오 신호 생성 방법 및 이를 수행하기 위한 장치
WO2015080967A1 (en) * 2013-11-28 2015-06-04 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
CN103885596B (zh) * 2014-03-24 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
KR101534295B1 (ko) * 2014-03-26 2015-07-06 하수호 멀티 뷰어 영상 및 3d 입체음향 제공방법 및 장치
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2925024A1 (en) 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
WO2015152661A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치
MX357942B (es) 2014-04-11 2018-07-31 Samsung Electronics Co Ltd Método y aparato para emitir una señal sonora, y medio de grabación legible en computadora.
WO2015177224A1 (en) * 2014-05-21 2015-11-26 Dolby International Ab Configuring playback of audio via a home audio playback system
USD784360S1 (en) 2014-05-21 2017-04-18 Dolby International Ab Display screen or portion thereof with a graphical user interface
PL3522554T3 (pl) * 2014-05-28 2021-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania
DE102014217626A1 (de) * 2014-09-03 2016-03-03 Jörg Knieschewski Lautsprechereinheit
RU2698779C2 (ru) * 2014-09-04 2019-08-29 Сони Корпорейшн Устройство передачи, способ передачи, устройство приема и способ приема
US9706330B2 (en) * 2014-09-11 2017-07-11 Genelec Oy Loudspeaker control
HUE059748T2 (hu) 2014-09-12 2022-12-28 Sony Group Corp Hangadatfolyamatok vételére szolgáló eszköz és eljárás
JP6360253B2 (ja) * 2014-09-12 2018-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション サラウンドおよび/または高さスピーカーを含む再生環境におけるオーディオ・オブジェクトのレンダリング
CN113921019A (zh) 2014-09-30 2022-01-11 索尼公司 发送装置、发送方法、接收装置和接收方法
JP6729382B2 (ja) 2014-10-16 2020-07-22 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
GB2532034A (en) * 2014-11-05 2016-05-11 Lee Smiles Aaron A 3D visual-audio data comprehension method
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
JP6624068B2 (ja) 2014-11-28 2019-12-25 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
USD828845S1 (en) 2015-01-05 2018-09-18 Dolby International Ab Display screen or portion thereof with transitional graphical user interface
WO2016126907A1 (en) 2015-02-06 2016-08-11 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
US10475463B2 (en) 2015-02-10 2019-11-12 Sony Corporation Transmission device, transmission method, reception device, and reception method for audio streams
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
WO2016148553A2 (ko) * 2015-03-19 2016-09-22 (주)소닉티어랩 3차원 사운드를 편집 및 제공하는 방법 및 장치
US9609383B1 (en) * 2015-03-23 2017-03-28 Amazon Technologies, Inc. Directional audio for virtual environments
CN111586533B (zh) * 2015-04-08 2023-01-03 杜比实验室特许公司 音频内容的呈现
EP3286929B1 (en) * 2015-04-20 2019-07-31 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
CN107533846B (zh) 2015-04-24 2022-09-16 索尼公司 发送装置、发送方法、接收装置与接收方法
US10187738B2 (en) * 2015-04-29 2019-01-22 International Business Machines Corporation System and method for cognitive filtering of audio in noisy environments
US9681088B1 (en) * 2015-05-05 2017-06-13 Sprint Communications Company L.P. System and methods for movie digital container augmented with post-processing metadata
US10628439B1 (en) 2015-05-05 2020-04-21 Sprint Communications Company L.P. System and method for movie digital content version control access during file delivery and playback
WO2016183379A2 (en) * 2015-05-14 2016-11-17 Dolby Laboratories Licensing Corporation Generation and playback of near-field audio content
KR101682105B1 (ko) * 2015-05-28 2016-12-02 조애란 입체음향 조절 방법 및 장치
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CA3149389A1 (en) 2015-06-17 2016-12-22 Sony Corporation Transmitting device, transmitting method, receiving device, and receiving method
JP6962192B2 (ja) 2015-06-24 2021-11-05 ソニーグループ株式会社 音声処理装置および方法、並びにプログラム
US10334387B2 (en) 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
US9847081B2 (en) 2015-08-18 2017-12-19 Bose Corporation Audio systems for providing isolated listening zones
US9913065B2 (en) 2015-07-06 2018-03-06 Bose Corporation Simulating acoustic output at a location corresponding to source position data
US9854376B2 (en) * 2015-07-06 2017-12-26 Bose Corporation Simulating acoustic output at a location corresponding to source position data
SG11201710889UA (en) 2015-07-16 2018-02-27 Sony Corp Information processing apparatus, information processing method, and program
TWI736542B (zh) * 2015-08-06 2021-08-21 日商新力股份有限公司 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體
US20170086008A1 (en) * 2015-09-21 2017-03-23 Dolby Laboratories Licensing Corporation Rendering Virtual Audio Sources Using Loudspeaker Map Deformation
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
EP3378240B1 (en) * 2015-11-20 2019-12-11 Dolby Laboratories Licensing Corporation System and method for rendering an audio program
EP4333461A3 (en) * 2015-11-20 2024-04-17 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
EP3389046B1 (en) 2015-12-08 2021-06-16 Sony Corporation Transmission device, transmission method, reception device, and reception method
EP3389260A4 (en) * 2015-12-11 2018-11-21 Sony Corporation Information processing device, information processing method, and program
EP3720135B1 (en) 2015-12-18 2022-08-17 Sony Group Corporation Receiving device and receiving method for associating subtitle data with corresponding audio data
CN106937204B (zh) * 2015-12-31 2019-07-02 上海励丰创意展示有限公司 全景多声道声效轨迹控制方法
CN106937205B (zh) * 2015-12-31 2019-07-02 上海励丰创意展示有限公司 面向影视、舞台的复杂声效轨迹控制方法
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
EP3203363A1 (en) * 2016-02-04 2017-08-09 Thomson Licensing Method for controlling a position of an object in 3d space, computer readable storage medium and apparatus configured to control a position of an object in 3d space
CN105898668A (zh) * 2016-03-18 2016-08-24 南京青衿信息科技有限公司 一种声场空间的坐标定义方法
WO2017173776A1 (zh) * 2016-04-05 2017-10-12 向裴 三维环境中的音频编辑方法与系统
EP3465678B1 (en) 2016-06-01 2020-04-01 Dolby International AB A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
HK1219390A2 (zh) * 2016-07-28 2017-03-31 Siremix Gmbh 終端混音設備
US10419866B2 (en) 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
CN109983786B (zh) 2016-11-25 2022-03-01 索尼公司 再现方法、装置及介质、信息处理方法及装置
WO2018147143A1 (ja) 2017-02-09 2018-08-16 ソニー株式会社 情報処理装置および情報処理方法
EP3373604B1 (en) * 2017-03-08 2021-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a measure of spatiality associated with an audio stream
JP6558513B2 (ja) * 2017-03-17 2019-08-14 ヤマハ株式会社 コンテンツ再生機器、方法、及びコンテンツ再生システム
JP6926640B2 (ja) * 2017-04-27 2021-08-25 ティアック株式会社 目標位置設定装置及び音像定位装置
EP3410747B1 (en) * 2017-06-02 2023-12-27 Nokia Technologies Oy Switching rendering mode based on location data
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device
CN114047902B (zh) 2017-09-29 2024-06-14 苹果公司 用于空间音频的文件格式
US10531222B2 (en) * 2017-10-18 2020-01-07 Dolby Laboratories Licensing Corporation Active acoustics control for near- and far-field sounds
EP4093058A1 (en) * 2017-10-18 2022-11-23 Dolby Laboratories Licensing Corp. Active acoustics control for near- and far-field sounds
FR3072840B1 (fr) * 2017-10-23 2021-06-04 L Acoustics Arrangement spatial de dispositifs de diffusion sonore
EP3499917A1 (en) 2017-12-18 2019-06-19 Nokia Technologies Oy Enabling rendering, for consumption by a user, of spatial audio content
WO2019132516A1 (ko) * 2017-12-28 2019-07-04 박승민 입체 음향 컨텐츠 저작 방법 및 이를 위한 장치
WO2019149337A1 (en) * 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
JP7146404B2 (ja) * 2018-01-31 2022-10-04 キヤノン株式会社 信号処理装置、信号処理方法、及びプログラム
GB2571949A (en) * 2018-03-13 2019-09-18 Nokia Technologies Oy Temporal spatial audio parameter smoothing
US10848894B2 (en) * 2018-04-09 2020-11-24 Nokia Technologies Oy Controlling audio in multi-viewpoint omnidirectional content
WO2020071728A1 (ko) * 2018-10-02 2020-04-09 한국전자통신연구원 가상 현실에서 음향 확대 효과 적용을 위한 음향 신호 제어 방법 및 장치
KR102458962B1 (ko) 2018-10-02 2022-10-26 한국전자통신연구원 가상 현실에서 음향 확대 효과 적용을 위한 음향 신호 제어 방법 및 장치
CN111869239B (zh) 2018-10-16 2021-10-08 杜比实验室特许公司 用于低音管理的方法和装置
US11503422B2 (en) * 2019-01-22 2022-11-15 Harman International Industries, Incorporated Mapping virtual sound sources to physical speakers in extended reality applications
US11206504B2 (en) * 2019-04-02 2021-12-21 Syng, Inc. Systems and methods for spatial audio rendering
EP3958585A4 (en) * 2019-04-16 2022-06-08 Sony Group Corporation DISPLAY DEVICE, CONTROL METHOD, AND PROGRAM
EP3726858A1 (en) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Lower layer reproduction
KR102285472B1 (ko) * 2019-06-14 2021-08-03 엘지전자 주식회사 음향의 이퀄라이징 방법과, 이를 구현하는 로봇 및 ai 서버
CN114175685B (zh) 2019-07-09 2023-12-12 杜比实验室特许公司 音频内容的与呈现独立的母带处理
EP4002870A4 (en) * 2019-07-19 2022-09-28 Sony Group Corporation SIGNAL PROCESSING DEVICE AND METHOD AND PROGRAM
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN118102179A (zh) 2019-07-30 2024-05-28 杜比实验室特许公司 音频处理方法和系统及相关非暂时性介质
MX2022001162A (es) 2019-07-30 2022-02-22 Dolby Laboratories Licensing Corp Coordinacion de dispositivos de audio.
CN114208209B (zh) * 2019-07-30 2023-10-31 杜比实验室特许公司 音频处理系统、方法和介质
US11533560B2 (en) * 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
JP7443870B2 (ja) 2020-03-24 2024-03-06 ヤマハ株式会社 音信号出力方法および音信号出力装置
US11102606B1 (en) 2020-04-16 2021-08-24 Sony Corporation Video component in 3D audio
US20220012007A1 (en) * 2020-07-09 2022-01-13 Sony Interactive Entertainment LLC Multitrack container for sound effect rendering
WO2022059858A1 (en) * 2020-09-16 2022-03-24 Samsung Electronics Co., Ltd. Method and system to generate 3d audio from audio-visual multimedia content
JP2022083443A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
KR102505249B1 (ko) 2020-11-24 2023-03-03 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 전송하는 컴퓨터 시스템 및 그의 방법
WO2022179701A1 (en) * 2021-02-26 2022-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for rendering audio objects
KR20230153470A (ko) * 2021-04-14 2023-11-06 텔레폰악티에볼라겟엘엠에릭슨(펍) 도출된 내부 표현을 갖는 공간적으로-바운드된 오디오 엘리먼트
US20220400352A1 (en) * 2021-06-11 2022-12-15 Sound Particles S.A. System and method for 3d sound placement
US20240196158A1 (en) * 2022-12-08 2024-06-13 Samsung Electronics Co., Ltd. Surround sound to immersive audio upmixing based on video scene analysis

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9307934D0 (en) * 1993-04-16 1993-06-02 Solid State Logic Ltd Mixing audio signals
GB2294854B (en) 1994-11-03 1999-06-30 Solid State Logic Ltd Audio signal processing
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
GB2337676B (en) 1998-05-22 2003-02-26 Central Research Lab Ltd Method of modifying a filter for implementing a head-related transfer function
GB2342830B (en) 1998-10-15 2002-10-30 Central Research Lab Ltd A method of synthesising a three dimensional sound-field
US6442277B1 (en) 1998-12-22 2002-08-27 Texas Instruments Incorporated Method and apparatus for loudspeaker presentation for positional 3D sound
US6507658B1 (en) * 1999-01-27 2003-01-14 Kind Of Loud Technologies, Llc Surround sound panner
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
GB2376595B (en) 2001-03-27 2003-12-24 1 Ltd Method and apparatus to create a sound field
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7558393B2 (en) * 2003-03-18 2009-07-07 Miller Iii Robert E System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
JP3785154B2 (ja) * 2003-04-17 2006-06-14 パイオニア株式会社 情報記録装置、情報再生装置及び情報記録媒体
DE10321980B4 (de) * 2003-05-15 2005-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
JP2005094271A (ja) * 2003-09-16 2005-04-07 Nippon Hoso Kyokai <Nhk> 仮想空間音響再生プログラムおよび仮想空間音響再生装置
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
JP2006005024A (ja) * 2004-06-15 2006-01-05 Sony Corp 基板処理装置および基板移動装置
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
KR100608002B1 (ko) 2004-08-26 2006-08-02 삼성전자주식회사 가상 음향 재생 방법 및 그 장치
WO2006029006A2 (en) 2004-09-03 2006-03-16 Parker Tsuhako Method and apparatus for producing a phantom three-dimensional sound space with recorded sound
WO2006050353A2 (en) * 2004-10-28 2006-05-11 Verax Technologies Inc. A system and method for generating sound events
US20070291035A1 (en) 2004-11-30 2007-12-20 Vesely Michael A Horizontal Perspective Representation
US7774707B2 (en) * 2004-12-01 2010-08-10 Creative Technology Ltd Method and apparatus for enabling a user to amend an audio file
US7928311B2 (en) * 2004-12-01 2011-04-19 Creative Technology Ltd System and method for forming and rendering 3D MIDI messages
JP3734823B1 (ja) * 2005-01-26 2006-01-11 任天堂株式会社 ゲームプログラムおよびゲーム装置
DE102005008343A1 (de) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
JP4859925B2 (ja) * 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
EP2022263B1 (en) * 2006-05-19 2012-08-01 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
CN101467467A (zh) * 2006-06-09 2009-06-24 皇家飞利浦电子股份有限公司 产生用于传输到多个音频再现单元的音频数据的设备和方法
JP4345784B2 (ja) * 2006-08-21 2009-10-14 ソニー株式会社 音響収音装置及び音響収音方法
US8504376B2 (en) * 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4257862B2 (ja) * 2006-10-06 2009-04-22 パナソニック株式会社 音声復号化装置
EP2437257B1 (en) * 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
US20080253577A1 (en) 2007-04-13 2008-10-16 Apple Inc. Multi-channel sound panner
US20080253592A1 (en) 2007-04-13 2008-10-16 Christopher Sanders User interface for multi-channel sound panner
WO2008135049A1 (en) * 2007-05-07 2008-11-13 Aalborg Universitet Spatial sound reproduction system with loudspeakers
JP2008301200A (ja) 2007-05-31 2008-12-11 Nec Electronics Corp 音声処理装置
WO2009001292A1 (en) * 2007-06-27 2008-12-31 Koninklijke Philips Electronics N.V. A method of merging at least two input object-oriented audio parameter streams into an output object-oriented audio parameter stream
JP4530007B2 (ja) * 2007-08-02 2010-08-25 ヤマハ株式会社 音場制御装置
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
JP2009207780A (ja) * 2008-03-06 2009-09-17 Konami Digital Entertainment Co Ltd ゲームプログラム、ゲーム装置、およびゲーム制御方法
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
KR20110049863A (ko) * 2008-08-14 2011-05-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 트랜스포맷팅
US20100098258A1 (en) * 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
KR101542233B1 (ko) * 2008-11-04 2015-08-05 삼성전자 주식회사 화면음원 정위장치, 화면음원 정위를 위한 스피커 셋 정보 생성방법 및 정위된 화면음원 재생방법
EP2348746B1 (en) * 2008-11-18 2015-03-11 Panasonic Corporation Reproduction device, reproduction method, and program for stereoscopic reproduction
JP2010252220A (ja) 2009-04-20 2010-11-04 Nippon Hoso Kyokai <Nhk> 3次元音響パンニング装置およびそのプログラム
WO2011002006A1 (ja) 2009-06-30 2011-01-06 新東ホールディングス株式会社 イオン発生装置及びイオン発生素子
US8396576B2 (en) * 2009-08-14 2013-03-12 Dts Llc System for adaptively streaming audio objects
JP2011066868A (ja) * 2009-08-18 2011-03-31 Victor Co Of Japan Ltd オーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置
EP2309781A3 (en) 2009-09-23 2013-12-18 Iosono GmbH Apparatus and method for calculating filter coefficients for a predefined loudspeaker arrangement
JP5439602B2 (ja) * 2009-11-04 2014-03-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 仮想音源に関連するオーディオ信号についてスピーカ設備のスピーカの駆動係数を計算する装置および方法
EP2550809B8 (en) * 2010-03-23 2016-12-14 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US9100768B2 (en) 2010-03-26 2015-08-04 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
JP2013529004A (ja) 2010-04-26 2013-07-11 ケンブリッジ メカトロニクス リミテッド 位置追跡を備えるスピーカ
WO2011152044A1 (ja) 2010-05-31 2011-12-08 パナソニック株式会社 音響再生装置
JP5826996B2 (ja) * 2010-08-30 2015-12-02 日本放送協会 音響信号変換装置およびそのプログラム、ならびに、3次元音響パンニング装置およびそのプログラム
US9026450B2 (en) * 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
KR102548756B1 (ko) * 2011-07-01 2023-06-29 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS

Also Published As

Publication number Publication date
CA3083753A1 (en) 2013-01-10
CN106060757A (zh) 2016-10-26
US20170086007A1 (en) 2017-03-23
US20180077515A1 (en) 2018-03-15
TWI607654B (zh) 2017-12-01
RU2018130360A3 (es) 2021-10-20
TWI816597B (zh) 2023-09-21
WO2013006330A2 (en) 2013-01-10
US20200045495A9 (en) 2020-02-06
RU2015109613A (ru) 2015-09-27
CN103650535A (zh) 2014-03-19
IL265721B (en) 2022-03-01
KR20150018645A (ko) 2015-02-23
KR20190134854A (ko) 2019-12-04
CA3083753C (en) 2021-02-02
JP7224411B2 (ja) 2023-02-17
CA3104225C (en) 2021-10-12
AU2021200437A1 (en) 2021-02-25
EP4135348A3 (en) 2023-04-05
CA3134353C (en) 2022-05-24
AU2016203136B2 (en) 2018-03-29
AU2023214301A1 (en) 2023-08-31
EP2727381A2 (en) 2014-05-07
IL251224A (en) 2017-11-30
EP3913931B1 (en) 2022-09-21
EP2727381B1 (en) 2022-01-26
IL298624B2 (en) 2024-03-01
RU2554523C1 (ru) 2015-06-27
US11057731B2 (en) 2021-07-06
RU2018130360A (ru) 2020-02-21
EP4132011A2 (en) 2023-02-08
TW201933887A (zh) 2019-08-16
EP4135348A2 (en) 2023-02-15
CA2837894C (en) 2019-01-15
TWI548290B (zh) 2016-09-01
BR112013033835B1 (pt) 2021-09-08
IL290320B1 (en) 2023-01-01
IL258969A (en) 2018-06-28
US20190158974A1 (en) 2019-05-23
KR102156311B1 (ko) 2020-09-15
RU2672130C2 (ru) 2018-11-12
AU2018204167A1 (en) 2018-06-28
CL2013003745A1 (es) 2014-11-21
KR101843834B1 (ko) 2018-03-30
US9204236B2 (en) 2015-12-01
IL298624B1 (en) 2023-11-01
US20140119581A1 (en) 2014-05-01
US9549275B2 (en) 2017-01-17
JP2021193842A (ja) 2021-12-23
JP2023052933A (ja) 2023-04-12
TW201811071A (zh) 2018-03-16
US10244343B2 (en) 2019-03-26
CN103650535B (zh) 2016-07-06
BR112013033835A2 (pt) 2017-02-21
KR20230096147A (ko) 2023-06-29
IL265721A (en) 2019-05-30
JP2016007048A (ja) 2016-01-14
US20210400421A1 (en) 2021-12-23
US20230388738A1 (en) 2023-11-30
AU2012279349B2 (en) 2016-02-18
AR086774A1 (es) 2014-01-22
JP6655748B2 (ja) 2020-02-26
CA2837894A1 (en) 2013-01-10
CA3025104A1 (en) 2013-01-10
CN106060757B (zh) 2018-11-13
KR102548756B1 (ko) 2023-06-29
KR101547467B1 (ko) 2015-08-26
KR20190026983A (ko) 2019-03-13
WO2013006330A3 (en) 2013-07-11
PL2727381T3 (pl) 2022-05-02
US9838826B2 (en) 2017-12-05
IL254726A0 (en) 2017-11-30
JP2019193302A (ja) 2019-10-31
HUE058229T2 (hu) 2022-07-28
IL251224A0 (en) 2017-05-29
KR101958227B1 (ko) 2019-03-14
IL307218A (en) 2023-11-01
IL290320A (en) 2022-04-01
HK1225550A1 (zh) 2017-09-08
CA3238161A1 (en) 2013-01-10
MY181629A (en) 2020-12-30
JP2017041897A (ja) 2017-02-23
RU2015109613A3 (es) 2018-06-27
US11641562B2 (en) 2023-05-02
JP2020065310A (ja) 2020-04-23
MX2013014273A (es) 2014-03-21
TW201631992A (zh) 2016-09-01
JP6556278B2 (ja) 2019-08-07
TWI785394B (zh) 2022-12-01
JP2018088713A (ja) 2018-06-07
KR102052539B1 (ko) 2019-12-05
TWI701952B (zh) 2020-08-11
TW202106050A (zh) 2021-02-01
CA3104225A1 (en) 2013-01-10
CA3151342A1 (en) 2013-01-10
TWI666944B (zh) 2019-07-21
IL230047A (en) 2017-05-29
TW201316791A (zh) 2013-04-16
ES2932665T3 (es) 2023-01-23
IL298624A (en) 2023-01-01
AU2021200437B2 (en) 2022-03-10
AU2018204167B2 (en) 2019-08-29
DK2727381T3 (da) 2022-04-04
JP5798247B2 (ja) 2015-10-21
JP6297656B2 (ja) 2018-03-20
IL254726B (en) 2018-05-31
JP2014520491A (ja) 2014-08-21
JP6023860B2 (ja) 2016-11-09
CA3025104C (en) 2020-07-07
KR20200108108A (ko) 2020-09-16
KR20220061275A (ko) 2022-05-12
KR20140017684A (ko) 2014-02-11
US20160037280A1 (en) 2016-02-04
US10609506B2 (en) 2020-03-31
MX349029B (es) 2017-07-07
AU2019257459B2 (en) 2020-10-22
AU2022203984A1 (en) 2022-06-30
KR20180032690A (ko) 2018-03-30
MX337790B (es) 2016-03-18
KR102394141B1 (ko) 2022-05-04
CA3134353A1 (en) 2013-01-10
TW202310637A (zh) 2023-03-01
EP4132011A3 (en) 2023-03-01
AU2022203984B2 (en) 2023-05-11
AU2016203136A1 (en) 2016-06-02
JP6952813B2 (ja) 2021-10-27
US20200296535A1 (en) 2020-09-17
EP3913931A1 (en) 2021-11-24
MX2020001488A (es) 2022-05-02
MX2022005239A (es) 2022-06-29
IL290320B2 (en) 2023-05-01
AU2019257459A1 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
ES2909532T3 (es) Aparato y método para renderizar objetos de audio
AU2012279349A1 (en) System and tools for enhanced 3D audio authoring and rendering
EP3378240B1 (en) System and method for rendering an audio program