ES2954317T3 - Técnica de reverberación para audio 3D - Google Patents

Técnica de reverberación para audio 3D Download PDF

Info

Publication number
ES2954317T3
ES2954317T3 ES18382220T ES18382220T ES2954317T3 ES 2954317 T3 ES2954317 T3 ES 2954317T3 ES 18382220 T ES18382220 T ES 18382220T ES 18382220 T ES18382220 T ES 18382220T ES 2954317 T3 ES2954317 T3 ES 2954317T3
Authority
ES
Spain
Prior art keywords
srr
sound object
sound
responses
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18382220T
Other languages
English (en)
Inventor
Torres Adan Amor Garriga
Andrés Pérez-López
López Gerard Erruz
Timothy Schmele
Umut Sayin
Muynke Julien De
Niklas Reppel
Masana Antonio Farran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fundacio Eurecat
Original Assignee
Fundacio Eurecat
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fundacio Eurecat filed Critical Fundacio Eurecat
Application granted granted Critical
Publication of ES2954317T3 publication Critical patent/ES2954317T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/281Reverberation or echo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/511Physical modelling or real-time simulation of the acoustomechanical behaviour of acoustic musical instruments using, e.g. waveguides or looped delay lines
    • G10H2250/531Room models, i.e. acoustic physical modelling of a room, e.g. concert hall
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Se divulgan técnicas de reverberación para audio 3D. En un método de ejemplo, se aplica una reverberación tridimensional (3D) a un objeto sonoro colocado en una posición seleccionada por el usuario en una sala de sonido. El objeto sonoro se origina a partir de una posición del objeto sonoro. Se recibe una señal de objeto sonoro. Se calcula una señal de respuesta espacial espacial (SRR) 3D correspondiente a la posición seleccionada por el usuario. se realiza una operación de convolución de tiempo entre una señal de audio de la señal del objeto de sonido y el valor SRR calculado para generar una señal reverberada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Técnica de reverberación para audio 3D
La presente invención está dirigida al sector del audio. En concreto, se refiere al procesamiento de objetos de sonido y de audio 3D en el espacio de entornos acústicos. Los campos de aplicación son: producciones audiovisuales, video juegos, realidad virtual y producciones musicales.
ANTECEDENTES
Las herramientas de codificación de audio espacial son bien conocidas y están estandarizadas, tal como el estándar MPEG envolvente (MPEG surround). La codificación de audio espacial parte de una entrada multicanal de la fuente original, por ejemplo con 5 o 7 canales. Cada uno de los canales puede alimentar un altavoz de un sistema de reproducción. Esto se denomina audio espacial basado en canales. Por ejemplo, se puede enviar un canal al altavoz izquierdo del sistema de reproducción, otro al altavoz central, otro al altavoz derecho, otro al altavoz envolvente izquierdo, otro al altavoz envolvente derecho y otro al subwoofer.
El codificador de audio espacial puede derivar uno o más canales de reducción (down-mix channels) (tales como los estéreo correspondientes) y, además, puede calcular datos paramétricos tales como diferencias de nivel entre canales, diferencias de fase, retardos de tiempo, etc. Los canales de reducción (down-mix channels) junto con la información paramétrica se pueden transmitir a un descodificador para obtener finalmente los canales de salida que más se aproximen a la entrada original. La ubicación de los altavoces del sistema de reproducción puede estar definida por estándares, como en el caso de los estándares de formato de sonido envolvente 5.1 o 7.1.
Las herramientas para la codificación espacial de objetos de sonido también son conocidas en la técnica. A diferencia del audio espacial basado en canales, la codificación de objetos parte de objetos de sonido que no son vinculados automáticamente a una determinada configuración de reproducción. El posicionamiento de los objetos de sonido en la reproducción es flexible y puede ser modificado por el usuario a través de cierta información de renderización transmitida al descodificador. Además, la información de renderización puede incluir cierta información de posición que varía con el tiempo para que el objeto de sonido pueda seguir una trayectoria a lo largo del tiempo. Para obtener una cierta compresión de datos, los objetos de sonido se pueden codificar utilizando un codificador espacial que calcula, a partir de los objetos iniciales, uno o más canales del proceso de reducción (down mixing process). Además, el codificador puede calcular información paramétrica que represente características tales como la diferencia de nivel entre objetos, la diferencia de coherencia acústica, etc. Estos datos paramétricos se pueden calcular para ventanas individuales de espacio/frecuencia, lo que significa que los datos paramétricos se pueden obtener para cada trama (cada 1024 o 2048 muestras, por ejemplo) y para cada banda de frecuencia (24, 32 o 24 bandas en total). Por ejemplo, cuando una pieza de audio tiene 20 tramas y se subdivide en 32 bandas de frecuencia, el número de ventanas es igual a 640.
En sistemas de audio 3D puede ser deseable proporcionar la impresión espacial como si la señal de audio se escuchara en una sala concreta (un edificio emblemático tal como un teatro o una ópera específica). En esta situación, se debe proporcionar una respuesta al impulso de la sala en base a, por ejemplo, mediciones in situ. Esta función de respuesta se debe utilizar para procesar el audio antes de su renderización. Las primeras reflexiones y la cola reverberante de la función de respuesta al impulso se suelen procesar por separado.
Es un objeto de la presente invención proporcionar una aproximación al procesamiento de las funciones de respuesta al impulso espacial para obtener genuinamente una reverberación espacial a partir de mediciones (o, como ejemplo no reivindicado, mediante simulaciones) de las denominadas respuestas espaciales de sala (SRR: Spatial Room Responses) que contienen características direccionales, y el tratamiento separado de las primeras reflexiones y la cola reverberante.
Se presentan procedimientos para mejorar el procesamiento de las respuestas espaciales de sala (SRR) para objetos de sonido. En lo sucesivo, el término "objeto de sonido" se referirá a señales de audio y a los metadatos asociados que pueden haber sido creados sin referencia a un determinado sistema de reproducción. Los metadatos asociados pueden incluir los datos de posición del objeto de sonido, datos de nivel de sonido (ganancias), tamaño de fuente, trayectoria, etc. El término "renderización" se refiere al proceso de transformación de los objetos de sonido en señales de potencia para los altavoces en algún sistema de reproducción concreto. El proceso de renderización se puede llevar a cabo, al menos en parte, en función de los metadatos asociados, del sistema de reproducción o de metadatos procedentes del usuario. Los datos del sistema de reproducción pueden incluir una indicación del número de altavoces y los datos de ubicación de cada uno de los altavoces. Los datos de usuario pueden incluir la posición en cada instante de tiempo del usuario dentro del espacio de reproducción, así como la orientación de su cabeza.
El documento US2016255452 divulga un aparato para comprimir datos de campo de sonido de una zona. HUGENG HUGGEN ET AL: "Enhanced three-dimensional HRIRs interpolation for virtual auditory space".
El documento US 2017/353790 describe un procedimiento para auralizar un dispositivo de múltiples micrófonos. RESUMEN
La invención se define en las reivindicaciones adjuntas.
En un primer aspecto, se propone un procedimiento de aplicar una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, originándose el objeto de sonido desde una posición del objeto de sonido. El procedimiento comprende recibir una señal procedente del objeto de sonido; calcular una señal de respuesta espacial de sala (SRR) correspondiente a la posición del objeto de sonido que ha seleccionado el usuario; y realizar una operación de convolución en el tiempo entre la señal procedente del objeto de sonido y la señal de respuesta SRR calculada para calcular una señal reverberada.
El procedimiento se basa en el procesamiento de cada objeto de sonido con una red de respuestas SRR con el fin de incorporar la acústica de un determinado entorno acústico al objeto de sonido preservando la ubicación en el espacio. El procedimiento que se propone procesa el audio en función de las respuestas espaciales de una sala, respuestas SRR (Spatial Room Responses), su posterior codificación y envío a una unidad de procesamiento, un renderizador binaural, y en última instancia en un codificador y decodificador de audio.
En la invención, el cálculo de una señal de respuesta SRR que corresponde a la posición del objeto de sonido que ha seleccionado el usuario comprende interpolar señales de respuesta SRR existentes. Las señales de respuesta SRR existentes se almacenan en una base de datos y se recuperan de la base de datos en base a metadatos asociados con la posición del usuario. Por ejemplo, la posición seleccionada por el usuario puede ser en forma de coordenadas y las señales de respuesta SRR existentes se pueden almacenar junto con coordenadas que corresponden a la posición en la que fueron capturadas. Dichas coordenadas pueden corresponder a posiciones muestreadas en la sala. Se pueden seleccionar señales de respuesta SRR existentes (almacenadas) que corresponden a posiciones más cercanas a la posición seleccionada para la interpolación.
En la invención, las señales de respuesta SRR existentes pueden ser medidas por un micrófono 3D a distintas distancias con respecto de la posición del objeto de sonido. De este modo, se puede generar una red de señales de respuesta SRR. La red de respuestas SRR correspondiente al entorno acústico que se desea reproducir también puede ser medido mediante micrófonos especializados o sondas intensimétricas, en el caso de entornos reales, tanto para entornos reales como virtuales. La red de respuestas SRR consiste en un conjunto de funciones de respuesta espacial distribuidas en el entorno acústico a reproducir. Este conjunto de funciones se puede calcular en una red euclidiana o se puede distribuir en el espacio según otras geometrías. En la invención las señales de respuesta SRR existentes son medidas en posiciones de cilindros coaxiales. El procedimiento que se propone contempla cualquier valor para la cantidad de señales de respuesta SRR aunque a mayor densidad se obtendrá una mejor percepción acústica final.
El procedimiento que se propone se basa en el procesamiento de cada objeto de sonido junto con una función derivada a partir del conjunto de respuestas SRR que corresponden a la ubicación espacial de dicho objeto de sonido.
Como ejemplo útil para comprender la invención, esta función se puede obtener siguiendo el procedimiento denominado barrido de amplitudes basado en vectores (Vector Based Amplitude Panning), que permite hacer un barrido (panning) de una fuente con respecto a cualquier posición que pertenece a la superficie de un triángulo definido por tres altavoces. Consiste en calcular las ganancias adecuadas de la señal de cada altavoz para que la fuente de sonido parezca estar en la posición deseada, dada la ubicación exacta de estos 3 altavoces. Esto se puede ver como una combinación lineal de la misma señal reproducida por 3 altavoces próximos entre sí.
De forma similar, según la invención, la respuesta SRR que corresponde a la ubicación deseada se puede calcular como una combinación lineal de las 3 respuestas SRR vecinas que se han registrado previamente, dada su posición en el espacio. Dado que toda la zona abarcada por las mediciones de respuesta SRR se puede dividir en triángulos individuales sin solapamientos, la combinación de respuestas SRR que se ha descrito anteriormente se puede realizar en toda la zona abarcada por las mediciones de respuesta SRR seleccionando el triángulo al que pertenece la ubicación deseada. Las respuestas SRR se pueden calcular entonces para cualquier posición perteneciente a la superficie de cualquier triángulo formado por 3 respuestas SRR medidas.
Como en la invención las respuestas SRR se han medido a diferentes distancias con respecto de la posición de escucha, es decir, la posición del micrófono, este procedimiento puede ser extendido fácilmente al volumen de un tetraedro formado por 4 respuestas SRR medidas a diferentes distancias. Teniendo en cuenta que todo el volumen abarcado por las respuestas SRR medidas a diferentes distancias se puede dividir en tetraedros individuales sin solapamientos, este procedimiento permite calcular la respuesta SRR que corresponde a cualquier posición perteneciente a todo el volumen abarcado por el conjunto de respuestas SRR medidas. A veces se denomina "interpolación tetraédrica".
Una vez calculada, la función derivada a partir de las respuestas SRR se puede procesar con el correspondiente objeto de sonido. Este procesamiento se puede dividir en dos partes: una correspondiente a la primera parte de la función que contiene las primeras reflexiones; y una segunda parte de la función que incorpora la cola reverberante. En una solución alternativa según la invención, la interpolación de valores de respuesta SRR existentes comprende realizar una interpolación bi-triangular entre valores de respuesta SRR existentes. La realización de una interpolación bi-triangular puede comprender identificar tres puntos de medición en una superficie de dos cilindros coaxiales vecinos, siendo los tres puntos de medición los más cercanos a la posición del objeto de sonido que ha seleccionado el usuario; realizar una triangulación en las superficies de los cilindros coaxiales vecinos.
En algunos ejemplos, la realización de una triangulación en una superficie de cilindro puede comprender combinar correspondientes señales de respuesta SRR en los puntos identificados con pesos que dependen de la distancia real entre la posición de medición de respuesta SRR y la posición del objeto de sonido que ha seleccionado el usuario.
En la invención, las señales de respuesta SRR son señales de respuesta a impulso de sala (RIR: room impulse response) en tres dimensiones.
Según la reivindicación 6 de la invención, se proporciona un dispositivo para aplicar una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, originándose el objeto de sonido desde una posición del objeto de sonido.
En algunos ejemplos, el procesador de reverberación puede estar configurado para realizar la operación de convolución en el tiempo entre el objeto de sonido y la señal de respuesta SRR tridimensional calculada a medida que el objeto de sonido cambia de posición, es decir, a medida que se mueve, en la sala de sonido. Se pueden calcular diferentes señales de respuesta SRR en diferentes posiciones lo que resulta, cada vez, en diferentes operaciones de convolución e interpolaciones. La operación de convolución en el tiempo se puede realizar de forma continua, a medida que el objeto de sonido se mueve, o en posiciones discretas muestreadas.
En algunos ejemplos, el dispositivo puede ser conectable a una base de datos que almacena señales de respuesta SRR existentes. La lógica de respuestas SRR puede estar configurada para identificar y recuperar señales de respuesta SRR existentes en la base de datos asociadas con la posición del objeto de sonido que ha seleccionado el usuario.
Los procedimientos mencionados en el presente documento se pueden implementar mediante hardware, firmware, software y/o combinaciones de los mismos. Por ejemplo, algunos aspectos de la invención se pueden implementar en un aparato que incluye un sistema de interfaz y un sistema lógico. El sistema de interfaz puede incluir una interfaz de usuario y/o una interfaz de red. En algunas implementaciones, el aparato puede incluir un sistema de memoria. El sistema de interfaz puede incluir al menos una interfaz entre el sistema lógico y el sistema de memoria.
El sistema lógico puede incluir al menos un procesador, tal como un procesador con uno o múltiples chips, un procesador de señales digitales (DSP: digital signal processor), un circuito integrado específico (ASIC: specific integrated circuit), una matriz de puertas programables (FPGA: programmable gate array), u otros dispositivos lógicos programables, puertas discretas o transistores lógicos, componentes de hardware discretos y/o combinaciones de los mismos.
En algunas implementaciones, el sistema lógico puede ser capaz de recibir, a través del sistema de interfaz, datos de audio procedentes de objetos de sonido. Los objetos de sonido pueden incluir señales de audio y metadatos asociados. En algunas implementaciones, los metadatos asociados incluirán la posición, la velocidad del objeto y el entorno acústico del objeto de sonido. En base a esta información, el sistema lógico podrá asociar el objeto con el conjunto apropiado de respuestas SRR y calcular la señal reverberada.
El proceso asociado puede ser independiente de la configuración particular de los altavoces del sistema de reproducción. Por ejemplo, el proceso asociado puede implicar la renderización de los objetos de sonido resultantes de acuerdo con las ubicaciones de los altavoces virtuales. El sistema lógico puede ser capaz de recibir, a través del sistema de interfaz, metadatos que corresponden a la ubicación y características acústicas del objeto de sonido. El procesamiento de reverberación se puede realizar, en parte, de acuerdo con estos metadatos.
El sistema lógico puede ser capaz de codificar los datos de salida del proceso asociado. En algunas implementaciones, el proceso de codificación puede no implicar la codificación de los metadatos utilizados.
Al menos algunas de las ubicaciones de los objetos pueden ser estacionarias. Sin embargo, algunas de las ubicaciones de los objetos pueden variar con el tiempo.
El sistema lógico puede ser capaz de calcular contribuciones de fuentes virtuales. El sistema lógico puede ser capaz de determinar un conjunto de ganancias para cada uno de la pluralidad de canales de salida basándose, en parte, a las contribuciones de los cálculos.
El sistema lógico puede ser capaz de evaluar los datos de audio para determinar el tipo de contenido.
A continuación se presentan detalles de una o más implementaciones de esta especificación, acompañados de esquemas. Otras características, detalles y ventajas serán evidentes a partir de las descripciones, esquemas y reivindicaciones.
En otro aspecto, se divulga un producto de programa informático. El producto de programa informático puede comprender instrucciones de programa para hacer que un sistema informático realice un procedimiento de aplicar una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido según algunos ejemplos que se divulgan en este documento.
El producto de programa informático puede estar incorporado en un medio de almacenamiento (por ejemplo, un CD-rOm , un DVD, una unidad USB, en una memoria informática o en una memoria de sólo lectura) o puede ser transportado en una señal portadora (por ejemplo, en una señal portadora eléctrica u óptica).
El programa informático puede ser en forma de código fuente, código objeto, un código intermedio entre código fuente y código objeto tal como en forma parcialmente compilada, o en cualquier otra forma adecuada para su uso en la implementación de los procesos. La portadora puede ser cualquier entidad o dispositivo capaz de transportar el programa informático.
Por ejemplo, la portadora puede comprender un medio de almacenamiento, tal como una ROM, por ejemplo un CD ROM o una ROM semiconductora, o un medio de grabación magnética, por ejemplo un disco duro. Además, la portadora puede ser una portadora transmisible tal como una señal eléctrica u óptica, que puede ser transportada a través del cable eléctrico u óptico o por radio u otros medios.
Cuando el programa informático está incorporado en una señal que puede ser transportada directamente por un cable u otro dispositivo o medio, la portadora puede estar constituida por dicho cable u otro dispositivo o medio. Alternativamente, la portadora puede ser un circuito integrado en el que se encuentra incorporado el programa informático, estando el circuito integrado adaptado para realizar, o para su uso en la realización de, los procedimientos pertinentes.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A continuación se describirán ejemplos no limitativos de la presente invención, con referencia a los dibujos adjuntos, en los que:
La Figura 1 ilustra de forma esquemática una estructura de mediciones (measurement grid) según la invención en una sala de sonido (auditorio);
La Figura 2 es un diagrama de bloques de un dispositivo para aplicar una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, según la invención
La Figura 3 es un diagrama de flujo de un procedimiento de aplicación de una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, según un ejemplo.
DESCRIPCIÓN DETALLADA DE EJEMPLOS
En función de la naturaleza y origen de las respuestas SRR disponibles en la base de datos de respuestas SRR, se permite a un usuario simular la acústica de algunas salas en particular, añadiendo las correspondientes reverberaciones 3D de estas salas a algunos objetos de audio de su elección.
Un conjunto de respuestas SRR de una sala concreta puede estar compuesto por varias respuestas RIR tridimensional (es decir, respuestas RIR con indicaciones direccionales) medidas desde diferentes puntos del espacio alrededor de una posición de escucha, lo que constituye una "cartografía" en 3D de la acústica de la sala tal y como se percibe en la posición de escucha.
La Figura 1 ilustra de forma esquemática una estructura de mediciones (measurement grid) en una sala de sonido. Distribución de los puntos de medición
La posición de escucha se establece en una ubicación 105 en la que normalmente se ubica el director de orquesta, apuntando hacia la parte trasera B del escenario. Se ubica entonces en el borde del escenario (lo que significa que la orquesta se ubica delante mientras que el público se ubica detrás), centrado en el eje izquierdo-derecho (L-R), a una altura de 2 metros sobre el suelo F del escenario. La distribución de las posiciones de medición (indicadas con símbolos de cruz en la Figura 1) es cilíndrica: todas pertenecen a la superficie de unos cilindros de diferentes radios (= diferentes distancias con respecto de la posición de escucha), cuyo eje de revolución es vertical y pasa por la posición de escucha, a diferente altura. En concreto, en un ejemplo de implementación para el Auditorio de Barcelona:
• las distancias son: 1 m, 2 m, 5 m, 10 m
• los acimut son: 0°, 45°, 90°, 135°, 180°, 225°, 270°, 315°
• las alturas son: -2 m (en el suelo del escenario), -1 m, 0 m, 1 m, 2 m
En consecuencia, la base de datos de respuestas SRR del Auditorio de Barcelona se compone de 4 x 8 x 5 = 160 mediciones de respuestas SRR, constituyendo una cartografía en 3D de la acústica de esta sala que se percibe desde la ubicación del director.
Como el objetivo de la técnica que se describe es añadir la reverberación de espacios acústicos concretos a una serie de objetos de audio, las respuestas SRR deben contener la reverberación de los espacios medidos. El tiempo de reverberación de una sala (duración del conjunto de ecos subsiguientes generados por un sonido impulsivo emitido en la sala) depende de su geometría y propiedades de absorción, por lo que la longitud de las respuestas SRR varía en función de la sala que se considere.
En el ejemplo del Auditorio de Barcelona, con un tiempo de reverberación de 1,5 segundos, las respuestas SRR tienen 72000 muestras con una frecuencia de muestreo de 48 kHz. Además, las respuestas SRR son respuestas RIR tridimensional, lo que significa que se pueden añadir algunas indicaciones direccionales a las respuestas RIR estándar. En el presente ejemplo, las respuestas SRR pueden ser capturadas por un micrófono 3D que cuenta con 4 cápsulas repartidas a lo largo de la superficie de una esfera rígida. Como resultado, cada respuesta SRR puede estar compuesta por 4 señales de una longitud de 72000 muestras. Las muestras de audio se pueden almacenar en formato WAV de 24 bits.
Gracias al conjunto de respuestas SRR que se ha descrito anteriormente, la presente técnica permite generar el patrón de reverberación en 3D de una fuente de audio ubicada en cualquier posición entre los puntos de medición, tal y como se percibiría desde la ubicación del director. En consecuencia, el usuario puede colocar cualquiera de sus objetos de sonido en la sala de sonido dentro de los límites del volumen cubierto por la distribución de puntos de medición.
A través de la interfaz de usuario, el usuario puede elegir colocar un objeto de sonido específico (= señal de audio) en una posición específica del Auditorio de Barcelona: por ejemplo, distancia de 3 m, acimut de 30°, altura de 1,2 m. El objeto de sonido (= material de señal de audio) se puede agregar entonces con los siguientes metadatos:
• nombre de la sala (por ejemplo, Auditorio de Barcelona)
• sistema de coordenadas: cilíndrico
• posición (por ejemplo, 3 metros de distancia, 30° de acimut, 1,2 metros de altura)
Los datos de 'sala' permiten al sistema seleccionar el conjunto de respuestas SRR que corresponden al Auditorio de Barcelona de la base de datos de respuestas SRR. Los datos de 'sistema de coordenadas' y 'posición' permiten recoger el subconjunto de respuestas SRR adecuadas del conjunto de respuestas SRR del Auditorio de Barcelona. La Figura 2 es un diagrama de bloques de un sistema para aplicar una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, según un ejemplo. Un objeto de sonido 205 puede estar ubicado en una sala de sonido dentro de un espacio ya cubierto por una estructura de mediciones (measurement grid), como en la Figura 1. El objeto de sonido 205 puede incluir una señal de audio y metadatos relacionados con la sala de sonido y/o con el objeto de sonido. Los metadatos se pueden enviar a una primera unidad lógica 210 (o lógica de respuestas SRR 210) del dispositivo 200. Los metadatos pueden incluir, entre otra información, el nombre de la sala, el sistema de coordenadas y la posición del objeto de sonido en la sala. La primera unidad lógica 210 puede recibir los metadatos y seleccionar respuestas SRR de la base de datos de respuestas SRR 215. La base de datos de respuestas SRR 215 puede incluir mediciones de respuesta SRR de la sala de sonido. La base de datos de respuestas SRR 215 puede formar parte del dispositivo 200 o puede ser externa, y el dispositivo 200 se puede conectar o comunicar con la base de datos de respuestas SRR 215 para recuperar las respuestas SRR pertinentes. De este modo, la primera lógica 210 puede seleccionar las mediciones de respuesta SRR que corresponden a posiciones más cercanas a la posición del objeto de sonido 205 en la sala de sonido.
El cálculo de la respuesta SRR que corresponde a la posición elegida consiste en procesar los datos de respuesta SRR del subconjunto de respuestas SRR extraídas en la etapa anterior. Esto se puede ver como un proceso de interpolación, que es realizado por la primera unidad lógica 210.
En el presente ejemplo, el procedimiento de interpolación es bi-triangular: sobre la superficie de dos cilindros vecinos, el sistema busca los 3 puntos de medición más cercanos a la posición elegida con el fin de conseguir una triangulación en las superficies de ambos cilindros. A continuación, se realiza una interpolación lineal entre las dos respuestas SRR calculadas por cada proceso de triangulación.
En un ejemplo, la posición seleccionada está a 3 metros de distancia, 30° de acimut, 1,2 metros de altura y las respuestas SRR extraídas del conjunto de respuestas SRR del Auditorio de Barcelona son las siguientes:
• (2 m de distancia, 0° de acimut, 1 m de altura)
• (2 m de distancia, 45° de acimut, 1 m de altura)
• (2 m de distancia, 45° de acimut, 2 m de altura) para conseguir la triangulación sobre la superficie del cilindro de radio igual a 2 m, y:
• (5 m de distancia, 0° de acimut, 1 m de altura)
• (5 m de distancia, 45° de acimut, 1 m de altura)
• (5 m de distancia, 45° de acimut, 2 m de altura)
para conseguir la triangulación sobre la superficie del cilindro de radio igual a 5 m.
Cada proceso de triangulación consiste en combinar las correspondientes 3 señales de respuesta SRR con pesos que dependen de la distancia real entre la posición de medición de respuesta SRR y la posición elegida por el usuario.
Además, dado que las respuestas SRR son respuestas RIR tridimensional, la respuesta SRR calculada por el proceso de triangulación tiene una orientación 3D que es diferente de la orientación 3D de cualquiera de las 3 respuestas SRR medidas realmente. En consecuencia, además de combinar las 3 respuestas SRR medidas realmente, el proceso de triangulación también consigue mezclar los 4 canales diferentes de las respuestas SRR para modificar la orientación 3D.
La señal de audio del objeto de sonido 205 puede ser emitida a la segunda unidad lógica 220. La segunda unidad lógica 220 (o procesador de reverberación 220) puede recibir la señal de audio del objeto de sonido 205 y las respuestas SRR seleccionadas de la primera unidad lógica 210 y realizar una operación de convolución para aplicar la reverberación 3D al objeto de sonido.
La aplicación de la reverberación 3D a la señal de audio del objeto de sonido es realizada por la segunda unidad lógica 220, a través de una operación de convolución en el tiempo entre la señal de audio del objeto de sonido y los diferentes canales de la respuesta SRR emitida en la etapa anterior. Esto da lugar a un objeto de sonido reverberado en 3D compuesto por 4 canales, que posteriormente es decodificado por el sistema de reproducción 225. El oyente final percibirá entonces el objeto de sonido como si hubiera sido grabado originalmente en la posición elegida (3 metros de distancia, 30° de acimut, 1,2 metros de altura, desde la ubicación habitual del director) de la sala de sonido, por ejemplo el Auditorio de Barcelona.
La Figura 3 es un diagrama de flujo de un procedimiento de aplicación de una reverberación tridimensional a un objeto de sonido en una posición seleccionada por un usuario en una sala de sonido, según un ejemplo. En el bloque 305, se recibe un objeto de sonido procedente de una fuente de sonido. A continuación, en el bloque 310, se puede calcular una señal de respuesta SRR tridimensional correspondiente a la posición seleccionada por el usuario. En el bloque 315, se puede realizar una operación de convolución en el tiempo entre una señal de audio del objeto de sonido y la respuesta SRR tridimensional calculada. Por lo tanto, el alcance de la presente divulgación no debe estar limitado por ejemplos particulares, sino que se debe determinar únicamente mediante una lectura imparcial de las siguientes reivindicaciones. Si en una reivindicación se colocan entre paréntesis signos de referencia relacionados con dibujos, es únicamente para intentar aumentar la inteligibilidad de la reivindicación, y no se interpretarán como limitantes del alcance de la reivindicación.
Además, aunque los ejemplos que se han descrito con referencia a los dibujos comprenden aparatos/sistemas informáticos y procesos realizados en aparatos/sistemas informáticos, la invención también se extiende a programas informáticos, en particular a programas informáticos en una portadora, adaptados para poner en práctica el sistema.

Claims (11)

REIVINDICACIONES
1. Procedimiento de aplicar una reverberación tridimensional (3D) a un objeto de sonido (205) según se percibe desde una posición de escucha en una sala de sonido, en el que la posición de escucha (105) corresponde a una posición desde la que se ha medido una red de respuestas espaciales de sala (SRR) 3D a diferentes distancias con respecto de la posición de escucha, en el que la distribución de puntos de medición es cilíndrica, originándose el objeto de sonido en una posición de objeto de sonido seleccionada por un usuario, en el que las respuestas SRR son respuestas a impulso de sala en 3D con indicaciones direccionales, en el que el objeto de sonido se ubica en cualquier posición entre los puntos de medición, comprendiendo el procedimiento:
recibir un objeto de sonido (205), en el que el objeto de sonido (205) comprende una señal de audio y metadatos asociados, en el que los metadatos asociados comprenden la posición del objeto de sonido que ha seleccionado el usuario;
calcular respuestas espaciales de sala (SRR) 3D que corresponden a la posición del objeto de sonido que ha seleccionado el usuario, en el que calcular las respuestas SRR que corresponden a la posición del objeto de sonido que ha seleccionado el usuario comprende seleccionar respuestas SRR existentes para su interpolación en base a la posición del objeto de sonido que ha seleccionado el usuario, en el que las respuestas SRR existentes se almacenan en una base de datos (215) junto con coordenadas que corresponden a su posición de captura, en el que las coordenadas corresponden a posiciones muestreadas en la sala de sonido, que comprende además interpolar las respuestas SRR existentes seleccionadas almacenadas en la base de datos, en el que la interpolación de los valores de respuesta SRR existentes comprende realizar una interpolación bi-triangular o una interpolación tetraédrica entre los valores de respuesta SRR existentes, realizar una operación de convolución en el tiempo entre la señal de audio del objeto de sonido y el valor de respuesta SRR calculado para calcular una señal reverberada caracterizado por el hecho de que realizar la interpolación bi-triangular comprende:
identificar tres puntos de medición en una superficie de dos cilindros coaxiales vecinos, siendo los tres puntos de medición los más cercanos a la posición del objeto de sonido que ha seleccionado el usuario;
realizar una triangulación en las superficies de los cilindros coaxiales vecinos;
y realizar la interpolación tetraédrica comprende:
identificar cuatro puntos de medición pertenecientes a una superficie de dos cilindros coaxiales vecinos diferentes, siendo los cuatro puntos de medición los más cercanos a la posición del objeto de sonido que ha seleccionado el usuario;
realizar una triangulación en el volumen definido por los cuatro puntos de medición.
2. El procedimiento según la reivindicación 1, en el que las respuestas SRR existentes son medidas en posiciones de un sistema de coordenadas.
3. El procedimiento según la reivindicación 2, en el que el sistema de coordenadas es uno de entre un sistema de coordenadas cilíndrico, un sistema de coordenadas cartesiano o un sistema de coordenadas esférico.
4. El procedimiento según la reivindicación 1, en el que realizar una triangulación en una superficie de cilindro comprende combinar correspondientes respuestas SRR en los puntos identificados con pesos que dependen de la distancia real entre la posición de medición de la respuesta SRR y la posición del objeto de sonido que ha seleccionado el usuario.
5. El procedimiento según la reivindicación 1, en el que realizar una triangulación en un tetraedro comprende combinar correspondientes respuestas SRR en los puntos identificados con pesos que dependen de una distancia real entre la posición de medición de la respuesta SRR y la posición del objeto de sonido que ha seleccionado el usuario.
6. Un dispositivo para aplicar una reverberación tridimensional a un objeto de sonido (205) en una posición seleccionada por un usuario en una sala de sonido, originándose el objeto de sonido (205) desde una posición del objeto de sonido, en el que el objeto de sonido (205) se percibe desde una posición de escucha en la sala de sonido, en el que la posición de escucha (105) corresponde a una posición desde la que se ha medido una red de respuestas espaciales de sala (SRR) 3D a diferentes distancias con respecto de la posición de escucha, en el que la distribución de puntos de medición es cilíndrica, en el que las respuestas SRR son respuestas a impulso de sala 3D con indicaciones direccionales, en el que el objeto de sonido se ubica en cualquier posición entre los puntos de medición, comprendiendo el dispositivo:
un receptor para recibir el objeto de sonido (205) desde la posición del objeto de sonido, en el que el objeto de sonido comprende una señal de audio y metadatos asociados, en el que los metadatos asociados comprenden la posición del objeto de sonido que ha seleccionado el usuario;
una lógica de respuestas SRR para calcular respuestas espaciales de sala (SRR) 3D que corresponden a la posición seleccionada por el usuario, en el que la lógica de respuestas SRR está configurada para seleccionar respuestas SRR existentes para su interpolación en base a la posición del objeto de sonido que ha seleccionado el usuario, en el que las respuestas SRR existentes se almacenan en una base de datos junto con coordenadas que corresponden a su posición de captura, en el que las coordenadas corresponden a posiciones muestreadas en la sala de sonido, en el que la lógica de respuestas SRR está configurada además para interpolar las respuestas SRR existentes seleccionadas almacenadas en la base de datos, en el que la lógica de respuestas SRR está configurada además para interpolar los valores de respuesta SRR existentes seleccionados realizando una interpolación bitriangular o una interpolación tetraédrica entre los valores de respuesta SRR existentes;
un procesador de reverberación para realizar una operación de convolución en el tiempo entre la señal de audio del objeto de sonido y la respuesta SRR calculada caracterizado por el hecho de que realizar la interpolación bitriangular comprende:
identificar tres puntos de medición en una superficie de dos cilindros coaxiales vecinos, siendo los tres puntos de medición los más cercanos a la posición del objeto de sonido que ha seleccionado el usuario;
realizar una triangulación en las superficies de los cilindros coaxiales vecinos;
y realizar la interpolación tetraédrica comprende:
identificar cuatro puntos de medición pertenecientes a una superficie de dos cilindros coaxiales vecinos diferentes, siendo los cuatro puntos de medición los más cercanos a la posición del objeto de sonido que ha seleccionado el usuario;
realizar una triangulación en el volumen definido por los cuatro puntos de medición.
7. Un dispositivo según la reivindicación 6, en el que el procesador de reverberación está configurado para realizar la operación de convolución en el tiempo entre la señal de audio del objeto de sonido y la respuesta SRR calculada a medida que el objeto de sonido cambia de posición en la sala de sonido.
8. Un dispositivo según la reivindicación 6, conectable a una base de datos que almacena SRR existentes, en el que la lógica de respuestas SRR está configurada para identificar y recuperar respuestas SRR existentes en la base de datos asociadas con la posición seleccionada por el usuario.
9. Producto de programa informático que comprende instrucciones de programa para hacer que un sistema informático ejecute un procedimiento según una cualquiera de las reivindicaciones 1 a 5.
10. Un producto de programa informático según la reivindicación 9, incorporado en un medio de almacenamiento.
11. Un producto de programa informático según la reivindicación 9, adaptado para ser transportado en una señal portadora.
ES18382220T 2018-03-28 2018-03-28 Técnica de reverberación para audio 3D Active ES2954317T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18382220.4A EP3547305B1 (en) 2018-03-28 2018-03-28 Reverberation technique for audio 3d

Publications (1)

Publication Number Publication Date
ES2954317T3 true ES2954317T3 (es) 2023-11-21

Family

ID=62002613

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18382220T Active ES2954317T3 (es) 2018-03-28 2018-03-28 Técnica de reverberación para audio 3D

Country Status (4)

Country Link
US (1) US11330391B2 (es)
EP (1) EP3547305B1 (es)
ES (1) ES2954317T3 (es)
WO (1) WO2019185743A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3163166A1 (en) * 2020-01-09 2021-07-15 Mitsuyuki Hatanaka Information processing apparatus and information processing method, and program

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102665156B (zh) 2012-03-27 2014-07-02 中国科学院声学研究所 一种基于耳机的虚拟3d重放方法
EP2809088B1 (en) * 2013-05-30 2017-12-13 Barco N.V. Audio reproduction system and method for reproducing audio data of at least one audio object
EP2838084A1 (en) 2013-08-13 2015-02-18 Thomson Licensing Method and Apparatus for determining acoustic wave propagation within a modelled 3D room
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
DE102014210215A1 (de) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Ermittlung und Nutzung hörraumoptimierter Übertragungsfunktionen
US9560465B2 (en) * 2014-10-03 2017-01-31 Dts, Inc. Digital audio filters for variable sample rates
US10063965B2 (en) * 2016-06-01 2018-08-28 Google Llc Sound source estimation using neural networks
US9992570B2 (en) * 2016-06-01 2018-06-05 Google Llc Auralization for multi-microphone devices
KR102513586B1 (ko) * 2016-07-13 2023-03-27 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 출력 방법
CN109792582B (zh) * 2016-10-28 2021-10-22 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
US11122384B2 (en) * 2017-09-12 2021-09-14 The Regents Of The University Of California Devices and methods for binaural spatial processing and projection of audio signals
US10390171B2 (en) * 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking

Also Published As

Publication number Publication date
EP3547305B1 (en) 2023-06-14
US20210029487A1 (en) 2021-01-28
WO2019185743A1 (en) 2019-10-03
US11330391B2 (en) 2022-05-10
EP3547305A1 (en) 2019-10-02

Similar Documents

Publication Publication Date Title
ES2922639T3 (es) Método y dispositivo para la reproducción mejorada de campo sonoro de señales de entrada de audio codificadas espacialmente
Grimm et al. A toolbox for rendering virtual acoustic environments in the context of audiology
ES2772851T3 (es) Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
US9154896B2 (en) Audio spatialization and environment simulation
US9332372B2 (en) Virtual spatial sound scape
ES2729624T3 (es) Reducción de la correlación entre canales de fondo ambisónicos de orden superior (HOA)
WO2020255810A1 (ja) 信号処理装置および方法、並びにプログラム
US7558393B2 (en) System and method for compatible 2D/3D (full sphere with height) surround sound reproduction
ES2609054T3 (es) Aparato y método para generar una pluralidad de transmisiones de audio paramétricas y aparato y método para generar una pluralidad de señales de altavoz
US20050080616A1 (en) Recording a three dimensional auditory scene and reproducing it for the individual listener
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
US20240292178A1 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
ES2954317T3 (es) Técnica de reverberación para audio 3D
ES2913426T3 (es) Reproducción de sonido espacial usando sistemas de altavoz de múltiples canales
Nowak et al. On the perception of apparent source width and listener envelopment in wave field synthesis
Gupta et al. 3D audio AR/VR capture and reproduction setup for auralization of soundscapes
Bögelein et al. Localization cues of a spherical head model
Parsehian et al. Design and perceptual evaluation of a fully immersive three-dimensional sound spatialization system
Shukla et al. Real-time binaural rendering with virtual vector base amplitude panning
Pelzer et al. 3D reproduction of room acoustics using a hybrid system of combined crosstalk cancellation and ambisonics playback
Vodola On the 3D Acoustic Analysis in UNESCO Sites: The Example of San Vitale, Ravenna, Italy
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20240292177A1 (en) Early reflection pattern generation concept for auralization
Glasgal Improving 5.1 and Stereophonic Mastering/Monitoring by Using Ambiophonic Techniques
Barbour Exploration of the Height Dimension in Audio Reproduction