ES2261994T3 - Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento. - Google Patents

Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento.

Info

Publication number
ES2261994T3
ES2261994T3 ES03782553T ES03782553T ES2261994T3 ES 2261994 T3 ES2261994 T3 ES 2261994T3 ES 03782553 T ES03782553 T ES 03782553T ES 03782553 T ES03782553 T ES 03782553T ES 2261994 T3 ES2261994 T3 ES 2261994T3
Authority
ES
Spain
Prior art keywords
distance
sound
restitution
components
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03782553T
Other languages
English (en)
Inventor
Jerome Daniel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32187712&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2261994(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2261994T3 publication Critical patent/ES2261994T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procedimiento de tratamiento de datos sonoros, en el cual: a) se codifican señales representativas de al menos un sonido que se propaga en el espacio tridimensional y salido de una fuente situada a una primera distancia (p) de un punto de referencia (O), para obtener una representación del sonido por componentes (Bmn) expresados en una base de harmónicas esféricas, de origen correspondiente a dicho punto de referencia (O), b) y se aplica a dichos componentes (Bmn) una compensación de un efecto de campo próximo por un filtrado que es función de una segunda distancia (R) que define sensiblemente, para una restitución del sonido por un dispositivo de restitución, una distancia entre un punto de restitución (HPi) y un punto (P) de percepción auditiva.

Description

Método de tratamiento de datos sonoros y dispositivo de adquisición sonoro que ejecuta este procedimiento.
La presente invención concierne al tratamiento de datos sonoros.
Técnicas relativas a la propagación de una onda sonora en el espacio tridimensional, que implica específicamente una simulación y/o una restitución sonoras especializadas, ejecutan procedimientos de tratamiento de la señal de audio aplicadas a la simulación de fenómenos acústicos y psico-acústicos. Tales procedimientos de tratamiento prevén una codificación espacial del campo acústico, su transmisión y su reproducción espacial en un conjunto de alto-parlantes o en auriculares de un casco estereofónico.
Entre las técnicas de sonido espacial, se distinguen dos categorías de tratamientos complementarios uno del otro pero que son generalmente ejecutados, uno y el otro, en el seno de un mismo sistema.
Por una parte, una primera categoría de tratamientos concierne a los procesos de síntesis de efecto de sala, o más generalmente efectos ambientales. A partir de la descripción de una o varias fuentes sonoras (señal emitida, posición, orientación, directividad, u otra) y basándose en un modelo de efecto de sala (implicando una geometría de sala, o también una percepción acústica deseada), se calcula y se describe un conjunto de fenómenos acústicos elementales (ondas directas, reflejadas o difractadas), o también un fenómeno acústico macroscópico (campo reverberado y difuso), permitiendo traducir el efecto espacial al nivel de un oyente situado en un punto seleccionado de percepción auditiva, en el espacio tridimensional. Se calcula entonces un conjunto de señales asociadas típicamente a las reflexiones (fuentes "secundarias", activas por re-emisión de una onda principal recibida, teniendo un atributo de posición espacial) y/o asociadas a una reverberación tardía (señales desacopladas por un campo difuso).
Por otra parte, una segunda categoría de procedimientos concierne a la entrega posicional o direccional de fuentes sonoras. Estos procedimientos son aplicados a señales determinadas por un procedimiento de la primera categoría descrita anteriormente (implicando fuentes primarias y secundarias) en función de la descripción espacial (posición de la fuente) que le está asociada. En particular, tales procedimientos según esta segunda categoría permiten obtener señales a difundir en alto-parlantes o auriculares, para finalmente dar a un oyente la impresión auditiva de fuentes sonoras colocadas en posiciones respectivas predeterminadas, alrededor del oyente. Los procesos según esta segunda categoría son calificados de "creadores de imágenes sonoras tridimensionales", debido al hecho de la repartición en el espacio tridimensional de la observación de la posición de las fuentes por un oyente. Procesos según la segunda categoría comprenden generalmente una primera etapa de codificación espacial de los eventos acústicos elementales que producen una representación del campo sonoro en el espacio tridimensional. En una segunda etapa, esta representación es transmitida o almacenada por un usuario diferido. En una tercera etapa, de decodificación, las señales decodificadas son expedidas en alto-parlantes o auriculares de un dispositivo de
restitución.
La presente invención se inscribe más bien en la segunda categoría precitada. La misma concierne en particular a la codificación espacial de fuentes sonoras y una especificación de la representación sonora tridimensional de esas fuentes. La misma se aplica también a una codificación de fuentes sonoras "virtuales" (aplicaciones donde fuentes sonoras son estimuladas tales como juegos, una conferencia espacial, u otras), como a una codificación "acústica" de un campo sonoro natural, durante una toma de sonido por una o varias redes tridimensionales de micrófonos. Un método de codificación acústico similar es presentado por J. Chen y otros: "Synthesis of 3D virtual auditory space via a spatial feature extraction and regularisation model", Proceedings of the virtual reality annual internacional symposium, Seattle, Sept. 18-22, 1993, IEEE, New-York, US, páginas 188-193.
Entre las técnicas consideradas de espacialización del sonido, la aproximación "ambisónica" es preferida. La codificación ambisónica, que será descrita más adelante, consiste en representar señales relativas a una o varias ondas sonoras en una base de harmónicas esféricas (en coordenadas esféricas que implican específicamente un ángulo de elevación y un ángulo acimutal, caracterizando una dirección del o de los sonidos). Los componentes que representan esas señales y expresados en esta base de harmónicas esféricas son también función, para las ondas emitidas en campo próximo, de una distancia entre la fuente sonora que emite ese campo y un punto que corresponde al origen de la base de las harmónicas esféricas. Más particularmente, esta dependencia de la distancia se expresa en función de la frecuencia sonora, como se verá más adelante.
Esta aproximación ambisónica ofrece un gran número de funcionalidades posibles, específicamente en términos de simulación de fuentes virtuales, y, de manera general, presenta las ventajas siguientes:
\bullet
traduce, de forma racional, la realidad de los fenómenos acústicos y aporta una entrega auditiva espacial realista, convincente e inmersivo;
\bullet
la representación de los fenómenos acústicos es escalable: la misma ofrece una resolución espacial que puede ser adaptada a diferentes situaciones. En efecto, esta representación puede ser transmitida y explotada en función de las dificultades de flujo durante la transmisión de las señales codificadas y/o de limitaciones del dispositivo de restitución;
\bullet
la representación ambisónica es flexible y es posible simular una rotación del campo sonoro, o también, en la restitución, adaptar la codificación de las señales ambisónicas a cualquier dispositivo de restitución, de geometrías diversas.
En la aproximación ambisónica conocida, la codificación de las fuentes virtuales es esencialmente direccional. Las funciones de codificación vuelven a venir para calcular ganancias que dependen del incidente de la onda sonora expresada por las funciones harmónicas esféricas que dependen del ángulo de elevación y del ángulo acimutal en coordenadas esféricas. En particular, con la decodificación, se supone que los alto-parlantes, en la restitución, están lejanos. Esto resulta en una distorsión (o una incurvación) de la forma de los frentes de onda reconstruidos. En efecto, como se indicó anteriormente, los componentes de la señal sonora en la base de las harmónicas esféricas, para un campo próximo, dependen de hecho también de la distancia de la fuente y de la frecuencia sonora. Más precisamente, estos componentes pueden expresarse matemáticamente bajo la forma de un polinomio cuya variable es inversamente proporcional a la distancia antes citada y a la frecuencia sonora. De esta forma, los componentes ambisónicos, en el sentido de su expresión teórica, son divergentes en las bajas frecuencias y, en particular, tienden hacia el infinito cuando la frecuencia sonora decrece hacia cero, cuando las mismas representan un sonido en campo próximo emitido por una fuente situada a una distancia finita. Este fenómeno matemático es conocido, en el campo de la representación ambisónica, ya por el orden de 1, por el término de "bass boost", específicamente por:
- M. A. GERZON, "General Metatheory of Auditory Localisation", preprint 3306 of the 92^{nd} AES Convention, 1992, página 52.
Este fenómeno deviene particularmente crítico para órdenes de harmónicas esféricas elevadas que implican polinomios de potencia elevada
Se conoce por:
SONTACCHI y HOLDRICH, "Further Investigations on 3D Sound Fields using Distance Coding" (Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Irlande, 6-8 December 2001),
una técnica para tomar en cuenta una incurvación de los frentes de las ondas en el seno de una representación próxima a una representación ambisónica, cuyo principio consiste en:
-
aplicar una codificación ambisónica (de orden elevado) a las señales salidas de una toma de sonido virtual (simulada), de tipo WFS (por "Wave Field Síntesis");
-
y reconstruir el campo acústico en una zona después que sus valores en una frontera de zona, basándose así en el principio de HUYGENS-FRESNEL.
Sin embargo, la técnica presentada en este documento, además de prometedora debido al hecho de que utiliza una representación ambisónica de un orden elevado, posee un cierto número de problemas:
-
los recursos informáticos necesarios para el cálculo de todas las superficies que permiten aplicar el principio de HUYGENS-FRESNEL, así como los tiempos de cálculo necesarios, son excesivos;
-
artefactos de tratamiento llamados de "aliasing spatial" aparecen a causa de la distancia entre los micrófonos, a menos que se seleccione un enmallado de micrófono virtuales encerrados en el espacio, lo que entorpece los tratamientos;
-
esta técnica es difícilmente transponible a un caso real de captadores a disponer en la red, en presencia de una fuente real, con la adquisición;
-
en la restitución, la representación sonora tridimensional está implícitamente sometida a un radio fijo del dispositivo de restitución ya que la decodificación ambisónica debe hacerse, aquí, en una red de alto-parlantes de las mismas dimensiones que la red de micrófonos inicial, este documento no propone ningún medio de adaptar la codificación o la decodificación a otros tamaños de dispositivos de restitución.
Sobre todo, este documento presenta una red horizontal de captadores, lo que supone que los fenómenos acústicos que se tienen en cuenta, aquí, se propaguen solamente en las direcciones horizontales, lo que excluye cualquier otra dirección de propagación y que, por lo tanto, no representa la realidad física de un campo acústico ordinario.
De forma más general, las técnicas actuales no permiten tratar de forma satisfactoria cualquier tipo de fuentes sonoras, específicamente en campo próximo, sino más bien fuentes sonoras (ondas planas), lo que corresponde a una situación restrictiva y artificial en numerosas aplicaciones.
Un objeto de la presente invención es proporcionar un procedimiento para tratar, por codificación, transmisión y restitución, un tipo cualquiera de campo sonoro, en particular el efecto de una fuente sonora en campo próximo.
Otro objeto de la presente invención es proporcionar un procedimiento que permita la codificación de fuentes virtuales, no solamente en dirección, sino también en distancia, y definir una decodificación adaptable a un dispositivo de restitución cualquiera.
Otro objeto de la presente invención es proporcionar un procedimiento de tratamiento robusto para sonidos de todas las frecuencias sonoras (comprendidas las bajas frecuencias), específicamente para la toma de sonido de campos acústicos naturales con la ayuda de redes tridimensionales de micrófonos.
A este efecto, la presente invención propone un procedimiento de tratamiento de datos sonoros, en el cual:
a)
se codifican señales representativas de al menos un sonido que se propaga en el espacio tridimensional y salido de una fuente situada a una primera distancia de un punto de referencia, para obtener una representación del sonido por componentes expresados en una base de harmónicas esféricas, de origen correspondiente a dicho punto de referencia y,
b)
se aplica a dichos componentes una compensación de un efecto de campo próximo por una filtración que es función de una segunda distancia que define sensiblemente, para una restitución del sonido por un dispositivo de restitución, una distancia entre un punto de restitución y un punto de percepción au- ditiva.
En un primer modo de realización, dicha fuente siendo lejana al punto de referencia,
-
se obtienen componentes de órdenes sucesivos m para la representación del sonido en dicha base de harmónicas esféricas, y
-
se aplica un filtro cuyos coeficientes, aplicados cada uno a un componente de orden m, se expresan analíticamente bajo la forma de la inversa de un polinomio de potencia m, cuya variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia, para compensar un efecto de campo, próximo al nivel del dispositivo de restitución.
En un segundo modo de realización, dicha fuente siendo una fuente virtual prevista en dicha primera distancia,
-
se obtienen componentes de órdenes sucesivos m para la representación del sonido en dicha base de harmónicas esféricas, y
-
se aplica un filtro global cuyos coeficientes, aplicados cada uno a un componente de orden m, se expresan analíticamente bajo la forma de una fracción, donde:
-
el numerador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha primera distancia, para simular un efecto de campo próximo a la fuente virtual, y
-
el denominador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia, para compensar el efecto del campo próximo a la fuente virtual en las bajas frecuencias sonoras.
Preferentemente, se transmite al dispositivo de restitución los datos codificados y filtrados en las etapas a) y b) con un parámetro representativo de dicha segunda distancia.
En complemento o como variante, el dispositivo de restitución comprende medios de lectura de un soporte de memoria, se memoriza en un soporte de memoria destinado a ser leído por el dispositivo de restitución los datos codificados y filtrados en las etapas a) y b) con un parámetro representativo de dicha segunda distancia.
Ventajosamente, previamente a una restitución sonora por un dispositivo de restitución que comprende una pluralidad de alto-parlantes dispuestos a una tercera distancia de dicho punto de percepción auditiva, se aplica a los datos codificados y filtrados un filtro de adaptación cuyos coeficientes son función de dichas segunda y tercera
distancias.
En una realización particular, los coeficientes de este filtro de adaptación, aplicados cada uno a un componente de orden m, se expresan analíticamente bajo la forma de una fracción, donde:
-
el numerador es un polinomio de potencia m, cuya variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia,
-
y el denominador es un polinomio de potencia m, cuya variable es inversamente proporcional a la frecuencia sonora y a dicha tercera distancia.
\newpage
Ventajosamente, para la ejecución de la etapa b), se prevé:
-
para componentes de orden m par, filtros audio-numéricos bajo la forma de una cascada de células de orden dos; y
-
para componentes de orden m impar, filtros audio-numéricos bajo la forma de una cascada de células de orden dos y una célula suplementaria de orden uno.
En esta realización, los coeficientes de un filtro audio-numérico, para un componente de orden m, son definidos a partir de valores numéricos de raíces de dichos polinomios de potencia m.
En una realización particular, los polinomios precitados son polinomios de Bessel.
Con la adquisición de señales sonoras, se prevé ventajosamente un micrófono que comprende una red de transductores acústicos dispuestos sensiblemente en la superficie de una esfera cuyo centro corresponde sensiblemente a dicho punto de referencia, para obtener dichas señales representativas de al menos un sonido que se propaga en el espacio tridimensional.
En esta realización, se aplica en la etapa b) un filtro globo para, por una parte, compensar un efecto de campo próximo en función de dicha segunda distancia y, por otra parte, igualar las señales salidas de los transductores para compensar una ponderación de directividad de dichos transductores.
Preferentemente, se prevé un número de transductores en función de un número total seleccionado de componentes para representar el sonido en dicha base de harmónicas esféricas.
Según una característica ventajosa, se selecciona en la etapa a) un número total de componentes en la base de las harmónicas esféricas para obtener, en la restitución, una región del espacio alrededor del punto de percepción en el cual la restitución del sonido es fiel y donde las dimensiones son crecientes con el número total de componentes.
Preferentemente, se prevé además un dispositivo de restitución que comprende un número de alto-parlantes al menos igual a dicho número total de componentes.
En una variante, en el marco de una restitución con síntesis binaural o transaural:
-
se prevé un dispositivo de restitución que comprende al menos un premier y un segundo alto-parlante dispuestos a una distancia seleccionada de un oyente,
-
se obtiene, para este oyente, una información de observación alcanzada de la posición en el espacio de fuentes sonoras situadas a una distancia de referencia predeterminada del oyente para la aplicación de una técnica llamada de "síntesis binaural" o "transaural", y
-
se aplica la compensación de la etapa b) con dicha distancia de referencia sensiblemente como segunda distancia.
En una variante donde se ha introducido una adaptación al dispositivo de restitución con dos auriculares:
-
se prevé un dispositivo de restitución que comprende al menos un premier y un segundo alto-parlante dispuestos a una distancia seleccionada de un oyente,
-
se obtiene, para este oyente, una información de observación de la posición en el espacio de fuentes sonoras situadas a una distancia de referencia predeterminada del oyente, y
-
previamente a una restitución sonora por el dispositivo de restitución, se aplica a los datos codificados y filtrados en las etapas a) y b) un filtro cuyos coeficientes son función de la segunda distancia y sensiblemente de la distancia de referencia.
En particular, en el marco de una restitución con síntesis binaural:
-
el dispositivo de restitución comprende un casco con dos auriculares para las orejas respectivas del oyente,
-
y preferentemente, de manera separada para cada auricular, se aplica la codificación y el filtrado de las etapas a) y b) para señales respectivas destinadas a alimentar cada auricular, con, en tanto que primera distancia, respectivamente una distancia que separa cada oreja de una posición de una fuente a restituir en el espacio de restitución.
Preferentemente, se conforma, en las etapas a) y b), un sistema matricial que comprende al menos:
-
una matriz que comprende dichos componentes en la base de las harmónicas esféricas, y
-
una matriz diagonal cuyos coeficientes corresponden a coeficientes de filtrado de la etapa b),
y se multiplican dichas matrices para obtener una matriz resultante de componentes compensados.
De preferencia, a la restitución:
-
el dispositivo de restitución comprende una pluralidad de alto-parlantes dispuestos sensiblemente a una misma distancia del punto de percepción auditivo, y
-
para decodificar dichos datos codificados y filtrados en las etapas a) y b) y formar señales adaptadas para alimentar dichos alto-parlantes:
* se forma un sistema matricial que comprende dicha matriz resultante de componentes compensados y una {}\hskip0,2cm matriz de decodificación predeterminada, propia del dispositivo de restitución, y
* se obtiene una matriz que comprende coeficientes representativos de las señales de alimentación de los {}\hskip0,3cm alto-parlantes por multiplicación de la matriz resultante por dicha matriz de decodificación.
La presente invención apunta también a un dispositivo de adquisición sonora, que comprende un micrófono provisto de una red de transductores acústicos dispuestos sensiblemente en la superficie de una esfera. Según la invención el dispositivo comprende además una unidad de tratamiento dispuesta para:
-
recibir señales que emanan cada una de un transductor,
-
aplicar a dichas señales una codificación para obtener una representación del sonido por componentes expresados en una base de harmónicas esféricas, de origen correspondiente al centro de dicha esfera.
-
y aplicar a dichos componentes un filtrado que es función, por una parte, de una distancia correspondiente al radio de la esfera y, por otra parte, a una distancia de referencia.
Preferentemente, el filtrado efectuado por la unidad de tratamiento consiste, por una parte, en igualar, en función del radio de la esfera, las señales salidas de los transductores para compensar una ponderación de directividad de dichos transductores y, por otra parte, compensar un efecto de campo próximo en función de dicha distancia de
referencia.
Otras ventajas y características de la invención aparecerán con la lectura de la descripción detallada a continuación y con el examen de las figuras que la acompañan, en las cuales:
- la figura 1 ilustra esquemáticamente un sistema de adquisición y creación, por simulación de fuentes virtuales, de señales sonoras, con codificación, transmisión, decodificación y restitución por un dispositivo de restitución espacializado,
- la figura 2 representa más precisamente una codificación de señales definidas a la vez en intensidad y con relación a la posición de una fuente donde las mismas son salidas,
- la figura 3 ilustra los parámetros en juego en la representación ambisónica, en coordenadas esféricas;
- la figura 4 ilustra una representación por una métrica tridimensional en una marca de coordenadas esféricas, de armónicas esféricas Y^{\sigma}_{mn} de diferentes órdenes;
- la figura 5 es un diagrama de las variaciones del módulo de funciones radiales j_{m}(kr), que son funciones de Bessel esféricas, para valores de orden m sucesivos, estas funciones radiales interviniendo en la representación ambisónica de un campo de presión acústica;
- la figura 6 representa la amplificación debida al efecto de campo próximo para diferentes órdenes sucesivos m, en particular en las bajas frecuencias;
- la figura 7 representa esquemáticamente un dispositivo de restitución que comprende una pluralidad de alto-parlantes HP_{i}, con el punto (referenciado P) de percepción auditiva precitado, la primera distancia precitada (referenciada p) y la segunda distancia precitada (referenciada R);
- la figura 8 representa esquemáticamente los parámetros puestos en juego en la codificación ambisónica, con una codificación direccional, así como una codificación de distancia según la invención;
- la figura 9 representa espectros de energía de los filtros de compensación y de campo próximo simulados para una primera distancia de una fuente virtual p = 1 m y una pre-compensación de alto-parlantes situados a una segunda distancia R = 1,5 m;
- la figura 10 representa espectros de energía de los filtros de compensación y de campo próximo simulados para una primera distancia de una fuente virtual p = 3 m y una pre-compensación de alto-parlantes situados a una segunda distancia R = 1,5 m;
- la figura 11A representa una reconstrucción del campo próximo con compensación, en el seno de la presente invención, por una onda esférica en el plano horizontal;
- la figura 11B, comparada con la figura 11A, representa el frente de la onda inicial, salida de una fuente S;
- la figura 12 representa esquemáticamente un módulo de filtrado para adaptar los componentes ambisónicos recibidos y pre-compensados a la codificación para una distancia de referencia R en tanto segunda distancia, a un dispositivo de restitución que comprende una pluralidad de alto-parlantes dispuestos en una tercera distancia R_{2} de un punto de percepción auditiva;
- la figura 13A representa esquemáticamente la disposición de una fuente sonora M, en la restitución, para un oyente que utiliza un dispositivo de restitución que aplica un síntesis binaural, con una fuente que emite en campo próximo;
- la figura 13B representa esquemáticamente las etapas de codificación y decodificación con efecto de campo próximo en el marco de la síntesis binaural de la figura 13A a la cual es combinada una codificación/decodificación ambisónica;
- la figura 14 representa esquemáticamente el tratamiento de las señales salidas de un micrófono que comprende una pluralidad de captadores de presión dispuestos en una esfera, a título ilustrativo, por codificación ambisónica, igualación y compensación de campo próximo en el sentido de la invención.
Se hace referencia primero a la figura 1 que representa a título ilustrativo un sistema global de espacialización sonora. Un módulo 1a de simulación de una escena virtual define un objeto sonoro como una fuente virtual de una señal, por ejemplo monofónica, de posición seleccionada en el espacio tridimensional y que define una dirección del sonido. Pueden estar previstas además especificaciones de la geometría de una sala virtual, para simular una reverberación del sonido. Un módulo de tratamiento 11 aplica una gestión de una o varias de esas fuentes con relación a un oyente (definición de una posición virtual de las fuentes con relación a este oyente). El mismo ejecuta un procesador de efecto de sala para simular las reverberaciones u otras aplicando retardos y/o filtrados usuales. Las señales así construidas son transmitidas a un módulo 2a de codificación espacial de las contribuciones elementales de las fuentes.
Paralelamente, una toma de sonido natural puede ser efectuada en el marco de un registro sonoro por uno o varios micrófonos dispuestos de forma seleccionada con relación a las fuentes reales (módulo 1b). Las señales captadas por los micrófonos son codificadas por un módulo 2b. Las señales adquiridas y codificadas pueden ser transformadas según un formato de representación intermedia (módulo 3b), antes de ser mezcladas por el módulo 3 a las señales generadas por el módulo 1a y codificadas por el módulo 2a (salido de fuentes virtuales). Las señales mezcladas son seguidamente transmitidas, o también memorizadas en un soporte, en vista de una restitución posterior (flecha TR). Las mismas son seguidamente aplicadas a un módulo de decodificación 5, en vista de la restitución en un dispositivo de restitución 6 que comprende alto-parlantes. Llegado el caso, la etapa de decodificación 5 puede ser precedida de una etapa de manipulación del campo sonoro, por ejemplo por rotación, gracias a un módulo de tratamiento 4 previsto más arriba del módulo de decodificación 5.
El dispositivo de restitución puede presentarse bajo la forma de una multiplicidad de alto-parlantes, dispuestos por ejemplo en la superficie de una esfera en una configuración tridimensional (perifónica), para asegurar, en la restitución, específicamente una observación de una dirección del sonido en el espacio tridimensional. Para este efecto, un oyente se coloca generalmente en el centro de la esfera formada por la red de alto-parlantes, ese centro corresponde al punto de percepción auditivo citado anteriormente. En una variante, los alto-parlantes del dispositivo de restitución pueden ser dispuestos en un plano (configuración panorámica bidimensional), los alto-parlantes siendo dispuestos en particular en un círculo y el oyente colocándose habitualmente en el centro de ese círculo. En otra variante, el dispositivo de restitución puede presentarse bajo la forma de un dispositivo de tipo "surround" (5.1). En fin, en una variante ventajosa, el dispositivo de restitución puede presentarse bajo la forma de un casco con dos auriculares para una síntesis binaural del sonido restituido, que permite al oyente observar una dirección de las fuentes en el espacio tridimensional, como se verá más delante de forma detallada. Tal dispositivo de restitución de dos alto-parlantes, para una observación en el espacio tridimensional, puede presentarse también bajo la forma de un dispositivo de restitución transaural, con dos alto-parlantes dispuestos a una distancia seleccionada de un oyente.
Se hace referencia ahora a la figura 2 para describir una codificación espacial y una decodificación para una restitución sonora tridimensional, de fuentes sonoras elementales. Se transmite a un módulo de codificación espacial 2 la señal salida de una fuente 1 a N, así como su posición (real o virtual). Su posición puede ser también definida en términos de incidencia (dirección de la fuente vista por el oyente) como en términos de distancia entre esta fuente y un oyente. La pluralidad de señales así codificadas permite obtener una representación multi-canal de un campo sonoro global. Las señales codificadas son transmitidas (flecha TR) a un dispositivo de restitución sonoro 6, para una restitución sonora en el espacio tridimensional, como se indicó anteriormente con referencia a la figura 1.
Se hace referencia a la figura 3 para describir a continuación la representación ambisónica de las harmónicas esféricas en el espacio tridimensional, un campo acústico. Se considera una zona alrededor de un origen O (esfera de radio R) ejemplo de fuente acústica. Se adopta un sistema de coordenadas esféricas en el cual cada valor \upbar{r} desde el origen O hasta un punto de la esfera es descrito por un acimut \theta_{r}, una elevación \delta_{r}, un radio r (que corresponde a la distancia en el origen O)
El campo de presión p(\upbar{r}) en el interior de esta esfera (r < R donde R es el radio de la esfera) puede escribirse en el campo frecuencial como una serie cuyos términos son los productos ponderados de funciones angulares y^{\sigma}_{mn}(\theta,\delta) y de función radial j_{m}(kr) que depende así de un término de propagación donde k=2\pif/c, donde f es la frecuencia sonora y c es la velocidad del sonido en el medio de propagación.
El campo de presión se expresa entonces por:
1
El conjunto de los factores de ponderación B^{\sigma}_{mn}, que son implícitamente función de la frecuencia, describen así el campo de presión en la zona considerada. Por esta razón, esos factores son llamados "componentes harmónicos esféricos" y representan una expresión frecuencial del sonido (o del campo de presión) en la base de las harmónicas esféricas Y^{\sigma}_{mn}.
Las funciones angulares son llamadas "harmónicas esféricas" y son definidas por:
2
donde P_{mn}(sen\delta) con funciones de Legendre de grado m y de orden n;
\delta_{p,q} ese el símbolo de Krönecker (igual a 1 si p=q y 0, si no)
Las harmónicas esféricas forman una base orto-normada donde los productos de escala entre componentes harmónicos y, de forma general entre dos funciones F y G, son respectivamente definidos por:
3
Las harmónicas esféricas son funciones reales cerradas, como es representado en la figura 4, en función del orden m y de índices n y \sigma. Las partes sombreadas y claras corresponden respectivamente a los valores positivos y negativos de las funciones harmónicas esféricas. Mientras más elevado es el orden m más elevada es la frecuencia angular (y por lo tanto la discriminación entre funciones). Las funciones radiales j_{m}(kr) son funciones de Bessel esféricas, donde el módulo es ilustrado para algunos valores del orden m en la figura 5.
Se puede dar una interpretación de la representación ambisónica por una base de harmónicas esféricas como sigue. Los componentes ambisónicos del mismo orden expresan finalmente "derivados" o "momentos" de orden m del campo de presión en las cercanías del origen O (centro de la esfera representado en la figura 3).
En particular, B^{+1}_{00} = W describe la magnitud escalar de la presión, mientras que B^{+1}_{11} = X, B^{-1}_{11} = Y, B^{+1}_{00} = Z están vinculados a los gradientes de presión (o también a la velocidad particular), en el origen O. Esos cuatro primeros componentes W, X, Y y Z son obtenidos durante una toma de sonido natural con la ayuda de micrófonos omnidirectivos (para la componente W de orden 0) y bidirectivos (para las tres otras componentes siguientes). Utilizando un número mas grande de transductores acústicos, un tratamiento apropiado, específicamente por igualación, permite obtener ventaja de componentes ambisónicos (órdenes m mas elevados superiores a 1).
\newpage
Tomando en cuenta componentes suplementarios de orden más elevado (superior a 1), aumentando la resolución angular de la descripción ambisónica, se accede a una aproximación del campo de presión en una cercanía más grande con respecto a la longitud de la onda sonora, alrededor del origen O. se comprenderá así que existe una relación estrecha entre la resolución angular (orden de las harmónicas esféricas) y el alcance radial (radio r) que puede ser representado. En resumen, cuando se aparta espacialmente del punto de origen O de la figura 3, más elevado es el número de componentes ambisónicos (orden M elevado) y mejor es la representación del sonido por el conjunto de esos componentes ambisónicos. Se comprenderá también que la representación ambisónica del sonido es sin embargo menos satisfactoria en la medida que se aleje del origen O. Este efecto se hace crítico en particular para frecuencias sonoras elevadas (de longitud de onda corta). Se tiene interés por lo tanto en obtener un número de componentes ambisónicos que sea lo más grande posible, lo que permite crear una región alrededor del punto de percepción, en la cual la restitución del sonido es fiel y por lo tanto las dimensiones son crecientes con el número total de componentes.
Se describe a continuación una aplicación a un sistema de codificación/transmisión/restitución de un sonido espacializado.
En la práctica, un sistema ambisónico toma en cuenta un sub-conjunto de componentes harmónicas esféricas, como se describió anteriormente. Se habla de un sistema de orden M cuando aquel toma en cuenta componentes ambisónicos de índice m < M. Cuando se trata de una restitución por un dispositivo de restitución con alto-parlantes, se comprenderá que si esos alto-parlantes son dispuestos en un plano horizontal, solo las harmónicas de índice m=n son explotadas. Por el contrario, cuando el dispositivo de restitución comprende alto-parlantes dispuestos en la superficie de una esfera ("perifonía"), se puede en principio explotar tantas harmónicas como alto-parlantes existentes.
Se designa por la referencia S la señal de presión portada por una onda plana y captada en el punto O correspondiente al centro de la esfera de la figura 3 (origen de la base en coordenadas esféricas). La incidencia de la onda es descrita por el acimut \theta y la elevación \delta. La expresión de los componentes del campo asociado a esta onda plana es dada por la relación:
[A3]B^{\sigma}{}_{mn} = S \ . \ Y^{\sigma}{}_{mn}(\theta,\delta)
Para codificar (simular) una fuente en un campo próximo a una distancia p del origen O, se aplica un filtro F_{m}^{(p/c)} para "incurvar" la forma de los frentes de onda, considerando que un campo próximo emite, en primera aproximación, una onda esférica. Los componentes codificados del campo devienen:
[A4]B^{\sigma}{}_{mn} = S \ . \ F_{m}{}^{(p/c)}(\omega)Y^{\sigma}{}_{mn}(\theta,\delta)
y la expresión del filtro precitado F_{m}^{(p/c)} es dada por la relación:
4
donde \omega = 2\pif es la pulsación de la onda, f siendo la frecuencia del sonido.
Estas dos últimas relaciones [A4] y [A5] muestran finalmente que, tanto para una fuente virtual (simulada) como para una fuente real en campo próximo, los componentes del sonido en la representación ambisónica se expresan matemáticamente (en particular analíticamente) bajo la forma de un polinomio, aquí de Bessel, de potencia m y donde la variable (c/2j\omegap) es inversamente proporcional a la frecuencia sonora.
De esta forma, se comprenderá que:
-
en el caso de una onda plana, la codificación produce señales que solo difieren de la señal de origen en una ganancia real, acabada, lo que corresponde a una codificación puramente direccional (relación [A3]);
-
en el caso de una onda esférica (fuente en campo próximo), el filtro suplementario F_{m}^{(p/c)}(\omega) codifica la información de distancia introduciendo, en la expresión de los componentes ambisónicos, relaciones de amplitudes complejas que dependen de la frecuencia, como se expresa en la relación [A5].
Es de destacar que ese filtro suplementario es de tipo "integrador", con un efecto de amplificación creciente y divergente (no cerrado) en la medida que las frecuencias sonoras disminuyan hacia cero. La figura 6 muestra, para cada orden m un aumento de la ganancia en bajas frecuencias (aquí la primera distancia p = 1 m). Se trata por lo tanto de filtros inestables y divergentes cuando se busca aplicarlos a señales de audio cualquiera. Esta divergencia es tanto más crítica para los órdenes m de valor elevado.
Se comprenderá en particular, a partir de relaciones [A3], [A4], y [A5], que la modelización de una fuente virtual en campo próximo presenta componentes ambisónicos divergentes en bajas frecuencias, de forma particularmente crítica para órdenes m elevados, como es representado en la figura 6. Esta divergencia, en las bajas frecuencias, corresponde al fenómeno de "bass boost" enunciado anteriormente. El mismo se manifiesta también en la adquisición sonora, para fuentes reales.
Por esta razón específicamente, la aproximación ambisónica, en particular para órdenes m elevados, no ha conocido en el estado de la técnica, una aplicación concreta (además de la teórica) en el tratamiento del sonido.
Se comprende en particular que una compensación del campo próximo es necesaria para respetar, en la restitución, la forma de los frentes de ondas codificados en la representación ambisónica. Con referencia a la figura 7, un dispositivo de restitución comprende una pluralidad de alto-parlantes HP_{i}, dispuestos a una misma distancia R, en el ejemplo descrito, de un punto de percepción auditiva P. En esta figura 7:
-
cada punto donde se sitúa un alto-parlante HP_{i} corresponde a un punto de restitución enunciado anteriormente,
-
el punto P es el punto de percepción auditivo enunciado anteriormente,
-
esos puntos están separados de la segunda distancia R enunciada anteriormente,
mientras que en la figura 3 descrita anteriormente:
-
el punto O corresponde al punto de referencia, enunciado anteriormente, que forma el origen de la base de las harmónicas esféricas,
-
el punto M corresponde a la posición de una fuente (real o virtual) situada en la primera distancia p, enunciada anteriormente, del punto de referencia O.
Según la invención, se introduce una pre-compensación del campo próximo a la fase misma de la codificación, esta compensación pone en juego filtros de forma analítica \frac{1}{F_{m}{}^{(R/c)}(\omega)} y que se aplican a los componentes ambisónicos B^{\sigma}_{mn} precitados.
Según una de las ventajas que aporta la invención, al amplificación F_{m}^{(p/c)}(\omega) cuyo efecto aparece en la figura 6 es compensado por la atenuación del filtro aplicado desde la codificación \frac{1}{F_{m}{}^{(R/c)}(\omega)}. En particular, los coeficientes de ese filtro de compensación \frac{1}{F_{m}{}^{(R/c)}(\omega)} son crecientes con la frecuencia del sonido, en particular, tienden hacia cero, para las bajas frecuencias. Ventajosamente, esta pre-compensación, efectuada desde la codificación, asegura que los datos transmitidos no sean divergentes para las bajas frecuencias.
Para indicar la señalización física de la distancia R que interviene en el filtro de compensación, se considera, a título ilustrativo, una onda plana real, inicial, en la adquisición de las señales sonoras. Para simular un efecto de campo próximo a esta fuente lejana, se aplica el primer filtro de la relación [A5], como se indica en la relación [A4]. La distancia p representa entonces una distancia entre una fuente virtual próxima M y el punto O que representa el origen de la base esférica de la figura 3. Se aplica así un primer filtro se simulación de campo próximo para simular la presencia de una fuente virtual a la distancia p descrita anteriormente. Sin embargo, por una parte, como se indicó anteriormente, los términos del coeficiente de ese filtro divergen en las bajas frecuencias (figura 6) y, por otra parte, la distancia precitada no representará fuertemente la distancia entre los alto-parlantes de un dispositivo de restitución y un punto P de percepción (figura 7). Según la invención, se aplica una pre-compensación, en la codificación, que pone en juego un filtro de tipo \frac{1}{F_{m}{}^{(R/c)}(\omega)} como se indicó anteriormente, lo que permite, por una parte, transmitir señales cerradas, y, por otra parte, seleccionar la distancia R, desde la codificación, para la restitución del sonido a partir de los alto-parlantes HP_{i}, tal como es representado en la figura 7. En particular, se comprenderá que si se ha simulado, en la adquisición una fuente virtual colocada a la distancia p del origen O, en la restitución (figura 7), un oyente colocado en el punto P de percepción auditiva (a una distancia R de los alto-parlantes HP_{i}) experimentará, en la audición, la presencia de una fuente sonora S, colocada a la distancia p del punto de percepción P y que corresponde con la fuente virtual simulada durante la adquisición.
De esta forma, la pre-compensación del campo próximo a los alto-parlantes (colocados a la distancia R), en la fase de codificación, puede ser combinada con un efecto de campo próximo simulado de una fuente virtual colocada a una distancia p. En la codificación, se pone finalmente en juego un filtro total resultante, por una parte, de la simulación del campo próximo, y, por otra parte, de la compensación del campo próximo, los coeficientes de este filtro pueden expresarse analíticamente por la relación:
5
El filtro total dado por la relación [A11] es estable y constituye la parte "codificación de distancia" en la codificación ambisónica espacial según la invención, tal como es representado en la figura 8. Los coeficientes de esos filtros corresponden a funciones de transferencia monotónicas de la frecuencia, que tienden hacia el valor 1 en altas frecuencias y hacia el valor (R/p)^{m} en bajas frecuencias. Con referencia a la figura 9, los espectros de energía de los filtros H_{m}^{NFC(p/c,R/c)}(\omega) traducen la amplificación de los componentes codificados, debidos al efecto de campo de la fuente virtual (colocada aquí a una distancia p = 1 m), con una pre-compensación del campo de alto-parlantes (colocados a una distancia R = 1,5 m). La amplificación en decibeles es por lo tanto positiva cuando p < R (caso de la figura 9) y negativa cuando p > R (caso de la figura 10 donde p = 3 m y R = 1,5 m). En un dispositivo de restitución espacializado, la distancia R entre un punto de percepción auditivo y los alto-parlantes HP_{i} es efectivamente del orden de uno o algunos metros.
Con referencia de nuevo a la figura 8, se comprende que, además de los parámetros de dirección \theta y \delta habituales, se transmitirá un información en las distancias que intervienen en la codificación. Así, las funciones angulares correspondientes a las harmónicas esféricas Y^{\sigma}_{mn}(\theta,\delta) son conservadas para la codificación direccional.
Sin embargo, en el sentido de la presente invención, se prevé además de los filtros totales (compensación de campo próximo y, llegado el caso, simulación de un campo próximo) H_{m}^{NFC(p/c,R/c)}(\omega) que son aplicados a los componentes ambisónicos, en función de su orden m, para realizar la codificación de la distancia, como es representado en la figura 8. Un modo de realización de esos filtros en el campo audio-numérico será descrito en detalles más adelante.
Se remarcará en particular que esos filtros pueden ser aplicados desde incluso la codificación de distancia (r) y antes incluso de la codificación de dirección (\theta,\delta). Se comprenderá así que las etapas a) y b) anteriores pueden ser reunidas en una misma etapa global, o incluso ser invertidas (con una codificación de distancia y filtrado de compensación, seguidos de una codificación de dirección). El procedimiento según la invención no se limita a una ejecución sucesiva en el tiempo de las etapas a) y b).
La figura 11A representa una visualización (vista desde arriba) de una reconstrucción de un campo próximo con compensación, de una onda esférica, en el plano horizontal (con los mismos parámetros de distancia que aquellos de la figura 9), para un sistema de orden total M = 15 y una restitución en 32 alto-parlantes. En la figura 11B, se ha representado la propagación de la onda sonora inicial a partir de una fuente en campo próximo situado a una distancia p de un punto del espacio de adquisición que corresponde, en el espacio de restitución, al punto P de la figura 7 de percepción auditiva. Se remarca en la figura 11A que los oyentes (simbolizados por cabezas esquematizadas) pueden localizar la fuente virtual en un mismo lugar geográfico situado a la distancia p del punto de percepción P en la figura 11B.
Se verifica que la forma del frente de la onda codificada sea respetada después de la decodificación y restitución. Sin embargo, se constata sensiblemente interferencias a la derecha del punto P tal como es representado en la figura 11A que son debidas al hecho de que el número de alto-parlantes (y por lo tanto de componentes ambisónicos tomados en cuenta) no es suficiente para restituir perfectamente el frente de ondas en juego en toda la superficie delimitada por los alto-parlantes.
En lo que sigue, se describe, a título de ejemplo, la obtención de un filtro audio-numérico para la ejecución del procedimiento en el sentido de la invención.
Como se indicó anteriormente, si se busca simular un efecto de campo próximo, compensado desde la codificación, se aplica a los componentes ambisónicos del sonido un filtro de la forma:
6
De la expresión de la simulación de un campo próximo dado por la relación [A5], parece que para fuentes lejanas (p = \infty), la relación [A11] deviene simplemente:
7
Parece por lo tanto de esta última relación [A12] que el caso donde la fuente a simular emite en campo lejano (fuente lejana) es solo un caso particular de la expresión general del filtro formulada en la relación [A11].
En el campo de los tratamientos audio-numéricos, un procedimiento ventajoso para definir un filtro numérico a partir de la expresión analítica de ese filtro en el campo analógico a tiempo continuo consiste en una "transformada bilineal".
Se expresa primero la relación [A5] bajo la forma de una transformada de Laplace, lo que corresponde a:
8
donde \tau = p/c (c siendo la velocidad acústica en el medio, típicamente 340 m/s en el aire).
La transformada bilineal consiste en presentar, para una frecuencia de muestreo f_{s}, la relación [A11] bajo la forma:
9
si m es impar y
10
si m es par,
donde z es definida por p = 2f_{s} \frac{1 - z^{-1}}{1 + z^{-1}} con respecto a la relación [A13] precedente,
y con:
11
y
111
donde \alpha = 4f_{s} R/c para x=a
y \alpha = 4f_{s} p/c para x=b
X_{m,q} son las raíces sucesivas del polinomio de Bessel:
12
y son expresados en la tabla 1 a continuación, para diferentes órdenes m, bajo las formas respectivas de su parte real, su módulo (separados por una coma) y su valor real cuando m es impar.
TABLA 1 Valores R_{e}[X_{m,q}],|X_{m,q}| (y R_{e}[X_{m,m}] cuando m es impar) de un polinomio de Bessel calculados con la ayuda del programa de cálculo MATLAB©
100
\newpage
TABLA 1 (continuación)
101
\newpage
TABLA 1 (continuación)
102
Se implementan así los filtros numéricos, a partir de los valores de la tabla 1, previendo cascadas de células de orden 2 (para m par), y una célula suplementaria (para m impar), a partir de las relaciones [A14] dadas anteriormente.
Se realizan así los filtros numéricos bajo una forma de respuesta impulsiva infinita, cómodamente parametrizable como se mostró anteriormente. Es de notar que una implementación bajo la forma de respuesta impulsiva finita puede ser considerada y consiste en calcular el espectro complejo de la función de transferencia a partir de la fórmula analítica, y luego en deducir una respuesta impulsiva finita por la transformada de Fourier inversa. Se aplica seguidamente una operación de convolución para el filtrado.
De esta forma, introduciendo esta pre-compensación del campo próximo a la codificación, se define una representación ambisónica modificada (figura 8), adoptando como representación transmisible señales expresadas en el campo frecuencial, bajo la forma:
13
Como se indicó anteriormente, R es una distancia de referencia a la cual está asociado un efecto de campo próximo compensado y c es la velocidad del sonido (típicamente 340 m/s en el aire). Esta representación ambisónica modificada posee las mismas propiedades de escalabilidad (esquemáticamente representada por datos transmitidos "rodeados" cerca de la flecha TR de la figura 1) y obedece a las mismas transformaciones de rotación del campo (módulo 4 de la figura 1) que la representación ambisónica habitual.
Se indican a continuación las operaciones a ejecutar para la decodificación de las señales ambisónicas recibidas.
Se indica primeramente que la operación de decodificación es adaptable a un dispositivo de restitución cualquiera, de radio R_{2}, diferente de la distancia de referencia R anterior. A este efecto, se aplican filtros de tipo H_{m}^{NFC(p/c,R/c)}(\omega), tales como los descritos más arriba, pero con parámetros de distancia R y R_{2}, en lugar de p y R. En particular, es de destacar que solamente el parámetro R/c es para memorizar (y/o transmitir) entre la codificación y la decodificación.
Con referencia a la figura 12, el módulo de filtrado que es allí representado es previsto por ejemplo en una unidad de tratamiento de un dispositivo de restitución. Los componentes ambisónicos recibidos han sido pre-compensados para la codificación a una distancia de referencia R_{1} en tanto que segunda distancia. Sin embargo, el dispositivo de restitución comprende una pluralidad de alto-parlantes dispuestos a una tercera distancia R_{2} de un punto de percepción auditivo P, esta tercera distancia R_{2} siendo diferente de la segunda distancia precitada R_{1}. El módulo de filtrado de la figura 12, bajo la forma H_{m}^{NFC(R1/c,R2/c)}(\omega), adapta entonces, para la recepción de los datos, la pre-compensación a la distancia R_{1} para una restitución a la distancia R_{2}. Claro está, como se indicó anteriormente, el dispositivo de restitución recibe también el parámetro R_{1}/c.
Es de destacar que la invención además de mezclar varias representaciones ambisónicas de campos sonoros (fuentes reales y/o virtuales), cuyas distancias de referencia R son diferentes (llegado el caso con distancias de referencia infinitas y que corresponden a fuentes lejanas). Preferentemente, se filtrará una pre-compensación de todas esas fuentes a una distancia de referencia la más pequeña, antes de mezclar las señales ambisónicas, lo que permite con la restitución obtener una definición correcta del relieve sonoro.
En el marco del tratamiento llamado de "localización sonora" con, en la restitución, un efecto de enriquecimiento sonoro para una dirección seleccionada del espacio (a la manera de un proyector luminoso que aclara en una dirección seleccionada en óptica), que implica un tratamiento matricial de localización sonora (con ponderación de los componentes ambisónicos), se aplica ventajosamente la codificación de distancia con pre-compensación próxima de forma combinada al tratamiento de focalización.
En lo que sigue, se describe un procedimiento de decodificación ambisónico, con compensación del campo próximo de los alto-parlantes, en la restitución.
Para reconstruir un campo acústico codificado siguiendo el formalismo ambisónico, a partir de los componentes B^{\sigma}_{mn} y utilizando los alto-parlantes de un dispositivo de restitución que prevé un emplazamiento "ideal" de un oyente que corresponde al punto de restitución P de la figura 7, la onda emitida para cada alto-parlante es definida por un tratamiento previo de "re-codificación" del campo ambisónico en el centro del dispositivo, como sigue.
En el contexto de "re-codificación", se considera en un primer momento y por simplificación que las fuentes emiten en campo lejano.
Con referencia de nueva a la figura 7, la onda emitida por un alto-parlante de índice i y de incidencia (\theta_{j} y \delta_{j}) es alimentada por una señal Si. Este alto-parlante participa en la reconstrucción del componente B'_{mn}, por su contribución S_{i}.Y^{\sigma}_{mn}(\theta_{i},\delta_{i}).
El vector c_{i} de los coeficientes de codificación asociados a los alto-parlantes de índice i se expresan por la relación:
14
El vector S de las señales que emanan del conjunto de N alto-parlantes es dado por la expresión:
15
La matriz de codificación de esos N alto-parlantes (que corresponden finalmente a una matriz de "re-codificación"), se expresa por la relación:
[B3]C= [C_{1} C_{2} ...C_{N}]
donde cada término c_{i} representa un vector según la relación [B1] anterior.
De esta forma, la reconstrucción del campo ambisónico B' está definida por la relación:
16
La relación [B4] define así una operación de re-codificación, previa a la restitución. Finalmente, la decodificación, como tal, consiste en comparar las señales ambisónicas originales y recibidas por el dispositivo de restitución, bajo la forma:
17
\newpage
a las señales re-codificadas \tilde{B} para definir la relación general:
[B6]B' = B
Se trata, en particular, de determinar los coeficientes de una matriz de decodificación D, que verifica la relación:
[B7]S = D.B
De preferencia, el número de alto-parlantes es superior o igual al número de componentes ambisónicas a codificar y la matriz de decodificación D se expresa, en función de la matriz de re-codificación C, bajo la forma:
[B8]D = C^{T} .(C.C^{T})^{-1}
donde la notación C^{T} corresponde a la transpuesta de la matriz C.
Es de destacar que la definición de una decodificación que verifica criterios diferentes por bandas de frecuencias es posible, lo que permite ofrecer una restitución optimista en función de las condiciones de escucha, específicamente en lo que concierne a la dificultad de posicionamiento en el centro O de la esfera de la figura 3, durante la restitución. A este efecto, se prevé ventajosamente un filtrado simple, con igualación frecuencial de manera gradual, en cada componente ambisónico.
Sin embargo, para obtener una reconstrucción de una onda originalmente codificada, es necesario corregir la hipótesis de campo lejano para los alto-parlantes, es decir expresar el efecto de su campo próximo en la matriz de re-codificación C anterior e invertir ese nuevo sistema para definir el decodificador. A este efecto, suponiendo una concentricidad de los alto-parlantes (dispuestos a una misma distancia R del punto P de la figura 7), todos los alto-parlantes tienen un mismo efecto de campo próximo F_{m}^{(R/c)}(\omega), en cada componente ambisónico del tipo B'^{\sigma}_{mn}. Introduciendo los términos de campo próximos bajo la forma de una matriz diagonal, la relación [B4] anterior deviene:
[B9]B'= Diag([1 F_{1}{}^{R/c}(\omega) F_{1}{}^{R/c}(\omega)...F_{m}{}^{R/c}(\omega) F_{m}{}^{R/c}(\omega)...]).CS
La relación [B7] anterior deviene:
18
De esta forma, la operación de matrizado es precedida por una operación de filtrado que comprende el campo próximo en cada componente B^{\sigma}_{mn}, y que puede ser ejecutada bajo la forma numérica, como se describió anteriormente, con referencia a la relación [A14].
Se considerará que en la práctica, la matriz C de "re-codificación" es propia al dispositivo de restitución. Esos coeficientes pueden ser determinados inicialmente por parametrización y caracterización sonora del dispositivo de restitución que reacciona a una excitación predeterminada. La matriz de decodificación D es, por si misma, propia al dispositivo de restitución. Sus coeficientes pueden ser determinados por la relación [B8]. Retomando la notación precedente donde \tilde{B} es la matriz de los componentes ambisónicos pre-compensados, estos últimos pueden ser transmitidos al dispositivo de restitución bajota forma matricial \tilde{B} con:
19
El dispositivo de restitución decodifica a continuación los datos recibidos bajo la forma matricial \tilde{B} (vector columna de los componentes transmitidos) aplicando la matriz de decodificación D a los componentes ambisónicos pre-compensados, para formar las señales Si destinadas para alimentar los alto-parlantes HP_{i}, con:
20
Con referencia de nuevo a la figura 12, si una operación de decodificación debe ser adaptada a un dispositivo de restitución de radio R_{2} diferente de la distancia de referencia R_{1}, un módulo de adaptación previo a la decodificación propiamente dicho y descrito anteriormente permite filtrar cada componente ambisónico \tilde{B}^{\sigma}_{mn}, para adaptarlo a un dispositivo de restitución de radio R_{2}. La operación de decodificación propiamente dicha es efectuada a continuación, como es descrito anteriormente, con referencia a la relación [B11].
Se describe a continuación una aplicación de la invención a la síntesis binaural.
Se hace referencia a la figura 13A en la cual un oyente que dispone de un casco con dos auriculares de un dispositivo de síntesis binaural es representado. Las dos orejas del oyente están dispuestas en puntos respectivos O_{L} (oreja izquierda) y O_{R} (oreja derecha) del espacio. El cetro de la cabeza del oyente está dispuesta en el punto O y el radio de la cabeza del oyente es de valor a. Una fuente debe ser percibida auditivamente en un punto M del espacio, situado a una distancia r del centro de la cabeza del oyente (y respectivamente a distancias r_{R} de la oreja derecha y r_{L} de la oreja izquierda). Además, la dirección de la fuente colocada en el punto M es definida por los vectores \upbar{r}, \upbar{r}_{R} y
\upbar{r}_{L}.
De forma general, la síntesis binaural se define como sigue.
Cada oyente tiene una forma de oreja que le es propia. La percepción de un sonido en el espacio por este oyente se hace por aprendizaje, desde el nacimiento, en función de la forma de las orejas (específicamente la forma de los pabellones y las dimensiones de la cabeza) propia a ese oyente. La percepción de un sonido en el espacio se manifiesta entre otras por el hecho de que el sonido llega a una oreja, antes que a la otra oreja, lo que se traduce en un retardo \tau entre las señales a emitir por cada auricular del dispositivo de restitución que aplica la síntesis
binaural.
El dispositivo de restitución es parametrado inicialmente, para un mismo oyente, barriendo una fuente sonora alrededor de su cabeza, a una misma distancia R del centro de su cabeza. Se comprende así que esta distancia R puede ser considerada como una distancia entre un "punto de restitución" como se enunció anteriormente y un punto de percepción auditiva (aquí el centro O de la cabeza del oyente).
En lo que sigue, el índice L está asociado a la señal a restituir para el auricular unido a la oreja izquierda y el índice R está asociado a la señal a restituir por el auricular unido a la oreja derecha. Con referencia a la figura 13B, se aplica a la señal inicial S un retardo para cada vía destinada a producir una señal para un auricular distinto. Esos retardos \tau_{L} y \tau_{R} son función de un retardo máximo \tau_{MAX} que corresponde aquí a la relación a/c donde a, como se indicó precedentemente, corresponde al radio de la cabeza del oyente y c a la velocidad del sonido. En particular, esos retardos son definidos en función de la diferencia de distancia del punto O (centro de la cabeza) al punto M (posición de la fuente cuyo sonido es para restituir, en la figura 13A) y de cada oreja en ese punto M. Ventajosamente, se aplican además ganancias respectivas g_{L} y g_{R}, en cada vía, que son función de una relación de las distancias del punto O al punto M y de cada oreja al punto M. Módulos respectivos aplicados a cada vía 2_{L} y 2_{R} codifican las señales de cada vía, en una representación ambisónica, con pre-compensación de campo próximo NFC (por "Near Field Compensation") en el sentido de la presente invención. Se comprenderá así que, para la ejecución del procedimiento en el sentido de la presente invención, se pueden definir las señales salidas de la fuente M, no solamente por su dirección (ángulos acimutales \theta_{L} y \theta_{R} y ángulos de elevación \delta_{L} y \delta_{R}), sino también en función de la distancia que separa cada oreja r_{L} y r_{R} de la fuente M. Las señales así codificadas son transmitidas al dispositivo de restitución que comprende módulos de decodificación ambisónica, para cada vía, 5_{L} y 5_{R}. De esta forma, se aplica una codificación/decodificación ambisónica, con compensación de campo próximo, para cada vía (auricular izquierdo, auricular derecho) en la restitución con síntesis binaural (aquí de tipo "B-FORMAT"), bajo la forma desdoblada. La compensación de campo próximo se efectúa, para cada vía, con como primera distancia p una distancia r_{L} y r_{R} entre cada oreja y la posición M de la fuente sonora a restituir.
Se describe a continuación una aplicación de la compensación en el sentido de la invención, en el contexto de la adquisición sonora en representación ambisónica.
Se hace referencia a la figura 14 en la cual un micrófono 141 comprende una pluralidad de cápsulas transductoras, capaces de captar presiones acústicas y restituir señales eléctricas S_{l},...S_{N.} Las cápsulas CAP_{i} son dispuestas en una esfera de radio predeterminado (aquí, una esfera rígida, tal como una pelota de ping pong por ejemplo). Las cápsulas son espaciadas de un paso regular sobre la esfera. En la práctica, se selecciona el número N de cápsulas en función del orden M deseado para la representación ambisónica.
Se indica a continuación, en el contexto de un micrófono que comprende cápsulas dispuestas en una esfera rígida, cómo compensar el efecto de campo próximo, desde la codificación en el contexto ambisónico. Se mostrará así que la pre-compensación del campo próximo puede aplicarse no solamente para la simulación de fuente virtual, como se indicó anteriormente, sino también en la adquisición y, de forma más general, combinando la pre-compensación de campo próximo a todos los tipos de tratamientos que implican una representación ambisónica.
\newpage
En presencia de una esfera rígida (susceptible de introducir una difracción de las ondas sonoras recibidas), la relación [A1] dada anteriormente deviene:
21
Las derivadas de las funciones de Hankel esféricas h_{m} obedecen a la ley de recurrencia:
[C2](2m + 1)h_{m}{}^{-1}(x) = mh^{-}{}_{m-1}(x) - (m + 1) \ h^{-1}{}_{m+1}(x)
Se deducen los componentes ambisónicos B^{\sigma}_{mn} del campo inicial a partir del campo de presión a la superficie de la esfera, ejecutando operaciones de proyección de igualación dadas por la relación:
[C3]B^{\sigma}{}_{mn} = EQ_{m} < p_{r} \arrowvert Y^{\sigma}{}_{mn} > 4\pi
En esta expresión, EQ_{m} es un filtro igualador que compensa una ponderación W_{m} que está unida a la directividad de las cápsulas y que incluye además la difracción por la esfera rígida.
La expresión de ese filtro EQ_{m} es dada por la relación siguiente:
22
Los coeficientes de ese filtro de igualación no son estables y se obtiene una ganancia infinita en muy bajas frecuencias. Por otra parte, conviene notar que las componentes harmónicas esféricas, por sí mismas, no son de amplitud finita cuando el campo sonoro no está limitado a una propagación de ondas planas, es decir salidas de fuentes lejanas, como se ha visto precedentemente.
Además, si, antes que prever cápsulas encastradas en una esfera sólida, se prevén cápsulas de tipo cardioides, con una directividad en campo lejano dada por la expresión:
[C5]G(\theta) = \alpha + (1-\alpha) \ cos \ \theta
Considerando esas cápsulas montadas en un soporte "transparent acoustiquement", el término de ponderación a compensar deviene:
[C6]W_{m} = j^{m}(\alpha \ jm(kr) - j(1 - \alpha)jm'(kr))
Parece aún que los coeficientes de un filtro de igualación que corresponden a la inversa analítica de esta ponderación dada por la relación [C6] son divergentes para las muy bajas frecuencias.
De forma general, se indica que para todo tipo de directividad de captadores, la ganancia del filtro EQ_{m} para compensar la ponderación W_{m} unida a la directividad de los captadores es infinita para las bajas frecuencias sonoras. Con referencia a la figura 14, se aplica ventajosamente una pre-compensación de campo próximo en la expresión misma del filtro de igualación EQ_{m}, dada por la relación:
23
De esta forma, las señales S_{1} a S_{N} son recuperadas del micrófono 141. Llegado el caso, se aplica una pre-igualación de esas señales por un módulo de tratamiento 142. El módulo 143 permite expresar esas señales en el contexto ambisónico, bajo forma matricial. El módulo 144 aplica el filtro de la relación [C7] a los componentes ambisónicos expresados en función del radio r de la esfera del micrófono 141. La compensación de campo próximo se efectúa para una distancia de referencia R en tanto que segunda distancia. Las señales codificadas y así filtradas por el módulo 144 pueden ser transmitidas, llegado el caso, con el parámetro representativo de la distancia de referencia R/c.
\newpage
Así, se nota en los diferentes modos de realización unidos respectivamente a la creación de una fuente virtual en campo próximo, con la adquisición de señales sonoras salidas de fuentes reales, o incluso con la restitución (para compensar un efecto de campo próximo de los alto-parlantes), que la compensación de campo próximo en el sentido de la presente invención puede aplicarse a todos los tipos de tratamiento que hacen intervenir una representación ambisónica. Esta compensación de campo próximo permite aplicar la representación ambisónica a una multiplicidad de contextos sonoros donde la dirección de una fuente y ventajosamente su distancia deben ser tomados en cuenta. Además, la posibilidad de la representación de fenómenos sonoros de todos tipos (campos próximos o lejanos) en el contexto ambisónico es asegurado por esta pre-compensación, debido al hecho de la limitación a valores reales finitos de los componentes ambisónicos.
Claro está, la presente invención no se limita a la forma de realización descrita anteriormente a título de ejemplo; la misma se extiende a otras variantes.
Así, se comprende que la pre-compensación de campo próximo puede ser integrada, a la codificación, tanto para una fuente próxima como para una fuente lejana. En ese último caso (fuente lejana y recepción de ondas planas), la distancia p expresada anteriormente será considerada como infinita, sin modificar de forma sustancial la expresión de los filtros H_{m} dados anteriormente. Así, el tratamiento que utiliza procesadores de efecto de sala que proporcionan en general señales desacopladas utilizables para modelizar el campo difuso tardío (reverberación tardía) puede ser combinado con una pre-compensación de campo próximo. Se puede considerar que esas señales son de igual energía y corresponden a una parte de campo difuso que corresponde a la componente omnidirectiva W = B^{+1}_{00} (figura 4). Se puede entonces construir los diversos componentes harmónicos esféricos (con un orden M seleccionado) aplicando una corrección de ganancia para cada componente ambisónica y se aplica una compensación de campo próxima de los alto-parlantes (con una distancia de referencia R que separa los lato parlantes del punto de percepción auditiva como es representado en la figura 7).
Claro está, el principio de codificación en el sentido de la presente invención es generalizable a modelos de irradiación además de las fuentes monopolares (reales o virtuales) y/o alto-parlantes. En efecto, cualquier forma de irradiación (específicamente una fuente en el espacio) puede ser expresada por integración de una distribución continua de fuentes elementales puntuales.
Además, en el contexto de la restitución, es posible adaptar la compensación de campo próximo a cualquier contexto de restitución. A este efecto, puede estar previsto calcular funciones de transferencia (re-codificación de componentes harmónicas esféricas de campo próximo para cada alto-parlante, teniendo en cuenta una propagación real en la sala donde el sonido es restituido), así como una inversión de esa re-codificación para definir la codificación.
Se ha descrito anteriormente un procedimiento de decodificación en el cual se aplica un sistema matricial que hace intervenir los componentes ambisónicos. En una variante, puede ser previsto un tratamiento generalizado por transformadas de Fourier rápidas (circular o esférica) para limitar los tiempos de cálculo y los recursos informáticos (en término de memoria) necesarios al tratamiento de decodificación.
Como se indicó anteriormente con referencia a las figuras 9 y 10, se constata que la selección de una distancia de referencia R con relación a la distancia p de la fuente en campo próximo introduce una diferencia de ganancia para diferentes valores de la frecuencia sonora. Se indica que el procedimiento de codificación con pre-compensación puede ser acoplado a una compensación audio-numérica que permite calificar y ajustar la ganancia para cada sub-banda de frecuencia.
Ventajosamente, la presente invención se aplica a todos los tipos de sistemas de especialización sonora, específicamente para aplicaciones de tipo "realidad virtual" (navegación en escenas virtuales en el espacio tridimensional, conversaciones de tipo "chat" sonorizadas en la red Internet), a sonificaciones de interfaces, a programas de edición de audio para registrar, mezclar y restituir la música, pero también a la adquisición, a partir del uso de micrófonos tridimensionales, para la toma de sonido musical o cinematográfico, o también para la transmisión de ambiente sonoro en Internet, por ejemplo para "Webcam" sonorizadas.

Claims (22)

1. Procedimiento de tratamiento de datos sonoros, en el cual:
a)
se codifican señales representativas de al menos un sonido que se propaga en el espacio tridimensional y salido de una fuente situada a una primera distancia (p) de un punto de referencia (O), para obtener una representación del sonido por componentes (B_{mn}^{\sigma}) expresados en una base de harmónicas esféricas, de origen correspondiente a dicho punto de referencia (O),
b)
y se aplica a dichos componentes (B_{mn}^{\sigma}) una compensación de un efecto de campo próximo por un filtrado que es función de una segunda distancia (R) que define sensiblemente, para una restitución del sonido por un dispositivo de restitución, una distancia entre un punto de restitución (HP_{i}) y un punto (P) de percepción auditiva.
2. Procedimiento según la reivindicación 1, en el cual, dicha fuente siendo lejana del punto de referencia (O),
-
se obtienen componentes de órdenes sucesivos m para la representación del sonido en dicha base de harmónicas esféricas, y
-
se aplica un filtro (1/F_{m}) cuyos coeficientes, aplicados cada uno a un componente de orden m, se expresan analíticamente bajo la forma de la inversa de un polinomio de potencia m, cuya variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia (R), para compensar un efecto de campo, próximo al nivel del dispositivo de restitución.
3. Procedimiento según la reivindicación 1, en el cual, dicha fuente siendo una fuente virtual prevista a dicha primera distancia (p),
-
se obtienen componentes de órdenes sucesivos m para la representación del sonido en dicha base de harmónicas esféricas, y
-
se aplica un filtro global (H_{m}) cuyos coeficientes, aplicados cada uno a un componente de orden m, se expresan analíticamente bajo la forma de una fracción, donde:
-
el numerador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha primera distancia (p), para simular un efecto de campo próximo a la fuente virtual, y
-
el denominador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia (R), para compensar el efecto del campo próximo a la fuente virtual en las bajas frecuencias sonoras.
4. Procedimiento según una de las reivindicaciones precedentes, en el cual se transmite al dispositivo de restitución los datos codificados y filtrados en las etapas a) y b) con un parámetro representativo de dicha segunda distancia (R/c).
5. Procedimiento según una de las reivindicaciones 1 a 3, en el cual, el dispositivo de restitución comprende medios de lectura de un soporte de memoria, se memorizan en un soporte de memoria destinado a ser leído por el dispositivo de restitución los datos codificados y filtrados en las etapas a) y b) con un parámetro representativo de dicha segunda distancia (R/c).
6. Procedimiento según una de las reivindicaciones 4 y 5, en el cual, previamente a una restitución sonora por un dispositivo de restitución que comprende una pluralidad de alto-parlantes dispuestos en una tercera distancia (R_{2}) de dicho punto de percepción auditiva (P), se aplica a los datos codificados y filtrados un filtro de adaptación (H_{m}^{(R1/c,R2/c)}) cuyos coeficientes son función de dichos segunda (R_{1}) y tercera distancias (R_{2}).
7. Procedimiento según la reivindicación 6, en el cual los coeficientes de dicho filtro de adaptación (H_{m}^{(R1/c,R2/c)}), aplicados cada uno a una componente de orden m, se expresan analíticamente bajo la forma de una fracción, donde:
-
el numerador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha segunda distancia (R),
-
el denominador es un polinomio de potencia m, donde la variable es inversamente proporcional a la frecuencia sonora y a dicha tercera distancia (R_{2}).
8. Procedimiento según una de las reivindicaciones 2,3 y 7, en el cual, para la ejecución de la etapa b), se prevé:
-
para componentes de orden m par, filtros audio-numéricos bajo la forma de una cascada de células de orden dos; y
-
para componentes de orden m impar, filtros audio-numéricos bajo la forma de una cascada de células de orden dos y una célula suplementaria de orden uno.
9. Procedimiento según la reivindicación 8, en el cual los coeficientes de un filtro audio-numérico, para un componente de orden m, son definidos a partir de valores numéricos de raíces de dichos polinomios de potencia m.
10. Procedimiento según una de las reivindicaciones 2, 3, 7, 8 y 9 en el cual dichos polinomios son polinomios de Bessel.
11. Procedimiento según una de las reivindicaciones 1, 2 y 4 a 10, en el cual se prevé un micrófono que comprende una red de transductores acústicos dispuestos sensiblemente en la superficie de una esfera cuyo centro corresponde sensiblemente a dicho punto de referencia (O), para obtener dichas señales representativas de al menos un sonido que se propaga en el espacio tridimensional.
12. Procedimiento según la reivindicación 11, en el cual se aplica en la etapa b) un filtro global para, por una parte, compensar un efecto de campo próximo en función de dicha segunda distancia (R) y, por otra parte, igualar las señales salidas de los transductores para compensar una ponderación de directividad de dichos transductores.
13. Procedimiento según una de las reivindicaciones 11 y 12, en el cual se prevé un número de transdutores en función de un número total seleccionado de componentes para representar el sonido en dicha base de harmónicas esféricas.
14. Procedimiento según una de las reivindicaciones precedentes, en el cual se selecciona en la etapa a) un número total de componentes en la base de las harmónicas esféricas para obtener, en la restitución, una región del espacio alrededor del punto de percepción (P) en el cual la restitución del sonido es fiel y donde las dimensiones son crecientes con el número total de componentes.
15. Procedimiento según la reivindicación 14, en el cual se prevé un dispositivo de restitución que comprende un número de alto-parlantes al menos igual a dicho número total de componentes.
16. Procedimiento según una de las reivindicaciones 1 a 5 y 8 a 13, en el cual:
-
se prevé un dispositivo de restitución que comprende al menos un premier y un segundo alto-parlante dispuestos a una distancia seleccionada de un oyente,
-
se obtiene, para este oyente, una información de observación de la posición en el espacio de fuentes sonoras situadas a una distancia de referencia predeterminada (R) del oyente, y
-
se aplica la compensación de la etapa b) con dicha distancia de referencia sensiblemente en tanto que segunda distancia.
17. Procedimiento según una de las reivindicaciones 1 a 3 y 8 a 13, tomadas en combinación con una de las reivindicaciones 4 y 5, en el cual:
-
se prevé un dispositivo de restitución que comprende al menos un premier y un segundo alto-parlante dispuestos a una distancia seleccionada de un oyente,
-
se obtiene, para este oyente, una información de observación de la posición en el espacio de fuentes sonoras situadas a una distancia de referencia predeterminada (R_{2}) del oyente, y
-
previamente a una restitución sonora por el dispositivo de restitución, se aplica a los datos codificados y filtrados en las etapas a) y b) un filtro de adaptación (H_{m}^{(R1/c,R2/c)}) cuyos coeficientes son función de la segunda distancia (R) y sensiblemente de la distancia de referencia (R_{2}).
18. Procedimiento según una de las reivindicaciones 16 y 17, en el cual:
-
el dispositivo de restitución comprende un casco con dos auriculares para las orejas respectivas del oyente, y
-
de manera separada para cada auricular, se aplica la codificación y el filtrado de las etapas a) y b) para señales respectivas destinadas a alimentar cada auricular, con, en tanto que primera distancia (p), respectivamente una distancia (r_{R},r_{L}) que separa cada oreja de una posición (M) de una fuente a restituir.
19. Procedimiento según una de las reivindicaciones precedentes, en el cual se conforma, en las etapas a) y b), un sistema matricial que comprende al menos:
-
una matriz (B) que comprende dichos componentes en la base de las harmónicas esféricas, y
-
una matriz diagonal (Diag(1/F_{m})) cuyos coeficientes corresponden a coeficientes de filtrado de la etapa b),
y se multiplican dichas matrices para obtener una matriz resultante de componentes compensados (\tilde{B}).
20. Procedimiento según la reivindicación 19, en el cual:
-
el dispositivo de restitución comprende una pluralidad de alto-parlantes dispuestos sensiblemente a una misma distancia (R) del punto de percepción auditiva (P), y
-
para decodificar dichos datos codificados y filtrados en las etapas a) y b) y formar señales adaptadas para alimentar dichos alto-parlantes:
*
se forma un sistema matricial que comprende dicha matriz resultante (\tilde{B}) y una matriz de decodificación (D) predeterminada, propia del dispositivo de restitución, y
*
se obtiene una matriz (S) que comprende coeficientes representativos de las señales de alimentación de los alto-parlantes por multiplicación de la matriz de los componentes compensados (\tilde{B}) por dicha matriz de decodificación (D).
21. Dispositivo de adquisición sonora, que comprende un micrófono provisto de una red de transductores acústicos dispuestos sensiblemente en la superficie de una esfera, caracterizado porque comprende además una unidad de tratamiento dispuesta para:
-
recibir señales que emanan cada una de un transductor,
-
aplicar a dichas señales una codificación para obtener una representación del sonido por componentes (B_{mn}^{\sigma}) expresados en una base de harmónicas esféricas, de origen correspondiente al centro de dicha esfera (O),
-
y aplicar a dichos componentes (B_{mn}^{\sigma}) un filtrado que es función, por una parte, de una distancia correspondiente al radio de la esfera (r) y, por otra parte, a una distancia de referencia (R).
22. Dispositivo según la reivindicación 21, caracterizado porque dicho filtrado consiste, por una parte, en igualar, en función del radio de la esfera, las señales salidas de los transductores para compensar una ponderación de directividad de dichos transductores y, por otra parte, compensar un efecto de campo próximo en función de dicha distancia de referencia seleccionada (R), que definiendo sensiblemente, para una restitución del sonido, una distancia entre un punto de restitución (HP_{i}) y un punto (P) de percepción auditiva.
ES03782553T 2002-11-19 2003-11-13 Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento. Expired - Lifetime ES2261994T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0214444 2002-11-19
FR0214444A FR2847376B1 (fr) 2002-11-19 2002-11-19 Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede

Publications (1)

Publication Number Publication Date
ES2261994T3 true ES2261994T3 (es) 2006-11-16

Family

ID=32187712

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03782553T Expired - Lifetime ES2261994T3 (es) 2002-11-19 2003-11-13 Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento.

Country Status (13)

Country Link
US (1) US7706543B2 (es)
EP (1) EP1563485B1 (es)
JP (1) JP4343845B2 (es)
KR (1) KR100964353B1 (es)
CN (1) CN1735922B (es)
AT (1) ATE322065T1 (es)
AU (1) AU2003290190A1 (es)
BR (1) BRPI0316718B1 (es)
DE (1) DE60304358T2 (es)
ES (1) ES2261994T3 (es)
FR (1) FR2847376B1 (es)
WO (1) WO2004049299A1 (es)
ZA (1) ZA200503969B (es)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10328335B4 (de) * 2003-06-24 2005-07-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
US20050271216A1 (en) * 2004-06-04 2005-12-08 Khosrow Lashkari Method and apparatus for loudspeaker equalization
KR101304797B1 (ko) * 2005-09-13 2013-09-05 디티에스 엘엘씨 오디오 처리 시스템 및 방법
EP1994526B1 (fr) * 2006-03-13 2009-10-28 France Telecom Synthese et spatialisation sonores conjointes
FR2899424A1 (fr) * 2006-03-28 2007-10-05 France Telecom Procede de synthese binaurale prenant en compte un effet de salle
US8180067B2 (en) * 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
US7876903B2 (en) * 2006-07-07 2011-01-25 Harris Corporation Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
EP2070390B1 (en) * 2006-09-25 2011-01-12 Dolby Laboratories Licensing Corporation Improved spatial resolution of the sound field for multi-channel audio playback systems by deriving signals with high order angular terms
DE102006053919A1 (de) * 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
JP2008118559A (ja) * 2006-11-07 2008-05-22 Advanced Telecommunication Research Institute International 3次元音場再生装置
JP4873316B2 (ja) * 2007-03-09 2012-02-08 株式会社国際電気通信基礎技術研究所 音響空間共有装置
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN101960865A (zh) * 2008-03-03 2011-01-26 诺基亚公司 用于捕获和呈现多个音频声道的装置
ES2425814T3 (es) * 2008-08-13 2013-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para determinar una señal de audio espacial convertida
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
GB0815362D0 (en) 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
US8819554B2 (en) * 2008-12-23 2014-08-26 At&T Intellectual Property I, L.P. System and method for playing media
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2478834B (en) 2009-02-04 2012-03-07 Richard Furse Sound system
JP5340296B2 (ja) * 2009-03-26 2013-11-13 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法
WO2011044064A1 (en) * 2009-10-05 2011-04-14 Harman International Industries, Incorporated System for spatial extraction of audio signals
WO2011117399A1 (en) * 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
JP5672741B2 (ja) * 2010-03-31 2015-02-18 ソニー株式会社 信号処理装置および方法、並びにプログラム
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9055371B2 (en) * 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
WO2013068402A1 (en) * 2011-11-10 2013-05-16 Sonicemotion Ag Method for practical implementations of sound field reproduction based on surface integrals in three dimensions
KR101282673B1 (ko) 2011-12-09 2013-07-05 현대자동차주식회사 음원 위치 추정 방법
US8996296B2 (en) * 2011-12-15 2015-03-31 Qualcomm Incorporated Navigational soundscaping
CN106847737B (zh) 2012-02-29 2020-11-13 应用材料公司 配置中的除污及剥除处理腔室
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
EP2834995B1 (en) 2012-04-05 2019-08-28 Nokia Technologies Oy Flexible spatial audio capture apparatus
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
RU2602346C2 (ru) * 2012-08-31 2016-11-20 Долби Лэборетериз Лайсенсинг Корпорейшн Рендеринг отраженного звука для объектно-ориентированной аудиоинформации
US9301069B2 (en) * 2012-12-27 2016-03-29 Avaya Inc. Immersive 3D sound space for searching audio
US9838824B2 (en) 2012-12-27 2017-12-05 Avaya Inc. Social media processing with three-dimensional audio
US10203839B2 (en) * 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9892743B2 (en) 2012-12-27 2018-02-13 Avaya Inc. Security surveillance via three-dimensional audio space presentation
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
DE102013013378A1 (de) * 2013-08-10 2015-02-12 Advanced Acoustic Sf Gmbh Aufteilung virtueller Schallquellen
WO2015054033A2 (en) 2013-10-07 2015-04-16 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
EP2930958A1 (en) * 2014-04-07 2015-10-14 Harman Becker Automotive Systems GmbH Sound wave field generation
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
JP6388551B2 (ja) * 2015-02-27 2018-09-12 アルパイン株式会社 複数領域音場再現システムおよび方法
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
US10582329B2 (en) 2016-01-08 2020-03-03 Sony Corporation Audio processing device and method
EP3402221B1 (en) * 2016-01-08 2020-04-08 Sony Corporation Audio processing device and method, and program
US10595148B2 (en) 2016-01-08 2020-03-17 Sony Corporation Sound processing apparatus and method, and program
EP4376444A3 (en) 2016-08-01 2024-08-21 Magic Leap, Inc. Mixed reality system with spatialized audio
WO2018064528A1 (en) * 2016-09-29 2018-04-05 The Trustees Of Princeton University Ambisonic navigation of sound fields from an array of microphones
CN109804645A (zh) * 2016-10-31 2019-05-24 谷歌有限责任公司 基于投影的音频代码化
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation
US10764684B1 (en) 2017-09-29 2020-09-01 Katherine A. Franco Binaural audio using an arbitrarily shaped microphone array
US10721559B2 (en) 2018-02-09 2020-07-21 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio sound field capture
CA3092756A1 (en) * 2018-03-02 2019-09-06 Wilfred Edwin Booij Acoustic positioning transmitter and receiver system and method
WO2019217808A1 (en) * 2018-05-11 2019-11-14 Dts, Inc. Determining sound locations in multi-channel audio
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
EP4085660A4 (en) 2019-12-30 2024-05-22 Comhear Inc. METHOD FOR PROVIDING A SPATIAL SOUND FIELD
CN111537058B (zh) * 2020-04-16 2022-04-29 哈尔滨工程大学 一种基于Helmholtz方程最小二乘法的声场分离方法
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN113791385A (zh) * 2021-09-15 2021-12-14 张维翔 一种三维定位方法及系统
US20240236609A1 (en) * 2023-01-05 2024-07-11 Audio Impressions, Inc. Method of using iir filters for the purpose of allowing one audio sound to adopt the same spectral characteristic of another audio sound

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114201U (es) * 1977-02-18 1978-09-11
US4731848A (en) * 1984-10-22 1988-03-15 Northwestern University Spatial reverberator
JP2569872B2 (ja) * 1990-03-02 1997-01-08 ヤマハ株式会社 音場制御装置
JP3578783B2 (ja) * 1993-09-24 2004-10-20 ヤマハ株式会社 電子楽器の音像定位装置
US5745584A (en) * 1993-12-14 1998-04-28 Taylor Group Of Companies, Inc. Sound bubble structures for sound reproducing arrays
GB9726338D0 (en) * 1997-12-13 1998-02-11 Central Research Lab Ltd A method of processing an audio signal
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US7340062B2 (en) * 2000-03-14 2008-03-04 Revit Lawrence J Sound reproduction method and apparatus for assessing real-world performance of hearing and hearing aids
EP1275272B1 (en) * 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions

Also Published As

Publication number Publication date
KR20050083928A (ko) 2005-08-26
FR2847376B1 (fr) 2005-02-04
JP4343845B2 (ja) 2009-10-14
KR100964353B1 (ko) 2010-06-17
AU2003290190A1 (en) 2004-06-18
EP1563485A1 (fr) 2005-08-17
FR2847376A1 (fr) 2004-05-21
ATE322065T1 (de) 2006-04-15
JP2006506918A (ja) 2006-02-23
US7706543B2 (en) 2010-04-27
US20060045275A1 (en) 2006-03-02
BRPI0316718B1 (pt) 2021-11-23
BR0316718A (pt) 2005-10-18
WO2004049299A1 (fr) 2004-06-10
DE60304358D1 (de) 2006-05-18
DE60304358T2 (de) 2006-12-07
CN1735922B (zh) 2010-05-12
ZA200503969B (en) 2006-09-27
EP1563485B1 (fr) 2006-03-29
CN1735922A (zh) 2006-02-15

Similar Documents

Publication Publication Date Title
ES2261994T3 (es) Metodo de tratamiento de datos sonoros y dispositivos de adquisicion sonoro que ejecuta este procedimiento.
US11184727B2 (en) Audio signal processing method and device
US20240267699A1 (en) Applications and format for immersive spatial sound
ES2330274T3 (es) Procedimiento y dispositivo de especializacion sonora binaural eficaz en el dominio transformado.
Davis et al. High order spatial audio capture and its binaural head-tracked playback over headphones with HRTF cues
US9197977B2 (en) Audio spatialization and environment simulation
ES2690164T3 (es) Dispositivo y método para convertir una señal de audio espacial
ES2936834T3 (es) Aparato de procesamiento de señales de audio y método para la reproducción biaural
ES2916342T3 (es) Síntesis de señales para la reproducción de audio inmersiva
US11516616B2 (en) System for and method of generating an audio image
US20090067636A1 (en) Optimization of Binaural Sound Spatialization Based on Multichannel Encoding
CN105323684A (zh) 声场合成近似方法、单极贡献确定装置及声音渲染系统
US20200374646A1 (en) Three-dimensional audio playing method and playing apparatus
Otani et al. Binaural Ambisonics: Its optimization and applications for auralization
WO2019023853A1 (zh) 一种音频处理方法以及音频处理设备
Cuevas-Rodriguez et al. An open-source audio renderer for 3D audio with hearing loss and hearing aid simulations
Hollebon et al. Experimental study of various methods for low frequency spatial audio reproduction over loudspeakers
Erdem et al. Perceptual soundfield reconstruction in three dimensions via sound field extrapolation
Yuan et al. Externalization improvement in a real-time binaural sound image rendering system
De Sena Analysis, design and implementation of multichannel audio systems
US11665498B2 (en) Object-based audio spatializer
Paulo et al. Perceptual Comparative Tests Between the Multichannel 3D Capturing Systems Artificial Ears and the Ambisonic Concept
Geronazzo Sound Spatialization.
Cuevas Rodriguez 3D Binaural Spatialisation for Virtual Reality and Psychoacoustics
JP2023066419A (ja) オブジェクトベースのオーディオ空間化器