ES2285834T3

ES2285834T3 - Metodo y sistema dpara procesar sonido dirigido en un entorno virtual acustico.

Info

Publication number: ES2285834T3
Application number: ES99910399T
Authority: ES
Inventors: Jyri Huopaniemi; Riitta Vaananen
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-03-23
Filing date: 1999-03-23
Publication date: 2007-11-16
Anticipated expiration: 2019-03-23
Also published as: JP2002508609A; AU2936999A; DE69935974T2; EP1064647A1; FI980649A0; FI980649A; CN1132145C; JP4573433B2; WO1999049453A1; KR100662673B1; KR20010034650A; EP1064647B1; ATE361522T1; DE69935974D1; CN1302426A; US7369668B1; JP2009055621A; FI116505B

Abstract

Método para procesar un entorno virtual acústico en un dispositivo electrónico, por el cual el entorno virtual acústico comprende por lo menos una fuente de sonido virtual (300), en el que se definen para la fuente de sonido (300) una cierta dirección de referencia (301) y un conjunto de direcciones (302, 303, 304, 305) que difieren con respecto a dicha cierta dirección de referencia (301), en el que para modelar cómo se dirige el sonido desde la por lo menos una fuente de sonido (300), se incorpora a la fuente de sonido una disposición de filtrado (306, 307, 308, 309) dependiente de la dirección con lo cual a cada dirección que difiere con respecto a la dirección de referencia determinada se le incorpora un filtro (306, 307, 308, 309) de manera que el efecto de la disposición de filtrado sobre el sonido depende de parámetros predeterminados referentes a cada filtro, en el que los parámetros referentes a cada filtro son factores de amplificación con vistas a determinar la amplificación relativa del sonido dirigido en direcciones diferentes desde la fuente de sonido.

Description

Método y sistema para procesar sonido dirigido en un entorno virtual acústico.

La presente invención se refiere a un método y a un sistema con los cuales se puede crear para un oyente una impresión audible artificial correspondiente a un cierto espacio. Particularmente la invención se refiere al procesado de sonido dirigido en dicha impresión audible y a la transmisión de la impresión audible resultante en un sistema en el que la información presentada al usuario se transmite, procesa y/o comprime de forma digital.

La expresión entorno virtual acústico significa una impresión audible con cuya ayuda el oyente de un sonido reproducido eléctricamente se puede imaginar que se encuentra en un cierto espacio. Con frecuencia, la intención de los entornos virtuales acústicos complicados es imitar un espacio real, a lo cual se le denomina auralización de dicho espacio. Este concepto se describe, por ejemplo, en el artículo de M. Kleiner, B.-I. Dalenbäck, P. Svensson: "Auralization - An Overview", 1993, J. Audio Eng. Soc., vol. 41, nº 11, págs. 861 a 875. La auralización se puede combinar de una manera natural con la creación de un entorno virtual visual, con lo cual un usuario provisto de pantallas y altavoces o auriculares adecuados puede inspeccionar un espacio real o imaginario deseado, e incluso "desplazarse" en dicho espacio, con lo cual obtiene una impresión visual y acústica diferente dependiendo de qué punto de dicho entorno seleccione como su punto de inspección.

La creación de un entorno virtual acústico se puede dividir en tres factores que son el modelado de la fuente de sonido, el modelado del espacio, y el modelado del oyente. La presente invención se refiere en particular al modelado de una fuente de sonido y a las primeras reflexiones del sonido.

Para modelar y procesar un entorno virtual visual y acústico se usa frecuentemente el lenguaje VRML97
(Lenguaje de Modelado de Realidad Virtual 97), y este lenguaje se trata en la publicación ISO/IEC JTC/SC24 IS 14772-1, 1997, Information Technology - Computer Graphics and Image Processing - The Virtual Reality
Modeling Language (VRML91), abril de 1997; y en las páginas correspondientes de la dirección de Internet
http://www.vrml.org/Specifications/VRML97/. Otro conjunto de normas que se está desarrollando mientras se está redactando esta solicitud de patente hace referencia al Java3D, el cual se va a convertir en el entorno de control y procesado del VRML, y el cual se describe, por ejemplo, en la publicación SUN Inc. 1997: JAVA 3D Especificación API 1.0; y en la dirección de Internet http://www.javasoft.com/-products/java-media/3D/forDevelopers/3Dguide/-. Además, la norma MPEG-4 (Grupo de Expertos en Imágenes en Movimiento 4) que se está desarrollando tiene como objetivo que una presentación multimedia transmitida a través de un enlace digital de comunicaciones pueda contener objetos reales y virtuales, los cuales conjuntamente forman un cierto entorno audiovisual. La norma MPEG-4 se describe en la publicación ISO/IEC JTC/SC29 WG11 CD 14496. 1997: Information technology - Coding of audiovisual objects. Noviembre de 1997; y en las páginas correspondientes de la dirección de Internet http://www.cselt.it/-mpeg/public/mpeg-4_cd.htm.

La figura 1 muestra un modelo de sonido dirigido conocido el cual se usa en el VRML97 y el MPEG-4. La fuente de sonido se encuentra situada en el punto 101 y en torno a la misma se han formado imaginariamente dos elipsoides 102 y 103 una dentro de la otra, con lo cual el foco de una elipsoide es común con la ubicación de la fuente de sonido y con lo cual los ejes principales de las elipsoides son paralelos. Los tamaños de las elipsoides 102 y 104 quedan representados por las distancias maxBack, maxFront, minBack y minFront medidas en la dirección del eje principal. La atenuación del sonido en función de la distancia queda representada por la curva 104. Dentro de la elipsoide interior 102 la intensidad del sonido es constante, y fuera de la elipsoide exterior 103 la intensidad del sonido es cero. Cuando se pasa a lo largo de cualquier línea recta a través del punto 101 alejándose de dicho punto 101 la intensidad del sonido disminuye linealmente 20 dB entre las elipsoides interior y exterior. En otras palabras, la atenuación A observada en un punto 105 ubicado entre las elipsoides se puede calcular a partir de la fórmula

A = - 20\ dB \cdot (d'/d'')

en la que d' es la distancia desde la superficie de la elipsoide interior al punto de observación, medida a lo largo de la línea recta que une los puntos 101 y 105, y d'' es la distancia entre las elipsoides interior y exterior, medida a lo largo de la misma línea recta.

En el Java3D, el sonido dirigido se modela con el concepto ConeSound el cual se ilustra en la figura 2. La figura presenta una sección de una cierta estructura de doble cono a lo largo de un plano que contiene el eje longitudinal común de los conos. La fuente de sonido se encuentra ubicada en el vértice común 203 de los conos 201 y 202. En las zonas tanto del cono anterior 201 como del cono posterior 202 el sonido se atenúa uniformemente. En la zona entre los conos se aplica una interpolación lineal. Para calcular la atenuación detectada en el punto de observación 204, debe conocerse la intensidad del sonido sin atenuación, la amplitud de los conos anterior y posterior, y el ángulo entre el eje longitudinal del cono anterior y la línea recta que une los puntos 203 y 204.

Uno de los métodos conocidos para modelar la acústica de un espacio que comprende superficies es el método de las fuentes imagen, en el cual a la fuente de sonido original se le asigna un conjunto de fuentes imagen imaginarias que son imágenes especulares de la fuente de sonido en relación con las superficies de reflexión a inspeccionar: se sitúa una fuente imagen detrás de cada superficie de reflexión a inspeccionar, con lo cual la distancia medida directamente desde esta fuente imagen al punto de inspección es igual que la distancia desde la fuente de sonido original pasando por la reflexión al punto de inspección. Además, el sonido de la fuente imagen llega al punto de inspección desde la misma dirección que el sonido reflejado real. La impresión audible se obtiene sumando los sonidos generados por las fuentes imagen.

Los métodos de la técnica anterior son muy farragosos en relación con el cálculo. Si se considera que el entorno virtual se transmite al usuario, por ejemplo, en forma de una emisión de difusión general o a través de una red de datos, en ese caso el receptor del usuario debería sumar continuamente el sonido generado incluso por miles de fuentes imagen. Por otra parte, la base del cálculo cambia siempre que el usuario decide cambiar la ubicación del punto de inspección. Además, las soluciones conocidas ignoran completamente el hecho de que además del ángulo de dirección la directividad del sonido depende fuertemente de su longitud de onda, en otras palabras, los sonidos con una altura tonal diferente van dirigidos de forma diferente.

A partir de la publicación PCT WO 99/21164 no publicada previamente, la cual se incluye en los términos del artículo 54(3) CPE, se conoce un método y un sistema para procesar un entorno virtual acústico. En dicho documento, las superficies del entorno a modelar se representan mediante filtros que tienen una cierta respuesta frecuencial. Para transmitir el entorno modelado en un formato de transmisión digital, basta con presentar de alguna manera las funciones de transferencia de todas las superficies esenciales pertenecientes al entorno. Este documento también da a conocer una etapa de filtrado la cual tiene en cuenta la directividad de la fuente de sonido al considerar cómo el sonido transmitido por la fuente sonora se dirige desde la fuente sonora hacia direcciones diferentes en el espacio a
modelar.

La publicación de solicitud de patente del Reino Unido número GB-A-2305092 da a conocer un método para la simulación de la calidad acústica producida por una fuente de sonido virtual y para la localización de esta fuente con respecto a uno o más oyentes, y una o más fuentes de sonido originales.

Según la invención se proporciona un método para procesar un entorno virtual acústico en un dispositivo electrónico, por el cual el entorno virtual acústico comprende por lo menos una fuente de sonido virtual, en el que se definen para la fuente de sonido una cierta dirección de referencia y un conjunto de direcciones que difieren con respecto a dicha cierta dirección de referencia, en el que para modelar cómo se dirige el sonido desde la por lo menos una fuente de sonido, se incorpora a la fuente de sonido una disposición de filtrado dependiente de la dirección con lo cual a cada dirección que difiere con respecto a la dirección de referencia determinada se le incorpora un filtro de manera que el efecto de la disposición de filtrado sobre el sonido depende de parámetros predeterminados referentes a cada filtro, en el que los parámetros referentes a cada filtro son factores de amplificación con vistas a determinar la amplificación relativa del sonido dirigido en direcciones diferentes desde la fuente de sonido.

De acuerdo con un segundo aspecto de la invención se proporciona un sistema para procesar el entorno virtual acústico que comprende por lo menos una fuente de sonido virtual, en el que se definen para la fuente de sonido una cierta dirección de referencia y un conjunto de direcciones que difieren con respecto a dicha cierta dirección de referencia, en el que el sistema comprende medios para crear una disposición de filtrado dependiente de la dirección incorporada a la fuente de sonido, que comprende filtros parametrizados cuyo efecto sobre la fuente de sonido depende de parámetros predeterminados referentes a cada filtro con lo cual el filtro se incorpora a cada dirección que difiere con respecto a la dirección de referencia determinada con vistas a modelar cómo se dirige el sonido desde la por lo menos una fuente de sonido perteneciente al entorno virtual acústico, en el que los parámetros referentes a cada filtro son factores de amplificación con vistas a determinar la amplificación relativa del sonido dirigido en direcciones diferentes desde la fuente de sonido.

El objetivo de ciertas formas de realización de la presente invención es presentar un método y un sistema con los cuales se puede transmitir un entorno virtual acústico hacia el usuario con una carga de cálculo razonable. Otro de los objetivos de la presente invención es presentar un método y un sistema los cuales pueden tener en cuenta cómo afectan a la dirección del sonido la altura tonal y la dirección de llegada del sonido.

Los objetivos de ciertas formas de realización de la invención se alcanzan modelando la fuente de sonido o su primera reflexión por medio de una función del sistema parametrizada en la que es posible fijar una dirección deseada del sonido con la ayuda de diferentes parámetros y tener en cuenta el modo en el que la dirección depende de la frecuencia y del ángulo de dirección.

El método según ciertas formas de realización de la invención está caracterizado porque para modelar cómo se dirige el sonido, a la fuente de sonido de un entorno virtual acústico se le incorpora una disposición de filtrado dependiente de la dirección de manera que el efecto de la disposición de filtrado sobre el sonido depende de parámetros predeterminados.

Las formas de realización de la invención hacen referencia asimismo a un sistema que está caracterizado porque comprende unos medios para generar un banco de filtros que comprende filtros parametrizados para modelar la dirección desde las fuentes de sonido pertenecientes al entorno virtual acústico.

Según ciertas formas de realización de la invención, el modelo de la fuente de sonido o la reflexión calculada a partir del mismo comprende filtros digitales dependientes de la dirección. Para el sonido se selecciona una cierta dirección de referencia, denominada azimut cero. Esta dirección se puede dirigir en cualquier dirección en el entorno virtual acústico. Además de ella, se selecciona una serie de otras direcciones, en las cuales se desea modelar cómo se dirige el sonido. Además, estas direcciones se pueden seleccionar arbitrariamente. Cada una de las otras direcciones seleccionadas se modela por medio de un filtro digital propio que tiene una función de transferencia la cual se puede seleccionar de manera que sea bien dependiente de la frecuencia o bien independiente de la frecuencia. En el caso de que el punto de inspección se sitúe en algún otro lugar que no sea exactamente en una dirección representada por un filtro, es posible formar diferentes interpolaciones entre las funciones de transferencia de los
filtros.

Cuando se desea modelar el sonido y cómo se dirige el mismo en un sistema en el que la información se debe transmitir en un formato digital, es necesario transmitir únicamente los datos sobre cada función de transferencia. El dispositivo de recepción, que conoce el punto de inspección deseado, determina que el sonido va dirigido desde la ubicación de la fuente de sonido hacia el punto de inspección con la ayuda de las funciones de transferencia que ha reconstruido. Si la ubicación del punto de inspección cambia en relación con el azimut cero, el dispositivo de recepción comprueba cómo se dirige el sonido hacia el punto de inspección nuevo. Puede disponerse de varias fuentes de sonido, con lo cual el dispositivo de recepción calcula cómo se dirige el sonido desde cada fuente de sonido hacia el punto de inspección y de forma correspondiente modifica el sonido que reproduce. A continuación, el oyente obtiene una impresión de un lugar de escucha posicionado correctamente, por ejemplo, en relación con una orquesta virtual en la que los instrumentos están ubicados en diferentes lugares y en la que los mismos están dirigidos de diferentes
maneras.

En una alternativa más avanzada, la banda de frecuencias inspeccionada se divide en subbandas, y para cada subbanda se presentan sus propios factores de amplificación en las direcciones seleccionadas. En otra de las versiones avanzadas, cada dirección inspeccionada se modela por medio de una función de transferencia general, para la cual se indican ciertos coeficientes que permiten la reconstrucción de las mismas funciones de transferencia.

A continuación se describe más detalladamente la invención haciendo referencia a formas de realización preferidas presentadas como ejemplos y las figuras adjuntas, en las cuales

la Figura 1 muestra un modelo conocido de sonido dirigido;

la Figura 2 muestra otro modelo conocido de sonido dirigido;

la Figura 3 muestra esquemáticamente un modelo de sonido dirigido según la invención;

la Figura 4 muestra una representación gráfica de cómo se dirige el sonido, generado por un modelo según la invención;

la Figura 5 muestra cómo se aplica la invención a un entorno virtual acústico;

la Figura 6 muestra un sistema según la invención;

la Figura 7a muestra más detalladamente una parte de un sistema según la invención; y

la Figura 7b muestra un detalle de la figura 7a.

Anteriormente se ha hecho referencia a las figuras 1 y 2 en relación con la descripción de la técnica anterior, de manera que en la siguiente descripción de la invención y sus formas de realización preferidas se hace referencia principalmente a las figuras 3 a 7b.

La figura 3 muestra la ubicación de una fuente de sonido en el punto 300 y la dirección 301 del azimut cero. En la figura se considera que se desea representar la fuente de sonido ubicada en el punto 300 con cuatro filtros, de entre los cuales el primero representa el sonido que se propaga desde la fuente de sonido en la dirección 302, el segundo representa el sonido que se propaga desde la fuente de sonido en la dirección 303, el tercero representa el sonido que se propaga desde la fuente de sonido en la dirección 304, y el cuarto representa el sonido que se propaga desde la fuente de sonido en la dirección 305. Se supone además, en la figura, que el sonido se propaga simétricamente en relación con la dirección 301 del azimut cero, de manera que de hecho cada una de las direcciones 302 a 305 representa cualquier dirección correspondiente sobre una superficie cónica que se obtiene rotando el radio que representa la dirección inspeccionada con respecto a la dirección 301 del azimut cero. La invención no se limita a estas consideraciones, aunque algunas características de la invención se entienden más fácilmente considerando en primer lugar una forma de realización simplificada de la invención. En la figura, las direcciones 302 a 305 se muestran como líneas equidistantes en el mismo plano, aunque las direcciones también se pueden seleccionar arbitrariamente.

Cada filtro mostrado en la figura 3 y que representa el sonido que se propaga en una dirección diferente con respecto a la dirección del azimut cero se muestra simbólicamente por medio de un bloque 306, 307, 308 y 309. Cada filtro está caracterizado por una cierta función de transferencia H_{i}, en la que i \in {1, 2, 3, 4}. Las funciones de transferencia de los filtros están normalizadas de manera que un sonido que se propaga en relación con el azimut cero es el mismo que el sonido como tal generado por la fuente de sonido. Como típicamente un sonido es una función del tiempo, el sonido generado por la fuente de sonido se presenta como X(t). Cada filtro 306 a 309 genera una respuesta Y_{i}(t), en la que i \in {1, 2, 3, 4}, según la ecuación

(1)Y_{i}(t) = H_{i} * X(t)

en la que * representa la convolución con respecto al tiempo. La respuesta Y_{i}(t) es el sonido dirigido en la dirección en cuestión.

En su forma más sencilla, la función de transferencia significa que el impulso X(t) se multiplica por un número real. Debido a que la selección del azimut cero como aquella dirección en la que se dirige el sonido con mayor intensidad es una opción natural, en ese caso las funciones de transferencia más sencillas de los filtros 306 a 309 son números reales entre cero y uno, incluidos estos límites.

Una simple multiplicación por números reales no tiene en cuenta la importancia de la altura tonal para la directividad del sonido. Una función de transferencia más versátil es aquella en la que el impulso se divide en bandas de frecuencia predeterminadas, y cada banda de frecuencias se multiplica por su propio factor de amplificación, el cual es un número real. Las bandas de frecuencias se pueden definir mediante un número que representa la frecuencia más alta de la banda de frecuencias. Alternativamente, a continuación se pueden presentar ciertos coeficientes de números reales para algunas frecuencias ilustrativas, con lo cual se aplica una interpolación adecuada entre estas frecuencias (por ejemplo, si se proporciona una frecuencia de 400 Hz y un factor 0,6; y una frecuencia de 1.000 Hz y el factor es 0,2, en ese caso con una interpolación directa se obtiene el factor 0,4 para la frecuencia 700 Hz).

En general, se puede decir que cada filtro 306 a 309 es un cierto filtro IIR o FIR (Respuesta Impulsional Infinita; Respuesta Impulsional Finita) que tiene una función de transferencia H la cual se puede expresar con la ayuda de una transformada Z H(z). Cuando se calcula la transformada Z X(z) del impulso X(t) y la transformada Z Y(z) del impulso Y(t), en ese caso se obtiene la definición

(2)H(z) = \frac{Y(z)}{X(x)} = \frac{\sum\limits^{M}_{k=0}b_{k}z^{-k}}{1 + \sum\limits^{N}_{k=1} a_{k}z^{-k}}

con lo cual basta con expresar los coeficientes [b_{0} b_{1} a_{1} b_{2} a_{2}...] usados en el modelado de la transformada Z para expresar una función de transferencia arbitraria. Los límites superiores N y M usados en los sumatorios representan aquella precisión con la cual se desea definir la función de transferencia. En la práctica, los mismos quedan determinados por cuánta capacidad hay disponible para almacenar y/o transmitir en un sistema de transmisión los coeficientes usados para modelar cada función de transferencia individual.

La figura 4 muestra cómo se dirige el sonido generado por una bocina, expresado mediante el azimut cero y según la invención también con otras funciones de transferencia dependientes de la frecuencia e interpolaciones entre ellas. La manera según la cual se dirige el sonido se modela en un sistema de coordenadas tridimensional en el que el eje vertical representa el volumen de sonido en decibelios, el primer eje horizontal representa el ángulo de dirección en grados con respecto al azimut cero, y el segundo eje horizontal representa la frecuencia del sonido en kilohertzios. Gracias a las interpolaciones, el sonido se representa por medio de una superficie 400. En el borde izquierdo superior de la figura, la superficie 400 está limitada por una línea horizontal 401, la cual expresa que el volumen es independiente con respecto a la frecuencia en la dirección del azimut cero. En el borde derecho superior, la superficie 400 está limitada por una línea casi horizontal 402, la cual indica que el volumen no depende del ángulo de dirección a frecuencias muy bajas (a frecuencias que se aproximan a 0 Hz). Las respuestas en frecuencia de los filtros que representan diferentes ángulos de dirección son curvas que comienzan a partir de la línea 402 y se extienden hacia abajo en pendiente hacia la izquierda en la figura. Los ángulos de dirección son equidistantes y su magnitudes son 22,5º, 45º, 67,5º, 90º, 112,5º, 135º, 157,5º y 180º. Por ejemplo, la curva 403 representa el volumen en función de la frecuencia en relación con el sonido que se propaga con el ángulo 157,5º medido con respecto al azimut cero, y esta curva muestra que en esta dirección las frecuencias más altas se atenúan más que las frecuencias bajas.

La invención resulta adecuada para la reproducción en equipos locales en los que el entorno virtual acústico se crea en la memoria del ordenador y se procesa en la misma conexión, o se lee de un soporte de almacenamiento, tal como un disco DVD (Disco Versátil Digital) y se reproduce para el usuario a través de medios de presentación audiovisual (pantallas, altavoces). La invención se puede aplicar además en un sistema en el que el entorno virtual acústico se genera en el equipo de un proveedor denominado de servicios y se transmite hacia el usuario a través de un sistema de transmisión. A un dispositivo, el cual reproduce para un usuario el sonido dirigido procesado según una manera de acuerdo con la invención, y el cual típicamente permite que el usuario seleccione en qué punto del entorno virtual acústico desea escuchar el sonido reproducido, se le denomina en general dispositivo de recepción. Esta expresión no pretende ser limitativa en relación con la invención.

\newpage

Cuando el usuario ha proporcionado al dispositivo de recepción información sobre en qué punto del entorno virtual acústico desea escuchar el sonido reproducido, el dispositivo de recepción determina de qué manera se dirige el sonido desde la fuente de sonido hacia dicho punto. En la figura 4, esto significa, en una inspección gráfica, que cuando el dispositivo de recepción ha determinado el ángulo entre el azimut cero de la fuente de sonido y la dirección del punto de inspección, a continuación corta la superficie 400 con un plano vertical que es paralelo al eje de frecuencias y corta el eje del ángulo de dirección por ese valor, el cual indica el ángulo entre el azimut cero y el punto de inspección. La sección entre la superficie 400 y dicho plano vertical es una curva que representa el volumen relativo del sonido detectado en la dirección del punto de inspección en función de la frecuencia. El dispositivo de recepción forma un filtro el cual ejecuta una respuesta en frecuencia según dicha curva, y dirige el sonido generado por la fuente de sonido a través del filtro que ha formado, antes de que el mismo se reproduzca para el usuario. Si el usuario decide cambiar la ubicación del punto de inspección, el dispositivo de recepción determina una curva nueva y crea un filtro nuevo según la manera descrita anteriormente.

La figura 5 muestra un entorno virtual acústico 500 que tiene tres fuentes de sonido virtuales 501, 502 y 503 las cuales se dirigen de forma diferente. El punto 504 representa el punto de inspección seleccionado por el usuario. Para explicar la situación mostrada en la figura 5, se crea, según la invención, para cada fuente de sonido 501, 502 y 503 un modelo propio que representa cómo se dirige el sonido, con lo cual el modelo en cada uno de los casos puede resultar de forma aproximada según las figuras 3 y 4, aunque teniendo en cuenta que el azimut cero tiene una dirección diferente para cada fuente de sonido virtual en el modelo. En este caso, el dispositivo de recepción debe crear tres filtros in dependientes para tener en cuenta cómo se dirige el sonido. Para crear el primer filtro, se determinan aquellas funciones de transferencia que modelan cómo se dirige el sonido transmitido por la primera fuente de sonido, y con la ayuda de las mismas y una interpolación se crea una superficie según la figura 4. Además se determina el ángulo entre la dirección del punto de inspección y el azimut cero 505 de la fuente de sonido 501, y con la ayuda de este ángulo se puede leer la respuesta en frecuencia en dicha dirección sobre la superficie antes mencionada. Se repiten las mismas operaciones por separado para cada fuente de sonido. El sonido que se reproduce para el usuario es la suma del sonido de la totalidad de las tres fuentes de sonido, y en esta suma cada sonido se ha filtrado con un filtro que modela cómo dirige dicho sonido.

Según la invención, además de las fuentes de sonido reales, también se pueden modelar reflexiones del sonido, en particular las primeras reflexiones. En la figura 5, por medio de un método de las fuentes imagen conocido de por sí se forma una fuente imagen 506 que representa cómo se refleja desde una pared adyacente el sonido transmitido por la fuente del sonido 503. Esta fuente imagen se puede procesar según la invención exactamente de la misma manera que las fuentes de sonido reales, en otras palabras, se puede determinar para la misma la dirección del azimut cero y la directividad del sonido (dependiente de la frecuencia, cuando sea necesario) en direcciones que difieren con respecto a la dirección del azimut cero. El dispositivo de recepción reproduce el sonido "generado" por la fuente imagen según el mismo principio que usa para el sonido generado por las fuentes de sonido reales.

La figura 6 muestra un sistema que tiene un dispositivo de transmisión 601 y un dispositivo de recepción 602. El dispositivo de transmisión 601 genera un cierto entorno virtual acústico el cual comprende por lo menos una fuente de sonido y las características acústicas de por lo menos un espacio, y transmite el entorno en cierto formato hacia el dispositivo de recepción 602. La transmisión se puede efectuar por ejemplo en forma de una radiodifusión digital de radio o televisión, o a través de una red de datos. La transmisión también puede englobar la generación, por parte del dispositivo de transmisión 601, de una grabación tal como un disco de DVD (Disco Versátil Digital) basándose en el entorno virtual acústico que ha generado, y la adquisición, por parte del usuario del dispositivo de recepción, de esta grabación para su uso. Una de las aplicaciones típicas distribuidas como grabación podría ser un concierto en el que la fuente de sonido es una orquesta que comprende instrumentos virtuales y el espacio es una sala de conciertos imaginaria modelada eléctricamente o real, con lo cual el usuario del dispositivo de recepción con su equipo puede escuchar cómo suena la actuación en diferentes lugares de la sala. Si este entorno virtual es audiovisual, en ese caso también comprende una sección visual realizada mediante gráficos por ordenador. La invención no requiere que el dispositivo de transmisión ni el dispositivo de recepción sean dispositivos diferentes, sino que el usuario puede crear un cierto entorno virtual acústico en un dispositivo y usar el mismo dispositivo para inspeccionar su creación.

En la forma de realización presentada en la figura 6, el usuario del dispositivo de transmisión crea un cierto entorno visual, tal como una sala de conciertos con la ayuda de las herramientas gráficas por ordenador 603, y una animación de vídeo, tal como los músicos y los instrumentos de una orquesta virtual con las herramientas correspondientes 604. Además, a través de un teclado 605, introduce ciertas directividades para las fuentes de sonido del entorno que creó, con la mayor preferencia las funciones de transferencia que representan cómo se dirige el sonido dependiendo de la frecuencia. El modelado de cómo se dirige el sonido también se puede basar en mediciones que se hayan realizado para fuentes de sonido reales; en ese caso, la información de directividad se lee típicamente de una base de datos 606. Los sonidos de los instrumentos virtuales se cargan de la base de datos 606. El dispositivo de transmisión procesa la información introducida por el usuario en flujos continuos de bits en los bloques 607, 608, 609 y 610, y combina los flujos continuos de bits en un flujo continuo de datos en el multiplexor 611. El flujo continuo de datos se suministra en cierto formato al dispositivo de recepción 602 en el que el demultiplexor 612 separa del flujo continuo de datos la sección de imagen que representa el entorno estático en el bloque 613, la sección de imagen dependiente del tiempo o la animación en el bloque 614, el sonido dependiente del tiempo en el bloque 615, y los coeficientes que representan la superficie en el bloque 616. Las secciones de imágenes se combinan en el bloque controlador de pantallas 617 y se suministran a la pantalla 618. Las señales que representan el sonido transmitido por las fuentes de sonido se suministran desde el bloque 615 hacia el banco de filtros 619 que tiene filtros con funciones de transferencia las cuales se reconstruyen con la ayuda de los parámetros a y b obtenidos a partir del bloque 616. El sonido generado por el banco de filtros se suministra a los auriculares 620.

Las figuras 7a y 7b muestran más detalladamente una disposición de filtrado del dispositivo de recepción con la cual es posible realizar el entorno virtual acústico a la manera según la invención. En las figuras también se tienen en cuenta otros factores relacionados con el procesado del sonido, y no solamente el modelado de la directividad del sonido según la invención. Los medios de retardo 721 generan las diferencias de tiempo mutuas de los diferentes componentes del sonido (por ejemplo, las diferencias de tiempo mutuas de sonidos que han sido reflejados por diferentes trayectorias, o de fuentes de sonido virtuales ubicadas a diferentes distancias). Al mismo tiempo, los medios de retardo 721 actúan como un demultiplexor el cual dirige los sonidos correctos hacia los filtros correctos 722, 723 y 734. Los filtros 722, 723 y 724 son filtros parametrizados los cuales se describen más detalladamente en la figura 7b. Las señales suministradas por los mismos se ramifican, por un lado, hacia los filtros 701, 702 y 703, y por otro lado a través de sumadores y un amplificador 704 hacia el sumador 705, los cuales junto con las ramificaciones de eco 706, 707, 708 y 709 y el sumador 710 y los amplificadores 711, 712, 713 y 714 forman un acoplamiento conocido de por sí, con el cual se puede generar un post-eco para una cierta señal. Los filtros 701, 702 y 703 son filtros direccionales conocidos de por sí los cuales tienen en cuenta las diferencias de la percepción auditiva del oyente en las diferentes direcciones, por ejemplo, según el modelo HRTF (Función de Transferencia Relativa a la Cabeza). En su forma más ventajosa, los filtros 701, 702 y 703 contienen también los denominados retardos ITD (Diferencia de Tiempo Interaural) los cuales modelan la diferencia de tiempo mutua de los componentes del sonido que llegan desde direcciones diferentes a los oídos del oyente.

En los filtros 701, 702 y 703, cada componente de la señal se divide en los canales derecho e izquierdo, o en un sistema multicanal en general en N canales. Todas las señales relacionadas con un cierto canal se combinan en el sumador 715 ó 716 y se dirigen hacia el sumador 717 ó 718, en el que a la señal se le suma el post-eco perteneciente a cada señal. Las líneas 719 y 720 conducen hacia los altavoces o hacia los auriculares. En la figura 7a, los puntos entre los filtros 723 y 724 y los filtros 702 y 703 significan que la invención no limita el número de filtros de los que dispone el banco de filtros del dispositivo de recepción. Puede haber incluso cientos o miles de filtros, dependiendo de la complejidad del entorno virtual acústico modelado.

La figura 7b muestra más detalladamente una posibilidad para la realización del filtro parametrizado 722 mostrado en la figura 7a. En la figura 7b, el filtro 722 comprende tres etapas de filtrado sucesivas 730, 731 y 732, de entre las cuales la primera etapa de filtrado 730 representa la atenuación de la propagación en un medio (en general el aire), la segunda etapa 731 representa la absorción que se produce en el material reflectante (se aplica particularmente en el modelado de las reflexiones), y la tercera etapa 732 tiene en cuenta tanto la distancia durante la cual se propaga el sonido en el medio desde la fuente de sonido (posiblemente a través de una superficie de reflexión) hacia el punto de inspección como las características del medio, tales como la humedad, la presión y la temperatura del aire. Para calcular la distancia, la primera etapa 730 obtiene, a partir del dispositivo de transmisión, información sobre la ubicación de la fuente de sonido en el sistema de coordenadas del espacio a modelar, y, a partir del dispositivo de recepción, información sobre las coordenadas del punto que el usuario ha seleccionado como punto de inspección. La primera etapa 730 obtiene los datos que describen las características del medio bien a partir del dispositivo de transmisión o bien a partir del dispositivo de recepción (el usuario del dispositivo de recepción puede estar habilitado para fijar unas características deseadas del medio). Por defecto, la segunda etapa 731 obtiene, a partir del dispositivo de transmisión, un coeficiente que describe la absorción de la superficie de reflexión, aunque también en este caso se le puede conceder al usuario del dispositivo de recepción una posibilidad de cambiar las características del espacio modelado. La tercera etapa 732 tiene en cuenta cómo se dirige el sonido transmitido por la fuente de sonido desde la fuente de sonido en diferentes direcciones en el espacio modelado: de este modo, la tercera etapa 732 materializa la invención presentada en esta solicitud de patente.

Anteriormente se ha descrito en general cómo se pueden procesar las características del entorno virtual acústico y cómo se pueden transmitir las mismas desde un dispositivo a otro dispositivo mediante el uso de parámetros. A continuación se describe cómo se aplica la invención a una cierta modalidad de transmisión de datos. El término multimedia significa una presentación mutuamente sincronizada de objetos audiovisuales para el usuario. Se cree que las presentaciones multimedia interactivas llegarán a usarse a gran escala en el futuro, por ejemplo, como forma de entretenimiento y en teleconferencias. A partir de la técnica anterior, se conoce una serie de normas que definen diferentes formas de transmisión de programas multimedia de forma eléctrica. En la presente solicitud de patente se describen particularmente las denominadas normas MPEG (Grupo de Expertos en Imágenes en Movimiento), de entre las cuales la norma MPEG-4, que está siendo preparada en el momento de la presentación de esta solicitud de patente, tiene como objetivo que la presentación multimedia transmitida pueda contener objetos reales y virtuales, los cuales conjuntamente forman un cierto entorno audiovisual. La invención no se limita en modo alguno a su uso únicamente en relación con la norma MPEG-4, sino que se puede aplicar, por ejemplo, en las ampliaciones de la norma VRML97, o incluso en normas audiovisuales futuras las cuales son desconocidas en el momento actual.

Un flujo continuo de datos según la norma MPEG-4 comprende objetos audiovisuales multiplexados los cuales pueden contener una sección que es continua en el tiempo (tal como un sonido sintetizado) y parámetros (tales como la ubicación de la fuente de sonido en el espacio a modelar). Los objetos se pueden definir de manera que sean jerárquicos, con lo cual los denominados objetos primitivos se encuentran en el nivel más bajo de la jerarquía. Además de los objetos, un programa multimedia según la norma MPEG-4 incluye la denominada descripción de la escena que contiene aquella información referente a las relaciones mutuas de los objetos y a la disposición de la configuración general del programa, codificándose y decodificándose por separado con respecto a los objetos reales dicha información, en su forma más ventajosa. A la descripción de la escena se le denomina también sección BIFS (Formato BInario para Descripción de escenas). La transmisión de un entorno virtual acústico según la invención se realiza de forma ventajosa usando el lenguaje de audio estructurado definido en la norma MPEG-4 (SAOL/SASL: Lenguaje de Audio Estructurado para Orquestas/Lenguaje de Audio Estructurado para Partituras) o en el lenguaje VRML97.

En los lenguajes mencionados anteriormente, en la actualidad se define un nodo Sonido el cual modela la fuente de sonido. Según la invención, es posible definir una extensión de un nodo Sonido conocido, al cual en la presente solicitud de patente se le denomina nodo SonidoDireccional. Además del nodo Sonido conocido, contiene también un campo, al cual en el presente caso se le denomina campo de directividad y el cual suministra la información requerida para reconstruir los filtros que representan la directividad del sonido. Anteriormente se presentaron tres alternativas diferentes para modelar los filtros, y por lo tanto a continuación se describe cómo se manifiestan estas alternativas en el campo de directividad de un nodo SonidoDireccional según la invención.

Según la primera alternativa, cada filtro que modela una dirección diferente con respecto a un cierto azimut cero se corresponde con una simple multiplicación por un factor de amplificación que es un número real normalizado entre 0 y 1. A continuación, el contenido del campo de directividad podría ser, por ejemplo, el siguiente:

((0,79 0,8) (1,57 0,6) (2,36 0,4) (3,14 0,2))

En esta alternativa, el campo de directividad contiene tantos pares de números como direcciones diferentes con respecto al azimut cero en el modelo de la fuente de sonido. El primer número de un par de números indica el ángulo en radianes entre la dirección en cuestión y el azimut cero, y el segundo número indica el factor de amplificación en dicha dirección.

De acuerdo con la segunda alternativa, el sonido en cada dirección que es diferente con respecto a la dirección del azimut cero se divide en bandas de frecuencias, de entre las cuales cada una presenta su propio factor de amplificación. El contenido del campo de directividad podría ser, por ejemplo, el siguiente:

((0,79 125,0 0,8 1000,0 0,6 4000,0 0,4)

(1,57 125,0 0,7 1000,0 0,5 4000,0 0,3)

(2,36 125,0 0,6 1000,0 0,4 4000,0 0,2)

(3,14 125,0 0,5 1000,0 0,3 4000,0 0,1))

En esta alternativa, el campo de directividad contiene tantos conjuntos de números, separados entre sí por paréntesis interiores, como direcciones diferentes con respecto a la dirección del azimut cero en el modelo de la fuente de sonido. En cada uno de los conjuntos de números, el primer número indica el ángulo en radianes entre la dirección en cuestión y el azimut cero. Después del primer número, hay unos pares de números, de entre los cuales el primero indica una cierta frecuencia en hertzios y el segundo es el factor de amplificación. Por ejemplo, el conjunto de números (0,79 125,0 0,8 1000,0 0,6 4000,0 0,4) se puede interpretar de manera que en la dirección 0,79 radianes se usa un factor de amplificación de 0,8 para las frecuencias de 0 a 125 Hz, se usa un factor de amplificación de 0,6 para las frecuencias de 125 a 1.000 Hz, y se usa un factor de amplificación de 0,4 para las frecuencias de 1.000 a 4.000 Hz. Alternativamente, es posible usar una notación en la que el conjunto de números antes mencionado signifique que en la dirección 0,79 radianes el factor de amplificación es 0,8 a la frecuencia 125 Hz, el factor de amplificación es 0,6 a la frecuencia 1.000 Hz, y el factor de amplificación es 0,4 a la frecuencia 4.000 Hz, y los factores de amplificación en otras frecuencias se calculan a partir de los anteriores mediante interpolación y extrapolación. Por lo que a la invención respecta, no es esencial la notación que se use, siempre que la notación usada sea conocida tanto para el dispositivo de transmisión como para el dispositivo de recepción.

Según la tercera alternativa, se aplica una función de transferencia en cada dirección que es diferente con respecto al azimut cero, y para definir la función de transferencia se proporcionan los coeficientes a y b de su transformada Z. El contenido del campo de directividad podría ser, por ejemplo, el siguiente

((45 b_{45,0} b_{45,1} a_{45,1} b_{45,2} a_{45,2} ...)

\quad: (90 b_{90,0} b_{90,1} a_{90,1} b_{90,2} a_{90,2} ...)

\quad: (135 b_{135,0} b_{135,1} a_{135,1} b_{135,2} a_{135,2} ...)

\quad: (180 b_{180,0} b_{180,1} a_{180,1} b_{180,2} a_{180,2} ...))

En esta alternativa, el campo de directividad también contiene tantos conjuntos de números, separados entre sí por paréntesis interiores, como direcciones que son diferentes con respecto a la dirección del azimut cero en el modelo de la fuente de sonido. En cada uno de los conjuntos de números, el primer número indica el ángulo, esta vez en grados, entre la dirección en cuestión y el azimut cero; en este caso, del mismo que en los casos anteriores, es posible usar también otras unidades angulares conocidas cualesquiera. Después del primer número, aparecen los coeficientes a y b que determinan la transformada Z de la función de transferencia usada en la dirección en cuestión. Los puntos después de cada conjunto de números indican que la invención no impone ninguna limitación sobre cuántos coeficientes a y b definen las transformadas Z de la función de transferencia. En conjuntos de números diferentes puede haber un número diferente de coeficientes a y b. En la tercera alternativa los coeficientes a y b también se podrían proporcionar en forma de sus propios vectores, de manera que sería posible un modelado eficaz de filtros FIR o IIR todo-polos de la misma manera que en la publicación de Ellis. S. de 1998: "Towards more realistic sound in VMRL". Proc. VRML '98, Monterey, USA, 16 a 19 de feb., 1998, págs. 95 a 100.

Claims

1. Método para procesar un entorno virtual acústico en un dispositivo electrónico, por el cual el entorno virtual acústico comprende por lo menos una fuente de sonido virtual (300), en el que se definen para la fuente de sonido (300) una cierta dirección de referencia (301) y un conjunto de direcciones (302, 303, 304, 305) que difieren con respecto a dicha cierta dirección de referencia (301), en el que para modelar cómo se dirige el sonido desde la por lo menos una fuente de sonido (300), se incorpora a la fuente de sonido una disposición de filtrado (306, 307, 308, 309) dependiente de la dirección con lo cual a cada dirección que difiere con respecto a la dirección de referencia determinada se le incorpora un filtro (306, 307, 308, 309) de manera que el efecto de la disposición de filtrado sobre el sonido depende de parámetros predeterminados referentes a cada filtro, en el que los parámetros referentes a cada filtro son factores de amplificación con vistas a determinar la amplificación relativa del sonido dirigido en direcciones diferentes desde la fuente de sonido.

2. Método según la reivindicación 1, caracterizado porque dichos factores de amplificación comprenden factores de amplificación independientes para frecuencias diferentes del sonido en por lo menos una dirección determinada que difiere con respecto a la dirección de referencia.

3. Método según la reivindicación 1, caracterizado porque dichos parámetros referentes a cada filtro son los coeficientes [b_{0} b_{1} a_{1} b_{2} a_{2} ...] de la expresión del cociente

H(z) = \frac{Y(z)}{X(x)} = \frac{\sum\limits^{M}_{k=0}b_{k}z^{-k}}{1 + \sum\limits^{N}_{k=1} a_{k}z^{-k}}

de la transformada Z de la función de transferencia de los Filtros.

4. Método según la reivindicación 1, caracterizado porque para modelar cómo se dirige el sonido en otras direcciones que no sean la dirección de referencia, y en las direcciones determinadas que difieren con respecto a la dirección de referencia, el método comprende una interpolación (400) entre filtros incorporados a las direcciones determinadas que difieren con respecto a la dirección de referencia.

5. Método según la reivindicación 1, caracterizado porque el método comprende unas etapas, en las cuales

-: el dispositivo de transmisión genera un cierto entorno virtual acústico (500) que comprende fuentes de sonido (501, 502, 503, 504), con lo cual la manera en la que se dirige el sonido desde estas fuentes de sonido se modela mediante filtros cuyo efecto sobre el sonido depende de parámetros referentes a cada filtro,

-: el dispositivo de transmisión transmite hacia el dispositivo de recepción información sobre dichos parámetros referentes a cada filtro, y

-: para reconstruir el entorno virtual acústico, el dispositivo de recepción crea un banco de filtros que comprende filtros cuyo efecto sobre la señal acústica depende de parámetros referentes a cada filtro, y crea los parámetros referentes a cada filtro basándose en la información transmitida por el dispositivo de transmisión.

6. Método según la reivindicación 5, caracterizado porque el dispositivo de transmisión transmite hacia el dispositivo de recepción información sobre dichos parámetros referentes a cada filtro como parte de un flujo continuo de datos según la norma MPEG-4.

7. Método según la reivindicación 1, caracterizado porque dicha fuente de sonido es una reflexión (504).

8. Sistema para procesar el entorno virtual acústico que comprende por lo menos una fuente de sonido virtual (300), en el que se definen para la fuente de sonido (300) una cierta dirección de referencia (301) y un conjunto de direcciones (302, 303, 304, 305) que difieren con respecto a dicha cierta dirección de referencia (301), en el que el sistema comprende unos medios para crear una disposición de filtrado (619) dependiente de la dirección incorporada a la fuente de sonido (300), que comprende filtros parametrizados (306, 307, 308, 309), cuyo efecto sobre la fuente de sonido depende de parámetros predeterminados referentes a cada filtro (306, 307, 308, 309), con lo cual el filtro (306, 307, 308, 309) se incorpora a cada dirección que difiere con respecto a la dirección de referencia determinada con vistas a modelar cómo se dirige el sonido desde la por lo menos una fuente de sonido perteneciente al entorno virtual acústico, en el que los parámetros referentes a cada filtro son factores de amplificación con vistas a determinar la amplificación relativa del sonido dirigido en direcciones diferentes desde la fuente de
sonido.

\newpage

9. Sistema según la reivindicación 8, caracterizado porque el sistema comprende un dispositivo de transmisión (601) y un dispositivo de recepción (602) y unos medios para realizar una comunicación eléctrica entre el dispositivo de transmisión y el dispositivo de recepción.

10. Sistema según la reivindicación 8, caracterizado porque el sistema comprende unos medios de multiplexado (611) en el dispositivo de transmisión para añadir parámetros que representan los filtros parametrizados a un flujo continuo de datos según la norma MPEG-4, y unos medios de demultiplexado (612) en el dispositivo de recepción para detectar los parámetros que representan los filtros parametrizados a partir del flujo continuo de datos según la norma MPEG-4.

11. Sistema según la reivindicación 8, caracterizado porque comprende unos medios de multiplexado (611) en el dispositivo de transmisión para añadir parámetros que representan los filtros parametrizados a un flujo continuo de datos según la norma VRML97 ampliada, y unos medios de demultiplexado (612) en el dispositivo de recepción para detectar los parámetros que representan los filtros parametrizados a partir del flujo continuo de datos según la norma VRML97 ampliada.