ES2643163T3

ES2643163T3 - Aparato y procedimiento para codificación de audio espacial basada en geometría

Info

Publication number: ES2643163T3
Application number: ES11801648.4T
Authority: ES
Inventors: Giovanni Del Galdo; Oliver Thiergart; Jürgen HERRE; Fabian KÜCH; Emanuel Habets; Alexandra Craciun; Achim Kuntz
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-12-03
Filing date: 2011-12-02
Publication date: 2017-11-21
Anticipated expiration: 2031-12-02
Also published as: BR112013013681B1; KR20130111602A; RU2013130233A; CN103583054B; JP5728094B2; EP2647222B1; TW201237849A; AR084160A1; WO2012072804A1; WO2012072798A1; CA2819502A1; AU2011334857A1; HK1190490A1; JP5878549B2; US10109282B2; AU2011334851B2; AU2011334851A1; EP2647005B1; TWI530201B; MX2013006068A

Abstract

Un aparato (150) para generar al menos dos señales de salida de audio basándose en un flujo de datos de audio que comprende datos de audio relacionados con dos o más fuentes de sonido, en el que el aparato (150) comprende: un receptor (160) para recibir el flujo de datos de audio que comprende los datos de audio, en el que los datos de audio comprenden, para cada una de las dos o más fuentes de sonido, un valor de presión sonora, en el que los datos de audio comprenden además, para cada una de las dos o más fuentes de sonido, un valor de posición que indica una posición de una de las dos o más fuentes de sonido, en el que el valor de posición comprende al menos dos valores de coordenadas, y en el que los datos de audio comprenden además un valor de difusividad del sonido para cada una de las dos o más fuentes de sonido; y un módulo de síntesis (170) para generar las al menos dos señales de salida de audio basándose en el valor de presión sonora de cada una de las dos o más fuentes de sonido, basándose en el valor de posición de cada una de las dos o más fuentes de sonido y basándose en el valor de difusividad del sonido de cada una de las dos o más fuentes de sonido, en el que el flujo de datos de audio es un flujo de codificación de audio espacial basada en geometría, GAC compuesto por M capas, en el que cada una de las M capas comprende el valor de presión sonora Pi(k, n) de una de las dos o más fuentes de sonido que indica una presión compleja en dicha una de las dos o más fuentes de sonido, el valor de posición Qi(k,n) de dicha una de las dos o más fuentes de sonido, y el valor de difusividad del sonido yi(k,n) de dicha una de las dos o más fuentes de sonido dependiendo de la relación de potencia de sonido directo respecto a difuso comprendida en Pi(k,n), en el que k designa un índice de frecuencia y n designa un índice de tiempo de un intervalo de tiempo-frecuencia considerado, en el que i indica una de las M capas así como una de las dos o más fuentes de sonido, en el que el módulo de síntesis (170) comprende una unidad de síntesis de primera fase (501) para generar una señal de presión sonora directa que comprende sonido directo, una señal de presión sonora difusa que comprende sonido difuso e información de dirección de llegada basándose en los valores de presión sonora de los datos de audio del flujo de datos de audio, basándose en los valores de posición de los datos de audio del flujo de datos de audio y basándose en los valores de difusividad del sonido de los datos de audio del flujo de datos de audio, y en el que el módulo de síntesis (170) comprende una unidad de síntesis de segunda fase (502) para generar las al menos dos señales de salida de audio basándose en la señal de presión sonora directa, la señal de presión sonora difusa y la información de dirección de llegada, en el que la unidad de síntesis de primera fase (501) está configurada para generar la señal de presión sonora directa y la señal de presión sonora difusa usando la generación de un sonido directo Pdir,i y un sonido difuso Pdiff,i para cada una de las dos o más fuentes de sonido aplicando un factor **(Ver fórmula)** al valor de presión sonora de dicha una de las dos o más fuentes de sonido para obtener el sonido directo Pdir,i y aplicando un factor **(Ver fórmula)** al valor de presión sonora de dicha una de las dos o más fuentes de sonido para obtener el sonido difuso Pdiff,i, siendo y el valor de difusividad del sonido de dicha una de las dos o más fuentes de sonido, y compensando una degradación de magnitud del sonido directo Pdir,i desde una posición indicada por el valor de posición de dicha una de las dos o más fuentes de sonido hasta una posición de un oyente, para obtener un valor de presión sonora directa compensada Pdir,i, en el que la señal de presión sonora directa comprende el valor de presión sonora directa compensada de esa una de las dos o más fuentes de sonido que tiene un índice ¡max, con **(Ver fórmula)** en el que P dir,i es el valor de presión directa compensada de una i-ésima fuente de sonido de las dos o más fuentes de sonido, y en el que la señal de presión sonora difusa comprende una suma de todos los valores de presión difusa de las dos o más fuentes de sonido y de todos los valores de presión directa compensada de las dos o más fuentes de sonido con excepción del valor de presión directa compensada de la i max-ésima fuente de sonido, y en el que la unidad de síntesis de primera fase (501) comprende una unidad de estimación de la dirección de llegada DOA (607) para determinar una dirección de llegada de la imax-ésima fuente de sonido con respecto a la posición y la orientación del oyente.

Description

DESCRIPCION

Aparato y procedimiento para codificacion de audio espacial basada en geometrla

5 [0001] La presente invencion se refiere al procesamiento de audio y, en particular, a un aparato y

procedimiento para codificacion de audio espacial basada en geometrla.

[0002] El procesamiento de audio y, en particular, la codificacion de audio espacial, se vuelve cada vez mas importante. La grabacion de sonido espacial tradicional pretende capturar un campo sonoro de modo que, en el lado

10 de reproduccion, un oyente perciba la imagen sonora como si estuviera en la ubicacion de grabacion. Se conocen diferentes enfoques para tecnicas de grabacion y reproduccion de sonido espacial del estado de la tecnica, que pueden basarse en representaciones de canal, objeto o parametricas.

[0003] Las representaciones basadas en canal representan la escena sonora por medio de N senales de 15 audio discretas concebidas para ser reproducidas de nuevo por N altavoces dispuestos en una configuracion

conocida, por ejemplo, una configuracion sonora Surround 5.1. El enfoque para grabacion de sonido espacial habitualmente emplea microfonos omnidireccionales independientes, por ejemplo, en estereofonla AB, o microfonos direccionales coincidentes, por ejemplo, en estereofonla de intensidad. Como alternativa, pueden emplearse microfonos mas sofisticados, tales como un microfono en formato B, por ejemplo, en Ambisonics, vease:

20

[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11): 859-871, 1985.

[0004] Las senales de altavoz deseadas para la configuracion conocida se derivan directamente de las 25 senales de microfono grabadas y a continuacion se transmiten o almacenan de forma discreta. Una representacion

mas eficiente se obtiene aplicando codificacion de audio a las senales discretas, que en algunos casos codifica la informacion de diferentes canales conjuntamente para una mayor eficiencia, por ejemplo, en MPEG-Surround para 5.1, vease:

30 [21] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", 122nd AES Convention, Viena, Austria, 2007, Preimpresion 7084.

[0005] Un inconveniente fundamental de estas tecnicas es que la escena sonora, una vez que las senales de 35 altavoz han sido computadas, no se puede modificar.

[0006] Las representaciones basadas en objetos se usan, por ejemplo, en codificacion de objeto de audio espacial (SAOC), vease

40 [25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers y Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. En Audio Engineering Society Convention 124, 5 2008.

45 [0007] Las representaciones basadas en objetos representan la escena sonora con N objetos de audio

discretos. Esta representacion proporciona flexibilidad elevada en el lado de reproduccion, dado que la escena sonora puede ser manipulada cambiando por ejemplo la posicion y la sonoridad de cada objeto. Aunque esta representacion puede ser facilmente disponible a partir de, por ejemplo, una grabacion multipista, es muy diflcil que se obtenga a partir de una escena sonora compleja grabada con unos pocos microfonos (vease, por ejemplo, [21]). 50 De hecho, los hablantes (u otros objetos emisores de sonido) tienen que ser localizados en primer lugar y a continuacion extraldos de la mezcla, lo que podrla causar artefactos.

[0008] Las representaciones parametricas a menudo emplean microfonos espaciales para determinar una o

mas senales de mezcla descendente de audio junto con informacion complementaria espacial que describe el 55 sonido espacial. Un ejemplo en codificacion de audio direccional (DirAC), tal como se describe en

[22] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6): 503-516, junio de 2007.

[0009] La expresion "microfono espacial" se refiere a cualquier aparato para la adquisicion de sonido espacial

capaz de recuperar la direction de llegada del sonido (por ejemplo, combination de microfonos direccionales, agrupaciones de microfonos, etc.).

5 [0010] La expresion "microfono no espacial" se refiere a cualquier aparato que no esta adaptado para

recuperar direccion de llegada del sonido, tal como un unico microfono omnidireccional o director.

[0011] Otro ejemplo se propone en:

10 [23] C. Faller. Microphone front-ends for spatial audio coders. En Proc. of the AES 125th International Convention, San Francisco, Oct. 2008.

[0012] En DirAC, la information de senal de aviso espacial comprende la direccion de llegada (DOA) del sonido y la difusividad del campo sonoro computada en un dominio de tiempo-frecuencia. Para la reproduction de

15 sonido, pueden derivarse las senales de reproduccion de audio basandose en la description parametrica. Estas tecnicas ofrecen gran flexibilidad en el lado de reproduccion, dado que puede emplearse una configuration de altavoces arbitraria, dado que la representation es particularmente flexible y compacta, dado que comprende una senal de audio mono de mezcla descendente e informacion complementaria, y dado que permite modificaciones faciles en la escena sonora, por ejemplo, amplification acustica, filtration direccional, fusion de escenas, etc.

20

[0013] Sin embargo, estas tecnicas son aun limitadas, ya que la imagen espacial grabada es siempre relativa al microfono espacial usado. Por lo tanto, el punto de vista acustico no se puede modificar y la position de escucha dentro de la escena sonora no puede cambiarse.

25 [0014] Un enfoque de microfono virtual se presenta en

[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller y E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. En Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edimburgo, Reino Unido, mayo de 2011.

30

que permite computar las senales de salida de un microfono espacial arbitrario colocado virtualmente a voluntad (es decir, posicion y orientation arbitrarias) en el entorno. La flexibilidad que caracteriza el enfoque de microfono virtual (VM) permite que la escena sonora sea capturada virtualmente a voluntad en una etapa postprocesamiento, pero no se hace disponible ninguna representacion del campo sonoro, que puede usarse para transmitir y/o almacenar y/o 35 modificar la escena sonora de forma eficiente. Ademas, solamente una fuente por intervalo de tiempo-frecuencia se supone activa y, por lo tanto, no puede describir correctamente la escena sonora si dos o mas fuentes estan activas en el mismo intervalo de tiempo-frecuencia. Ademas, si el microfono virtual (VM) se aplica en el lado del receptor, es necesario que todas las senales de microfono sean enviadas por el canal, lo que hace a la representacion ineficiente, mientras que se aplica el VM en el lado del transmisor, la escena sonora no puede manipularse 40 adicionalmente y el modelo pierde flexibilidad y se vuelve limitado a cierta configuracion de altavoz. Ademas, no considera una manipulation de la escena sonora basandose en informacion parametrica.

[0015] En

45 Vilkamo y col, "Directional Audio Coding: Virtual Microphone -Based Synthesis and Subjective Evaluation", J. Audio Eng. Soc., Vol. 57, No. 9, septiembre de 2009, paginas 709-724, presenta una manera mejorada de utilizar microfonos virtuales en la slntesis de audio espacial.

Del Galdo y col, "Optimized Parameter Estimation in Directional Audio Coding Using Nested Microphone Arrays", 50 127th Audio Engineering Society Convention Paper 7911, octubre de 2009, paginas 1-9, XP040509192, propone el uso de agrupaciones de microfonos concentricas de diferentes tamanos y desvela la derivation de estimadores conjuntos optimos para los parametros de DirAC con respecto al error mlnimo cuadratico y la selection de los tamanos de agrupacion optimos para aplicaciones especlficas tales como teleconferencias.

55 [24] Emmanuel Gallo y Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. En AES 30th International Conference on Intelligent Audio Environments, 2007,

la estimation de la posicion de fuente de sonido se basa en diferencia temporal de llegada por pares medida por medio de microfonos distribuidos. Ademas, el receptor depende de la grabacion y requiere todas las senales de

microfonos para la slntesis (por ejemplo, la generacion de las senales de altavoz).

[0016] El procedimiento presentado en

5 [28] Svein Berge. Device and method for converting spatial audio signal. Solicitud de patente de Estados Unidos No. 10/547.151,

usa, de forma similar a DirAC, la direccion de llegada como un parametro, limitando de este modo la representacion a un punto de vista especlfico de la escena sonora. Ademas, no propone la posibilidad de transmitir/almacenar la 10 representacion de la escena sonora, dado que es necesario que el analisis y la slntesis se apliquen ambos en el mismo lado del sistema de comunicacion.

[0017] El objetivo de la presente invencion es proporcionar conceptos mejorados para adquisicion y descripcion de sonido espacial mediante la extraccion de information geometrica. El objetivo de la presente

15 invencion se resuelve mediante un aparato de acuerdo con la reivindicacion 1, mediante un sistema de acuerdo con la reivindicacion 2, mediante un procedimiento de acuerdo con la reivindicacion 3 y mediante un programa informatico de acuerdo con la reivindicacion 4.

[0018] Se proporciona un aparato para generar al menos una senal de salida de audio basandose en un flujo 20 de datos de audio que comprende datos de audio relacionados con una o mas fuentes de sonido. El aparato

comprende un receptor para recibir el flujo de datos de audio que comprende los datos de audio. Los datos de audio comprenden uno o mas valores de presion para cada una de las fuentes de sonido. Ademas, los datos de audio comprenden uno o mas valores de position que indican una position de una de las fuentes de sonido para cada una de las fuentes de sonido. Ademas, el aparato comprende un modulo de slntesis para generar la al menos una senal 25 de salida de audio basandose en al menos uno de los uno o mas valores de presion de los datos de audio del flujo de datos de audio y basandose en al menos uno de los uno o mas valores de posicion de los datos de audio del flujo de datos de audio. En un ejemplo, cada uno de los uno o mas valores de posicion puede comprender al menos dos valores de coordenadas.

30 [0019] Los datos de audio pueden definirse para un intervalo de tiempo-frecuencia de una pluralidad de

intervalos de tiempo-frecuencia. Como alternativa, los datos de audio pueden definirse para un momento de una pluralidad de momentos. En algunos ejemplos, uno o mas valores de presion de los datos de audio pueden definirse para un momento de una pluralidad de momentos, mientras que los parametros correspondientes (por ejemplo, los valores de posicion) pueden definirse en un dominio de tiempo-frecuencia. Esto puede obtenerse facilmente 35 transformando de vuelta al dominio de tiempo los valores de presion de lo contrario definidos en tiempo-frecuencia. Para cada una de las fuentes de sonido, al menos un valor de presion esta comprendido en los datos de audio, en el que el al menos un valor de presion puede ser un valor de presion relacionado con una onda sonora emitida, por ejemplo, que se origina a partir de la fuente de sonido. El valor de presion puede ser un valor de una senal de audio, por ejemplo, un valor de presion de una senal de salida de audio generada por un aparato para generar una senal 40 de salida de audio de un microfono virtual, en el que el microfono virtual se coloca en la posicion de la fuente de sonido.

[0020] El ejemplo descrito anteriormente permite computar una representacion del campo sonoro que es verdaderamente independiente de la posicion de grabacion y posibilita una eficiente transmision y almacenamiento

45 de una escena sonora compleja, as! como modificaciones faciles y una flexibilidad aumentada en el sistema de reproduccion.

[0021] Entre otras, son ventajas importantes de esta tecnica, que en el lado de reproduction el oyente puede seleccionar libremente su posicion dentro de la escena sonora grabada, usar cualquier configuration de altavoz, y

50 adicionalmente manipular la escena sonora basandose en la informacion geometrica, por ejemplo, filtration basada en la posicion. En otras palabras, con la tecnica propuesta, el punto de vista acustico puede modificarse y la posicion de escucha dentro de la escena sonora puede cambiarse.

[0022] De acuerdo con el ejemplo descrito anteriormente, los datos de audio comprendidos en el flujo de 55 datos de audio comprenden uno o mas valores de presion para cada una de las fuentes de sonido. De este modo,

los valores de presion indican una senal de audio relativa a una de las fuentes de sonido, por ejemplo, una senal de audio que se origina a partir de la fuente de sonido, y no relativa a la posicion de los microfonos de grabacion. Analogamente, los uno o mas valores de posicion que estan comprendidos en el flujo de datos de audio indican posiciones de las fuentes de sonido y no de los microfonos.

[0023] Mediante esto, se constatan una pluralidad de ventajas: por ejemplo, se consigue una representation de una escena de audio que puede codificarse usando pocos bits. Si la escena sonora solamente comprende una unica fuente de sonido en un intervalo de tiempo-frecuencia particular, solamente los valores de presion de una

5 unica senal de audio relacionada con la unica fuente de sonido tienen que ser codificados junto con el valor de position que indica la position de la fuente de sonido. En contraste, los procedimientos tradicionales pueden tener que codificar una pluralidad de valores de presion a partir de la pluralidad de senales de microfono grabadas para reconstruir una escena de audio en un receptor. Ademas, el ejemplo descrito anteriormente permite la modification facil de una escena sonora en un trasmisor, as! como en un lado del receptor, tal como se describira a continuation. 10 De este modo, la composition de la escena (por ejemplo, que decide la posicion de escucha dentro de la escena sonora) puede llevarse a cabo en el lado del receptor.

[0024] Realizaciones emplean el concepto de modelizar una escena sonora compleja por medio de fuentes de sonido, por ejemplo, fuentes de sonido de tipo puntual (PLS = fuente de sonido de tipo puntual), por ejemplo,

15 fuentes de sonido de tipo puntual isotropicas (IPLS), que son activas en ranuras especlficas en una representacion de tiempo-frecuencia, tal como la proporcionada por la transformada de Fourier de tiempo corto (STFT).

[0025] De acuerdo con un ejemplo, el receptor puede estar adaptado para recibir el flujo de datos de audio que comprende los datos de audio, en el que los datos de audio comprenden ademas uno o mas valores de

20 difusividad para cada una de las fuentes de sonido. El modulo de slntesis puede estar adaptado para generar la al menos una senal de salida de audio basandose en al menos uno de los uno o mas valores de difusividad.

[0026] En otro ejemplo, el receptor puede comprender ademas un modulo de modificacion para modificar los datos de audio del flujo de datos de audio recibido modificando al menos uno de los uno o mas valores de presion

25 de los datos de audio, modificando al menos uno de los uno o mas valores de posicion de los datos de audio o modificando al menos uno de los valores de difusividad de los datos de audio. El modulo de slntesis puede estar adaptado para generar la al menos una senal de salida de audio basandose en el al menos un valor de presion que ha sido modificado, basandose en el al menos un valor de posicion que ha sido modificado o basandose en el al menos un valor de difusividad que ha sido modificado.

30

[0027] En un ejemplo adicional, cada uno de los valores de posicion de cada una de las fuentes de sonido puede comprender al menos dos valores de coordenadas. Ademas, el modulo de modificacion puede estar adaptado para modificar los valores de coordenadas anadiendo al menos un numero aleatorio a los valores de coordenadas, cuando los valores de coordenadas indican que una fuente de sonido esta ubicada en una posicion dentro de una

35 zona predefinida de un entorno.

[0028] De acuerdo con otro ejemplo, cada uno de los valores de posicion de cada una de las fuentes de sonido puede comprender al menos dos valores de coordenadas. Ademas, el modulo de modificacion esta adaptado para modificar los valores de coordenadas aplicando una funcion determinista a los valores de coordenadas, cuando

40 los valores de coordenadas indican que una fuente de sonido esta ubicada en una posicion dentro de una zona predefinida de un entorno.

[0029] En un ejemplo adicional, cada uno de los valores de posicion de cada una de las fuentes de sonido puede comprender al menos dos valores de coordenadas. Ademas, el modulo de modificacion puede estar adaptado

45 para modificar un valor de presion seleccionado de los uno o mas valores de presion de los datos de audio, relacionado con la misma fuente de sonido que los valores de coordenadas, cuando los valores de coordenadas indican que una fuente de sonido esta ubicada en una posicion dentro de una zona predefinida de un entorno.

[0030] De acuerdo con un ejemplo, el modulo de slntesis puede comprender una unidad de slntesis de 50 primera fase y una unidad de slntesis de segunda fase. La unidad de slntesis de primera fase puede estar adaptada

para generar una senal de presion directa que comprende sonido directo, una senal de presion difusa que comprende sonido difuso e information de direction de llegada basandose en al menos uno de los uno o mas valores de presion de los datos de audio del flujo de datos de audio, basandose en al menos uno de los uno o mas valores de posicion de los datos de audio del flujo de datos de audio y basandose en al menos uno de los uno o mas 55 valores de difusividad de los datos de audio del flujo de datos de audio. La unidad de slntesis de segunda fase puede estar adaptada para generar la al menos una senal de salida de audio basandose en la senal de presion directa, la senal de presion difusa y la informacion de direccion de llegada.

[0031] De acuerdo con un ejemplo, se proporciona un aparato para generar un flujo de datos de audio que

comprende datos de fuente de sonido relacionados con una o mas fuentes de sonido. El aparato para generar un flujo de datos de audio comprende un determinador para determinar los datos de fuente de sonido basandose en al menos una senal de entrada de audio grabada por al menos un microfono y basandose en informacion complementaria de audio proporcionada por al menos dos microfonos espaciales. Ademas, el aparato comprende un 5 generador de flujo de datos para generar el flujo de datos de audio, de modo que el flujo de datos de audio comprenda los datos de fuente de sonido. Los datos de fuente de sonido comprenden uno o mas valores de presion para cada una de las fuentes de sonido. Ademas, los datos de fuente de sonido comprenden ademas uno o mas valores de posicion que indican una posicion de fuente de sonido para cada una de las fuentes de sonido. Ademas, los datos de fuente de sonido estan definidos para un intervalo de tiempo-frecuencia de una pluralidad de intervalos 10 de tiempo-frecuencia.

[0032] En un ejemplo adicional, el determinador puede estar adaptado para determinar los datos de fuente de sonido basandose en informacion de difusividad mediante al menos un microfono espacial. El generador de flujo de datos puede estar adaptado para generar el flujo de datos de audio de modo que el flujo de datos de audio

15 comprende los datos de fuente de sonido. Los datos de fuente de sonido comprenden ademas uno o mas valores de difusividad para cada una de las fuentes de sonido.

[0033] En otro ejemplo, el aparato para generar un flujo de datos de audio puede comprender ademas un modulo de modificacion para modificar el flujo de datos de audio generado por el generador de flujo de datos

20 modificando al menos uno de los valores de presion de los datos de audio, al menos uno de los valores de posicion de los datos de audio o al menos uno de los valores de difusividad de los datos de audio relativos a al menos una de las fuentes de sonido.

[0034] De acuerdo con otro ejemplo, cada uno de los valores de posicion de cada una de las fuentes de 25 sonido puede comprender al menos dos valores de coordenadas (por ejemplo, dos coordenadas de un sistema de

coordenadas cartesianas, o azimut y distancia, en un sistema de coordenadas polares). El modulo de modificacion puede estar adaptado para modificar los valores de coordenadas anadiendo al menos un numero aleatorio a los valores de coordenadas o aplicando una funcion determinista a los valores de coordenadas, cuando los valores de coordenadas indican que una fuente de sonido esta ubicada en una posicion dentro de una zona predefinida de un 30 entorno.

[0035] De acuerdo con un ejemplo adicional, se proporciona un flujo de datos de audio. El flujo de datos de audio puede comprender datos de audio relacionados con una o mas fuentes de sonido, en el que los datos de audio comprenden uno o mas valores de presion para cada una de las fuentes de sonido. Los datos de audio

35 pueden comprender ademas al menos un valor de posicion que indica una posicion de fuente de sonido para cada una de las fuentes de sonido. En una realizacion, cada uno de los al menos unos valores de posicion puede comprender al menos dos valores de coordenadas. Los datos de audio pueden estar definidos para un intervalo de tiempo-frecuencia de una pluralidad de intervalos de tiempo-frecuencia.

40 [0036] En otro ejemplo, los datos de audio comprenden ademas uno o mas valores de difusividad para cada

una de las fuentes de sonido.

[0037] En lo sucesivo se describiran ejemplos de realizacion que ilustran la presente invencion, que:

45 La figura 1 ilustra un aparato para generar al menos una senal de salida de audio basandose en un flujo de datos de audio que comprende datos de audio relacionados con una o mas fuentes de sonido de acuerdo con una realizacion,

La figura 2 ilustra un aparato para generar un flujo de datos de audio que comprende datos de fuente de sonido relacionados con una o mas fuentes de sonido de acuerdo con un ejemplo,

50

Las figuras 3a-3c ilustran flujos de datos de audio de acuerdo con diferentes realizaciones,

La figura 4 ilustra un aparato para generar un flujo de datos de audio que comprende datos de fuente de sonido relacionados con una o mas fuentes de sonido de acuerdo con otro ejemplo,

55

La figura 5 ilustra una escena sonora compuesta por dos fuentes de sonido y dos agrupaciones de microfonos lineales uniformes,

La figura 6a ilustra un aparato 600 para generar al menos una senal de salida de audio basandose en un flujo de

datos de audio de acuerdo con un ejemplo,

La figura 6b ilustra un aparato 660 para generar un flujo de datos de audio que comprende datos de fuente de sonido relacionados con una o mas fuentes de sonido de acuerdo con un ejemplo,

5

La figura 7 representa un modulo de modificacion de acuerdo con un ejemplo,

La figura 8 representa un modulo de modificacion de acuerdo con otro ejemplo,

10 La figura 9 ilustra unidades transmisoras/de analisis y unidades receptoras/de slntesis de acuerdo con un ejemplo,

La figura 10a representa un modulo de slntesis de acuerdo con un ejemplo,

La figura 10b representa una unidad de slntesis de primera fase de acuerdo con una realizacion,

15

La figura 10c representa una unidad de slntesis de segunda fase de acuerdo con un ejemplo,

La figura 11 representa un modulo de slntesis de acuerdo con otro ejemplo,

20 La figura 12 ilustra un aparato para generar una senal de salida de audio de un microfono virtual de acuerdo con un ejemplo,

La figura 13 ilustra las entradas y salidas de un aparato y un procedimiento para generar una senal de salida de audio de un microfono virtual de acuerdo con un ejemplo,

25

La figura 14 ilustra la estructura basica de un aparato para generar una senal de salida de audio de un microfono virtual de acuerdo con un ejemplo que comprende un estimador de la posicion de eventos sonoros y un modulo de computo de informacion,

30 La figura 15 muestra un escenario ejemplar en el que los microfonos espaciales reales se representan como agrupaciones lineales uniformes de 3 microfonos cada una,

La figura 16 representa dos microfonos espaciales en 3D para estimar la direccion de llegada en el espacio en 3D,

35 La figura 17 ilustra una geometrla donde una fuente de sonido de tipo puntual isotropica del actual intervalo de tiempo-frecuencia (k, n) esta ubicada en una posicion piPLs(k,n),

La figura 18 representa el modulo de computo de informacion de acuerdo con un ejemplo,

40 La figura 19 representa el modulo de computo de informacion de acuerdo con otro ejemplo,

La figura 20 muestra dos microfonos espaciales reales, un evento sonoro localizado y una posicion de un microfono espacial virtual,

45 La figura 21 ilustra, como obtener la direccion de llegada relativa a un microfono virtual de acuerdo con un ejemplo,

La figura 22 representa una posible manera de derivar la DOA del sonido desde el punto de vista del microfono virtual de acuerdo con un ejemplo,

50 La figura 23 ilustra un bloque de computo de informacion que comprende una unidad de computo de difusividad de acuerdo con un ejemplo,

La figura 24 representa una unidad de computo de difusividad de acuerdo con un ejemplo,

55 La figura 25 ilustra un escenario, donde la estimacion de la posicion de eventos sonoros no es posible,

La figura 26 ilustra un aparato para generar un flujo de datos de microfono virtual de acuerdo con un ejemplo,

La figura 27 ilustra un aparato para generar al menos una senal de salida de audio basandose en un flujo de datos

de audio de acuerdo con otro ejemplo, y

Las figuras 28a-28c ilustran escenarios donde dos agrupaciones de microfonos reciben sonido directo, sonido reflejado por una pared y sonido difuso.

5

[0038] Antes de proporcionar una descripcion detallada de realizaciones de y ejemplos que ilustran la

presente invencion, se describe un aparato para generar una senal de salida de audio de un microfono virtual para proporcionar information antecedente respecto a los conceptos de la presente invencion.

10 [0039] La figura 12 ilustra un aparato para generar una senal de salida de audio para simular una grabacion

de un microfono en una position virtual configurable posVmic en un entorno. El aparato comprende un estimador de la posicion de eventos sonoros 110 y un modulo de computo de informacion l2o. El estimador de la posicion de eventos sonoros 110 recibe una primera informacion de la direction di 1 de un primer microfono espacial real y una segunda informacion de la direccion di2 desde un segundo microfono espacial real. El estimador de la posicion de 15 eventos sonoros 110 esta adaptado para estimar la posicion de una fuente de sonido ssp que indica una posicion de una fuente de sonido en el entorno, emitiendo la fuente de sonido una onda sonora, en el que el estimador de la posicion de eventos sonoros 110 esta adaptado para estimar la posicion de la fuente de sonido ssp basandose en una primera informacion de direccion di 1 proporcionada por un primer microfono espacial real que esta situado en una primera posicion del microfono real pos1mic en el entorno, y basandose en una segunda informacion de 20 direccion di2 proporcionada por un segundo microfono espacial real que esta situado en una segunda posicion de microfono real en el entorno. El modulo de computo de informacion 120 esta adaptado para generar la senal de salida de audio basandose en una primera senal de entrada de audio grabada is1 que es grabada por el primer microfono espacial real, basandose en la primera posicion del microfono real pos1mic y basandose en la posicion virtual posVmic del microfono virtual. El modulo de computo de informacion 120 comprende un compensador de la 25 propagation que esta adaptado para generar una primera senal de audio modificada mediante la modification de la primera senal de entrada de audio grabada is1 compensando un primer retardo o degradation de la amplitud entre una llegada de la onda sonora emitida por la fuente de sonido en el lugar del primer microfono espacial real y la llegada de la onda sonora en el lugar del microfono virtual mediante el ajuste de un valor de amplitud, un valor de magnitud o un valor de fase de la primera senal de entrada de audio grabada is1, para obtener la senal de salida de 30 audio.

[0040] La figura 13 ilustra las entradas y salidas de un aparato y un procedimiento de acuerdo con una realization. Informacion de dos o mas microfonos espaciales reales 111, 112, ..., 11N es alimentada al aparato/es procesada por el procedimiento. Esta informacion comprende las senales de audio captadas por los microfonos

35 espaciales reales, como as! tambien informacion de la direccion de los microfonos espaciales reales, por ejemplo, estimaciones de la direccion de llegada (DOA). Las senales de audio y la informacion de direccion, como por ejemplo las estimaciones de direccion de llegada, pueden ser expresadas en un dominio del tiempo-frecuencia. Si, por ejemplo, es conveniente una reconstruction geometrica en 2D y se opta por un dominio de STFT tradicional (transformada de Fourier de tiempo corto) para la representation de las senales, la DOA se puede expresar en 40 terminos de angulos azimutales dependientes de k y n, concretamente los Indices de frecuencia y tiempo.

[0041] En ejemplos, la localization del evento sonoro en el espacio, as! como la descripcion de la posicion del microfono virtual se puede llevar a cabo basandose en las posiciones y orientaciones de los microfonos espaciales reales y virtuales en un sistema de coordenadas comun. Esta informacion puede estar representada por

45 las entradas 121 ... 12N y la entrada 104 de la figura 13. La entrada 104 puede especificar ademas la caracterlstica del microfono espacial virtual, por ejemplo, su posicion y patron de captation, como se describira mas adelante. Si el microfono espacial virtual comprende multiples sensores virtuales, se pueden considerar sus posiciones y los diferentes patrones de captacion correspondientes.

50 [0042] La salida del aparato o un procedimiento correspondiente puede consistir, en caso de ser conveniente,

una o mas senales sonoras 105, que pueden haber sido captadas por un microfono espacial definido y colocado de acuerdo con lo especificado en 104. Mas aun, el aparato (o, en su lugar el procedimiento) puede producir como salida la informacion complementaria espacial correspondiente 106 que puede ser estimada empleando el microfono espacial virtual.

55

[0043] La figura 14 ilustra un aparato de acuerdo con un ejemplo, que comprende dos unidades principales

de procesamiento, un estimador de la posicion de eventos sonoros 201 y un modulo de computo de informacion 202. El estimador de la posicion de eventos sonoros 201 puede llevar a cabo la reconstruccion geometrica basandose en las DOA comprendidas en las entradas 111 ... 11N y basandose en el conocimiento de la posicion y orientation de

los microfonos espaciales reales, donde se han computado las DOA. La salida del estimador de la posicion de eventos sonoros 205 comprende las estimaciones de posicion (ya sea en 2D o 3D) de las fuentes de sonido en que tienen lugar los eventos sonoros por cada intervalo de tiempo y frecuencia. El segundo bloque de procesamiento 202 es un modulo de computo de information. De acuerdo con la realization de la figura 14, el segundo bloque de 5 procesamiento 202 computa una senal de microfono virtual y la informacion complementaria espacial. Por lo tanto, tambien se le denomina bloque de computo de senal de microfono virtual e informacion complementaria 202. El bloque de computo de senal de microfono virtual e informacion complementaria 202 utiliza las posiciones de los eventos sonoros 205 para procesar las senales de audio comprendidas en 111...11N para dar salida a la senal de audio del microfono virtual 105. El bloque 202, en caso de ser necesario, puede computar asimismo la informacion 10 complementaria espacial 106 correspondiente al microfono espacial virtual. Las siguientes realizaciones ilustran posibilidades de como pueden funcionar los bloques 201 y 202.

[0044] En lo sucesivo se describe de forma mas detallada la estimation de posiciones por un estimador de la posicion de eventos sonoros de acuerdo con un ejemplo.

15

[0045] Dependiendo de la dimensionalidad del problema (2D o 3D) y del numero de microfonos espaciales, hay varias soluciones posibles para la estimacion de la posicion.

[0046] En caso de existir dos microfonos espaciales en 2D, (el caso mas sencillo posible) es posible una 20 triangulacion simple. La figura 15 expone una situation ilustrativa en la cual se muestran los microfonos espaciales

reales en forma de Agrupaciones Lineales Uniformes (ULA) de 3 microfonos cada una. Se computa la DOA, que se expresa en terminos de angulos azimutales al(k, n) y a2(k, n), correspondiente al intervalo de tiempo-frecuencia (k, n). Esto se obtiene empleando un estimador de DOA apropiado tal como ESPRIT,

25 [13] R. Roy, A. Paulraj y T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", en IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, EE. UU., abril de 1986,

o (ralz) MUSIC, ver 30

[14] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pag. 276-280, 1986

a las senales de presion transformadas al dominio del tiempo-frecuencia.

35

[0047] En la figura 15, se ilustran dos microfonos espaciales reales, en este caso dos agrupaciones de microfonos espaciales reales 410, 420. Las dos DOA estimadas al(k, n) y a2(k, n) estan representadas por dos llneas, una primera llnea 430 que representa la DOA al(k, n) y una segunda llnea 440 que representa la DOA a2(k, n). La triangulacion es posible mediante sencillas consideraciones geometricas conociendo la posicion y orientation

40 de cada agrupacion.

[0048] La triangulacion falla cuando las dos llneas 430, 440 son exactamente paralelas. Sin embargo, en aplicaciones reales, esto es muy poco probable. No obstante, no todos los resultados de la triangulacion corresponden a una posicion flsica o factible para el evento sonoro en el espacio en cuestion. Por ejemplo, la

45 posicion estimada del evento sonoro podrla estar demasiado lejos o incluso fuera del espacio presunto, indicando que probablemente las DOA no corresponden a ningun evento sonoro que pueda ser flsicamente interpretado con el modelo utilizado. Esos resultados pueden ser causados por ruido de los sensores o por una reverberacion demasiado fuerte del recinto. Por lo tanto, de acuerdo con un ejemplo, dichos resultados no deseados son identificados de tal manera que el modulo de computo de informacion 202 los pueda tratar correctamente.

50

[0049] La figura 16 ilustra una situacion en la cual se estima la posicion de un evento sonoro en el espacio 3d. Se emplean microfonos espaciales apropiados, por ejemplo, una agrupacion de microfonos planos o 3D. En la figura 16, se ilustra un primer microfono espacial 510, por ejemplo, una primera agrupacion de microfonos 3D y un segundo microfono espacial 520, por ejemplo, una primera agrupacion de microfonos 3d. La DOA del espacio 3D se

55 puede expresar, por ejemplo, en terminos de azimut y elevation. Se pueden emplear vectores unitarios 530, 540 para expresar las DOA. Se proyectan dos llneas 550, 560 de acuerdo con las DOA. En 3D, incluso con estimaciones muy fiables, las dos llneas 550, 560 proyectadas de acuerdo con las DOA podrlan no intersectarse. Sin embargo, de todas maneras, se puede llevar a cabo la triangulacion, por ejemplo, seleccionando el punto medio del segmento mas pequeno que conecta las dos llneas.

[0050] De manera similar al caso 2D, la triangulacion puede fallar o puede producir resultados no factibles en el caso de ciertas combinaciones de direcciones, que tambien pueden ser identificadas, por ejemplo, con el modulo de computo de information 202 de la figura 14.

5

[0051] Si existen mas de dos microfonos espaciales, hay varias soluciones posibles. Por ejemplo, se podrfa llevar a cabo la triangulacion explicada anteriormente en todos los pares de microfonos espaciales reales (si N = 3, 1 con 2, 1 con 3, y 2 con 3). A continuation, se pueden promediar las posiciones obtenidas de este modo (a lo largo de x e y, y, en caso de considerarse 3D, z).

10

[0052] Como alternativa, se pueden usar conceptos mas complejos. Por ejemplo, se pueden aplicar los enfoques probabillsticos descritos en

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, 15 No.3 (Ago., 1982), pags. 548-553.

[0053] De acuerdo con un ejemplo, el campo sonoro puede ser analizado en el dominio del tiempo- frecuencia, por ejemplo, obtenido mediante una transformada de Fourier de tiempo corto (STFT), en la cual k y n designan el Indice de frecuencia k y el Indice de tiempo n, respectivamente. La presion compleja Pv(k, n) en una

20 position arbitraria pv correspondiente a un k y n determinados se modeliza en forma de onda esferica unica emitida por una fuente de tipo puntual isotropica de banda estrecha, por ejemplo empleando la formula:

Pu(k,n) = Pirhs(k,n) • 7(/c,piPLs(fc, n),pv),

25 en la que PIPLS(k, n) es la senal emitida por la IPLS en su posicion pIPLS(k, n). El factor complejo g(k, pIPLS, pv) expresa la propagation de pIPLS(k, n) a pv, por ejemplo, introduce modificaciones apropiadas de fase y magnitud. En este caso, se puede aplicar la presuncion de que, en cada intervalo de tiempo-frecuencia, solo una IPLS esta activa. Pese a esto, tambien pueden estar activas multiples IPLS de banda estrecha en diferentes posiciones en un solo instante de tiempo.

30

[0054] Cada IPLS modeliza el sonido directo, o bien una reflexion diferenciada del recinto. Su posicion pIPLS(k, n) puede corresponder idealmente a una fuente de sonido real situada dentro de la sala o a una fuente de sonido de imagen especular situada en el exterior, respectivamente. Por lo tanto, la posicion pIPLS(k, n) puede indicar asimismo la posicion de un evento sonoro.

35

[0055] Notese por favor que la expresion “fuentes de sonido reales” designa las fuentes de sonido reales ffsicamente existentes en el entorno de grabacion, tales como voces humanas o instrumentos musicales. Por el contrario, con la expresion “fuentes de sonido” o “eventos sonoros” o “IPLS” nos referimos a fuentes de sonido efectivas, que son activas en determinados instantes de tiempo o en ciertos intervalos de tiempo-frecuencia, donde

40 las fuentes de sonido pueden representar, por ejemplo, fuentes de sonido reales o fuentes de imagenes especulares.

[0056] Las Fig. 28a-28b ilustran agrupaciones de microfonos que localizan fuentes de sonido. Las fuentes de sonido localizadas pueden tener diferentes interpretaciones ffsicas segun su naturaleza. Cuando las agrupaciones

45 de microfonos reciben sonido directo, pueden ser aptas para localizar la posicion de una verdadera fuente de sonido (por ejemplo, voces humanas). Cuando las agrupaciones de microfonos reciben reflejos, pueden localizar la posicion de una fuente de imagenes especulares. Las fuentes de imagenes especulares tambien son fuentes de sonido.

[0057] La figura 28a ilustra una situation en que dos agrupaciones de microfonos 151 y 152 reciben sonido 50 directo de una fuente de sonido real (una fuente de sonido que existe ffsicamente) 153.

[0058] La figura 28b ilustra una situacion en la cual dos agrupaciones de microfonos 161, 162 reciben sonido reflejado, donde el sonido ha sido reflejado por una pared. Debido a la reflexion, las agrupaciones de microfonos 161, 162 localizan la posicion de la cual parece que proviene el sonido, en una posicion de una fuente de imagenes

55 especulares 165, que es diferente de la posicion del hablante 163.

[0059] Tanto la fuente de sonido real 153 de la figura 28a, como la fuente de imagenes especulares 165 son fuentes de sonido.

[0060] La figura 28c ilustra un escenario en el cual dos agrupaciones de microfonos 171, 172 reciben sonido

difuso y no pueden localizar una fuente de sonido.

5 [0061] Aunque este modelo de onda unica es preciso solo en entornos con poca reverberacion, dado que las

senales de la fuente cumplen la condicion de ortogonalidad W disjunta (WDO), es decir que el solapamiento de tiempo-frecuencia es suficientemente pequeno. Esto es as! normalmente en el caso de las senales de voz; vease, por ejemplo,

10 [12] S. Rickard y Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," en Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.

15

20

25

30

[0062] Sin embargo, el modelo tambien ofrece una buena estimacion con respecto a otros entornos y, por lo tanto, tambien es aplicable a esos entornos.

[0063] A continuacion se explica la estimacion de las posiciones pIPLS(k, n) de acuerdo con un ejemplo. La posicion pIPLS(k, n) de una IPLS activa de cierto intervalo de tiempo-frecuencia, y por consiguiente la estimacion de un evento sonoro en un intervalo de tiempo-frecuencia, se realiza por medio de la triangulacion basandose en la direccion de llegada (DOA) del sonido medida en a menos dos puntos de observation diferentes.

[0064] La figura 17 ilustra una geometrla en la cual la IPLS de la ranura de tiempo-frecuencia (k, n) actual

esta situada en una posicion desconocida pIPLS(k, n). Para determinar la information de DOA requerida, se emplean dos microfonos espaciales reales, en este caso dos agrupaciones de microfonos, con una geometrla, posicion y orientation conocidas, que se colocan en las posiciones 610 y 620, respectivamente. Los vectores p1 y p2 apuntan a las posiciones 610, 620, respectivamente. Las orientaciones de la agrupacion estan definidas por los vectores unitarios c1 y c2. La DOA del sonido se determina en las posiciones 610 y 620 correspondientes a cada (k, n) empleando un algoritmo de calculo de DOA, por ejemplo, el proporcionado por el analisis de DirAC (vease [2], [3]).

Al hacerlo de esta manera, se puede proporcionar un vector unitario de un primer punto de vista

, PQV

(k, n)

,POV

(k. n)c

y un

vector unitario del segundo punto de vista v^» “/con respecto a un punto de vista de las agrupaciones de microfonos (ninguna de las cuales esta ilustrada en la figura 17) como salida del analisis de DirAC. Por ejemplo, cuando se opera en 2D, el primer vector unitario de punto de vista da como resultado:

eTV(k, n)

cos(<^>i (k, n))1 serial(k,n))\ ’

(2)

35 [0065] En este caso, j1(k, n) representa el azimut de la DOA estimada en la primera agrupacion de

microfonos ilustrada en la figura 17. Los correspondientes vectores unitarios de DOA e1(k, n) y e2(k, n), con respecto al sistema global de coordenadas en el origen, pueden ser computados aplicando las formulas:

ei(fc, n) = Ri ■ e^°v(k, n), e.2(k,n) = R2 • e^°v(fc, n),

(3)

40

en la que R son agrupaciones de transformation de coordenadas, por ejemplo,

imagen1

al operar en 2D y ci = [ci,x, ci,y]T. Para llevar a cabo la triangulacion, los vectores de direccion di(k, n) y d2(k, n) pueden ser calculados de la siguiente manera:

5

imagen2

en la que di(k, n) = ||di(k, n)|| y d2(k, n) = ||d2(k, n)|| son las distancias desconocidas entre las IPLS y las dos agrupaciones de microfonos. La siguiente ecuacion

10

Pi + di (k, n) = p2 + d.2 (fc, n)

(6)

puede ser resuelta con respecto a di(k, n). Por ultimo, la posicion pIPLS(k, n) de la IPLS viene dada por

Pipls (&, n) — di (k, n)ei (fc, n) + pi.

(7)

i5

[0066] En otro ejemplo, se puede resolver la ecuacion (6) correspondiente a d2(k, n) y pIPLS(k, n) se computa de manera analoga empleando d2(k, n).

[0067] La ecuacion (6) siempre ofrece una solucion cuando se opera en 2D, a menos que ei(k, n) y e2(k, n) 20 son paralelos. Sin embargo, cuando se utilizan mas de dos agrupaciones de microfonos o cuando se opera en 3D,

no se puede obtener una solucion cuando los vectores de direccion d no se intersectan. De acuerdo con una realizacion, en este caso, se debe computar el punto mas cercano a todos los vectores de direccion d y se puede utilizar el resultado como posicion de la IPLS.

25 [0068] En un ejemplo, todos los puntos de observation pi, p2, ... deben estar situados de tal manera que el

sonido emitido por la IPLS este dentro del mismo bloque temporal n. Este requisito se puede cumplir 50 simplemente cuando la distancia A entre dos cualesquiera de los puntos de observacion es menor que

A nFFT'(l — R)

i^max — C ' 5

JS

(8)

30

donde nFFT es la longitud de ventana de STFT, 0 < R < i especifica el solapamiento entre los sucesivos marcos temporales y fs es la frecuencia de muestreo. Por ejemplo, en el caso de una STFT de i024 puntos a 48 kHz con 50 % de solapamiento (R = 0,5), el espaciamiento maximo entre las agrupaciones para cumplir el requisito mencionado es A = 3,65 m.

35

[0069] En lo sucesivo se describe de forma mas detallada un modulo de computo de information 202, por

ejemplo, un modulo de computo de la senal de microfono virtual e informacion complementaria de acuerdo con un ejemplo.

40 [0070] La figura i8 ilustra una vision de conjunto esquematica de un modulo de computo de informacion 202

de acuerdo con un ejemplo. La unidad de computo de informacion comprende un compensador de la propagation 500, un combinador 5i0 y una unidad de ponderacion espectral 520. El modulo de computo de informacion 202 recibe las estimaciones de posicion de la fuente de sonido ssp estimadas por un estimador de la posicion de eventos sonoros, una o mas senales de entrada de audio es grabada por uno o mas de los microfonos espaciales reales, las

posiciones posRealMic de uno o mas de los microfonos espaciales reales y la posicion virtual posVmic del microfono virtual. Produce como salida una serial de salida de audio os que representa una serial de audio del microfono virtual.

5 [0071] La figura 19 ilustra un modulo de computo de informacion de acuerdo con otro ejemplo. El modulo de

computo de informacion de la figura 19 comprende un compensador de la propagacion 500, un combinador 510 y una unidad de ponderacion espectral 520. El compensador de la propagacion 500 comprende un modulo de computo de parametros de propagacion 501 y un modulo de compensacion de la propagacion 504. El combinador 510 comprende un modulo de computo de factores de combinacion 502 y un modulo de combination 505. La unidad 10 de ponderacion espectral 520 comprende una unidad de computo de ponderaciones espectrales 503, un modulo de aplicacion de ponderacion espectral 506 y un modulo de computo de informacion complementaria espacial 507.

[0072] Para computar la serial de audio del microfono virtual, se alimenta la informacion geometrica, por ejemplo la posicion y orientation de los microfonos espaciales reales 121 ... 12N, la posicion, orientation y

15 caracterlsticas del microfono espacial virtual 104, y las estimaciones de posicion de los eventos sonoros 205 al modulo de computo de informacion 202, en particular, al modulo de computo de parametros de propagacion 501 del compensador de la propagacion 500, al modulo de computo de factores de combinacion 502 del combinador 510 y a la unidad de computo de ponderaciones espectrales 503 de la unidad de ponderacion espectral 520. El modulo de computo de parametros de propagacion 501, el modulo de computo de factores de combinacion 502 y la unidad de 20 computo de ponderaciones espectrales 503 computan los parametros empleados en la modification de las senales de audio 111 ... 11N en el modulo de compensacion de la propagacion 504, el modulo de combinacion 505 y el modulo de aplicacion de ponderacion espectral 506.

[0073] En el modulo de computo de informacion 202, las senales de audio 111 ... 11N pueden ser 25 modificadas en un principio para compensar los efectos producidos por las longitudes de propagacion diferentes

entre las posiciones de los eventos sonoros y los microfonos espaciales reales. A continuation, se pueden combinar las senales para mejorar, por ejemplo, la relation senal respecto a ruido (SNR). Por ultimo, se puede realizar la ponderacion espectral de la senal obtenida para tener en cuenta el patron de captation direccional del microfono virtual, como as! tambien cualquier funcion de ganancia dependiente de la distancia. Mas adelante se describen de 30 forma mas detallada estas tres etapas.

[0074] Se explica ahora la compensacion de la propagacion de forma mas detallada. En la parte superior de la figura 20, se ilustran dos microfonos espaciales reales (una primera agrupacion de microfonos 910 y una segunda agrupacion de microfonos 920), la posicion de un evento sonoro localizado 930 correspondiente al intervalo de

35 tiempo-frecuencia (k, n) y la posicion del microfono espacial virtual 940.

[0075] La parte inferior de la figura 20 ilustra un eje temporal. Se supone que un evento sonoro es emitido en el momento t0 y luego se propaga a los microfonos espaciales reales y virtuales. Los retardos de tiempo de llegada, as! como las amplitudes, cambian con la distancia, por lo que cuanto mayor sea la longitud de propagacion, mas

40 debil es la amplitud y mas prolongado el retardo de tiempo de llegada.

[0076] Las senales presentes en las dos agrupaciones reales son comparables solo si el retardo relativo Dt12 entre ellas es pequeno. De lo contrario, una de las dos senales debe ser realineada temporalmente para compensar el retardo relativo Dt12, y posiblemente para ser ajustada a escala a fin de compensar las diferentes degradaciones.

45

[0077] La compensacion del retardo entre la llegada al lugar del microfono virtual y la llegada a las agrupaciones de microfonos reales (en uno de los microfonos espaciales reales) cambia el retardo independientemente de la localization del evento sonoro, lo que hace que sea superflua en la mayorla de las aplicaciones.

50

[0078] Volviendo a la figura 19, el modulo de computo de parametros de propagacion 501 esta adaptado para computar los retardos que se han de corregir para cada microfono espacial real y para cada evento sonoro. Si resulta ventajoso, tambien computa los factores de ganancia a considerar para compensar las diferentes degradaciones de la amplitud.

55

[0079] El modulo de compensacion de la propagacion 504 esta configurado para usar esta informacion para modificar las senales de audio de modo correspondiente. Si las senales se deben desplazar en una pequena cantidad de tiempo (en comparacion con la ventana temporal del banco de filtros), luego basta con una simple rotation de fases. Si los retardos son mas grandes, son necesarias implementaciones mas complicadas.

[0080] La salida del modulo de compensacion de la propagacion 504 esta constituida por las senales de

audio modificadas expresadas en el dominio de tiempo-frecuencia original.

5 [0081] En lo sucesivo se describe una estimacion especlfica de la compensacion de la propagacion

correspondiente a un microfono virtual de acuerdo con un ejemplo, con referencia a la figura 17 que ilustra, entre otras cosas, la posicion 610 de un primer microfono espacial real y la posicion 620 de un segundo microfono espacial real.

10 [0082] En el ejemplo que se explica a continuacion, se supone que se dispone de al menos una primera

senal de entrada de audio grabada, por ejemplo, una senal de presion de al menos uno de los microfonos espaciales reales (por ejemplo, las agrupaciones de microfonos), por ejemplo, la senal de presion de un primer microfono espacial real. Nos referiremos al microfono considerado como microfono de referencia, a su posicion como posicion de referencia pref y a su senal de presion como senal de presion de referencia Pref(k, n). Sin embargo, la

15 compensacion de la propagacion puede no solo llevarse a cabo con respecto a una sola senal de presion, sino tambien con respecto a las senales de presion de una pluralidad o todos los microfonos espaciales reales.

[0083] La relacion entre la senal de presion PiPLs(k, n) emitida por la IPLS y una senal de presion de

referencia Pref(k, n) de un microfono de referencia situado en pref puede estar expresada por la formula (9):

20

imagen3

[0084] En general, el factor complejo g(k, pa, pb) expresa la rotacion de fases y la degradacion de la amplitud

introducida por la propagacion de una onda esferica desde su origen en pa a pb. Sin embargo, las pruebas practicas 25 indicaron que considerando solo la degradacion de la amplitud en gse llega a impresiones plausibles de la senal del microfono virtual con significativamente menos distorsiones en comparacion con la consideracion asimismo de la rotacion de fases.

[0085] La intensidad sonora que se puede medir ademas en un cierto punto del espacio depende fuertemente

30 de la distancia r de la fuente de sonido, en la figura 6 desde la posicion pipls de la fuente de sonido. En muchas situaciones, esta dependencia puede ser modelizada con suficiente precision utilizando principios flsicos muy conocidos, por ejemplo, la degradacion 1/r de la presion sonora en el campo lejano de una fuente de tipo puntual. Cuando se conoce la distancia de un microfono de referencia, por ejemplo, el primer microfono real, de la fuente de sonido, y cuando tambien se conoce la distancia del microfono virtual de la fuente de sonido, a continuacion, se 35 puede estimar la intensidad sonora en la posicion del microfono virtual de la senal y la intensidad del microfono de referencia, por ejemplo, el primer microfono espacial real. Esto significa que se puede obtener la senal de salida del microfono virtual aplicando las ganancias adecuadas a la senal de presion de referencia.

[0086] Suponiendo que el primer microfono espacial real es el microfono de referencia, entonces pref = p1. En

40 la figura 17, el microfono virtual esta situado en pv. Dado que en la figura 17 se conoce en detalle la geometrla, se puede determinar facilmente la distancia d1(k, n) = ||d1(k, n)|| entre el microfono de referencia (en la figura 17: el primer microfono espacial real) y la IPLS, como as! tambien la distancia s(k, n) = ||s(k, n)|| entre el microfono virtual y la iPLS, es decir

imagen4

[0087] La presion del sonido Pv(k, n) en la posicion del microfono virtual se computa combinando las formulas

(1) y (9), para dar

imagen5

[0088] Como ha mencionado anteriormente, en algunos ejemplos, los factores g pueden considerar solo la

degradation de la amplitud debido a la propagation. Suponiendo, por ejemplo, que la presion sonora se reduce con 5 1/r, entonces

imagen6

[0089] Cuando prima el modelo de la formula (1), por ejemplo, cuando solo esta presente el sonido directo, 10 entonces la formula (12) puede reconstruir con precision la information de magnitud. Sin embargo, en el caso de los

campos sonoros difusos, por ejemplo, en que no se cumplen las presunciones del modelo, el procedimiento presentado da una desreverberacion impllcita de la senal al alejar el microfono virtual de las la posiciones de las agrupaciones de sensores. De hecho, como se ha explicado anteriormente, en los campos sonoros difusos, esperamos que la mayorla de las IPLS esten situadas cerca de las dos agrupaciones de sensores. De esa manera, 15 al alejar el microfono virtual de estas posiciones, es probable que se incremente la distancia s = ||s|| de la figura 17. Por lo tanto, se reduce la magnitud de la presion de referencia al aplicar una ponderacion de acuerdo con la formula (11). De manera correspondiente, al acercar el microfono virtual a una fuente de sonido real, los intervalos de tiempo-frecuencia que corresponden al sonido directo se amplifican de tal manera que la senal de audio general se percibe en forma menos difusa. Ajustando la regla de la formula (12), se puede controlar la amplification del sonido 20 directo y la supresion del sonido difuso a voluntad.

[0090] Llevando a cabo la compensation de la propagacion sobre la senal de audio de entrada grabada (por ejemplo, la senal de presion) del primer microfono espacial real, se obtiene una primera senal de audio modificada.

25 [0091] En ejemplos, se puede obtener una segunda senal de audio modificada llevando a cabo la

compensacion de la propagacion en una segunda senal de entrada de audio grabada (segunda senal de presion) del segundo microfono espacial real.

[0092] En otros ejemplos, se pueden obtener otras senales de audio llevando a cabo la compensacion de la 30 propagacion en otras senales de entrada de audio grabadas (senales de presion adicionales) de otros microfonos

espaciales reales.

[0093] Se explica a continuation, de forma mas detallada, la combination efectuada en los bloques 502 y 505 de la figura 19 de acuerdo con un ejemplo. Se supone que dos o mas senales de audio de una pluralidad de

35 microfonos espaciales reales diferentes han sido modificadas para compensar las diferentes trayectorias de propagacion a fin de obtener dos o mas senales de audio modificadas. Una vez que las senales de audio procedentes de los diferentes microfonos espaciales reales han sido modificadas para compensar las diferentes trayectorias de propagacion, se las puede combinar para mejorar la calidad del audio. Al hacerlo asl, por ejemplo, se puede incrementar la SNR o se puede reducir la reverberation.

40

[0094] Las soluciones posibles para la combinacion comprenden:

- Promedio ponderado, por ejemplo, considerando la SNR, o la distancia hasta el microfono virtual, o la difusividad estimada por los microfonos espaciales reales. Se pueden emplear soluciones tradicionales, por ejemplo, la

45 Combinacion de Relation Maxima (MRC) o la Combinacion de Ganancias Iguales, o

- La combinacion lineal de algunas o todas las senales de audio modificadas para obtener una senal combinatoria Las senales de audio modificas pueden ser ponderadas en la combinacion lineal para obtener la senal combinatoria o

- La selection, por ejemplo, el uso de una sola senal, por ejemplo, dependiendo de la SNR o la distancia o

difusividad, por ejemplo, dependiente de la SNR o la distancia o la difusividad.

[0095] La tarea del modulo 502 consiste, en caso de ser aplicable, en computar los parametros para la combinacion, que se lleva a cabo en el modulo 505.

5

[0096] Se describe ahora la ponderacion espectral de acuerdo con los ejemplos de forma mas detallada. Para ello, se hace referencia a los bloques 503 y 506 de la figura 19. En esta etapa final, se pondera la senal de audio que resulta de la combinacion o de la compensacion de la propagacion de las senales de audio de entrada en el dominio de tiempo-frecuencia de acuerdo con las caracterlsticas espaciales del microfono espacial virtual segun lo

10 especificado por la entrada 104 y/o de acuerdo con la geometrla reconstruida (dada en 205).

[0097] Para cada intervalo de tiempo-frecuencia, la reconstruccion geometrica nos permite obtener facilmente la DOA con respecto al microfono virtual, como se ilustra en la figura 21. Ademas, la distancia entre el microfono virtual y la posicion del evento sonoro tambien puede ser calculada facilmente.

15

[0098] A continuacion se computa la ponderacion correspondiente al intervalo de tiempo-frecuencia considerando el tipo de microfono virtual deseado.

[0099] En el caso de los microfonos direccionales, las ponderaciones espectrales pueden ser computadas de 20 acuerdo con un patron de captacion predefinido. Por ejemplo, de acuerdo con una realizacion, un microfono

cardioide puede tener un patron de captacion definido por la funcion g(theta),

g(theta) = 0,5 + 0,5 cos(theta),

25 donde theta es el angulo entre la direccion de mirada del microfono espacial virtual y la DOA del sonido desde el punto de vista del microfono virtual.

[0100] Otra posibilidad es la de funciones de degradacion artlstica (no flsica). En ciertas aplicaciones, puede ser ventajoso suprimir los eventos sonoros alejados del microfono virtual en un factor superior al que caracteriza la

30 propagacion libre en el campo. Por esta razon, algunas realizaciones introducen una funcion de ponderacion adicional que depende de la distancia entre el microfono virtual y el evento sonoro. En una realizacion, solo se deben captar los eventos sonoros dentro de una determinada distancia (por ejemplo, en metros) del microfono virtual.

35 [0101] Con respecto a la directividad del microfono virtual, se pueden aplicar patrones de directividad

arbitrarios al microfono virtual. Al hacerlo, se puede separar, por ejemplo, una fuente de una escena de sonido compleja.

[0102]

40

Dado que se puede computar la DOA del sonido en la posicion pv del microfono virtual, es decir

imagen7

donde cv es un vector unitario que describe la orientacion del microfono virtual, se pueden obtener directividades arbitrarias para el microfono virtual. Por ejemplo, suponiendo que Pv(k,n) indica la senal combinatoria o la senal de 45 audio modificada con compensacion de la propagacion, luego la formula:

Pv (k, n) = Pv(k, n) [l 4- cos (tpv (fc, n))]

(14)

calcula la salida de un microfono virtual con directividad cardioide. Los patrones direccionales, que potencialmente pueden generarse de esta manera, dependen de la precision de la estimacion de la posicion.

50

[0103] En ejemplos, se coloca uno o mas microfonos reales no espaciales, por ejemplo, un microfono omnidireccional o un microfono direccional tal como un cardioide, en la escena sonora ademas de los microfonos espaciales reales para mejorar aun mas la calidad del sonido de las senales del microfono virtual 105 de la figura 8. Estos microfonos no se usan para recopilar informacion geometrica alguna, sino que solo para obtener una senal de

5 audio mas nltida. Estos microfonos pueden estar ubicados mas cerca de las fuentes de sonido que los microfonos espaciales. En este caso, de acuerdo con un ejemplo, las senales de audio de los microfonos reales no espaciales y sus posiciones son alimentadas al modulo de compensacion de la propagacion 504 de la figura 19 para su procesamiento, en lugar de las senales de audio de los microfonos espaciales reales. A continuacion, se lleva a cabo la compensacion de la propagacion correspondiente a las unas o mas senales de audio registradas de los 10 microfonos no espaciales con respecto a la posicion de uno o mas microfonos no espaciales. De esta manera, se obtiene un ejemplo usando microfonos no espaciales adicionales.

[0104] En otro ejemplo, se realiza el computo de la informacion complementaria espacial del microfono virtual. Para computar la informacion complementaria espacial 106 del microfono, el modulo de computo de

15 informacion 202 de la figura 19 comprende un modulo de computo de informacion complementaria espacial 507, que esta adaptado para recibir, como entrada, las posiciones de las fuentes de sonido 205 y la posicion, orientacion y caracterlsticas 104 del microfono virtual. En ciertas realizaciones, de acuerdo con la informacion complementaria 106 que se debe computar, tambien se puede tener en cuenta la senal de audio del microfono virtual 105 como entrada al modulo de computo de informacion complementaria espacial 507.

20

[0105] La salida del modulo de computo de informacion complementaria espacial 507 es la informacion complementaria del microfono virtual 106. Esta informacion complementaria puede ser, por ejemplo, la DOA o la difusividad del sonido correspondiente a cada intervalo de tiempo-frecuencia (k, n) desde el punto de vista del microfono virtual. Otra informacion complementaria posible podrla ser, por ejemplo, el vector de intensidad sonora

25 Ia(k, n) que se habrla medido en la posicion del microfono virtual. A continuacion, se describira como se pueden derivar estos parametros.

[0106] De acuerdo con un ejemplo, se ejecuta la estimacion de la DOA correspondiente al microfono espacial

virtual. El modulo de computo de informacion 120 esta adaptado para estimar la direccion de llegada en el lugar del

30 microfono virtual como informacion complementaria espacial, basandose en un vector de posicion del microfono virtual y basandose en un vector de posicion del evento sonoro, como se ilustra en la figura 22.

[0107] La figura 22 ilustra una manera posible de derivar la DOA del sonido desde el punto de vista del

microfono virtual. Se puede describir la posicion del evento sonoro, proporcionada por el bloque 205 de la figura 19,

35 por cada intervalo de tiempo-frecuencia (k, n) con un vector de posicion r(k, n), la posicion vector del evento sonoro. De modo similar, la posicion del microfono virtual, provista como entrada 104 en la figura 19, puede ser descrita con un vector de posicion s(k,n), la posicion vector del microfono virtual. La direccion de mirada del microfono virtual puede ser descrita por un vector v(k, n). La DOA con respecto al microfono virtual viene dada en a(k,n). Representa el angulo entre v y h(k,n). Se puede computar el trayecto de propagacion del sonido h(k, n) empleando la formula:

40

h(k, n)= s(k,n) - r(k, n).

45

[0108] Ahora se puede computar la DOA deseada a(k, n) por cada (k, n), por ejemplo, por medio de la

definicion del producto puntual de h(k, n)y v(k,n), es decir

a(k, n) = arcos (h(k, n) • v(k,n)/(||h(k, n)|| ||v(k,n)||).

[0109] En otro ejemplo, el modulo de computo de informacion 120 puede estar adaptado para estimar la

intensidad del sonido activo en el lugar del microfono virtual como informacion complementaria espacial, basandose 50 en un vector de posicion del microfono virtual y basandose en un vector de posicion del evento sonoro como se ilustra en la figura 22.

[0110] A partir de la DOA a(k, n) definida anteriormente podemos derivar la intensidad del sonido activo Ia(k,

n) en la posicion del microfono virtual. Para ello, se supone que la senal de audio del microfono virtual 105 de la 55 figura 19 corresponde a la salida de un microfono omnidireccional, por ejemplo, suponemos que el microfono virtual es un microfono omnidireccional. Mas aun, se supone que la direccion de mirada v de la figura 22 es paralela al eje x del sistema de coordenadas. Dado que el vector de intensidad del sonido activo Ia(k, n) describe el flujo de energla neto a traves de la posicion del microfono virtual, podemos computar Ia(k, n), por ejemplo, de acuerdo con la formula:

Ia(k, n) = - (1/2 rho) |Pv(k, n)|2 * [ cos a(k, n), sen a(k, n)]T,

donde []T designa un vector transpuesto, rho es la densidad del aire y Pv(k, n) es la presion sonora medida por el 5 microfono espacial virtual, por ejemplo, la salida 105 del bloque 506 de la figura 19.

[0111] Si se computa el vector de intensidad activa expresado en el sistema general de coordenadas, pero aun en la posicion del microfono virtual, se puede aplicar la siguiente formula:

10 Ia(k, n) = (1/2 rho) |Pv (k, n)|2 h(k, n) /|| h(k, n) ||.

[0112] La difusividad del sonido expresa cuan difuso es el campo sonoro en una ranura de tiempo-frecuencia dada (vease, por ejemplo, [2]). La difusividad esta expresada por un valor y, donde 0 < y < 1. Una difusividad de 1 indica que la energla del campo sonoro total es completamente difusa. Esta informacion es importante, por ejemplo,

15 en la reproduccion del sonido espacial. Tradicionalmente, la difusividad se computa en el punto especlfico del espacio en el cual se coloca una agrupacion de microfonos.

[0113] De acuerdo con un ejemplo, la difusividad puede ser computada como un parametro adicional a la informacion complementaria generada con respecto al microfono virtual (VM), que puede ser colocado a voluntad en

20 una posicion arbitraria de la escena sonora. Al hacerlo, se puede considerar que un aparato que tambien calcula la difusividad aparte de la senal de audio en una posicion virtual de un microfono virtual es un DirAC frontal, ya que es posible producir un flujo de DirAC, es decir una senal de audio, direccion de llegada y difusividad, con respecto a un punto arbitrario de la escena sonora. El flujo de DirAC puede ser posteriormente procesado, almacenado, transmitido y reproducido en una configuracion arbitraria de multiples altavoces. En este caso, el oyente experimenta 25 la escena sonora como si el o ella estuviera en la posicion especificada por el microfono virtual y estuviera mirando en la direccion determinada por su orientacion.

[0114] La figura 23 ilustra un bloque de computo de la informacion de acuerdo con un ejemplo que comprende una unidad de computo de la difusividad 801 para computar la difusividad en el lugar del microfono

30 virtual. El bloque de computo de la informacion 202 esta adaptado para recibir entradas 111 a 11N, que ademas de las entradas de la figura 14, incluyen tambien difusividad en los microfonos espaciales reales. Digamos que y(SM1) a y(SMN) designan estos valores. Estas entradas adicionales son alimentadas al modulo de computo de informacion 202. La salida 103 de la unidad de computo de la difusividad 801 es el parametro de difusividad computado en la posicion del microfono virtual.

35

[0115] Una unidad de computo de la difusividad 801 de acuerdo con un ejemplo es la ilustrada en la figura 24 que representa mas detalles. De acuerdo con una realizacion, se estima la energla del sonido directo y difuso en cada uno de los N microfonos espaciales. A continuation, usando la informacion sobre las posiciones de la IPLS y la informacion sobre las posiciones de los microfonos espaciales y virtuales, se obtienen N estimaciones de estas

40 energlas en la posicion del microfono virtual. Por ultimo, se pueden combinar las estimaciones para mejorar la precision de estimation y se puede computar facilmente el parametro de difusividad en el lugar del microfono virtual.

p(SMl) rj(SM N) rj(SM 1) p(SMAT)

[0116] Dejemos que ^dir a ^dir y ^diff a ^diff designen las estimaciones de las energlas del sonido directo y difuso correspondientes a los N microfonos espaciales computados por la unidad de analisis de

45 energla 810. Si Pi es la senal de presion compleja y yi es la difusividad correspondiente al i-esimo microfono espacial, entonces se pueden computar las energlas, por ejemplo, de acuerdo con las formulas:

imagen8

50

[0117] La energla del sonido difuso debe ser igual en todas las posiciones; por lo tanto, se puede computar

Tj(SMt)

una estimacion de la intensidad sonora difusa en el lugar del microfono virtual simplemente promediando x"'difT a

e<SM N)

^diff , por ejemplo, en una unidad de combination de difusividades 820, por ejemplo, de acuerdo con la formula:

imagen9

5

[0118] Se podria llevar a cabo una combinacion mas eficaz de las

e<SM N)

^diff considerando la varianza de los estimadores, por ejemplo, considerando la SNR.

rj(SMl)

estimaciones ^diff a

10

15

[0119] La energia del sonido directo depende de la distancia hasta la fuente debido a la propagacion. Por lo

£(SM1) g(SMAT)

tanto, dir a^dir pueden ser modificadas para tomar esto en cuenta. Esto se puede llevar a cabo, por ejemplo, mediante una unidad de ajuste de la propagacion del sonido directo 830. Por ejemplo, si se supone que la energia del campo de sonido directo se degrada en 1 respecto a la distancia al cuadrado, entonces se puede calcular la estimation correspondiente al sonido directo en el lugar del microfono virtual correspondiente al i-esimo microfono espacial de acuerdo con la formula:

imagen10

distancia SMi distanciaVM

IPLS\

IPLsj

pitSNHj

“dir

[0120] De manera similar a la unidad de combinacion de difusividades 820, se pueden combinar las

estimaciones de la intensidad sonora directa obtenida en diferentes microfonos espaciales, por ejemplo, por medio

E(VM)

20 de una unidad de combinacion de sonido directo 840. El resultado es ^dir ’, por ejemplo, la estimacion

correspondiente a la energia sonora directa en el lugar del microfono virtual. La difusividad en el lugar del microfono virtual y(VM) puede ser computada, por ejemplo, por una subcalculadora de difusividad 850, por ejemplo, de acuerdo con la formula:

25

imagen11

[0121] Como se ha mencionado anteriormente, en algunos casos, falla la estimacion de position de los

eventos sonoros llevada a cabo por un estimador de la posicion de eventos sonoros, por ejemplo, en el caso de una estimacion incorrecta de la direction de llegada. La figura 25 ilustra esa situation. En estos casos, 30 independientemente de los parametros de difusividad estimados en los diferentes microfonos espaciales y recibidos como entradas 111 a 11N, se puede ajustar a 1 la difusividad correspondiente al microfono virtual 103 (es decir, completamente difuso), ya que no es posible una reproduction espacialmente coherente.

[0122] Ademas, se puede considerar la fiabilidad de las estimaciones de DOA en los N microfonos

35 espaciales. Esto se puede expresar, por ejemplo, en terminos de la varianza del estimador de DOA o SNR. Esa information puede ser tenida en cuenta por la subcalculadora de difusividad 850, de manera que la difusividad del VM 103 pueda ser artificialmente incrementada en caso de que las estimaciones de DOA no sean fiables. De hecho, tampoco son fiables, como consecuencia, las estimaciones de posicion 205.

40 [0123] La figura 1 ilustra un aparato 150 para generar al menos dos senales de salida de audio basandose en

un flujo de datos de audio que comprende datos de audio relacionados con dos o mas fuentes de sonido de acuerdo con una realizacion.

[0124] El aparato 150 comprende un receptor 160 para recibir el flujo de datos de audio que comprende los datos de audio. Los datos de audio comprenden un valor de presion para cada una de las dos o mas fuentes de sonido. Ademas, los datos de audio comprenden un valor de posicion que indica una posicion de una de las fuentes

5 de sonido para cada una de las fuentes de sonido. Ademas, el aparato comprende un modulo de slntesis 170 para generar las al menos dos senales de salida de audio basandose en los valores de presion de los datos de audio del flujo de datos de audio y basandose en los valores de posicion de los datos de audio del flujo de datos de audio. Los datos de audio estan definidos para un intervalo de tiempo-frecuencia de una pluralidad de intervalos de tiempo- frecuencia. Para cada una de las fuentes de sonido, un valor de presion esta comprendido en los datos de audio, en 10 el que el un valor de presion puede ser un valor de presion relacionado con una onda sonora emitida, por ejemplo, que se origina a partir de la fuente de sonido. El valor de presion puede ser un valor de una senal de audio, por ejemplo, un valor de presion de una senal de salida de audio generada por un aparato para generar una senal de salida de audio de un microfono virtual, en el que el microfono virtual esta colocado en la posicion de la fuente de sonido.

15

[0125] De este modo, la figura 1 ilustra un aparato 150 que puede emplearse para recibir o procesar el flujo de datos de audio mencionado, es decir el aparato 150 puede emplearse en un lado de receptor/de slntesis. El flujo de datos de audio comprende dados de audio que comprenden un valor de presion y un valor de posicion para cada una de una pluralidad de fuentes de sonido, es decir cada uno de los valores de presion y los valores de posicion se

20 relaciona con una fuente de sonido particular de las dos o mas fuentes de sonido de la escena de audio grabada. Esto significa que los valores de posicion indican posiciones de fuentes de sonido en lugar de los microfonos de grabacion. Con respecto al valor de presion, esto significa que el flujo de datos de audio comprende un valor de presion para cada una de las fuentes de sonido, es decir los valores de presion indican una senal de audio que esta relacionada con una fuente de sonido en lugar de estar relacionada con una grabacion de un microfono espacial 25 real.

[0126] El receptor 160 esta adaptado para recibir el flujo de datos de audio que comprende los datos de audio, en el que los datos de audio comprenden ademas un valor de difusividad para cada una de las fuentes de sonido. El modulo de slntesis 170 esta adaptado para generar las al menos dos senales de salida de audio

30 basandose en los valores de difusividad.

[0127] La figura 2 ilustra un aparato 200 para generar un flujo de datos de audio que comprende datos de fuente de sonido relacionados con una o mas fuentes de sonido de acuerdo con un ejemplo. El aparato 200 para generar un flujo de datos de audio comprende un determinador 210 para determinar los datos de fuente de sonido

35 basandose en al menos una senal de entrada de audio grabada por al menos un microfono espacial y basandose en informacion complementaria de audio proporcionada por al menos dos microfonos espaciales. Ademas, el aparato 200 comprende un generador de flujo de datos 220 para generar el flujo de datos de audio de modo que el flujo de datos de audio comprenda los datos de fuente de sonido. Los datos de fuente de sonido comprenden uno o mas valores de presion para cada una de las fuentes de sonido. Ademas, los datos de fuente de sonido comprenden 40 ademas uno o mas valores de posicion que indican una posicion de fuente de sonido para cada una de las fuentes de sonido. Ademas, los datos de fuente de sonido estan definidos para un intervalo de tiempo-frecuencia de una pluralidad de intervalos de tiempo-frecuencia.

[0128] El flujo de datos de audio generado por el aparato 200 puede transmitirse a continuation. De este 45 modo, el aparato 200 puede emplearse en un lado de analisis/transmisor. El flujo de datos de audio comprende

datos de audio que comprenden uno o mas valores de presion y uno o mas valores de posicion para cada una de una pluralidad de fuentes de sonido, es decir cada uno de los valores de presion y los valores de posicion se relacionan con una fuente de sonido particular de las una o mas fuentes de sonido de la escena de audio grabada. Esto significa que, con respecto a los valores de posicion, los valores de posicion indican posiciones de fuentes de 50 sonido en lugar de los microfonos de grabacion.

[0129] En un ejemplo adicional, el determinador 210 puede adaptarse para determinar los datos de fuente de sonido basandose en informacion de difusividad mediante al menos un microfono espacial. El generador de flujo de datos 220 puede estar adaptado para generar el flujo de datos de audio, de modo que el flujo de datos de audio

55 comprenda los datos de fuente de sonido. Los datos de fuente de sonido comprenden ademas uno o mas valores de difusividad para cada una de las fuentes de sonido.

[0130] La figura 3a ilustra un flujo de datos de audio de acuerdo con una realization. El flujo de datos de audio comprende datos de audio relacionados con dos fuentes de sonido que son activas en un intervalo de tiempo-

frecuencia. En particular, la figura 3a ilustra los datos de audio que son transmitidos para un intervalo de tiempo- frecuencia (k, n), en el que k designa el indice de frecuencia y n designa el indice de tiempo. Los datos de audio comprenden un valor de presion P1, un valor de posicion Q1 y un valor de difusividad y1 de una primera fuente de sonido. El valor de posicion Q1 comprende tres valores de coordenadas X1, Y1 y Z1 que indican la posicion de la 5 primera fuente de sonido. Ademas, los datos de audio comprenden un valor de presion P2, un valor de posicion Q2 y un valor de difusividad y2 de una segunda fuente de sonido. El valor de posicion Q2 comprende tres valores de coordenadas X2, Y2 y Z2 que indican la posicion de la segunda fuente de sonido.

[0131] La figura 3b ilustra un flujo de audio de acuerdo con otra realizacion. De nuevo, los datos de audio 10 comprenden un valor de presion P1, un valor de posicion Q1 y un valor de difusividad y1 de una primera fuente de

sonido. El valor de posicion Q1 comprende tres valores de coordenadas X1, Y1 y Z1 que indican la posicion de la primera fuente de sonido. Ademas, los datos de audio comprenden un valor de presion P2, un valor de posicion Q2 y un valor de difusividad y2 de una segunda fuente de sonido. El valor de posicion Q2 comprende tres valores de coordenadas X2, Y2 y Z2 que indican la posicion de la segunda fuente de sonido.

15

[0132] La figura 3c proporciona otra ilustracion del flujo de datos de audio. Dado que el flujo de datos de audio proporciona informacion de codificacion de audio espacial basada en geometria (GAC), tambien se denomina "flujo de codificacion de audio espacial basada en geometria" o "flujo de GAC". El flujo de datos de audio comprende informacion que esta relacionada con las una o mas fuentes de sonido, por ejemplo, una o mas fuentes de tipo

20 puntual isotropicas (IPLS). Como ya se ha explicado anteriormente, el flujo de GAC puede comprender las siguientes senales, en las que k y n designan el indice de frecuencia y el indice de tiempo del intervalo de tiempo- frecuencia considerado:

• P(k, n): Presion compleja en la fuente de sonido, por ejemplo, en la IPLS. Esta senal comprende posiblemente 25 sonido directo (el sonido que se origina a partir de la propia IPLS) y sonido difuso.

• Q(k,n): Posicion (por ejemplo, coordenadas cartesianas en 3D) de la fuente de sonido, por ejemplo, de la IPLS: La posicion puede comprender, por ejemplo, coordenadas cartesianas X(k,n), Y(k,n), Z(k,n).

30 • Difusividad en la IPLS: y(k,n). Este parametro esta relacionado con la relacion de potencia de sonido directo respecto a difuso comprendida en P(k,n). Si P(k,n) = Pdir(k,n) + Pdiff(k,n), entonces una posibilidad de expresar difusividad es y(k,n) = |Pdiff(k,n)|2/ |P(k,n)|2. Si |P(k,n)|2 es conocida, otras representaciones equivalentes son concebibles, por ejemplo, la relacion de directo respecto a difuso (DDR) r =|Pdir(k,n)|2/|Pdiff(k,n)|2.

35 [0133] Como ya se ha afirmado, k y n designan los indices de tiempo y frecuencia, respectivamente. Si se

desea y si el analisis lo permite, mas de una IPLS puede estar representada en una ranura de tiempo-frecuencia dada. Esto se representa en la figura 3c como M capas multiples, de modo que la senal de presion para la i-esima capa (es decir, para la i-esima IPLS) se designe con Pi(k, n). Por conveniencia, la posicion de la IPLS puede expresarse como el vector Qi(k, n) = [Xi(k, n), Yi(k, n), Zi(k, n)]T. De forma diferente al estado de la tecnica, todos los 40 parametros en el flujo de GAC se expresan con respecto a las una o mas fuentes de sonido, por ejemplo, con respecto a la IPLS, consiguiendo de este modo independencia de la posicion de grabacion. En la figura 3c, asi como en la figura 3a y 3b, todas las cantidades en la figura se consideran en el dominio de tiempo-frecuencia; la notacion (k,n) se abandono por razones de sencillez, por ejemplo, Pi significa Pi(k,n), por ejemplo, Pi = Pi(k,n).

45 [0134] En lo sucesivo, un aparato para generar un flujo de datos de audio de acuerdo con un ejemplo se

explica con mas detalle. Como el aparato de la figura 2, el aparato de la figura 4 comprende un determinador 210 y un generador de flujo de datos 220 que puede ser similar al determinador 210. A medida que el determinador analiza los datos de entrada de audio para determinar los datos de fuente de sonido basandose en los cuales el generador de flujo de datos genera el flujo de datos de audio, el determinador y el generador de flujo de datos pueden 50 denominarse conjuntamente un "modulo de analisis". (Vease el modulo de analisis 410 en la figura 4).

[0135] El modulo de analisis 410 computa el flujo de GAC a partir de las grabaciones de los N microfonos espaciales. Dependiendo del numero M de capas deseado (por ejemplo, el numero de fuentes de sonido para las cuales estara comprendida informacion en el flujo de datos de audio para un intervalo de tiempo-frecuencia

55 particular), el tiempo y el numero N de microfonos espaciales, son concebibles diferentes procedimientos para el analisis. En lo sucesivo se dan unos pocos ejemplos.

[0136] Como un primer ejemplo, se considera la estimacion de parametros para una fuente de sonido, por ejemplo, una IPLS, por ranura de tiempo-frecuencia. En el caso de M = 1, el flujo de GAC puede obtenerse

facilmente con los conceptos explicados anteriormente para el aparato para generar una senal de salida de audio de un microfono virtual, ya que un microfono espacial virtual puede colocarse en la posicion de la fuente de sonido, por ejemplo, en la posicion de la IPLS. Esto permite que las senales de presion se calculen en la posicion de la IPLS, junto con las estimaciones de posicion correspondientes, y posiblemente la difusividad. Estos tres parametros se 5 agrupan juntos en un flujo de GAC y pueden ser manipulados adicionalmente mediante el modulo 102 en la figura 8 antes de ser transmitidos o almacenados.

[0137] Por ejemplo, el determinador puede determinar la posicion de una fuente de sonido empleando los

conceptos propuestos para la estimacion de la posicion de eventos sonoros del aparato para generar una senal de

10 salida de audio de un microfono virtual. Ademas, el determinador puede comprender un aparato para generar una senal de salida de audio y puede usar la posicion determinada de la fuente de sonido como la posicion del microfono virtual para calcular los valores de presion (por ejemplo, los valores de la senal de salida de audio a generar) y la difusividad en la posicion de la fuente de sonido.

15 [0138] En particular, el determinador 210, por ejemplo, en la figura 4, esta configurado para determinar las

senales de presion, las estimaciones de posicion correspondientes, y la difusividad correspondiente, mientras que el generador de flujo de datos 220 esta configurado para generar el flujo de datos de audio basandose en las senales de presion calculadas, estimaciones de posicion y difusividad.

20 [0139] Como otro ejemplo, se considera la estimacion de parametros para 2 fuentes de sonido, por ejemplo 2

IPLS, por ranura de tiempo-frecuencia. Si el modulo de analisis 410 es para estimar dos fuentes de sonido por intervalo de tiempo-frecuencia, entonces puede usarse el siguiente concepto basandose en estimadores del estado de la tecnica.

25 [0140] La figura 5 ilustra una escena sonora compuesta por dos fuentes de sonido y dos agrupaciones de

microfonos lineales uniformes. Se hace referencia a ESPRIT, vease [26] R. Roy y T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7): 984-995, julio de 1989.

30 [0141] ESPRIT ([26]) puede emplearse por separado en cada agrupacion para obtener dos estimaciones de

DOA para cada intervalo de tiempo-frecuencia en cada agrupacion. Debido a la ambiguedad de emparejamiento, esto conduce a dos posibles soluciones para la posicion de las fuentes. Tal como puede verse a partir de la figura 5, las dos posibles soluciones vienen dadas por (1, 2) y (1', 2'). Con el fin de resolver esta ambiguedad, puede aplicarse la siguiente solucion. La senal emitida en cada fuente se estima usando un conformador del haz orientado

35 en la direccion de las posiciones de fuente estimadas y aplicando un factor apropiado para compensar la propagacion (por ejemplo, multiplicando por la inversa de la atenuacion experimentada por la onda). Esto puede llevarse a cabo para cada fuente en cada agrupacion para cada una de las posibles soluciones. Se puede definir a continuacion un error de estimacion para cada par de fuentes (i, j) como:

imagen12

donde (i, j) e {(1, 2), (1', 2')} (vease la figura 5) y Pi,l representa la potencia de senal compensada vista mediante agrupacion r desde la fuente de sonido i. El error es mlnimo para el autentico par de fuentes de sonido. Una vez que el problema del emparejamiento esta resuelto y se computan las estimaciones de DOA 45 correctas, estas se agrupan, junto con las senales de presion correspondientes y estimaciones de difusividad en un flujo de GAC. Las senales de presion y las estimaciones de difusividad pueden obtenerse usando el mismo procedimiento ya descrito para la estimacion de parametros para una fuente de sonido.

[0142] La figura 6a ilustra un aparato 600 para generar al menos una senal de salida de audio basandose en

50 un flujo de datos de audio de acuerdo con un ejemplo. El aparato 600 comprende un receptor 610 y un modulo de

slntesis 620. El receptor 610 comprende un modulo de modification 630 para modificar los datos de audio del flujo de datos de audio recibido modificando al menos uno de los valores de presion de los datos de audio, al menos uno de los valores de posicion de los datos de audio o al menos uno de los valores de difusividad de los datos de audio relacionados con al menos una de las fuentes de sonido.

55

[0143] La figura 6b ilustra un aparato 660 para generar un flujo de datos de audio que comprende datos de

fuente de sonido relacionados con una o mas fuentes de sonido de acuerdo con un ejemplo. El aparato para generar un flujo de datos de audio comprende un determinador 670, un generador de flujo de datos 680 y ademas un modulo

de modificacion 690 para modificar el flujo de datos de audio generado por el generador de flujo de datos modificando al menos uno de los valores de presion de los datos de audio, al menos uno de los valores de posicion de los datos de audio o al menos uno de los valores de difusividad de los datos de audio relacionados con al menos una de las fuentes de sonido.

5

[0144] Mientras que el modulo de modificacion 610 de la figura 6a se emplea en un lado de receptor/de slntesis, el modulo de modificacion 660 de la figura 6b se emplea en un lado de transmisor/de analisis.

[0145] Las modificaciones del flujo de datos de audio llevadas a cabo por los modulos de modificacion 610, 10 660 tambien pueden considerarse como modificaciones de la escena sonora. De este modo, los modulos de

modificacion 610, 660 tambien pueden denominarse modulos de manipulacion de la escena sonora.

[0146] La representacion del campo sonoro proporcionada por el flujo de GAC permite diferentes clases de modificaciones del flujo de datos de audio, es decir como consecuencia, manipulaciones de la escena sonora.

15 Algunos ejemplos en este contexto son:

1. Expandir secciones arbitrarias de espacio/volumenes en la escena sonora (por ejemplo, expansion de una fuente de sonido de tipo puntual con el fin de hacerla parecer mas amplia al oyente);

20 2. Transformar una seccion seleccionada de espacio/volumen en cualquier otra seccion arbitraria de espacio/volumen en la escena sonora (el espacio/volumen transformado podrla contener, por ejemplo, una fuente que se requiere que se mueva a una nueva ubicacion);

3. Filtracion basada en posicion, donde regiones seleccionadas de la escena sonora se mejoran o se suprimen 25 parcial/completamente

[0147] En lo sucesivo se supone que una capa de un flujo de datos de audio, por ejemplo, un flujo de GAC, comprende todos los datos de audio de una de las fuentes de sonido con respecto a un intervalo de tiempo- frecuencia particular.

30

[0148] La figura 7 representa un modulo de modificacion de acuerdo con un ejemplo. La unidad de modificacion de la figura 7 comprende un demultiplexor 401, un procesador de manipulacion 420 y un multiplexor 405.

35 [0149] El demultiplexor 401 esta configurado para separar las diferentes capas del flujo de GAC de M capas y

formar flujos de GAC de capa unica M. Ademas, el procesador de manipulacion 420 comprende unidades 402, 403 y 404, que se aplican a cada uno de los flujos de GAC por separado. Ademas, el multiplexor 405 esta configurado para formar el flujo de GAC de M capas resultante, a partir de los flujos de GAC de capa unica manipulados.

40 [0150] Basandose en los datos de posicion del flujo de GAC y el conocimiento acerca de la posicion de las

fuentes reales (por ejemplo, hablantes), la energla puede asociarse con cierta fuente real para cada intervalo de tiempo-frecuencia. Los valores de presion P se ponderan a continuacion en consecuencia para modificar la sonoridad de la fuente real respectiva (por ejemplo, hablantes). Esto requiere informacion a priori o una estimacion de la ubicacion de las fuentes de sonido reales (por ejemplo, hablantes).

45 En algunas realizaciones, si esta disponible conocimiento acerca de la posicion de las fuentes reales, entonces basandose en los datos de posicion del flujo de GAC, la energla puede asociarse con cierta fuente real para cada intervalo de tiempo-frecuencia.

[0151] La manipulacion del flujo de datos de audio, por ejemplo, el flujo de GAC puede tener lugar en el 50 modulo de modificacion 630 del aparato 600 para generar al menos una senal de salida de audio de la figura 6a, es

decir en un lado de receptor/de slntesis y/o en el modulo de modificacion 690 del aparato 660 para generar un flujo de datos de audio de la figura 6b, es decir en un lado de transmisor/de analisis.

[0152] Por ejemplo, el flujo de datos de audio, es decir el flujo de GAC, puede modificarse antes de la 55 transmision, o antes de la slntesis despues de la transmision.

[0153] A diferencia del modulo de modificacion 630 de la figura 6a en el lado de receptor/de slntesis, el modulo de modificacion 690 de la figura 6b en el lado de transmisor/de analisis puede aprovechar la informacion adicional de las entradas 111 a 11N (las senales registradas) y 121 a 12N (posicion relativa y orientacion de los

microfonos espaciales), dado que esta informacion esta disponible en el lado del transmisor. Usando esta information, puede obtenerse una unidad de modification de acuerdo con un ejemplo alternativo, que se representa en la figura 8.

5 [0154] La figura 9 representa un ejemplo ilustrando una vision de conjunto esquematica de un sistema, en el

que un flujo de GAC es generado en un lado de transmisor/de analisis, donde, opcionalmente, el flujo de GAC puede modificarse mediante un modulo de modificacion 102 en un lado de transmisor/de analisis, donde el flujo de GAC puede, opcionalmente, modificarse en un lado de receptor/de slntesis mediante el modulo de modificacion 103 y en el que el flujo de GAC se usa para generar una pluralidad de senales de salida de audio 191 ... 19L.

10

[0155] En el lado de transmisor/de analisis, la representation del campo sonoro (por ejemplo, el flujo de GAC) se computa en la unidad 101 a partir de las entradas 111 a 11N, es decir, las senales grabadas con N > 2 microfonos espaciales, y a partir de las entradas 121 a 12N, es decir, position relativa y orientation de los microfonos espaciales.

15

[0156] La salida de la unidad 101 es la representacion del campo sonoro mencionada anteriormente, que en lo sucesivo se designa como flujo de codification de audio espacial basada en geometrla (GAC). De forma similar a la propuesta en

20 [20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller y E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. En Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edimburgo, Reino Unido, mayo de 2011.

y tal como se ha descrito para el aparato para generar una senal de salida de audio de un microfono virtual en una 25 posicion virtual configurable, una escena sonora compleja se modeliza por medio de fuentes de sonido, por ejemplo, fuentes de sonido de tipo puntual isotropicas (IPLS), que son activas en ranuras especlficas en una representacion de tiempo-frecuencia, tal como la proporcionada por la transformada de Fourier de tiempo corto (STFT).

[0157] El flujo de GAC puede procesarse adicionalmente en el modulo de modificacion opcional 102, que 30 tambien puede denominarse unidad de manipulation. El modulo de modificacion 102 permite una multitud de

aplicaciones. El flujo de GAC puede, a continuation, transmitirse o almacenarse. La naturaleza parametrica del flujo de GAC es altamente eficiente. En el lado de slntesis/de receptor, pueden emplearse uno o mas modulos de modificacion opcionales (unidades de manipulacion) 103. El flujo de GAC resultante entra en la unidad de slntesis 104 que genera las senales de altavoz. Dada la independencia de la representacion de la grabacion, el usuario final 35 en el lado de reproduction puede manipular potencialmente la escena sonora y decidir la posicion de escucha y la orientacion dentro de la escena sonora libremente.

[0158] La modificacion/manipulacion del flujo de datos de audio, por ejemplo, el flujo de GAC puede tener lugar en modulos de modificacion 102 y/o 103 en la figura 9, modificando el flujo de GAC en consecuencia bien

40 antes de la transmision en el modulo 102 o bien despues de la transmision antes de la slntesis 103. A diferencia de en el modulo de modificacion 103 en el lado de receptor/de slntesis, el modulo de modificacion 102 en el lado de transmisor/de analisis puede aprovechar la informacion adicional de las salidas 111 a 11N (los datos de audio proporcionados por los microfonos espaciales) y 121 a 12N (posicion relativa y orientacion de los microfonos espaciales), dado que esta informacion esta disponible en el lado del transmisor. La figura 8 ilustra un ejemplo 45 alternativo de un modulo de modificacion que emplea esta informacion. Ejemplos de diferentes conceptos para la manipulacion del flujo de GAC se describen en lo sucesivo con referencia a la figura 7 y la figura 8. Unidades con senales de referencia iguales tienen igual funcion.

1. Expansion de volumen 50

[0159] Se supone que cierta energla en la escena esta ubicada dentro del volumen V. El volumen V puede indicar una zona predefinida de un entorno. 0 designa el conjunto de intervalos de tiempo-frecuencia (k, n) para los cuales las fuentes de sonido correspondientes, por ejemplo, IPLS, estan localizadas dentro del volumen V.

55 [0160] Si se desea la expansion del volumen V a otro volumen V', esto puede conseguirse anadiendo un

termino aleatorio a los datos de posicion en el flujo de GAC cuando (k, n) e 0 (evaluado en las unidades de decision 403) y sustituyendo Q(k, n) = [X(k, n), Y (k, n),Z(k, n)]T (la capa de Indice se abandona por sencillez) de modo que las salidas 431 a 43M de las unidades 404 en la figura 7 y 8 se vuelven

imagen13

donde fx, fy fz son variables aleatorias cuyo intervalo depende de la geometrla del nuevo volumen V' con respecto al volumen original V. Este concepto puede emplearse, por ejemplo, para hacer que una fuente de sonido sea 5 percibida mas amplia. En este ejemplo, el volumen original V es infinitesimamente pequeno, es decir, la fuente de sonido, por ejemplo, la IPLS, debe estar localizada en el mismo punto Q(k, n) = [X(k, n), Y (k, n), Z(k, n)]T para todo (k, n) e 0. Este mecanismo puede verse como una forma de difuminacion del parametro de posicion Q(k, n).

[0161] De acuerdo con un ejemplo, cada uno de los valores de posicion de cada una de las fuentes de sonido 10 comprenden al menos dos valores de coordenadas, y el modulo de modificacion esta adaptado para modificar los

valores de coordenadas anadiendo al menos un numero aleatorio a los valores de coordenadas, cuando los valores de coordenadas indican que una fuente de sonido esta ubicada en una posicion dentro de una zona predefinida de un entorno.

15 2. Transformacion de volumen

[0162] Ademas de la expansion de volumen, los datos de posicion del flujo de GAC pueden modificarse para reubicar secciones de espacio/volumenes dentro del campo sonoro. En este caso tambien, los datos a manipular comprenden las coordenadas espaciales de la energla localizada.

20

[0163] V designa de nuevo el volumen que se reubicara, y 0 designa el conjunto de todos los intervalos de tiempo-frecuencia (k, n) para los cuales la energla esta localizada dentro del volumen V. De nuevo, el volumen V puede indicar una zona predefinida de un entorno.

25 [0164] La reubicacion del volumen puede conseguirse modificando el flujo de GAC, de modo que para todos

los intervalos de tiempo-frecuencia (k,n) e 0, Q(k,n) se sustituyen por f(Q(k,n)) en las salidas 431 a 43M de las unidades 404, donde f es una funcion de las coordenadas espaciales (X, Y, Z), que describe la manipulacion de volumen a realizar. La funcion f podrla representar una simple transformacion lineal tal como rotacion, traslacion, o cualquier otro complejo mapeo no lineal. Esta tecnica puede usarse, por ejemplo, para mover fuentes de sonido 30 desde una posicion a otra dentro de la escena sonora garantizando que 0 corresponde al conjunto de intervalos de tiempo-frecuencia en los que las fuentes de sonido han sido localizadas dentro del volumen V. La tecnica permite diversas otras manipulaciones complejas de la escena sonora completa, tales como reflexion especular de escena, rotacion de escena, agrandamiento y/o compresion de escena etc. Por ejemplo, aplicando un mapeo lineal apropiado al volumen V, puede conseguirse el efecto complementario de expansion de volumen, es decir, retraccion 35 de volumen. Esto podrla hacerse, por ejemplo, mapeando Q(k,n) for (k,n) e 0 a f(Q(k,n)) e V', donde V' c V y V' comprende un volumen significativamente mas pequeno que V.

[0165] De acuerdo con un ejemplo, el modulo de modificacion esta adaptado para modificar los valores de coordenadas aplicando una funcion determinista a los valores de coordenadas, cuando los valores de coordenadas

40 indican que una fuente de sonido esta ubicada en una posicion dentro de una zona predefinida de un entorno.

3. Filtracion basada en posicion

[0166] La idea de filtracion basada en geometrla (o filtracion basada en posicion) ofrece un procedimiento 45 para mejorar o eliminar completa/parcialmente secciones de espacio/volumenes de la escena sonora. En

comparacion con las tecnicas de expansion y transformacion de volumen, en este caso, sin embargo, solamente se modifican los datos de presion del flujo de GAC aplicando pesos escalares apropiados.

[0167] En la filtracion basada en geometrla, puede hacerse una distincion entre el modulo del lado de 50 transmisor 102 y el modulo de modificacion del lado de receptor 103, ya que el primero puede usar las entradas 111

a 11N y 121 a 12N para ayudar al computo de pesos de filtro apropiados, tal como se representa en la figura 8. Suponiendo que el objetivo es suprimir/mejorar la energla que se origina a partir de una seccion seleccionada de espacio/volumen V, puede aplicarse filtracion basada en geometrla de la siguiente manera:

55 Para todos (k, n) e 0, la presion compleja P(k, n) en el flujo de GAC se modifica a hP(k, n) en las salidas de 402, donde h es un factor de ponderacion real, por ejemplo, computado por la unidad 402. En algunos ejemplos, el modulo 402 puede estar adaptado para computar un factor de ponderacion dependiente tambien de la difusividad.

[0168] El concepto de filtracion basada en geometrla puede usarse en una pluralidad de aplicaciones, tales como mejora de senales y separacion de fuentes. Algunas de las aplicaciones y la informacion requerida a priori comprenden:

5 • Desreverberacion. Conociendo la geometrla de la sala, el filtro espacial puede usarse para suprimir la energla localizada fuera de los llmites de la sala que puede ser causada por propagacion multitrayectoria. Esta aplicacion puede ser de interes, por ejemplo, para comunicacion con manos libres en salas de reuniones y coches. Notese que, con el fin de suprimir, la reverberacion tardla, es suficiente con cerrar el filtro en caso de elevada difusividad, mientras que para suprimir reflexiones tempranas un filtro dependiente de la posicion es mas eficaz. En este caso, 10 tal como ya se ha mencionado, es necesario conocer la geometrla de la sala a priori.

• Supresion del ruido de fondo. Puede usarse un concepto similar para suprimir el ruido de fondo tambien. Si las regiones potenciales donde pueden estar ubicadas fuentes, (por ejemplo, las sillas de participates en salas de reuniones o los asientos en un coche) se conocen, entonces la energla ubicada fuera de estas regiones esta

15 asociada a ruido de fondo y es, por lo tanto, suprimida por el filtro espacial. Esta aplicacion requiere informacion a priori o una estimation, basandose en los datos disponibles en los flujos de GAC, de la ubicacion aproximada de las fuentes.

• Supresion de una causa de interferencia de tipo puntual. Si la causa de interferencia esta claramente localizada en 20 el espacio, en lugar de difusa, puede aplicarse filtracion basada en posicion para atenuar la energla localizada en la

posicion de la causa de interferencia. Requiere informacion a priori o una estimacion de la ubicacion de la causa de interferencia.

• Control del eco. En este caso las causas de interferencia a suprimir son las senales de altavoz. Para este fin, de 25 forma similar a en el caso para causas de interferencia de tipo puntual, la energla localizada exactamente o en las

inmediaciones cercanas de la posicion de los altavoces es suprimida. Esto requiere informacion a priori o una estimacion de las posiciones del altavoz.

• Detection de voz mejorada. Las tecnicas de mejora de senal asociadas con la invention de filtracion basada en 30 geometrla pueden implementarse como una etapa preprocesamiento en un sistema de deteccion de actividad de

voz convencional, por ejemplo, en coches. La desreverberacion, o supresion de ruido, puede usarse como anadidos para mejorar el rendimiento del sistema.

• Vigilancia. Preservar solamente la energla de ciertas zonas y suprimir el resto es una tecnica usada comunmente 35 en aplicaciones de vigilancia. Esto requiere informacion a priori sobre la geometrla y la ubicacion de la zona de

interes.

• Separacion de fuentes. En un entorno con multiples fuentes activas simultaneamente, puede aplicarse filtracion espacial basada en geometrla para separacion de fuentes. Colocar un filtro espacial disenado apropiadamente

40 centrado en la ubicacion de una fuente, da como resultado supresion/atenuacion de las otras fuentes activas simultaneamente. Esta innovation puede usarse por ejemplo como terminal de entrada en SAOC. Se requiere informacion a priori o una estimacion de las ubicaciones de la fuente.

• Control de la ganancia (AGC) automatico dependiente de la posicion. Pueden usarse pesos dependientes de la 45 posicion por ejemplo para igualar la sonoridad de diferentes hablantes en aplicaciones de teleconferencia.

[0169] En lo sucesivo, se describen modulos de slntesis de acuerdo con ejemplos y una realization. De acuerdo con un ejemplo, un modulo de slntesis puede estar adaptado para generar al menos una senal de salida de audio basandose en al menos un valor de presion de datos de audio de un flujo de datos de audio y basandose en al

50 menos un valor de posicion de los datos de audio del flujo de datos de audio. El al menos un valor de presion puede ser un valor de presion de una senal de presion, por ejemplo, una senal de audio.

[0170] Los principios de funcionamiento detras de la slntesis de GAC estan motivados por las suposiciones sobre la percepcion del sonido espacial dadas en

55

WO2004077884: Tapio Lokki, Juha Merimaa, y Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

[0171] En particular, las senales de aviso espaciales necesarias para percibir correctamente la imagen

espacial de una escena sonora pueden obtenerse reproduciendo correctamente una direccion de llegada de sonido no difuso para cada intervalo de tiempo-frecuencia. La slntesis, representada en la figura 10a, se divide, por lo tanto, en dos fases.

5 [0172] La primera fase considera la posicion y orientacion del oyente dentro de la escena sonora y determina

cuales de las M IPLS es dominante para cada intervalo de tiempo-frecuencia. En consecuencia, pueden computarse su senal de presion Pdir y direccion de llegada 0. Las restantes fuentes y el sonido difuso se recogen en una segunda senal de presion Pdiff.

10 [0173] La segunda fase es identica a la segunda mitad de la slntesis DirAC descrita en [27]. El sonido no

difuso es reproducido con un mecanismo de dotacion de espectro etereo (panning) que produce una fuente de tipo puntual, mientras que el sonido difuso es reproducido desde todos los altavoces despues de haber sido descorrelacionado.

15 [0174] La figura 10a representa un modulo de slntesis de acuerdo con un ejemplo que ilustra la slntesis del

flujo de GAC.

[0175] La unidad de slntesis de primera fase 501, computa las senales de presion Pdir y Pdiff que es necesario reproducir de forma diferente. De hecho, mientras que Pdir comprende sonido que tiene que reproducirse

20 coherentemente en el espacio, Pdiff comprende sonido difuso. La tercera salida de la unidad de slntesis de primera fase 501 es la direccion de llegada (DOA) 0 505 desde el punto de vista de la posicion de escucha deseada, es decir una informacion de direccion de llegada. Notese que la direccion de llegada (DOA) puede expresarse como un angulo azimutal si es un espacio en 2D, o mediante un par de angulos de azimut y de elevacion en 3D. De forma equivalente, puede usarse un vector normal de unidad que apunta en la DOA. La DOA especifica desde que 25 direccion (con respecto a la posicion de escucha deseada) debe provenir la senal Pdir. La unidad de slntesis de primera fase 501 toma el flujo de GAC como una entrada, es decir, una representacion parametrica del campo sonoro, y computa las senales mencionadas anteriormente basandose en la posicion y la orientacion del oyente especificada por la entrada 141. De hecho, el usuario final puede decidir libremente la posicion de escucha y la orientacion dentro de la escena sonora descrita por el flujo de GAC.

30

[0176] La unidad de slntesis de segunda fase 502 computa las L senales de altavoz 511 a 51L basandose en el conocimiento de la configuracion del altavoz 131. Recuerde, por favor, que la unidad 502 es identica a la segunda mitad de la slntesis DirAC descrita en [27].

35 [0177] La figura 10b representa una unidad de slntesis de primera fase de acuerdo con una realizacion. La

entrada proporcionada el bloque es un flujo de GAC compuesto por M capas. En una primera etapa, la unidad 601 demultiplexa las M capas en M flujos de GAC paralelos de una capa cada uno.

[0178] El i-esimo flujo de GAC comprende una senal de presion Pi, una difusividad y y un vector de posicion 40 Qi = [Xi, Yi, Zi]T. La senal de presion Pi comprende uno o mas valores de presion. El vector de posicion es un valor de

posicion. Al menos una senal de salida de audio se genera ahora basandose en estos valores.

[0179] La senal de presion para sonido directo y difuso Pdir,i y Pdiff,i, se obtienen a partir de Pi aplicando un factor apropiado derivado de la difusividad yi. Las senales de presion comprenden sonido directo entran en un

45 bloque de compensacion de la propagacion 602, que computa los retardos correspondientes a la propagacion de senales desde la posicion de fuente de sonido, por ejemplo, la posicion de la IPLS, hasta la posicion del oyente. Ademas de esto, el bloque tambien computa los factores de ganancia requeridos para compensar las diferentes desintegraciones de magnitud. En otras realizaciones, solamente se compensan las diferentes desintegraciones de magnitud, mientras que los retardos no se compensan.

50

[0180] Las senales de presion compensadas, indicadas mediante P dir,i entran en el bloque 603, que emite el Indice i max de la entrada mas potente

i.rmx = arg max |P<jh-,T|2

* (3)

55

[0181] La idea principal detras de este mecanismo es que de las M IPLS activas en el intervalo de tiempo-

frecuencia en estudio, solamente la mas potente (con respecto a la posicion del oyente) seran reproducidas coherentemente (es decir, como sonido directo). Los bloques 604 y 605 seleccionan a partir de sus entradas aquella que es definida por imax. El bloque 607 computa la direccion de llegada de la imax-esima IPLS con respecto a la posicion y la orientacion del oyente (entrada 141). La salida del bloque 604 P dir,/max corresponde a la salida del 5 bloque 50l, concretamente la senal sonora Pdir que sera reproducida como sonido directo por el bloque 502. El sonido difuso, concretamente la salida 504 Pdiff, comprende la suma de todo el sonido difuso en las M ramas, as! como todas las senales de sonido directo Pdir,/- excepto la imax-esima, concretamente Vj t imax.

[0182] La figura 10c ilustra una unidad de slntesis de segunda fase 502. Tal como ya se ha mencionado, esta 10 fase es identica a la segunda mitad del modulo de slntesis propuesto en [27]. El sonido no difuso Pdir 503 es

reproducido como una fuente de tipo puntual mediante, por ejemplo, dotacion de espectro etereo, cuyas ganancias se computan en el bloque 701 basandose en la direccion de llegada (505). Por otro lado, el sonido difuso, Pdiff, pasa a traves de L descorrelacionadores distintos (711 a 71L). Para cada una de las L senales de altavoz, las trayectorias de sonido directo y difuso se anaden antes de pasar a traves del banco de filtracion inverso (703).

15

[0183] La figura 11 ilustra un modulo de slntesis de acuerdo con un ejemplo alternativo. Todas las cantidades en la figura se consideran en dominio de tiempo-frecuencia; la notacion (k,n) se rechazo por razones de sencillez, por ejemplo, Pi = Pi(k,n). Con el fin de mejorar la calidad del audio de la reproduccion en caso de escenas sonoras particularmente complejas, por ejemplo, numerosas fuentes activas al mismo tiempo, el modulo de slntesis, por

20 ejemplo, el modulo de slntesis 104 puede realizarse, por ejemplo, tal como se muestra en la figura 11. En lugar de seleccionar la IPLS mas dominante para que se reproduzca coherentemente, la slntesis en la figura 11 lleva a cabo una slntesis completa de cada una de las M capas por separado. Las L senales de altavoz de la i-esima capa son la salida del bloque 502 y se designan mediante 191 i a 19Li. La h-esima senal de altavoz 19h en la salida de la unidad de slntesis de primera fase 501 es la suma de 19h1 a 19hM. Por favor, notese que, a diferencia de la figura 10b, es 25 necesario llevar a cabo la etapa de estimacion de DOA en el bloque 607 para cada una de las M capas.

[0184] La figura 26 ilustra un aparato 950 para generar un flujo de datos de microfono virtual de acuerdo con un ejemplo. El aparato 950 para generar un flujo de datos de microfono virtual comprende un aparato 960 para generar una senal de salida de audio de un microfono virtual de acuerdo con uno de los ejemplos descritos

30 anteriormente, por ejemplo de acuerdo con la figura 12, y un aparato 970 para generar un flujo de datos de audio de acuerdo con uno de los ejemplos descritos anteriormente, por ejemplo de acuerdo con la figura 2, en la que el flujo de datos de audio generado por el aparato 970 para generar un flujo de datos de audio es el flujo de datos de microfono virtual.

35 [0185] El aparato 960, por ejemplo, en la figura 26, para generar una senal de salida de audio de un

microfono virtual comprende un estimador de la posicion de eventos sonoros y un modulo de computo de information como en la figura 12. El estimador de la posicion de eventos sonoros esta adaptado para estimar una posicion de fuente de sonido que indica una posicion de una fuente de sonido en el entorno, en el que el estimador de la posicion de eventos sonoros esta adaptado para estimar la posicion de fuente de sonido basandose en una 40 primera informacion de direccion proporcionada por un primer microfono espacial real que esta ubicado en una primera posicion del microfono real en el entorno, y basandose en una segunda informacion de direccion proporcionada por un segundo microfono espacial real que esta ubicado en una segunda posicion del microfono real en el entorno. El modulo de computo de informacion esta adaptado para generar la senal de salida de audio basandose en una senal de entrada de audio grabada, basandose en la primera posicion del microfono y and 45 basandose en la posicion calculada del microfono.

[0186] El aparato 960 para generar una senal de salida de audio de un microfono virtual esta dispuesto para proporcionar la senal de salida de audio al aparato 970 para generar un flujo de datos de audio. El aparato 970 para generar un flujo de datos de audio comprende un determinador, por ejemplo, el determinador 210 descrito con

50 respecto a la figura 2. El determinador del aparato 970 para generar un flujo de datos de audio determina los datos de fuente de sonido basandose en la senal de salida de audio proporcionada por el aparato 960 para generar una senal de salida de audio de un microfono virtual.

[0187] La figura 27 ilustra un aparato 980 para generar al menos una senal de salida de audio basandose en 55 un flujo de datos de audio de acuerdo con uno de los ejemplos descritos anteriormente, que esta configurado para

generar la senal de salida de audio basandose en un flujo de datos de microfono virtual como el flujo de datos de audio proporcionado por un aparato 950 para generar un flujo de datos de microfono virtual, por ejemplo, el aparato 950 en la figura 26.

[0188] El aparato 980 para generar un flujo de datos de microfono virtual alimenta la senal de microfono virtual generada en el aparato 980 para generar al menos una senal de salida de audio basandose en un flujo de datos de audio. Debe indicarse que el flujo de datos de microfono virtual es un flujo de datos de audio. El aparato 980 para generar al menos una senal de salida de audio basandose en un flujo de datos de audio genera una senal

5 de salida de audio basandose en el flujo de datos de microfono virtual como flujo de datos de audio, por ejemplo, tal como se describe con respecto al aparato de la figura 1.

[0189] Aunque se han descrito algunos aspectos en el contexto de un aparato, esta claro que estos aspectos tambien representan una descripcion del procedimiento correspondiente, en el cual un bloque o dispositivo

10 corresponde a una etapa del procedimiento o a una caracterlstica de una etapa del procedimiento. De manera analoga, los aspectos descritos en el contexto de una etapa del procedimiento tambien representan una descripcion de una unidad o Item correspondiente o de una caracterlstica de un aparato correspondiente.

[0190] La senal descompuesta puede almacenarse en un medio de almacenamiento digital o puede 15 transmitirse mediante un medio de transmision tal como un medio de transmision inalambrico o un medio de

transmision conectado por cables tal como la Internet.

[0191] Dependiendo de ciertos requisitos de implementation, las realizaciones de la invention pueden ser implementadas en hardware o en software. La implementacion se puede realizar empleando un medio de

20 almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene almacenadas en la misma senales control legibles electronicamente, que cooperan (o tienen capacidad para cooperar) con un sistema informatico programable de tal manera que se ejecute el procedimiento respectivo.

25 [0192] Algunos ejemplos comprenden un transportador de datos no transitorio que tiene senales de control

legibles electronicamente, con capacidad para cooperar con un sistema informatico programable de tal manera que se ejecute uno de los procedimientos descritos en el presente documento.

[0193] En general, ejemplos ilustrados anteriormente pueden implementarse en forma de producto de 30 programa informatico con un codigo de programa, donde el codigo de programa cumple la funcion de ejecutar uno

de los procedimientos al ejecutarse el programa informatico en un ordenador. El codigo de programa puede ser almacenado, por ejemplo, en un portador legible por una maquina.

[0194] Otros ejemplos comprenden el programa informatico para ejecutar uno de los procedimientos 35 descritos en el presente documento, almacenado en un portador legible por una maquina.

[0195] Una realization del procedimiento de la invencion es, por lo tanto, un programa informatico tal como se muestra en la revindication 4.

40 [0196] Un ejemplo adicional del procedimiento de la invencion es, por lo tanto, en un portador de datos (o

medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informatico para ejecutar uno de los procedimientos descritos en el presente documento.

[0197] Un ejemplo adicional es, por lo tanto, un flujo de datos o una secuencia de senales que representa el 45 programa informatico para ejecutar uno de los procedimientos descritos en el presente documento. El flujo de datos

o la secuencia de senales pueden estar configurados, por ejemplo, para ser transferidos a traves de una conexion de comunicacion de datos, por ejemplo, por Internet.

[0198] Un ejemplo adicional comprende un medio de procesamiento, por ejemplo, un ordenador, un 50 dispositivo logico programable, configurado o adaptado para ejecutar uno de los procedimientos descritos en el

presente documento.

[0199] Un ejemplo adicional comprende un ordenador en la que se ha instalado el programa informatico para ejecutar uno de los procedimientos descritos en el presente documento.

55

[0200] En algunos ejemplos, se puede usar un dispositivo logico programable (por ejemplo, una matriz de puertas programables in situ) para ejecutar algunas o todas las funcionalidades de los procedimientos descritos en el presente documento. En algunas realizaciones, una matriz de puertas programables in situ puede cooperar con un microprocesador para ejecutar uno de los procedimientos descritos en el presente documento. Por lo general, los

procedimientos son ejecutados preferentemente por cualquier aparato de hardware.

[0201] Las realizaciones u ejemplos descritos son meramente ilustrativos de los principios de la presente

invencion. Se entiende que las modificaciones y variaciones de las disposiciones y detalles descritos en el presente 5 documento han de ser evidentes para los expertos en la materia. Por lo tanto, la intencion es limitarse solamente al alcance de las siguientes reivindicaciones de patente y no a los detalles especlficos presentados a la manera de descripcion y explication de las realizaciones presentadas en el presente documento.

Bibliografia:

10

[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.

[2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing", en Proceedings of the aEs 28th International Conference, pags. 251-258, Pitea, Suecia, 30 de junio - 2 de julio, 2006.

15

[3] V. Pulkki, "Spatial sound reproduction with directional audio coding", J. Audio Eng. Soc., vol. 55, no. 6, pags. 503516, junio de 2007.

[4] C. Faller: "Microphone Front-Ends for Spatial Audio Coders", en Proceedings of the AES 125th International 20 Convention, San Francisco, Oct. 2008.

[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. y O. Thiergart, "A spatial filtering approach for directional audio coding", en Audio Engineering Society Convention 126, Munich, Alemania, mayo de 2009.

25

[6] R. Schultz-Amling, F. Kuch, O. Thiergart, y M. Kallinger, "Acoustical zooming based on a parametric sound field representation", en Audio Engineering Society Convention 128, Londres Reino Unido, mayo de 2010.

[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, y O. Thiergart, "Interactive teleconferencing combining 30 spatial audio object coding and DirAC technology", en Audio Engineering Society Convention 128, Londres Reino

Unido, mayo de 2010.

[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.

35 [9] A. Kuntz y R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements", en 15th European Signal Processing Conference (EUSIPCO 2007), 2007.

[10] A. Walther y C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings", en Audio Engiineering Society Convention 128, Londres Reino Unido, mayo de 2010.

40

[11] US61/287.596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.

[12] S. Rickard y Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech", en Acoustics, Speech and 45 Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.

[13] R. Roy, A. Paulraj, y T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT", en IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, EE. UU., abril de 1986.

50

[14] R. Schmidt, "Multiple emitter location and signal parameter estimation", IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pags. 276-280, 1986.

[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, 55 No.3 (agosto de 1982), pags. 548-553.

[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.

[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen y V. Pulkki, "Planar microphone array

processing for the analysis and reproduction of spatial audio using directional audio coding", en Audio Engineering Society Convention 124, Amsterdam, Palses Bajos, mayo de 2008.

[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen y V. Pulkki, "Enhanced direction estimation 5 using microphone arrays for directional audio coding"; en Hands-Free Speech Communication and Microphone

Arrays, 2008. HSCMA 2008, mayo de 2008, pags. 45-48.

[19] R. K. Furness, "Ambisonics - An overview", en AES 8th International Conference, abril de 1990, pags. 181-189.

10 [20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller y E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. En Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edimburgo, Reino Unido, mayo de 2011.

[21] J. Herre, K. Kjorling, J. Breebaart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Roden, W. 15 Oomen, K. Linzmeier, K.S. Chong: "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible

Multichannel Audio Coding", 122nd AES Convention, Viena, Austria, 2007, Preimpresion 7084.

20

[23] C. Faller. Microphone front-ends for spatial audio coders. En Proc. of the AES 125th International Convention, San Francisco, Oct. 2008.

[24] Emmanuel Gallo y Nicolas Tsingos. Extracting and re-rendering structured auditory scenes from field recordings. 25 In AES 30th International Conference on Intelligent Audio Environments, 2007.

[25] Jeroen Breebaart, Jonas Engdegard, Cornelia Falch, Oliver Hellmuth, Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens, Werner Oomen, Barbara Resch, Erik Schuijers y Leonid Terentiev. Spatial audio object coding (saoc) - the upcoming mpeg standard on parametric object based audio coding. En Audio Engineering Society

30 Convention 124, 5 2008.

[26] R. Roy y T. Kailath. ESPRIT-estimation of signal parameters via rotational invariance techniques. Acoustics, Speech and Signal Processing, IEEE Transactions on, 37(7): 984-995, julio 1989.

35 [27] WO2004077884: Tapio Lokki, Juha Merimaa y Ville Pulkki. Method for reproducing natural or modified spatial impression in multichannel listening, 2006.

[28] Svein Berge. Device and method for converting spatial audio signal. Solicitud de patente de Estados Unidos, No. de solicitud 10/547.151.

40

Claims

REIVINDICACIONES

1. Un aparato (150) para generar al menos dos senales de salida de audio basandose en un flujo de

datos de audio que comprende datos de audio relacionados con dos o mas fuentes de sonido, en el que el aparato 5 (150) comprende:

un receptor (160) para recibir el flujo de datos de audio que comprende los datos de audio, en el que los datos de audio comprenden, para cada una de las dos o mas fuentes de sonido, un valor de presion sonora, en el que los datos de audio comprenden ademas, para cada una de las dos o mas fuentes de sonido, un valor de posicion que 10 indica una posicion de una de las dos o mas fuentes de sonido, en el que el valor de posicion comprende al menos dos valores de coordenadas, y en el que los datos de audio comprenden ademas un valor de difusividad del sonido para cada una de las dos o mas fuentes de sonido; y

un modulo de slntesis (170) para generar las al menos dos senales de salida de audio basandose en el valor de presion sonora de cada una de las dos o mas fuentes de sonido, basandose en el valor de posicion de cada una de 15 las dos o mas fuentes de sonido y basandose en el valor de difusividad del sonido de cada una de las dos o mas fuentes de sonido,

en el que el flujo de datos de audio es un flujo de codificacion de audio espacial basada en geometrla, GAC compuesto por M capas, en el que cada una de las M capas comprende el valor de presion sonora Pi(k, n) de una de las dos o mas fuentes de sonido que indica una presion compleja en dicha una de las dos o mas fuentes de sonido, 20 el valor de posicion Qi(k,n) de dicha una de las dos o mas fuentes de sonido, y el valor de difusividad del sonido yi(k,n) de dicha una de las dos o mas fuentes de sonido dependiendo de la relacion de potencia de sonido directo respecto a difuso comprendida en Pi(k,n), en el que k designa un Indice de frecuencia y n designa un Indice de tiempo de un intervalo de tiempo-frecuencia considerado, en el que i indica una de las M capas as! como una de las dos o mas fuentes de sonido,

25 en el que el modulo de slntesis (170) comprende una unidad de slntesis de primera fase (501) para generar una senal de presion sonora directa que comprende sonido directo, una senal de presion sonora difusa que comprende sonido difuso e informacion de direccion de llegada basandose en los valores de presion sonora de los datos de audio del flujo de datos de audio, basandose en los valores de posicion de los datos de audio del flujo de datos de audio y basandose en los valores de difusividad del sonido de los datos de audio del flujo de datos de audio, y 30 en el que el modulo de slntesis (170) comprende una unidad de slntesis de segunda fase (502) para generar las al menos dos senales de salida de audio basandose en la senal de presion sonora directa, la senal de presion sonora difusa y la informacion de direccion de llegada,

en el que la unidad de slntesis de primera fase (501) esta configurada para generar la senal de presion sonora directa y la senal de presion sonora difusa usando la generacion de un sonido directo Pdir.i y un sonido difuso Pdiff.i 35 para cada una de las dos o mas fuentes de sonido aplicando un factor Vi-V" al valor de presion sonora de dicha

una de las dos o mas fuentes de sonido para obtener el sonido directo Pdirj y aplicando un factor al valor de presion sonora de dicha una de las dos o mas fuentes de sonido para obtener el sonido difuso Pdiff,i, siendo y el valor de difusividad del sonido de dicha una de las dos o mas fuentes de sonido, y compensando una degradacion de magnitud del sonido directo Pdir,i desde una posicion indicada por el valor de posicion de dicha una de las dos o mas 40 fuentes de sonido hasta una posicion de un oyente, para obtener un valor de presion sonora directa compensada Pdir,i,

en el que la senal de presion sonora directa comprende el valor de presion sonora directa compensada de esa una de las dos o mas fuentes de sonido que tiene un Indice jmax, con

45

imagen1

en el que P dir,/ es el valor de presion directa compensada de una i-esima fuente de sonido de las dos o mas fuentes de sonido, y

en el que la senal de presion sonora difusa comprende una suma de todos los valores de presion difusa de las dos o 50 mas fuentes de sonido y de todos los valores de presion directa compensada de las dos o mas fuentes de sonido con excepcion del valor de presion directa compensada de la / max-esima fuente de sonido, y

en el que la unidad de slntesis de primera fase (501) comprende una unidad de estimacion de la direccion de llegada DOA (607) para determinar una direccion de llegada de la imax-esima fuente de sonido con respecto a la posicion y la orientacion del oyente.
2. Un sistema, que comprende:

un aparato de acuerdo con la reivindicacion 1, y

un aparato para generar un flujo de datos de audio que comprende datos de fuente de sonido relacionados con dos o mas fuentes de sonido, en el que el aparato para generar un flujo de datos de audio comprende: un determinador (210; 670) para determinar los datos de fuente de sonido basandose en al menos una senal de 5 entrada de audio grabada por al menos un microfono y basandose en informacion complementaria de audio proporcionada por al menos dos microfonos espaciales, siendo la informacion complementaria de audio informacion complementaria espacial que describe el sonido espacial; y

un generador de flujo de datos (220; 680) para generar el flujo de datos de audio, de modo que el flujo de datos de audio comprende los datos de fuente de sonido;

10 en el que cada uno de los al menos dos microfonos espaciales es un aparato para la adquisicion de sonido espacial capaz de recuperar la direccion de llegada del sonido, y

en el que los datos de fuente de sonido comprende uno o mas valores de presion sonora para cada una de las dos o mas fuentes de sonido, en el que los datos de fuente de sonido comprenden ademas uno o mas valores de posicion que indican una posicion de fuente de sonido para cada una de las dos o mas fuentes de sonido, y en el que los 15 datos de fuente de sonido comprenden ademas uno o mas valores de difusividad del sonido para cada una de las dos o mas fuentes de sonido.
3. Un procedimiento para generar al menos dos senales de salida de audio basandose en un flujo de

datos de audio que comprende datos de audio relacionados con dos o mas fuentes de sonido, en el que el 20 procedimiento comprende:

recibir el flujo de datos de audio que comprende los datos de audio, en el que los datos de audio comprenden, para cada una de las dos o mas fuentes de sonido, un valor de presion sonora, en el que los datos de audio comprenden ademas, para cada una de las dos o mas fuentes de sonido, un valor de posicion que indica una posicion de una de 25 las dos o mas fuentes de sonido, en el que el valor de posicion comprende al menos dos valores de coordenadas, y en el que los datos de audio comprenden ademas un valor de difusividad del sonido para cada una de las dos o mas fuentes de sonido; y

generar las al menos dos senales de salida de audio basandose en el valor de presion sonora de cada una de las dos o mas fuentes de sonido, basandose en el valor de posicion de cada una de las dos o mas fuentes de sonido y 30 basandose en el valor de difusividad del sonido de cada una de las dos o mas fuentes de sonido,

en el que el flujo de datos de audio es un flujo de codificacion de audio espacial basada en geometrla, GAC, compuesto por M capas, en el que cada una de las M capas comprende el valor de presion sonora Pi(k, n) de una de las dos o mas fuentes de sonido que indica una presion compleja en dicha una de las dos o mas fuentes de sonido, el valor de posicion Qi(k,n) de dicha una de las dos o mas fuentes de sonido, y el valor de difusividad del sonido 35 yi(k,n) de dicha una de las dos o mas fuentes de sonido dependiendo de la relacion de potencia de sonido directo respecto a difuso comprendida en Pi(k,n), en el que k designa un Indice de frecuencia y n designa un Indice de tiempo de un intervalo de tiempo-frecuencia considerado, en el que i indica una de las M capas as! como una de las dos o mas fuentes de sonido, en el que generar las al menos dos senales de salida de audio comprende generar una senal de presion sonora directa que comprende sonido directo, una senal de presion sonora difusa que 40 comprende sonido difuso e informacion de direccion de llegada basandose en los valores de presion sonora de los datos de audio del flujo de datos de audio, basandose en los valores de posicion de los datos de audio del flujo de datos de audio y basandose en los valores de difusividad del sonido de los datos de audio del flujo de datos de audio, y

en el que generar las al menos dos senales de salida de audio comprende generar las al menos dos senales de 45 salida de audio basandose en la senal de presion sonora directa, la senal de presion sonora difusa y la informacion de direccion de llegada,

en el que generar la senal de presion sonora directa y la senal de presion sonora difusa se lleva a cabo usando generacion de un sonido directo P*,: y un sonido difuso Pdiff.i para cada una de las dos o mas fuentes de sonido

aplicando un factor V1-V al valor de presion sonora de dicha una de las dos o mas fuentes de sonido para obtener

50 el sonido directo Pdirj y aplicando un factor al valor de presion sonora de dicha una de las dos o mas fuentes de sonido para obtener el sonido difuso Pdiff,i, con y siendo el valor de difusividad del sonido de dicha una de las dos o mas fuentes de sonido, mediante compensacion del sonido directo Pdir,i de una degradacion de magnitud desde una posicion indicada por el valor de posicion de dicha una de las dos o mas fuentes de sonido hasta una posicion de un oyente, para obtener un valor de presion sonora directa compensada Pdir,i,

55 en el que la senal de presion sonora directa comprende el valor de presion sonora directa compensada de esa una de las dos o mas fuentes de sonido que tiene un Indice imax, con

imagen2

en el que P dir,/ es el valor de presion directa compensada de una i-esima fuente de sonido de las dos o mas fuentes de sonido, y

en el que la senal de presion sonora difusa comprende una suma de todos los valores de presion difusa de las dos o mas fuentes de sonido y de todos los valores de presion directa compensada de las dos o mas fuentes de sonido 5 con excepcion del valor de presion directa compensada de la / max-esima fuente de sonido, y

determinar una direccion de llegada de la imax-esima fuente de sonido con respecto a la posicion y la orientacion del oyente.
4. Un programa informatico adaptado para implementar el procedimiento de la reivindicacion 3 cuando es

10 ejecutado en un ordenador o un procesador.