ES2573802T3 - Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial - Google Patents

Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial Download PDF

Info

Publication number
ES2573802T3
ES2573802T3 ES12794942.8T ES12794942T ES2573802T3 ES 2573802 T3 ES2573802 T3 ES 2573802T3 ES 12794942 T ES12794942 T ES 12794942T ES 2573802 T3 ES2573802 T3 ES 2573802T3
Authority
ES
Spain
Prior art keywords
microphone
sound
spatial
indicates
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12794942.8T
Other languages
English (en)
Inventor
Giovanni Del Galdo
Oliver Thiergart
Fabian KÜCH
Emanuel Habets
Alexandra Craciun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2573802T3 publication Critical patent/ES2573802T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C2207/00Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
    • G11C2207/16Solid state audio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Un aparato para la ubicacion de microfonos, que comprende: un determinador de densidad de potencia espacial (10; 21) para determinar una densidad de potencia espacial que indica los valores de potencia para una pluralidad de ubicaciones de un ambiente basandose en la informacion de la fuente de sonido que indica uno o mas valores de potencia y uno o mas valores de posicion de una o mas fuentes de sonido ubicadas en el ambiente, y un estimador de informacion espacial (20; 22) para estimar una posicion de un microfono basandose en la densidad de potencia espacial, en el que el estimador de informacion espacial (20; 22) comprende un estimador del centro de la escena sonora (41) para estimar una posicion de un centro de una escena sonora en el ambiente, en el que el estimador de informacion espacial (20; 22) comprende ademas un calculador de la posicion del microfono (42; 44) para determinar la posicion de un microfono basandose en la posicion del centro de la escena sonora, en el que el estimador de informacion espacial (20; 22) comprende un determinador de la orientacion (45) para determinar una orientacion del microfono basandose en la densidad de potencia espacial, en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad de potencia espacial aplicando la formula**Fórmula** para calcular los valores de potencia Γ(x,y,k,n) para la pluralidad de ubicaciones en el ambiente durante un segmento de tiempo-frecuencia (k, n), en el que k indica el indice de frecuencia y n indica el indice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, indican coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k,n) indica el valor de potencia a una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que xESSi, yESSi indican coordenadas de la fuente de sonido i-esima, en el que γi es un valor escalar y en el que g es una funcion que depende de x, y, xESSi, yESSi, k, n y γi, cuando el ambiente es un ambiente bidimensional, o en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad de potencia espacial aplicando la formula**Fórmula** para calcular los valores de potencia Γ(x,y,z,k,n) para la pluralidad de ubicaciones del ambiente para un segmento de tiempo-frecuencia (k, n), en el que k indica el indice de frecuencia y n indica el indice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, z indican las coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k,n) indica el valor de potencia en una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que xESSi, yESSi, zESSi indican las coordenadas de la fuente de sonido i-esima, en el que γi es un valor escalar y en el que g es una funcion que depende de x, y, z, xESSi, yESSi, zESSi, k, n y γi, cuando el ambiente es un ambiente tridimensional.

Description

5
10
15
20
25
30
35
40
45
50
55
60
Aparato y metodo para colocar microfonos basandose en una densidad de potencia espacial
descripcion
La presente invencion se refiere al procesamiento de senales de audio y, en particular, a un aparato y a un metodo para la colocacion automatica de microfonos.
El procesamiento de senales de audio es cada vez mas importante. En particular, el registro de sonidos espaciales se emplea en una pluralidad de aplicaciones. El registro de sonidos espaciales esta destinado a capturar un campo de sonido con la ayuda de multiples microfonos de tal manera que, al momento de la reproduccion, un oyente perciba la imagen sonora tal como se desarrollo en el lugar del registro.
Los enfoques convencionales para el registro de sonidos espaciales normalmente implican microfonos omnidireccionales, espaciados (por ejemplo, estereofoma AB) microfonos direccionales coincidentes (por ejemplo, en estereofoma de intensidad), o microfonos mas sofisticados, tales como un microfono de formato B, por ejemplo, en Ambisonics, vease, por ejemplo,
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11): 859-871, 1985.
Un microfono espacial, por ejemplo, los microfonos direccionales, conjuntos de microfonos, etc., es capaz de registrar el sonido espacial. El termino “microfono espacial” hace referencia a cualquier aparato para la adquisicion direccionalmente selectiva del sonido espacial (por ejemplo microfonos direccionales, conjuntos de microfonos, etc.).
Para la reproduccion de sonidos, los enfoques no parametricos existentes obtienen senales de reproduccion de audio deseadas directamente de las senales registradas del microfono. Una ventaja principal de estos enfoques es que la imagen espacial registrada siempre es relativa al microfono espacial usado.
En muchas aplicaciones, no es posible ni factible colocar un microfono espacial en la posicion deseada que, por ejemplo, puede ser una posicion cercana a una o mas fuentes de sonido. En este caso, sena beneficioso colocar multiples microfonos espaciales mas alejados de las fuentes de sonido activas y aun asf poder capturar la escena sonora tal como se desea.
Algunas aplicaciones emplean dos o mas microfonos espaciales reales. Debena observarse que el termino “microfono espacial real” se refiere al tipo de microfono o combinacion de microfonos deseados (por ejemplo un microfono direccional, un par de microfonos direccionales tal como se usan en los microfonos estereo comunes, pero tambien un conjunto de microfonos), que existe ffsicamente.
Para cada microfono espacial real, la Direccion de llegada (DOA, del ingles Direction Of Arrival) se puede estimar en el dominio tiempo-frecuencia. Usando la informacion recogida por los microfonos espaciales reales, junto con el conocimiento de su posicion relativa, puede ser posible calcular las senales de salida de un microfono espacial virtualmente colocado en una posicion arbitraria (a voluntad) en el ambiente. Este microfono espacial se denomina como “microfono espacial virtual” de aqrn en adelante.
En dichas aplicaciones, la posicion y la orientacion del uno o mas microfonos virtuales necesitan introducirse manualmente. No obstante, se apreciana si una posicion y/u orientacion optima de dichos uno o mas microfonos virtuales se determinara automaticamente. El documento US 2009/0129609 proporciona una solucion a este problema.
Sena ventajoso, si un aparato y metodo pudieran estar disponibles para determinar donde colocar un microfono virtual, donde colocar un microfono ffsico o determinar una posicion de escucha optima. Asimismo, sena ventajoso como colocar un microfono en una orientacion optima. Los terminos “colocacion de microfonos” e “informacion sobre la colocacion” se refieren a como determinar una posicion adecuada de un microfono o un oyente, asf como tambien como determinar una orientacion adecuada de un microfono o un oyente.
El objetivo de la presente invencion es proporcionar conceptos mejorados para la colocacion de microfonos. El objetivo de la presente invencion se consigue por medio de un aparato de acuerdo con la reivindicacion 1, por medio de un metodo de acuerdo con la reivindicacion 10, y por medio de un programa informatico de acuerdo con la reivindicacion 11.
Se proporciona un aparato para determinar las posiciones optimas de escucha o del microfono. El aparato comprende un determinador de densidad de potencia espacial y un estimador de informacion espacial. El determinador de densidad de potencia espacial se adapta para determinar una densidad de potencia espacial que indica valores de potencia para una pluralidad de ubicaciones en un ambiente basandose en informacion de fuentes
5
10
15
20
25
30
35
40
45
50
55
60
de sonido que indica uno o mas valores de potencia y uno o mas valores de posicion de una o mas fuentes de sonido ubicadas en el ambiente. El estimador de informacion espacial se adapta para estimar informacion espacial acustica basandose en la densidad de potencia espacial.
En lo sucesivo, la expresion “microfono virtual” hara referencia, en general, a cualquier tipo de microfono. En particular, el termino “microfono virtual” se refiere tanto a los microfonos virtuales espaciales como a los microfonos no espaciales, asf como tambien a los microfonos espaciales ffsicamente existentes como a los microfonos no espaciales para los cuales ha de determinarse la informacion sobre la colocacion.
El estimador de informacion espacial se adapta para determinar una posicion optima de microfono virtual o una orientacion optima de microfono virtual en un ambiente basandose en la densidad de potencia espacial determinada por el determinador de densidad de potencia espacial. La densidad de potencia espacial se determina por el determinador de densidad de potencia espacial basandose en los valores de potencia de las fuentes de sonido y la correspondiente informacion de posicion.
Se proporciona una forma automatica de determinar una posicion y/u orientacion optima de uno o mas microfonos para describir la escena sonora, por ejemplo, uno o mas microfonos virtuales.
En algunas formas de realizacion, el determinador de densidad de potencia espacial se puede adaptar para hacer uso de la informacion opcional proporcionada por una metrica de importancia que, por ejemplo, representa una medida de la fiabilidad para la estimacion de las posiciones de la ESS.
Por ejemplo, en algunas formas de realizacion, la Psi de difusion del sonido se puede usar como la metrica de importancia. El termino (1 -Psi) se puede entonces multiplicar simplemente a los valores de potencia de la fuente mientras se calcula la densidad de potencia espacial, de tal manera que el sonido difuso contribuira menos que el sonido directo en la determinacion de la densidad de potencia espacial.
Una ventaja importante de los conceptos propuestos es que se pueden aplicar independientemente de la condicion de la sala y no requieren de ninguna informacion a priori con respecto al numero o la posicion de los interlocutores y/o las fuentes ffsicas de sonido. Por consiguiente, el sistema es independiente y se puede adaptar a cualquier clase de escenario usando solamente analisis de sonido. De acuerdo con la tecnica anterior, la informacion a priori debe estar disponible para determinar una posicion y/u orientacion optima de uno o mas microfonos. Esto limita la aplicacion, o bien debe realizarse una estimacion, limitando la precision. Al emplear las formas de realizacion descritas anteriormente, esto no es necesario. La posicion del microfono virtual (o la pluralidad de microfonos virtuales) se calcula al realizar un analisis de escena semiciego y a cambiarlo a continuacion de acuerdo con los requisitos de la aplicacion buscada.
A diferencia de otros metodos para estimar una posicion y/u orientacion optima de los microfonos virtuales, el metodo propuesto no requiere ninguna informacion sobre la escena geometrica considerada. Por ejemplo, no es necesaria una informacion a priori sobre el numero de fuentes activas de sonido (por ejemplo, el numero de participates de una conferencia), ni ninguna informacion sobre las posiciones relativas de las fuentes activas de sonido (por ejemplo, la disposicion de los participates en una sala de conferencias). La informacion sobre el sonido se obtiene solamente de las propiedades de las fuentes activas de sonido, que se denominan “fuentes efectivas de sonido” (ESS, del ingles Effective Sound Sources), que describen la escena sonora. Las ESS modelan una escena sonora espacial en que una o mas ESS estan activas en cierto instante temporal o en cierto segmento de tiempo- frecuencia. En lo sucesivo, el termino “fuente ffsica” se usa para describir una fuente real de la escena sonora, por ejemplo, un interlocutor, mientras que el termino fuente efectiva de sonido (ESS), (tambien denominada “fuente de sonido”), se usa para describir un evento sonoro que esta activo en un unico instante o segmento de tiempo- frecuencia. Cada ESS esta caracterizada por una posicion y por una potencia. Esta informacion permite construir una densidad de potencia espacial, por ejemplo una densidad de potencia espacial, que permite determinar la posicion u orientacion optima del microfono virtual.
Los parametros de la ESS pueden obtenerse, por ejemplo, empleando los conceptos que se explican mas adelante para el aparato para generar una senal de salida de audio de un microfono virtual en una posicion virtual configurable. La estimacion de posicion de los eventos sonoros se explica mas adelante para el aparato para generar una senal de salida de audio de un microfono virtual, y en particular se explica con referencia a las Figs. 15 - 17. Los conceptos allf descritos se pueden emplear para determinar la posicion de una fuente efectiva de sonido. La compensacion de propagacion se explica mas adelante para el aparato para generar una senal de salida de audio de un microfono virtual, y en particular se explica con referencia a las Figs. 17 - 20. Los conceptos allf descritos se pueden emplear para determinar la potencia de una fuente efectiva de sonido.
De acuerdo con una forma de realizacion, el estimador de informacion espacial puede comprender un estimador de centro de escena sonora para estimar una posicion de un centro de una escena sonora en el ambiente. El estimador de informacion espacial puede comprender, ademas, un calculador de la posicion del microfono para calcular una
5
10
15
20
25
30
35
40
45
50
55
60
posicion de un microfono como la informacion espacial acustica basandose en la posicion del centro de la escena sonora.
En otra forma de realizacion, el calculador de la posicion del microfono se puede adaptar para calcular la posicion del microfono, en la que el microfono es un microfono virtual.
Asimismo, de acuerdo con otra forma de realizacion, el estimador de centro de escena sonora se puede adaptar para calcular un centro de gravedad de la densidad de potencia espacial para estimar el centro de la escena sonora.
En otra forma de realizacion, el estimador de centro de escena sonora se puede configurar para determinar un perfil de retardo de potencia basandose en la densidad de potencia espacial y para determinar un retardo de acuerdo con un valor cuadratico medio basandose en el perfil de retardo de potencia para cada una de una pluralidad de ubicaciones en el ambiente. El estimador de centro de escena sonora se puede configurar para determinar la posicion de la ubicacion de la pluralidad de ubicaciones como el centro de la escena sonora, que tiene el retardo mmimo de acuerdo con un valor cuadratico medio de los retardos de acuerdo con un valor cuadratico medio de la pluralidad de ubicaciones.
En otra forma de realizacion, el estimador de centro de escena sonora se puede adaptar para realizar la integracion en cfrculo para estimar el centro de la escena sonora, en la que el estimador de centro de escena sonora se puede adaptar para realizar la integracion en cfrculo al convolucionar la densidad de potencia espacial con un cfrculo aplicando, por ejemplo, la formula
g (x, y) = r (x, y) * C(r,o) (x, y)
en la que r (x, y) es la densidad de potencia espacial, y en la que C(r, 0) (x, y) indica un cfrculo, para determinar un valor de integracion en cfrculo para cada una de la pluralidad de ubicaciones del ambiente, cuando el ambiente es un ambiente bidimensional.
Como alternativa, el estimador de centro de escena sonora se puede adaptar para realizar la integracion en cfrculo al convolucionar la densidad de potencia espacial con una esfera aplicando, por ejemplo, la formula
g (x, y, z) = r (x, y, z) * CM) (x, y, z)
en la que, r (x, y, z) es la densidad de potencia espacial, y en la que C(r, o) (x, y, z) indica una esfera, para determinar un valor de integracion en cfrculo para cada una de la pluralidad de ubicaciones del ambiente, cuando el ambiente es un ambiente tridimensional.
Asimismo, de acuerdo con una forma de realizacion, el estimador de centro de escena sonora se puede adaptar para determinar un maximo de los valores de integracion en cfrculo de cada una de la pluralidad de ubicaciones del ambiente para estimar el centro de la escena sonora.
En otra forma de realizacion, el calculador de la posicion del microfono se puede adaptar para determinar una lmea de ancho mas amplio de una pluralidad de lmeas a traves del centro de la escena sonora en el ambiente. Cada una de la pluralidad de lmeas a traves del centro de la escena sonora puede tener un ancho de energfa, en la que la lmea de ancho mas amplio puede ser la lmea de la pluralidad de lmeas a traves del centro de la escena sonora que tiene el ancho de energfa mas grande.
De acuerdo con una forma de realizacion, el ancho de energfa de una lmea considerada de la pluralidad de lmeas puede indicar una longitud mas grande de un segmento en la lmea considerada, de tal manera que el primer punto del segmento que limita el segmento, y de tal manera que un segundo punto diferente del segmento que limita el segmento tengan, ambos, un valor de potencia indicado por la densidad de potencia espacial, que puede ser mayor o igual a un valor de potencia predefinido. El calculador de la posicion del microfono se puede adaptar para determinar la posicion del microfono de tal manera que una segunda lmea, que atraviesa el centro de la escena sonora y la posicion del microfono puedan ser ortogonales a la lmea de ancho mas amplio.
En una forma de realizacion, el calculador de la posicion del microfono puede estar configurado para aplicar una descomposicion en valores singulares a una matriz que tiene una pluralidad de columnas. Las columnas de la matriz pueden indicar las posiciones de las ubicaciones en el ambiente relativas al centro de la escena sonora. Asimismo, las columnas de la matriz pueden solamente indicar las posiciones de las ubicaciones que tienen los valores de potencia indicados por la densidad de potencia espacial que son superiores a un valor umbral predefinido, o las columnas de la matriz pueden solamente indicar las posiciones de las ubicaciones que tienen los valores de potencia indicados por la densidad de potencia espacial que son mayores o iguales a un valor umbral predefinido.
De acuerdo con otra forma de realizacion, el estimador de informacion espacial puede comprender un determinador
4
5
10
15
20
25
30
35
40
45
50
55
60
de orientacion para determinar una orientacion del microfono basandose en la densidad de potencia espacial. El determinador de orientacion se puede adaptar para determinar la orientacion del microfono de tal manera que el microfono se oriente hacia el centro de la escena sonora. El determinador de orientacion se puede configurar para determinar un valor de integracion f((p) para cada una de una pluralidad de direcciones cp aplicando la formula
ft'mrux
f(ip) = I F(r Cos(^), r sen ($)} • r dr,
M
en el que rmax define una distancia maxima desde el microfono, y en el que el determinador de orientacion esta configurado para determinar la orientacion del microfono basandose en los valores de integracion determinados f(y).
En otra forma de realizacion, el determinador de densidad de potencia espacial se puede adaptar para determinar la densidad de potencia espacial para la pluralidad de ubicaciones del ambiente para un segmento de tiempo- frecuencia (k, n) aplicando la formula
N
r(x,y,k,n) = £ potencia i(k,n) ■ g(yi, x - XEssi, y - yess , k, n), cuando el ambiente es un ambiente bidimensional, o aplicando la formula
N
r(x,y,z,k,n) = £ potencia i(k,n) ■ g(y, x - XEssi, y - yEssi, z - ZEssi , k, n),
i=1
cuando el ambiente es un ambiente tridimensional,
en donde k indica el mdice de frecuencia y n indica el mdice de tiempo, en el que x, y, z indican coordenadas de una de la pluralidad de ubicaciones, en el que potencia i(k,n) indica el valor de potencia a una i-esima fuente de sonido para el segmento de tiempo-frecuencia (k, n), en el que xEssi, yEssi, ZEssi indican coordenadas de la fuente de sonido i-esima, en el que y es un valor escalar que puede representar un indicador de como de fiables son las estimaciones de la posicion de cada fuente efectiva de sonido y en el que g es una funcion que depende de x, y, z, xEssi, yEssi, ZEssi, k, n y y.
Las formas de realizacion de la presente invencion se explican con referencia a los dibujos adjuntos, en los cuales:
ilustra un aparato para la colocacion de microfonos de acuerdo con una forma de realizacion,
representa un aparato para la colocacion de microfonos de acuerdo con otra forma de realizacion.
ilustra las entradas y salidas de un aparato para la colocacion de microfonos de acuerdo con una forma de realizacion,
muestran una pluralidad de escenarios de aplicacion para un aparato para la colocacion de microfonos,
representa un determinador de densidad de potencia espacial 21 de acuerdo con una forma de realizacion,
ilustra funciones delta para construir la funcion g, representa funciones de densidad para construir la funcion g,
ilustra un estimador de informacion espacial de acuerdo con una forma de realizacion,
muestra un estimador de informacion espacial de acuerdo con otra forma de realizacion,
ilustra un calculador de la posicion/orientacion del microfono 44 de acuerdo con otra forma de realizacion que representa mas detalles,
representan optimizacion basandose en el ancho de energfa proyectada de acuerdo con una forma de realizacion,
ilustra un estimador de informacion espacial de acuerdo con otra forma de realizacion, en el que el estimador de informacion espacial ademas comprende un determinador de orientacion,
ilustra un aparato para generar una senal de salida de audio de acuerdo con una forma de realizacion,
Fig.
1
Fig.
2
Fig.
3
Fig.
4a-4c
Fig.
5
Fig.
6a
Fig.
6b
Fig.
7
Fig.
8
Fig.
9
Fig.
10a-10c
Fig.
11
Fig.
12
5
10
15
20
25
30
35
40
45
50
55
60
Fig. 13 ilustra las entradas y salidas de un aparato y un metodo para generar una senal de salida de audio
de acuerdo con una forma de realizacion,
Fig. 14 ilustra la estructura basica de un aparato para generar una senal de salida de audio de acuerdo
con una forma de realizacion que comprende un estimador de posicion de eventos sonoros y un modulo de calculo de informacion,
Fig. 15 muestra un escenario de ejemplo en el cual se representan microfonos espaciales reales segun los
Conjuntos Lineales Uniformes de 3 microfonos cada uno,
Fig. 16 representa dos microfonos espaciales en 3D para estimar la direccion de llegada en espacio 3D,
Fig. 17 ilustra una geometna donde una fuente de sonido del estilo de punto isotropico del segmento de
tiempo-frecuencia actual (k, n) se ubica en una posicion piPLs(k, n),
Fig. 18 representa el modulo de calculo de informacion de acuerdo con una forma de realizacion,
Fig. 19 representa el modulo de calculo de informacion de acuerdo con otra forma de realizacion,
Fig. 20 muestra dos microfonos espaciales reales, un evento sonoro localizado y una posicion de un
microfono virtual espacial,
Fig. 21 ilustra como obtener la direccion de llegada relativa a un microfono virtual de acuerdo con una
forma de realizacion,
Fig. 22 representa una posible forma de obtener la DOA del sonido desde el punto de vista del microfono
virtual de acuerdo con una forma de realizacion,
Fig. 23 ilustra un bloque de calculo de informacion que comprende una unidad de calculo de difusion de
acuerdo con una forma de realizacion,
Fig. 24 representa una unidad de calculo de difusion de acuerdo con una forma de realizacion,
Fig. 25 ilustra un escenario, donde la estimacion de la posicion de los eventos sonoros no es posible,
Fig. 26 muestra un aparato para generar una senal de salida virtual
Fig. 27a-27c ilustran escenarios donde dos conjuntos de microfonos reciben sonido directo, sonido reflejado por una pared y sonido difuso.
La Fig. 1 ilustra un aparato para la colocacion de microfonos de acuerdo con una forma de realizacion. El aparato comprende un determinador de densidad de potencia espacial 10 y un estimador de informacion espacial 20. El determinador de densidad de potencia espacial 10 se adapta para determinar una densidad de potencia espacial spd que indica valores de potencia para una pluralidad de ubicaciones en un ambiente basandose en informacion de fuentes de sonido ssi que indica uno o mas valores de potencia y uno o mas valores de posicion de una o mas fuentes efectivas de sonido (EES) que se encuentran en el ambiente. El estimador de informacion espacial 20 se adapta para estimar la informacion espacial acustica aspi basandose en la densidad de potencia espacial.
La Fig. 2 ilustra un aparato para la colocacion de microfonos de acuerdo con otra forma de realizacion. El aparato comprende un determinador de densidad de potencia espacial 21 para determinar una densidad de potencia espacial (SPD), que tambien se conoce como distribucion de potencia espacial, que indica valores de potencia para una pluralidad de ubicaciones de un ambiente basandose en la informacion de fuentes efectivas de sonido que indica uno o mas valores centrales y valores de posicion de una o mas fuentes efectivas de sonido ubicadas en el ambiente. El aparato ademas comprende un estimador de informacion espacial 22 para estimar una posicion y/u orientacion de un microfono virtual (VM) basandose en la densidad de potencia espacial.
La Fig. 3 ilustra las entradas y salidas de un aparato para la colocacion de microfonos de acuerdo con una forma de realizacion. Las entradas 91, 92, ... 9N al aparato comprenden la potencia, por ejemplo, el valor absoluto de la presion del campo de sonido al cuadrado y la posicion, por ejemplo, coordenadas Cartesianas 2D o 3D. Las fuentes efectivas de sonido (ESS) estan describiendo la escena sonora (campo de sonido).
Las fuentes efectivas de sonido pueden, por ejemplo, ser iguales a las fuentes de sonido puntuales instantaneas (IPLS Instantaneous Point-Like Sound Sources) tal como se describen mas adelante para el aparato para generar
5
10
15
20
25
30
35
40
45
50
55
60
una senal de salida de audio de un microfono virtual en una posicion virtual configurable.
En la salida, se devuelve la posicion y ubicacion de uno o mas microfonos virtuales. En lo sucesivo, el termino “fuente ffsica” se usa para describir una fuente real de la escena sonora, por ejemplo, un interlocutor, mientras que el termino “fuente efectiva de sonido” (ESS), (tambien denominada “fuente de sonido”), se usa para describir un evento sonoro que esta activo en un unico momento o segmento de tiempo-frecuencia, como tambien se usa para la IPLS descrita a continuacion con respecto al aparato para generar una senal de salida de audio de un microfono virtual en una posicion virtual configurable.
Asimismo, debena observarse que el termino “fuente de sonido” cubre tanto fuentes ffsicas asf como tambien fuentes efectivas de sonido.
La entrada del aparato de acuerdo con la forma de realizacion de la Fig. 2, 91, 92, ..., 9N comprende informacion sobre la posicion y correspondiente potencia de la pluralidad de N fuentes efectivas de sonido localizadas dentro de un lapso de tiempo o un segmento de tiempo-frecuencia tal como se describe mas adelante para el aparato para generar una senal de salida de audio de un microfono virtual en una posicion virtual configurable, y como se describe tambien en
[20] Giovanni Del Galdo, Oliver Thiergart, Tobias Weller, y E. A. P. Habets. Generating microphone virtual signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edinburgo, Reino Unido, Mayo 20l1.
Por ejemplo, esta informacion puede estar comprendida en la salida 106 de la Fig. 14 del modulo de calculo de informacion del aparato para generar una senal de salida de audio de un microfono virtual en una posicion virtual configurable considerada mas adelante, para 1, 2, ..., N diferentes segmentos de frecuencia cuando se aplica la transformada de Fourier de tiempo reducido (STFT, del ingles Short-Time Fourier Transform).
Con respecto al aparato para la colocacion de microfonos, se pueden activar diferentes modos de operacion durante cierto intervalo de tiempo, cada uno de los cuales implica diversos escenarios para colocar y orientar dichos uno o mas microfonos virtuales. Un aparato para la colocacion de microfonos se puede emplear para una pluralidad de escenarios de aplicacion:
En un primer escenario de aplicacion, N microfonos omnidireccionales virtuales se pueden colocar dentro de la escena sonora (ver Fig. 4a). Por tanto, en este escenario de aplicacion, un numero de microfonos virtuales estan cubriendo toda la escena sonora.
En un segundo escenario de aplicacion, un unico microfono virtual esta ubicado en un centro acustico de la escena sonora. Por ejemplo, microfonos virtuales omnidireccionales, microfonos virtuales cardioides, o un microfono virtual espacial (tal como un microfono de formato B) se colocan de manera tal que todos los participates se capturan de manera optima (Fig. 4b).
En un tercer escenario de aplicacion, se coloca un microfono espacial 'fuera' de la escena sonora. Por ejemplo, un microfono estereo virtual se coloca de tal manera que se obtenga una imagen espacial amplia, tal como se ilustra en la Fig. 4c.
En un cuarto escenario de aplicacion, la orientacion optima del microfono virtual se estima mientras el microfono virtual se encuentra en una posicion fija (posicion predeterminada), por ejemplo la posicion y la direccionalidad del microfono virtual podnan predefinirse, y solamente la orientacion se calcula en forma automatica.
Debena apreciarse que todas las aplicaciones anteriores pueden incluir adaptabilidad temporal. Por ejemplo, la posicion/orientacion del foco (spot) del microfono virtual sigue un interlocutor a medida que el interlocutor se mueve en la sala.
En las Fig. 2 y 3, se proporciona informacion opcional por una metrica significativa 13, que, por ejemplo, representa una medida de la fiabilidad para la estimacion de las posiciones de la ESS. Por ejemplo, dicha metrica puede obtenerse de las varianzas de los estimadores de la direccion de llegada (cuando se usan dos o mas conjuntos de microfonos segun lo explicado) tal como se explica a continuacion para el aparato para generar una senal de salida de audio de un microfono virtual en una posicion virtual configurable, o a partir del parametro de difusion calculado de acuerdo con lo descrito en
[21] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6): 503-516, junio de 2007.
La metrica puede expresarse ya sea con respecto a todas las entradas 91, ..., 9N, (por ejemplo, puede usarse un valor constante de la metrica para todas las entradas), o puede definirse de manera diferente para cada entrada 91,
5
10
15
20
25
30
35
40
45
50
55
9N. Las salidas 15, 16 del aparato de la Fig. 2 pueden comprender la posicion y/u orientacion de dichos uno o mas microfonos virtuales. Segun la aplicacion, pueden generarse las salidas (posiciones y orientaciones) para una pluralidad de microfonos virtuales, cada una de las cuales corresponde a un microfono virtual espedfico.
La Fig. 5 ilustra un determinador de densidad de potencia espacial 21 de acuerdo con una forma de realizacion. El determinador de densidad de potencia espacial comprende una unidad de procesamiento principal de densidad de potencia espacial 31 y una unidad postprocesamiento de densidad de potencia espacial 32. El determinador de densidad de potencia espacial 21 se adapta para determinar (o bien calcular) una densidad de potencia espacial (SPD) modificada, indicada en lo sucesivo mediante r (x, y, z, k, n), que expresa la potencia localizada en un cierto punto, por ejemplo, (x, y, z) en el espacio para cada segmento de tiempo-frecuencia (k, n). La SPD es generada al integrar los valores de potencia en las posiciones de las fuentes efectivas de sonido 91, ..., 9N, que se introducen en el determinador de densidad de potencia espacial 21.
El calculo de la SPD para un segmento de tiempo-frecuencia (k, n) se puede realizar de acuerdo con la formula
.V
F(.r-. )j. z, jfc, n) = ^ potencia; [k- n) - g{yit a: - tfESSi, y - r/Kss, - z - ii-iss,, k: a),
(1)
en la que, (x, y, z) representan las coordenadas del sistema y XEssi, yEssi, zessi son las coordenadas de la fuente efectiva de sonido i. La metrica de importancia 103 yi representa un indicador de como de fiables son las estimaciones de la posicion de cada fuente efectiva de sonido. Por defecto, la metrica de importancia puede ser igual a 1. Debena observarse aqu que la potenciai y las coordenadas xEssi, yEssi y zEssi corresponden a la entrada 9i de la Fig. 3. Asimismo, debena observarse que, para simplificar su denominacion, la extension (k, n) no se escribira en lo sucesivo. No obstante, las siguientes formulas aun dependen del segmento de tiempo-frecuencia (k, n) considerado particular.
La sPD generada por la espacial unidad de procesamiento principal de densidad de potencia 31 (por ejemplo en la Fig. 5), puede procesarse adicionalmente por la unidad de postprocesamiento de densidad de potencia espacial 32 (postprocesamiento de sPD y modulo de integracion temporal) e integrarse en tiempo, por ejemplo, al emplear un filtro auto-regresivo. Para ser mas robusto contra los valores atfpicos de la escena sonora (es decir, causado por la estimacion incorrecta de la posicion), cualquier clase de filtro postprocesamiento puede aplicarse sobre la sPD. Dicho filtro postprocesamiento puede ser, por ejemplo, un filtro de paso bajo o un filtro morfologico (erosion, dilatacion).
Cuando se calculan la posicion y/u orientacion de dichos uno o mas microfonos virtuales, se puede emplear un parametro opcional que depende de la sPD. Este parametro puede referirse, por ejemplo, a regiones prohibidas y/o preferidas de la sala donde se colocan los microfonos virtuales (VM), o puede hacer referencia a la sPD, eligiendo rangos espedficos de sPD, que satisfacen algunas reglas predeterminadas.
Tal como se puede observar en la formula (1), g es una funcion de la metrica de importancia y (o bien y) en el espacio, que tiene, por defecto, un valor igual a 1. Por el contrario, y se puede usar para tener en cuenta diferentes contribuciones. Por ejemplo, si u2 es la varianza de la estimacion de la posicion, entonces, por ejemplo y se puede
fijara 7 = 7? ■
Como alternativa, es posible emplear la difusion y promedio calculada en los conjuntos de microfonos, dando como resultado y = 1 - y.
Por consiguiente, y se puede elegir de tal manera que se reduzca para estimaciones no fiables y se incremente para estimaciones mas fiables.
Existe una pluralidad de posibilidades para construir la funcion g. Dos ejemplos particularmente utiles en la practica son:
imagen1
(3)
En la primera funcion, 8(x), 8(y) e 8(z) indican funciones delta (vease la Fig. 6a que ilustra las funciones delta). En
8
5
10
15
20
25
30
35
40
45
50
55
una segunda funcion, m = [_r ij j]T, yi = [jAj. fit/ ja-)1 es el vector medio y es la matriz de covarianza de la
funcion g de distribucion de Gauss (vease la Fig. 6b que ilustra las funciones de distribucion). La matriz de covarianza se calcula usando la siguiente formula:
(4)
que depende de la eleccion de y para el escenario donde y = teniendo en cuenta que, por ejemplo, para el
' (7Z
caso 1D:
<72=E[(x-^n
(5)
Tal como se puede ver en la formula (3), la funcion g se puede describir mediante una funcion de distribucion en torno a las posiciones de las fuentes efectivas de sonido dadas por las entradas 91 ... 9N, donde por ejemplo, la metrica de importancia es el valor inverso de la varianza de una distribucion de Gauss. Si la estimacion de una posicion de la fuente de sonido tiene alta fiabilidad, la distribucion acorde sera un tanto acotada, mientras que una estimacion poco fiable corresponded a una alta variante y, por tanto, a una distribucion amplia; vease, por ejemplo, la Fig. 6b que ilustra un ejemplo 1D.
La Fig. 7 ilustra un estimador de informacion espacial 22 de acuerdo con una forma de realizacion. El estimador de informacion espacial comprende un estimador de centro de escena sonora 41 para estimar una posicion de un centro de una escena sonora en el ambiente. Asimismo, el estimador de informacion espacial comprende un calculador de la posicion del microfono 42 para calcular una posicion de un microfono como la informacion espacial acustica basandose en la posicion del centro de la escena sonora.
La Fig. 8 ilustra un estimador de informacion espacial 22 de acuerdo con otra forma de realizacion. El estimador de informacion espacial comprende un calculador de la posicion del microfono virtual 44 que se adapta para calcular una posicion de un microfono virtual y ademas se adapta para determinar una orientacion de un microfono virtual. Por tanto, el calculador de la posicion del microfono virtual 44 tambien se denomina como calculador de la posicion/orientacion del microfono 44.
El estimador de informacion espacial 22 de la Fig. 8 usa como entradas la SPD 23 previamente generada. Devuelve como salidas la posicion 15 y la orientacion 16 de uno o mas microfonos virtuales, segun la aplicacion buscada. El primer bloque de procesamiento, el estimador de centro de escena sonora 41, proporciona una estimacion del centro de la escena sonora. La salida 43 del bloque 41, por ejemplo, la posicion del centro de la escena sonora, se proporciona a continuacion como entrada al segundo bloque de procesamiento, el calculador de la posicion/orientacion del microfono virtual 44. El calculador de la posicion/orientacion del microfono virtual 44 realiza la estimacion real de la posicion final 15 y la orientacion 16 de uno o mas microfonos virtuales, segun la aplicacion buscada.
El estimador de centro de escena sonora 41 proporciona una estimacion del centro de la escena sonora. La salida del estimador de centro de escena sonora 41 se proporciona a continuacion como entrada al calculador de la posicion/orientacion del microfono 44. El calculador de la posicion/orientacion del microfono 44 realiza la estimacion real de la posicion final 15 y/o la orientacion 16 de dichos uno o mas microfonos virtuales de acuerdo con el modo de operacion que caracteriza la aplicacion buscada.
Las formas de realizacion del estimador de centro de escena sonora se explican ahora en mayor detalle. Para obtener el centro de la escena sonora, existen varios conceptos posibles.
De acuerdo con un primer concepto de una primera forma de realizacion, el centro de la escena sonora se obtiene al calcular el centro de gravedad de la SPD r(x,y,z). El valor de r (x,y,z) puede interpretarse como la masa existente en el punto (x,y,z) en el espacio.
De acuerdo con un segundo concepto de una segunda forma de realizacion, la posicion en el espacio con una dispersion de tiempo mmimo del canal debera encontrarse. Esto se consigue al considerar la dispersion del retardo de acuerdo con un valor cuadratico medio (RMS, Root Mean Squared). En primer lugar, para cada punto en el espacio p = (x0, y0), se calcula un perfil de retardo de potencia (PDP) Ap(-t) basandose en la SPD r (x, y, z), por ejemplo usando
Ap (t) = ||r( x, y) -5(t -f)dydx
x y
imagen2
5
10
15
20
25
30
35
40
45
50
donde T = (x - xO)2 + (y - yO)2 / c
A partir de Ap(x), se calcula entonces el retardo RMS usando la siguiente ecuacion:
— 1 i- x. | . , ] ■
V Jo MT)dT
donde Ts representa el retardo medio de Ap(x). La posicion para la cual el retardo medio es minimo
representara el centro de la escena sonora.
De acuerdo con un tercer concepto de una tercera forma de realizacion, que se puede emplear como una alternativa a la estimacion del centro de escena sonora, se propone una “integracion en drculo”. Por ejemplo, en el caso 2D, la SPD r(x, y) se convoluciona con un drculo C(r,0), de acuerdo con la siguiente formula:
g(x,y) = F{x,y)*C(rf0)(x,y),
en la que r es el radio del cfrculo, y en la que o define el centro del cfrculo. El radio r puede ser constante o puede variar segun el valor de potencia en el punto (x,y). Por ejemplo, una potencia alta en el punto (x,y) puede corresponder a un radio grande, mientras que una potencia baja puede corresponder a un radio pequeno. Tambien pueden existir otros factores dependientes de la potencia. Un ejemplo tal debena ser convolucionar el cfrculo con una funcion de Gauss bivariada antes de usarlo para construir la funcion g (x, y). De acuerdo con dicha forma de realizacion, la matriz de covarianza de la funcion de Gauss bivariada se hace dependiente de la potencia en la posicion (x,y), es decir, la potencia alta corresponde a la varianza baja, mientras que la potencia baja corresponde a la varianza alta.
Una vez que se calcula g (x, y), el centro de la escena sonora se puede determinar acuerdo con la siguiente formula:
P centro = arg max q(x,y),
!-,y
En otras formas de realizacion, este concepto se extiende a 3D al emplear una convolucion 3D de r (x, y, z) con una esfera, de manera analoga.
La Fig. 9 ilustra un calculador de la posicion/orientacion del microfono 44 de acuerdo con otra forma de realizacion que ilustra mas detalles. El centro de la escena sonora 43 se proporciona como entrada al calculador de la posicion/orientacion del microfono 44 junto con la SPD 23. En el calculador de la posicion/orientacion del microfono 44, la informacion sobre el centro de la escena sonora 43 se puede copiar, segun la operacion requerida por la aplicacion buscada, a la salida, y usarse directamente como la posicion de un microfono virtual, por ejemplo, cuando el escenario de aplicacion de la Fig. 4b es aplicable, en relacion con el escenario con un microfono virtual ubicado en el centro acustico de la escena sonora.
Como alternativa, la informacion sobre el centro de la escena sonora 43 se puede usar como un parametro de modificacion dentro del calculador de la posicion/orientacion del microfono 44.
Es posible aplicar diferentes conceptos para calcular una posicion del microfono, por ejemplo:
optimizacion basandose en el ancho de energfa proyectada,
optimizacion basandose en el analisis de componentes principales.
Puede suponerse, para fines ilustrativos, que la posicion del microfono se calcule de acuerdo con el escenario de aplicacion de la Fig. 4c en relacion con el escenario de un microfono espacial fuera de la escena complementaria. No obstante, las explicaciones se aplican de igual modo a cualquier otro escenario de aplicacion.
Los conceptos para estimar la posicion de los microfonos virtuales de acuerdo con las formas de realizacion, que se enumeraron previamente, se describiran en mayor detalle a continuacion.
La optimizacion basandose en el ancho de energfa proyectada define un conjunto de lmeas equitativamente espaciadas M que atraviesan el centro de la escena sonora. Para cada una de estas lmeas, en por ejemplo, un escenario 2D, la SPD r(x,y) se proyecta ortogonalmente sobre ellas y se suma.
Las Figs. 10a - 10c ilustran la optimizacion basandose en el ancho de energfa proyectada. En la Fig. 10a, la funcion
10
5
10
15
20
25
30
35
40
45
50
55
de potencia proyectada Pprai se calcula para cada una de las lmeas 11, ■ ■ ■ li, ■ ■ ■ IM. Los correspondientes anchos de la funcion se calculan a continuacion, vease la Fig. 10b. Por ejemplo, el ancho se puede definir como un ancho de -3 dB, que es equivalente a la distancia para la cual los puntos mas a la izquierda y mas a la derecha del segmento de distancia corresponden a un nivel de potencia predefinido, por ejemplo, un nivel de potencia superior a -3 dB. Posteriormente, se identifica la lmea con el ancho mas amplio y el microfono virtual se coloca en direccion ortogonal a la misma. La orientacion del microfono virtual se puede establecer de tal manera que apunte al centro de la escena sonora, tal como se explica en la siguiente seccion. Con este enfoque, se obtienen dos posibles posiciones del microfono virtual (VM), ya que el VM se puede colocar ya sea en direccion ortogonal positiva o negativa.
La distancia a la cual el VM se coloca puede calcularse, por ejemplo, basandose en consideraciones geometricas junto con el angulo de apertura del microfono virtual. Esto se ilustra en la Fig. 10c. La distancia a la cual el VM se coloca vana segun el modo de operacion de la aplicacion buscada. Esto implica construir un triangulo de tal manera que el ancho i de la Fig. 10c represente un lado del triangulo y el centro de gravedad COG es el punto medio del lado. Al llevar la lmea ortogonal al COG y definirla como el bisector del angulo de apertura del VM a, se encuentra el tercer vertice del triangulo. La longitud del bisector proporciona entonces la distancia entre la posicion del VM y el centro de la escena sonora.
De acuerdo con otra forma de realizacion, el concepto de optimizacion descrito basandose en la energfa proyectada se puede extender a 3D. En este caso, se definen planos equitativamente espaciados M2 (en direccion acimutal y en elevacion) en lugar de lmeas M. El ancho corresponde entonces al diametro del cfrculo que comprende la parte mas grande de la energfa proyectada. La posicion final se obtiene al colocar el VM en la normal a la superficie del plano del diametro del cfrculo mas grande. De acuerdo con una forma de realizacion, la distancia desde el centro de la escena sonora hasta la posicion del VM puede calcularse nuevamente, de manera similar al caso 2D, es decir, usando consideraciones geometricas y el angulo de apertura especificado por el modo de operacion.
De acuerdo con otra forma de realizacion, se emplea optimizacion basandose en un analisis de componentes principales. La optimizacion basandose en un procesamiento de tipo analisis de componentes principales usa directamente la informacion disponible a traves de la SPD. Al principio, la SPD r(x,y,z) se cuantifica y se aplica un filtro selectivo de umbral sobre el conjunto de datos cuantificados. De esta manera, se descartan todos los puntos que tienen niveles de energfa inferiores a cierto umbral. Con posterioridad, los puntos restantes hi = [hx,i, hy,i, hz,i]T se centran en promedio (es decir, los puntos centrados en promedio representan las coordenadas de la fuente efectiva i-esima menos las coordenadas del centro de la escena sonora), y a continuacion se reorganizan en una matriz de datos H de la siguiente manera:
imagen3
donde N define el numero de puntos despues de establecer el umbral. A continuacion, la descomposicion en valores singulares (SVD, del ingles Singular Value Decomposition) se aplica a H, de tal manera que se factoriza en el siguiente producto:
VT,
H = U ■ E
La primera columna de U representa el componente principal, que tiene la mayor variabilidad del conjunto de datos. La segunda columna de U es ortogonal a la primera y representa la direccion en la cual queremos colocar el VM. El ancho se proporciona implfcitamente por el primer valor singular en la matriz E. Conociendo el ancho, asf como tambien la direccion, podemos calcular la posicion y la orientacion del VM tal como se describe en el metodo de optimizacion basandose en el ancho de energfa proyectada, segun lo descrito con anterioridad en referencia a las Figs. 10a - 10c.
En otra forma de realizacion, estos metodos se aplican a un problema 2D, que es directo, ya que solamente es necesario ignorar/eliminar el componente de eje z de las ecuaciones y consideraciones.
Para otras aplicaciones, tales como el escenario de aplicacion de la Fig. 4a (una pluralidad de microfonos virtuales que cubren toda la escena sonora), se puede emplear un concepto diferente, tal como un esquema de optimizacion iterativa. En una primera etapa, se identifica la posicion con el valor maximo de la SPD. En consecuencia, se designa la ubicacion del primer VM del total de microfonos virtuales N. Despues de esto, toda la energfa que rodea esta posicion (es decir, hasta cierta distancia) se elimina de la SPD. Las etapas anteriores se repiten hasta que se encuentran todas las posiciones de los microfonos virtuales N. En el caso de que N no se defina, la iteracion se realiza hasta que el valor maximo en la SPD sea menor que un cierto umbral.
5
10
15
20
25
30
35
40
45
50
55
La Fig. 11 ilustra otra forma de realizacion, en la que un estimador de informacion espacial 22 comprende, ademas, un determinador de orientacion 45. El determinador de orientacion 45 se adapta para determinar una orientacion 16 (adecuada) del microfono basandose en la densidad de potencia espacial 23.
A continuacion se describira la estimacion de la orientacion. Los enfoques de optimizacion basandose en el ancho de energfa proyectada as^ como tambien el analisis de componentes principales calculan la orientacion del microfono virtual 15 en forma implfcita, ya que se asume que el microfono virtual esta orientado hacia el centro de la escena sonora.
Para algunos otros escenarios de aplicacion, no obstante, puede ser adecuado calcular la orientacion de manera explfcita, por ejemplo, en un escenario de aplicacion, en el que se estima la orientacion optima del microfono virtual, en el que el microfono virtual se ubica en una posicion fija. En este caso, la orientacion debena determinarse, de tal manera que el microfono virtual capte la mayor parte de la energfa en la escena sonora.
De acuerdo con una forma de realizacion, para determinar la orientacion de un microfono virtual, en primer lugar, las posibles direcciones P se muestrean y se realiza la integracion de acuerdo con la energia de cada una de estas direcciones. Se obtiene la siguiente funcion de P:
imagen4
donde rmax se define como la distancia maxima desde el VM y controla el patron de captacion del VM. A continuacion, la orientacion final $ del VM se calcula como:
donde r es una funcion de ponderacion basandose en las caracteristicas de entrada del VM. Por ejemplo, <r, ■■ - puede ser la funcion que define como se escala la energia que proviene de la direccion <p dada una cierta direccion de visualizacion $ y un patron de captacion espedfico del VM.
A continuacion, se explica un aparato para generar una serial de salida de audio para simular un registro de un microfono virtual en una posicion virtual configurable en un ambiente. Puede emplearse un aparato para la colocacion de microfonos de acuerdo con una de las formas de realizacion descritas con anterioridad para determinar la posicion virtual para el aparato para generar la serial de salida de audio.
La Fig. 12 ilustra un aparato para generar una serial de salida de audio para simular un registro de un microfono virtual en una posicion virtual configurable posVmic en un ambiente. El aparato comprende un estimador de la posicion de eventos sonoros 110 y un modulo de calculo de informacion 120. El estimador de la posicion de eventos sonoros 110 recibe una primera informacion de direccion di1 desde un primer microfono espacial real y una segunda informacion de direccion di2 desde un segundo microfono espacial real. El estimador de la posicion de eventos sonoros 110 se adapta para estimar una posicion de fuente de sonido ssp que indica una posicion de una fuente de sonido en el ambiente, emitiendo la fuente de sonido una onda de sonido, en el que el estimador de la posicion de eventos sonoros 110 se adapta para estimar la posicion de fuente de sonido ssp basandose en una primera informacion de direccion di1 proporcionada por un primer microfono espacial real que esta ubicado en una primera posicion de microfono real pos1mic en el ambiente, y basandose en una segunda informacion de direccion di2 proporcionada por un segundo microfono espacial real que esta ubicado en una segunda posicion de microfono real en el ambiente. El modulo de calculo de informacion 120 se adapta para generar la serial de salida de audio basandose en una primera serial de entrada de audio registrada is1 que se registra por el primer microfono espacial real, basandose en la primera posicion de microfono real pos1mic y basandose en la posicion virtual posVmic del microfono virtual. El modulo de calculo de informacion 120 comprende un compensador de propagacion que esta adaptado para generar una primera serial de audio modificada al modificar la primera serial de entrada de audio registrada is1 compensando un primer retardo o decaimiento de la amplitud entre una llegada de la onda de sonido emitida por la fuente de sonido en el primer microfono espacial real y una llegada de la onda de sonido en el microfono virtual ajustando un valor de amplitud, un valor de magnitud o un valor de fase de la primera serial de entrada de audio registrada es 1, para obtener la serial de salida de audio.
La Fig. 13 ilustra las entradas y salidas de un aparato y un metodo de acuerdo con una forma de realizacion. La informacion de dos o mas microfonos espaciales reales 111, 112, ..., 11N se alimenta al aparato/se procesa por el metodo. Esta informacion comprende senales de audio captadas por los microfonos espaciales reales asf como
5
10
15
20
25
30
35
40
45
50
55
60
tambien informacion de direccion desde los microfonos espaciales reales, por ejemplo estimaciones de direccion de llegada (DOA). Las senales de audio y la informacion de direccion, tal como las estimaciones de direccion de llegada se pueden expresar en un dominio de tiempo-frecuencia. Si, por ejemplo, se desea una reconstruccion geometrica 2D y se elige un dominio STFT (transformada de Fourier de tiempo reducido) tradicional para la representacion de las senales, la DOA se puede expresar como angulos acimutales que dependen de k y n, en concreto los indices de frecuencia y tiempo.
En las formas de realizacion, la ubicacion del evento sonoro en el espacio, asf como tambien la descripcion de la posicion del microfono virtual se pueden realizar basandose en las posiciones y orientaciones de los microfonos espaciales virtuales y reales en un sistema comun de coordenadas. Esta informacion puede representarse por las entradas 121 ... 12N y la entrada 104 en la Fig. 13. La entrada 104 puede especificar adicionalmente la caractenstica del microfono virtual espacial, por ejemplo, su posicion y patron de captacion, tal como se analizara a continuacion. Si el microfono virtual espacial comprende multiples sensores virtuales, sus posiciones y los correspondientes patrones de captacion diferentes pueden considerarse.
La salida del aparato o un correspondiente metodo puede ser, cuando se desea, una o mas senales de sonido 105, que pueden haber sido captadas por un microfono espacial definido y colocado tal como se especifico para 104. Asimismo, el aparato (o, en su defecto, el metodo) puede proporcionar como salida la correspondiente informacion complementaria espacial 106 que puede estimarse empleando el microfono virtual espacial.
La Fig. 14 ilustra un aparato de acuerdo con una forma de realizacion, que comprende dos unidades de procesamiento principales, un estimador de la posicion de eventos sonoros 201 y un modulo de calculo de informacion 202. El estimador de la posicion de eventos sonoros 201 puede llevar a cabo la reconstruccion geometrica basandose en las DOA comprendidas en las entradas 111 ... 11N y basandose en el conocimiento de la posicion y la orientacion de los microfonos espaciales reales, cuando las DOA se han calculado. La salida del estimador de la posicion de eventos sonoros 205 comprende las estimaciones de posicion (ya sea en 2D o 3D) de las fuentes de sonido cuando los eventos sonoros ocurren para cada segmento de tiempo y frecuencia. El segundo bloque de procesamiento 202 es un modulo de calculo de informacion. De acuerdo con la forma de realizacion de la Fig. 14, el segundo bloque de procesamiento 202 calcula una senal del microfono virtual y la informacion complementaria espacial. Por tanto, tambien se denomina como bloque de senal del microfono virtual y calculo de informacion complementaria 202. El bloque de senal del microfono virtual y calculo de informacion complementaria 202 usa las posiciones de los eventos sonoros 205 para procesar las senales de audio comprendidas en 111... 11N para emitir la senal de audio del microfono virtual 105. El bloque 202, si se requiere, tambien puede calcular la informacion complementaria espacial 106 correspondiente al microfono virtual espacial. Las formas de realizacion que siguen ilustran posibilidades de como los bloques 201 y 202 pueden operar.
A continuacion, la estimacion de la posicion de un estimador de la posicion de eventos sonoros de acuerdo con una forma de realizacion se describe en mayor detalle.
Segun la dimension del problema (2D o 3D) y el numero microfonos espaciales, varios soluciones para la estimacion de la posicion son posibles.
Si existen dos microfonos espaciales en 2D, (el caso posible mas simple) es posible una triangulacion simple. La Fig. 15 muestra un escenario de ejemplo en el cual los microfonos espaciales reales se ilustran como Conjuntos Lineales Uniformes (ULA) de 3 microfonos cada uno. La DOA, expresada como los angulos acimutales al(k, n) y a2(k, n), se calcula para el segmento de tiempo-frecuencia (k, n). Esto se consigue al emplear un estimador de la DOA apropiado, tal como ESPRIT,
[13] R. Roy, A. Paulraj, y T. Kailath, “Direction-of-arrival estimation by subspace rotation methods - ESPRIT”, en IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, Estados Unidos, Abril de 1986,
o (rafz) MUSICA, vease
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation”, IEEE Transactions on Antennas and Propagation, vol. 34, n.° 3, pag. 276-280, 1986
a las senales de presion transformadas en el dominio de tiempo-frecuencia.
En la Fig. 15, se ilustran dos microfonos espaciales reales, aqrn, dos conjuntos de microfonos espaciales reales 410, 420. Las dos DOA estimadas al(k, n) y a2(k, n) estan representadas por dos lmeas, una primera lmea 430 que representa DOA al(k, n) y una segunda lmea 440 que representa DOA a2(k, n). La triangulacion es posible mediante consideraciones geometricas simples conociendo la posicion y orientacion de cada conjunto.
La triangulacion falla cuando las dos lmeas 430, 440 estan exactamente paralelas. En las aplicaciones reales, no
5
10
15
20
25
30
35
40
45
50
55
60
obstante, esto es muy improbable. No obstante, no todos los resultados de la triangulacion corresponden a una posicion f^sica o factible para el evento sonoro en el espacio considerado. Por ejemplo, la posicion estimada del evento sonoro podna estar demasiado lejos o incluso fuera del espacio asumido, lo que indica que probablemente las DOA no correspondan a ningun evento sonoro que pueda interpretarse ffsicamente con el modelo usado. Dichos resultados pueden producirse por el ruido del sensor o una reverberacion de la sala demasiado fuerte. Por tanto, de acuerdo con una forma de realizacion, dichos resultados indeseados se senalizan de tal manera que el modulo de calculo de informacion 202 los pueda tratar de forma apropiada.
La Fig. 16 representa un escenario donde la posicion de un evento sonoro se estima en espacio 3D. Se emplean microfonos espaciales apropiados, por ejemplo, un conjunto de microfonos plano o 3D. En la Fig. 16, se ilustra un primer microfono espacial 510, por ejemplo, un primer conjunto de microfonos 3D, y un segundo microfono espacial 520, por ejemplo, un primer conjunto de microfonos 3D. La DOA en el espacio 3D puede expresarse, por ejemplo, como azimut y elevacion. Los vectores unitarios 530, 540 se pueden emplear para expresar las DOA. Dos lmeas 550, 560 se proyectan de acuerdo con las DOA. En 3D, incluso con estimaciones muy fiables, las dos lmeas 550, 560 proyectadas de acuerdo con las DOA podnan no intersectarse. No obstante, la triangulacion puede todavfa llevarse a cabo, por ejemplo, al elegir el punto medio del segmento mas pequeno que conecta las dos lmeas.
De manera similar al caso 2D, la triangulacion puede fallar o puede generar resultados no factibles para ciertas combinaciones de direcciones, que pueden entonces senalizarse, por ejemplo al modulo de calculo de informacion 202 de la Fig. 14.
Si existen mas de dos microfonos espaciales, varias soluciones son posibles. Por ejemplo, la triangulacion explicada con anterioridad podna llevarse a cabo para todos los pares de los microfonos espaciales reales (si N = 3, 1 con 2, 1 con 3, y 2 con 3). Las posiciones resultantes pueden entonces promediarse (a lo largo de x e y, y, si se considera 3D, z).
Como alternativa, se pueden usar conceptos mas complejos. Por ejemplo, los enfoques probabiffsticos se pueden aplicar tal como se describe en
[15] J. Michael Steele, “Optimal Triangulation of Random Samples in the Plane”, The Annals of Probability, Vol. 10, N.° 3 (agosto de 1982), pags. 548-553.
De acuerdo con una forma de realizacion, el campo de sonido se puede analizar en el dominio de tiempo-frecuencia, por ejemplo, obtenido a traves de una transformada de Fourier de tiempo reducido (STFT), en donde k y n indican el mdice de frecuencia k y el mdice de tiempo n, respectivamente. La presion compleja Pv(k, n) en una posicion arbitraria pv para cierto k y n se modela como una unica onda esferica emitida por una fuente del tipo de punto isotropico de banda estrecha, por ejemplo al emplear la formula:
Pv(k,n) = P\pi#(k\Ti) (1)
donde Pipls(K n) es la senal emitida por la IPLS en su posicion piPLS(k, n). El factor complejo y(k, pipls, pv) expresa la propagacion de piPLs(k, n) a pv, por ejemplo, introduce modificaciones apropiadas de fase y magnitud. Aqu se puede asumir que, en cada segmento de tiempo-frecuencia, solamente una IPLS esta activa. No obstante, las multiples IPLS de banda estrecha ubicadas en diferentes posiciones tambien pueden estar activas en un unico instante de tiempo.
Cada IPLS modela el sonido directo o un reflejo de sala distinto. Su posicion piPLs(k, n) puede idealmente corresponder a una fuente de sonido real ubicada en el interior de la sala, o una fuente de sonido especular ubicada fuera, respectivamente. Por tanto, la posicion piPLs(k, n) tambien puede indicar la posicion de un evento sonoro.
Ha de destacarse que la expresion “fuente de sonido real” indica la fuente de sonido real, que existe ffsicamente en el ambiente de registro, tal como los interlocutores o instrumentos musicales. Por el contrario, con las “fuentes de sonido” o los “eventos sonoros” o “IPLS”, hacemos referencia a las fuentes efectivas de sonido, que estan activas en cierto instante de tiempo o en ciertos segmentos de tiempo-frecuencia, en el que las fuentes de sonido pueden representar, por ejemplo, fuentes de sonido reales o fuentes especulares.
Las Figs. 27a-27b ilustran conjuntos de microfonos que localizan fuentes de sonido. Las fuentes de sonido localizadas pueden tener diferentes interpretaciones ffsicas segun su naturaleza. Cuando los conjuntos de microfonos reciben el sonido directo, pueden localizar la posicion de una fuente de sonido verdadera (por ejemplo interlocutores). Cuando los conjuntos de microfonos reciben reflejos, pueden localizar la posicion de una fuente especular. Las fuentes especulares tambien son fuentes de sonido.
La Fig. 27a ilustra un escenario, donde dos conjuntos de microfonos 151 y 152 reciben sonido directo de una fuente
14
5
10
15
20
25
30
35
40
45
50
de sonido real (una fuente de sonido ffsicamente existente) 153.
La Fig. 27b ilustra un escenario, donde dos conjuntos de microfono 161, 162 reciben el sonido reflejado, en el que el sonido se ha reflejado por una pared. Debido a la reflexion, los conjuntos de microfonos 161, 162 localizan la posicion, de donde parece provenir el sonido, a una posicion de una fuente de imagen especular 165, que es diferente de la posicion del altavoz 163.
La fuente de sonido real 153 de la Fig. 27a, asf como la fuente de imagen especular 165 son fuentes de sonido.
La Fig. 27c ilustra un escenario, donde dos conjuntos de microfono 171, 172 reciben sonido difuso y no pueden localizar una fuente de sonido.
Si bien este modelo de onda unica es preciso solo para los ambientes moderadamente reverberantes dado que las senales fuente cumplen la condicion de ortogonalidad disjunta W (WDO), es decir, la superposicion de tiempo- frecuencia es suficientemente pequena. Esto normalmente es valido para las senales del habla, vease, por ejemplo,
[12] S. Rickard y Z. Yilmaz, “On the approximate W-disjoint orthogonality of speech”, en Acoustics, Speech y Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.
Sin embargo, el modelo tambien proporciona una buena estimacion para otros ambientes y en consecuencia tambien es aplicable para estos ambientes.
A continuacion, se explica la estimacion de las posiciones piPLS(k, n) de acuerdo con una forma de realizacion. La posicion piPLS(k, n) de un IPLS activo en un cierto segmento de tiempo-frecuencia, y en consecuencia la estimacion de un evento de sonido en un segmento de tiempo-frecuencia, se estima por medio de la triangulacion basandose en la direccion de llegada (DOA) del sonido medido en al menos dos puntos de observacion diferentes.
La Fig. 17 ilustra una geometna, donde el IPLS del intervalo de frecuencia-tiempo actual (k, n) se ubica en la posicion desconocida piPLS(k, n). Para determinar la informacion de DOA requerida, se emplean dos microfonos espaciales reales, aqrn, dos conjuntos de microfonos, que tiene una geometna, posicion y orientacion conocidas, que se colocan en las posiciones 610 y 620, respectivamente. Los vectores p1 y p2 senalan las posiciones 610, 620, respectivamente. Las orientaciones del conjunto estan definidas por los vectores unitarios c y c2. La DOA del sonido se determina en las posiciones 610 y 620 para cada (k, n) usando un algoritmo de estimacion de DOA, por ejemplo como proporciona en el analisis DirAC (vease [2], [3]). Debido a esto, un primer vector unitario de punto de vista
epov (k, n) y un segundo vector unitario de punto de vista ep°v (k, n) con respecto a un punto de vista de los
conjuntos de microfono (ambos no mostrados en la Fig. 17) se pueden proporcionar como resultado del analisis DirAC. Por ejemplo, cuando se opera en el 2D, el primer vector unitario de punto de vista produce:
POVn
e,
(2)
c.os(tpi(k, n)) senn)) T
Aqrn, ^(k, n) representa el azimut de la DOA estimada en el primer conjunto de microfono, como se ilustra en la Fig. 17. Los correspondientes vectores unitarios DOA e1(k, n) y e2(k, n), con respecto al sistema de coordenadas global en el origen, se puede calcular mediante la aplicacion de las formulas:
e](k,n) = 7?i •e**(Avn)i • e?rt(A, n),
(3)
donde R son matrices de transformacion de las coordenadas, por ejemplo,
Tlx =
Cl,* -£l,V Cl,[J > (4)
cuando opera en 2D y (
11 ..r s t l ■;>. para Hevar a cabo la triangulacion, los vectores de direccion di(k, n)
y d2(k, n) se pueden calcular como:
5
10
15
20
25
30
35
40
45
50
55
diik.n) =d-2(k,n)
(5)
donde di(k, n) = ||di(k, n)|| y d2(k, n) = ||d2(k, n)|| son las distancias no conocidas entre IPLS y los dos conjuntos de microfono. La siguiente ecuacion
Pi 4- di(fe,n) = p2 4- diik,n)
(6)
se puede resolver para di(k, n). Finalmente, la posicion piPLs(k, n) de la IPLS se da en
P[pls(Vi) = di(fc,n)ei(fe,n) - pt.
(7)
En otra forma de realizacion, la ecuacion (6) se puede resolver con d2(k, n) y piPLs(k, n) se calcula de modo empleando d2(k, n).
La ecuacion (6) siempre proporciona una solucion cuando se opera en 2D, a menos que ei(k, n) y e2(k, paralelos. Sin embargo, cuando se usan mas de dos conjuntos de microfono o cuando se opera en 3D, no se puede obtener una solucion cuando los vectores de direccion d no se intersectan. De acuerdo con una forma de realizacion, en este caso, se puede calcular el punto que es mas cercano a todos los vectores de direccion d y el resultado se puede usar como la posicion del IPLs.
En una forma de realizacion, todos los puntos de observacion pi, p2, ... se deben ubicar de modo que el sonido emitido por la IPLS se incluye en el mismo bloque temporal n. Este requerimiento se puede cumplir simplemente cuando la distancia A entre cualquiera de dos de los puntos de observacion es menor de
-R)'
(8)
donde nFFT es la longitud de la ventana STFT, 0 < R < 1 especifica la superposicion entre las tramas de tiempo sucesivas y fs es la frecuencia de muestreo. Por ejemplo, para un STFT de 1024 puntos a 48 kHz con 50 % de superposicion (R = 0,5), el espaciado maximo entre los conjuntos para cumplir el requisito anterior es A = 3,65 m.
A continuacion, se describe con mas detalle un modulo de calculo de informacion 202, por ejemplo, una senal de microfono virtual y el modulo de calculo de la informacion secundaria, de acuerdo con una forma de realizacion.
La Fig. 18 ilustra una vista general esquematica de un modulo de calculo de la informacion 202 de acuerdo con una forma de realizacion. La unidad de calculo de la informacion comprende un compensador de propagacion 500, un combinador 510 y una unidad de ponderacion espectral 520. El modulo de calculo de informacion 202 recibe las estimaciones de la posicion de la fuente de sonido ssp estimadas por un estimador de la posicion de los eventos sonoros, una o mas senales de entrada de audio se registran por uno o mas de los microfonos espaciales reales, las posiciones posRealMic de uno o mas de los microfonos espaciales reales, y la posicion virtual posVmic del microfono virtual. Esto produce una senal de salida de audio os que representa una senal de audio del microfono virtual.
La Fig. 19 ilustra un modulo de calculo de informacion de acuerdo con otra forma de realizacion. El modulo de calculo de informacion de la Fig. 19 comprende un compensador de propagacion 500, un combinador 510 y una unidad de ponderacion espectral 520. El compensador de propagacion 500 comprende un modulo de calculo de los parametros de propagacion 501 y un modulo de compensacion de la propagacion 504. El combinador 510 comprende un modulo de calculo de los factores de combinacion 502 y un modulo de combinacion 505. La unidad de ponderacion espectral 520 comprende una unidad de calculo de ponderaciones espectrales 503, un modulo de aplicacion de ponderaciones espectrales 506 y un modulo de calculo de informacion secundaria espacial 507.
Para calcular la senal de audio del microfono virtual, la informacion geometrica, por ejemplo, la posicion y orientacion de los microfonos espaciales reales 121 ... 12N, la posicion, orientacion y caractensticas del microfono espacial virtual 104, y las estimaciones de posicion de los eventos sonoros 205 se alimentan en el modulo de calculo de
^mav —
/b
analogo n) sean
5
10
15
20
25
30
35
40
45
50
55
60
informacion 202, en particular, en el modulo de calculo de los parametros de propagacion 501 del compensador de propagacion 500, en el modulo de calculo de los factores de combinacion 502 del combinador 510 y en la unidad de calculo de ponderaciones espectrales 503 de la unidad de ponderacion espectral 520. El modulo de calculo de los parametros de propagacion 501, el modulo de calculo de los factores de combinacion 502 y la unidad de calculo de ponderaciones espectrales 503 calculan los parametros usados en la modificacion de las senales de audio 111 ... 11N en el modulo de compensacion de la propagacion 504, el modulo de combinacion 505 y el modulo de aplicacion de ponderaciones espectrales 506.
En el modulo de calculo de informacion 202, las senales de audio 111 ... 11N en primer lugar se pueden modificar para compensar los efectos dados por las diferentes longitudes de propagacion entre las posiciones del evento sonoro y los microfonos espaciales reales. A continuacion las senales se pueden combinar para mejorar por ejemplo la relacion senal a ruido (SNR). Finalmente, la senal resultante a continuacion se puede ponderar espectralmente para tener en cuenta el patron de captacion direccional del microfono virtual, asf como cualquier funcion de ganancia dependiente de la distancia. Estas tres etapas se describen con mas detalle a continuacion.
La compensacion de la propagacion se explica a continuacion con mas detalle. En la porcion superior de la Fig. 20, se ilustran dos microfonos espaciales reales (un primer conjunto de microfonos 910 y un segundo conjunto de microfonos 920), la posicion de un evento sonoro localizado 930 para el intervalo de tiempo-frecuencia (k, n), y la posicion del microfono espacial virtual 940.
La porcion inferior de la Fig. 20 ilustra un eje temporal. Se supone que un evento sonoro se emite en el tiempo t0 y a continuacion se propaga a los microfonos espaciales reales y virtuales. Los retardos de tiempo de llegada asf como las amplitudes cambian con la distancia, de modo a mayor longitud de propagacion, amplitud mas debil y mayor retardo del tiempo de llegada.
Las senales en los dos conjuntos reales son comparables solo si el retardo relativo Dt12 entre ellos es pequeno. Por otra parte, una de las dos senales necesita realinearse temporalmente para compensar el retardo relativo Dt12, y posiblemente, escalarse para compensar los diferentes decaimientos.
La compensacion del retardo entre la llegada al microfono virtual y llegada a los conjuntos de microfono reales (en uno de los microfonos espaciales reales) cambia el retardo independientemente de la ubicacion del evento sonoro, lo que lo hace superfluo para la mayor parte de las aplicaciones.
Nuevamente con respecto a la Fig. 19, el modulo de calculo de los parametros de propagacion 501 esta adaptado para calcular los retardos para corregir para cada microfono espacial real y para cada evento sonoro. Si se desea, tambien calcula los factores de ganancia que se deben considerar para compensar los diferentes decaimientos de amplitud.
Por consiguiente, el modulo de compensacion de la propagacion 504 se configura para usar esta informacion para modificar las senales de audio. Si las senales tienen que desplazarse en una pequena cantidad de tiempo (en comparacion con la ventana de tiempo del banco de filtro), entonces es suficiente una rotacion de fase simple. Si los retardos son mayores, se necesitan implementaciones mas complicadas.
La salida del modulo de compensacion de la propagacion 504 son las senales de audio modificadas expresadas en el dominio de tiempo-frecuencia original.
A continuacion, una estimacion particular de compensacion de la propagacion para un microfono virtual de acuerdo con una forma de realizacion se describira con referencia a la Fig. 17 que entre otros ilustra la posicion 610 de un primer microfono espacial real y la posicion 620 de un segundo microfono espacial real.
En la forma de realizacion que se explica a continuacion, se supone que al menos una primera senal de entrada de audio registrada, por ejemplo, una senal de presion de al menos uno de los microfonos espaciales reales (por ejemplo, los conjuntos de microfono) esta disponible, por ejemplo, la senal de presion de un primer microfono espacial real. Los autores se referiran al microfono considerado como microfono de referencia, a su posicion como posicion de referencia pref y a su senal de presion como senal de presion de referencia Pref(k, n). Sin embargo, la compensacion de la propagacion no solo se puede realizar con respecto a solo una senal de presion, sino tambien con respecto a las senales de presion de una pluralidad o el total de los microfonos espaciales reales.
La relacion entre la senal de presion Pipls(K n) emitida por el IPLS y una senal de presion de referencia Pref(k, n) de un microfono de referencia ubicado en pref puede expresarse por la formula (9):
Acf(fct n) = Pi pls (fc, n) ■ 7 (fc, pivls , Pref) t
5
10
15
20
25
30
35
40
45
50
55
En general, el factor complejo y(k, pa, Pb) expresa la rotacion de fases y decaimiento de amplitud introducido por la propagacion de una onda esferica de su origen en pa a pb. Sin embargo, los ensayos practicos indicados que consideran solo el decaimiento de la amplitud en y conducen a impresiones plausibles de la senal del microfono virtual con significativamente menos artefactos en comparacion tambien con la consideracion de la rotacion de la fase.
La energfa del sonido que se puede medir en un punto determinado en el espacio depende fuertemente de la distancia r desde la fuente de sonido, en la Fig 6 desde la posicion pipls de la fuente de sonido. En muchas situaciones, esta dependencia se puede modelar con suficiente precision usando principios ffsicos bien conocidos, por ejemplo, decaimiento 1/r de la presion sonora en el campo lejano de una fuente puntual. Cuando se conoce la distancia de un microfono de referencia, por ejemplo, el primer microfono real de la fuente de sonido, y cuando tambien se conoce la distancia del microfono virtual desde la fuente de sonido, entonces, se puede estimar la energfa del sonido en la posicion del microfono virtual desde la senal y la energfa del microfono de referencia, por ejemplo el primer microfono espacial real. Esto significa, que la senal de salida del microfono virtual se puede obtener por la aplicacion de ganancias apropiadas a la senal de presion de referencia.
Suponiendo que el primer microfono espacial real es el microfono de referencia, entonces pref = pi. En la Fig. 17, el microfono virtual se ubica en pv. Debido a que se conoce en detalle la geometna de la Fig. 17, la distancia di(k, n) = ||di(k, n)|| entre el microfono de referencia (en la Fig. 17: el primer microfono espacial real) y el IPLS se puede determinar facilmente, asf como la distancia s(k, n) = ||s(k, n)|| entre el microfono virtual y el IPLS, en concreto
s(ktn) = || s(k, n}|| = ||pi + d\(k,n) - p* ||.
(10)
La presion sonora Pv(k, n) en la posicion del microfono virtual se calcula por la combinacion de las formulas (1) y (9), que lleva a
P„ [fc. Tl)
7 (fci pIFLS- ) 7 (fr)PlPLE,Pj*f)
i re I ( ^ i tl)-
(11)
Como se menciono antes, en algunas formas de realizacion, los factores y solo pueden considerar el decaimiento de la amplitud debido a la propagacion. Suponiendo por ejemplo que la presion sonora disminuye con 1/r, entonces
p',{k’n) = ^^p^k'n)
(12)
Cuando se mantiene el modelo de la formula (1), por ejemplo, cuando solo esta presente el sonido directo, entonces la formula (12) puede reconstruir con precision la informacion de la magnitud. Sin embargo, en caso de campos del sonido difuso puros, por ejemplo, cundo no se cumplen las suposiciones del modelo, el modelo presentado produce una des-reverberacion implfcita de la senal cuando el microfono virtual se mueve lejos de las posiciones de los conjuntos sensores. En efecto, como se describio antes, en los campos del sonido difuso, se espera que la mayor parte de IPLS se localicen cerca de los dos conjuntos sensores. En consecuencia, cuando el microfono virtual se mueve lejos de estas posiciones, probablemente se aumenta la distancia s = ||s|| en la Fig. 17. En consecuencia, la magnitud de la presion de referencia disminuye cuando se aplica una ponderacion de acuerdo con la formula (11). En forma correspondiente, cuando se mueve el microfono virtual cerca de una fuente de sonido real, los segmentos de tiempo-frecuencia que corresponden al sonido directo se amplificaran de modo que se percibira la senal de audio global menos difusa. Mediante el ajuste de la regla en la formula (12), se puede controlar la amplificacion del sonido directo y supresion del sonido difuso a voluntad.
Mediante la realizacion de la compensacion de la propagacion sobre la senal de entrada de audio registrada (por ejemplo la senal de presion) del primer microfono espacial real, se obtiene una primera senal de audio modificada.
En las formas de realizacion, una segunda senal de audio modificada se puede obtener por la realizacion de la compensacion de la propagacion sobre una segunda senal de entrada registrada (segunda senal de presion) del segundo microfono espacial real.
En otras formas de realizacion, otras senales de audio se pueden obtener por la realizacion de la compensacion de la propagacion sobre otras senales de entrada de audio registradas (otras senales de presion) de otros microfonos
5
10
15
20
25
30
35
40
45
50
55
60
espaciales reales.
A continuacion, se explica con mas detalle la combinacion de los bloques 502 y 505 de la Fig. 19 de acuerdo con una forma de realizacion. Se supone que dos o mas senales de audio de una pluralidad de microfonos espaciales reales diferentes se han modificado para compensar las diferentes trayectorias de propagacion para obtener dos o mas senales de audio modificadas. Una vez que las senales de audio de los diferentes microfonos espaciales reales se han modificado para compensar las diferentes trayectorias de propagacion, se pueden combinar para mejorar la calidad del audio. Al hacerlo, por ejemplo, se puede aumentar la SNR o se puede reducir la reverberancia.
Las posibles soluciones para la combinacion comprenden:
- Promediado ponderado, por ejemplo, considerar SNR, o la distancia al microfono virtual, o el grado de difusion que se estimo mediante los microfonos espaciales reales. Se pueden emplear las soluciones tradicionales, por ejemplo, relacion de combinacion maxima (MRC) o combinacion de ganancia igual (EQC), o
- Combinacion lineal de algunas o todas las senales de audio modificadas para obtener una senal de combinacion. Las senales de audio modificadas se pueden ponderar en la combinacion lineal para obtener la senal de la combinacion, o
- Seleccion, por ejemplo, solo se usa una senal, por ejemplo, dependiente de SNR o distancia o grado de difusion.
La tarea del modulo 502, si es aplicable, es calcular los parametros para la combinacion, lo que se lleva a cabo en el modulo 505.
A continuacion, se describe con mas detalle la ponderacion espectral de acuerdo con las formas de realizacion. Para esto, se hace referencia a los bloques 503 y 506 de la Fig. 19. En esta etapa final, la senal de audio resultante de la combinacion o de la compensacion de la propagacion de la senales de audio de entrada se pondera en el dominio de tiempo-frecuencia de acuerdo con las caractensticas espaciales del microfono espacial virtual como se especifica en la entrada 104 y/o de acuerdo con la geometna reconstruida (dada en 205).
Para cada segmento de tiempo-frecuencia, la reconstruccion geometrica nos permite obtener facilmente la DOA relativa al microfono virtual, como se muestra en la Fig. 21. Ademas, tambien se puede calcular facilmente la distancia entre el microfono virtual y la posicion del evento sonoro.
La ponderacion para el segmento de tiempo-frecuencia se calcula a continuacion considerando el tipo de microfono virtual deseado.
En caso de microfonos direccionales, las ponderaciones espectrales se pueden calcular de acuerdo con un patron de captacion predefinido. Por ejemplo, de acuerdo con una forma de realizacion, un microfono cardioide puede tener un patron de captacion definido por la funcion g(theta),
g(theta) = 0,5 + 0,5 cos(theta),
donde theta es el angulo entre la direccion de mirada del microfono espacial virtual y la DOA del sonido desde el punto de vista del microfono virtual.
Otra posibilidad son las funciones de decaimiento artfstico (no ffsicas). En ciertas aplicaciones, se puede desear suprimir eventos sonoros alejados del microfono virtual con un factor mas grande que el que caracteriza la propagacion en campo libre. Para este fin, algunas formas de realizacion introducen una funcion de ponderacion adicional que depende de la distancia entre el microfono virtual y el evento sonoro. En una forma de realizacion, solo se deben captar los eventos sonoros dentro de una determinada distancia (por ejemplo en metros) del microfono virtual.
Con respecto a la direccionalidad del microfono virtual, se puede aplicar patrones de direccionalidad arbitraria para el microfono virtual. De este modo, se puede separar por ejemplo una fuente de una escena sonora compleja.
Debido a que la DOA del sonido se puede calcular en la posicion pv del microfono virtual, en concreto
<pv(k} n) = arccos
(13)
imagen5
donde cv es un vector unitario que describe la orientacion del microfono virtual, se pueden realizar las
19
5
10
15
20
25
30
35
40
45
50
55
60
direccionalidades arbitrarias para el microfono virtual. Por ejemplo, suponiendo que Pv(k,n) indica la senal de combinacion o la senal de audio modificado compensado por propagacion, entonces la formula:
n) = PvfU) 1U +
(14)
calcula la salida de un microfono virtual con direccionalidad cardioide. Los patrones direccionales, que se pueden generar potencialmente de esta manera, dependen de la precision de la estimacion de la posicion.
En las formas de realizacion, uno o mas microfonos no espaciales reales, por ejemplo, un microfono omnidireccional o un microfono direccional tal como un cardioide, se colocan en la escena sonora ademas de los microfonos espaciales reales para mejorar adicionalmente la calidad del sonido de las senales del microfono virtual 105 en la Figura 8. Estos microfonos no se usan para reunir ninguna informacion geometrica, sino mas bien solo para proporcionar una senal de audio mas limpia. Estos microfonos se pueden colocar mas cercanos a las fuentes de sonido que los microfonos espaciales. En este caso, de acuerdo con una forma de realizacion, las senales de audio de los microfonos no espaciales reales y sus posiciones se alimentan simplemente al modulo de compensacion de la propagacion 504 de la Fig. 19 para el procesamiento, en vez de las senales de audio de los microfonos espaciales reales. La compensacion de la propagacion a continuacion se realiza para la una o mas senales de audio registradas de los microfonos no espaciales con respecto a la posicion de uno o mas microfonos no espaciales. Por esta razon, se realiza una forma de realizacion usando microfonos no espaciales adicionales.
En una forma de realizacion adicional, se realiza el calculo de la informacion secundaria espacial del microfono virtual. Para calcular la informacion secundaria espacial 106 del microfono, el modulo de calculo de informacion 202 de la Fig. 19 comprende un modulo de calculo de informacion secundaria espacial 507, que esta adaptado para recibir como entrada las posiciones de la fuente de sonido 205 y la posicion, orientacion y caractensticas 104 del microfono virtual. En ciertas formas de realizacion, de acuerdo con la informacion secundaria 106 que se necesita calcular, la senal de audio del microfono virtual 105 tambien se puede tener en cuenta como entrada al modulo de calculo de informacion secundaria espacial 507.
La salida del modulo de calculo de informacion secundaria espacial 507 es la informacion secundaria del microfono virtual 106. Esta informacion secundaria puede ser, por ejemplo, la DOA o el grado de difusion para cada segmento de tiempo-frecuencia (k, n) desde el punto de vista del microfono virtual. Otra informacion secundaria posible puede ser, por ejemplo, el vector de intensidad del sonido activo Ia(k, n) que puede haberse medido en la posicion del microfono virtual. A continuacion se describiran como se pueden obtener estos parametros.
De acuerdo con una forma de realizacion, se realiza la estimacion de DOA para el microfono espacial virtual. El modulo de calculo de informacion 120 esta adaptado para estimar la direccion de la llegada al microfono virtual como informacion secundaria espacial, basandose en un vector de posicion del microfono virtual y basandose en un vector de posicion del evento sonoro como se ilustra en la Fig. 22.
La Fig. 22 ilustra una manera posible de obtener la DOA del sonido desde el punto de vista del microfono virtual. La posicion del evento sonoro, proporcionada por el bloque 205 en la Fig. 19, se puede describir para cada componente de tiempo-frecuencia (k, n) con un vector de posicion r(k, n), el vector de posicion del evento sonoro. De modo similar, la posicion del microfono virtual, proporcionada como la entrada 104 en la Fig. 19, se puede describir con un vector de posicion s(k,n), el vector de posicion del microfono virtual. La direccion de mira del microfono virtual se puede describir con un vector v(k, n). La DOA relativa al microfono virtual se proporciona mediante a(k,n). Esta representa el angulo entre v y la trayectoria de propagacion del sonido h(k,n). h(k, n) se puede calcular mediante el empleo de la formula:
h(k, n) = s(k,n) - r(k, n).
La DOA deseada a(k, n) a continuacion se puede calcular para cada (k, n) por ejemplo por medio de la definicion del producto punto de h(k, n) y v(k,n), es decir
a(k, n) = arcos (h(k, n) • v(k,n) / ( ||h(k, n)|| ||v(k,n)|| ).
En otra forma de realizacion, el modulo de calculo de informacion 120 se puede adaptar para estimar la intensidad del sonido activo en el microfono virtual como informacion secundaria espacial, basandose en un vector de posicion del microfono virtual y basandose en un vector de posicion del evento sonoro como se ilustra en la Fig. 22.
A partir de la DOA a(k, n) definida anteriormente, se puede obtener la intensidad del sonido activo Ia(k, n) en la posicion del microfono virtual. Para esto, se supone que la senal de audio del microfono virtual 105 en la Fig. 19 corresponde a la salida de un microfono omnidireccional, por ejemplo, se supone que el microfono virtual es un
20
5
10
15
20
25
30
35
40
45
50
55
microfono omnidireccional. Mas aun, la direccion de mirada v en la Fig. 22 se supone que es paralela al eje x del sistema de coordenadas. Debido al vector de intensidad del sonido activo deseado Ia(k, n) describe el flujo neto de energfa a traves de la posicion del microfono virtual, podemos calcular Ia(k, n), por ejemplo de acuerdo con la formula:
la(k, n) = - (1/2 rho) |Pv(k, n)|2 * [ cos a(k, n), sen a(k, n) ]T,
donde []T indica un vector transpuesto, rho es la densidad del aire, y Pv (k, n) es la presion sonora medida por el microfono espacial virtual, por ejemplo, la salida 105 del bloque 506 en la Fig. 19.
Si el vector de intensidad activo se debiera calcular expresado en el sistema de coordenadas general pero aun en la posicion del microfono virtual, se puede aplicar la siguiente formula:
la(k, n) = (1/2 rho) |Pv (k, n)|2 h(k, n) / || h(k, n) ||.
El grado de difusion del sonido expresa como se difunde el campo de sonido en un intervalo de tiempo-frecuencia determinado (vease, por ejemplo, [2]). El grado de difusion se expresa como un valor y, en el que 0 < y < 1. Un grado de difusion de 1 indica que la energfa total del campo de sonido de un campo sonoro es completamente difusa. Esta informacion es importante por ejemplo en la reproduccion del sonido espacial. Tradicionalmente, el grado de difusion se calcula en el punto espedfico del espacio en que se coloca un conjunto de microfonos.
De acuerdo con una forma de realizacion, el grado de difusion se puede calcular como un parametro adicional a la informacion secundaria generada por el microfono virtual (VM), que se puede colocar a voluntad en una posicion arbitraria en la escena sonora. Por esta razon, un aparato que tambien calcula el grado de difusion ademas de la senal de audio en una posicion virtual de un microfono virtual se puede observar como un extremo delantero DirAC virtual, ya que es posible producir una corriente DirAC, en concreto una senal de audio, direccion de llegada y grado de difusion, para un punto arbitrario de la escena sonora. La corriente DirAC tambien se puede procesar, almacenar, transmitir, y reproducir en un ajuste multi-altavoz arbitrario. En este caso, el oyente experimenta la escena sonora como si el o ella estuvieran en la posicion especificada por el microfono virtual y estuvieran mirando en la direccion determinada por su orientacion.
La Fig. 23 ilustra un bloque de calculo de la informacion de acuerdo con una forma de realizacion que comprende una unidad de calculo del grado de difusion 801 para calcular el grado de difusion en el microfono virtual. El bloque de calculo de la informacion 202 esta adaptado para recibir las entradas 111 a 11N, que ademas de las entradas de la Fig. 14 tambien incluye el grado de difusion en los microfonos espaciales reales. y(SM1) a y(SMN) indican estos valores. Estas entradas adicionales se alimentan al modulo de calculo de informacion 202. La salida 103 de la unidad de calculo del grado de difusion 801 es el parametro del grado de difusion calculado en la posicion del microfono virtual.
Una unidad de calculo del grado de difusion 801 de una forma de realizacion se ilustra en la Fig. 24 que representa mas detalles. De acuerdo con una forma de realizacion, se estima la energfa del sonido directo y difuso en cada uno de los N microfonos espaciales. Entonces, usando la informacion sobre las posiciones del IPLS, y la informacion en las posiciones de los microfonos espaciales y virtuales, se obtienen N estimaciones de estas energfas en la posicion del microfono virtual. Finalmente, las estimaciones se pueden combinar para mejorar la precision de la estimacion y se puede calcular facilmente el parametro del grado de difusion en el microfono virtual.
e(SM 1) e(SM N) e(SM 1) e(SM N)
Edir a Edir y Ediff a Ediff indican las estimaciones de las energfas del sonido directo y difuso para
los N microfonos espaciales calculados por la unidad de analisis de energfa 810. Si Pi es la senal de presion compleja y yi es el grado de difusion para el microfono espacial i-esimo, a continuacion las energfas se pueden calcular, por ejemplo, de acuerdo con las formulas:
£(SMt> = (,
La energfa del sonido difuso debe ser igual en todas las posiciones, en consecuencia, se puede calcular
E(VM) E(sm 1)
simplemente una estimacion de la energfa de sonido difuso E diff en el microfono virtual promediando Ediff a e(SM N)
Ediff , por ejemplo en una unidad de combinacion de grado de difusion 820, por ejemplo, de acuerdo con la formula:
5
10
15
20
25
30
35
40
45
50
imagen6
_L V"' p(SMi)
jV Av
£=I
e(SM 1) e(SM N)
Una combinacion mas efectiva de las estimaciones Ediff a Ediff se puede realizar considerando la varianza
de los estimadores, por ejemplo, considerando la SNR.
La energfa del sonido directo depende de la distancia a la fuente debido a la propagacion. En consecuencia,
e(SM 1) e(SM N)
Edir a Edir se puede modificar teniendo esto en cuenta. Esto se puede llevar a cabo, por ejemplo, mediante
una unidad de ajuste de la propagacion del sonido directo 830. Por ejemplo, si se supone que la energfa del campo de sonido directo decae con 1 respecto de la distancia al cuadrado, entonces la estimacion para el sonido directo en el microfono virtual para el microfono espacial i-esimo se puede calcular de acuerdo con la formula:
tVM) _/distanciaSMi - H1!^3 {SMi)
“irl ' distancia VM-IPLS,/ ^iir
De modo similar a la unidad de combinacion del grado de difusion 820, se pueden combinar las estimaciones de la energfa del sonido directo obtenida en diferentes microfonos espaciales, por ejemplo por una unidad de combinacion
E(VM)
de sonido directo 840. El resultado es Edir , por ejemplo, la estimacion para la energfa del sonido directo en el
dir
microfono virtual. Se puede calcular el grado de difusion del microfono virtual y calculador del grado de difusion 850, por ejemplo de acuerdo con la formula:
(VM)
por ejemplo, por un sub-
imagen7
Como se menciono antes, en algunos casos, la estimacion de la posicion de los eventos sonoros realizada por un estimador de la posicion de los eventos sonoros falla, por ejemplo, en caso de una direccion equivocada de la estimacion de llegada. La Fig. 25 ilustra un escenario de este tipo. En estos casos, independientemente de los parametros de grado de difusion estimados en el diferente microfono espacial y recibido como entradas 111 a 11N, se puede ajustar el grado de difusion para el microfono virtual 103 a 1 (es decir, completamente difuso), ya que no es posible la reproduccion espacialmente coherente.
Adicionalmente, se puede considerar la fiabilidad de las estimaciones de DOA en los N microfonos espaciales. Esto se puede expresar por ejemplo en terminos de la varianza del estimador de DOA o SNR. Tal informacion se puede tener en cuenta mediante el sub-calculador del grado de difusion 850, de modo que el grado de difusion VM 103 se puede aumentar artificialmente en caso de que las estimaciones de DOA no sean fiables. En efecto, como consecuencia, las estimaciones de la posicion 205 tambien seran no fiables.
La Fig. 26 ilustra un aparato 991 para generar una serial de salida virtual de acuerdo con una forma de realizacion. El aparato 991 para generar una serial de salida virtual comprende un aparato 992 para la colocacion del microfono de acuerdo con una de las formas de realizacion anteriormente descritas que comprende un calculador de la posicion del microfono 993. Ademas, el aparato para generar una serial de salida virtual comprende un aparato 994 para generar una serial de salida de audio de acuerdo con una de las formas de realizacion anteriormente descritas. La serial de salida generada por el aparato 994 para generar una serial de salida de audio es la serial de salida virtual vos. El calculador de la posicion del microfono 992 del aparato para la colocacion de microfonos 991 esta configurado para calcular la posicion de un microfono como una posicion de microfono calculada cmp. El aparato 994 para generar una serial de salida de audio esta configurado para simular un registro de un microfono virtual en la posicion de microfono calculada por el aparato 992 para la colocacion del microfono. Por esto, el aparato 992 para colocacion del microfono calcula la posicion virtual del microfono virtual para el aparato 994 para generar una serial de salida de audio.
Si bien se han descrito algunos aspectos en el contexto de un aparato, es claro que estos aspectos tambien representan una descripcion del metodo correspondiente, donde un bloque o dispositivo corresponde a una etapa del metodo o un rasgo de la etapa del metodo. De modo analogo, los aspectos descritos en el contexto de una etapa del metodo tambien representan una descripcion de un correspondiente bloque o elemento o rasgo de un correspondiente aparato.
La serial descompuesta de la invencion se puede almacenar en un medio de almacenamiento digital o se puede
22
5
10
15
20
25
30
35
40
45
50
55
60
transmitir en un medio de transmision tal como un medio de transmision inalambrica o un medio de transmision por cable tal como internet.
Dependiendo de ciertos requisitos de implementacion, las formas de realizacion de la invencion se pueden implementar en hardware o en software. La implementacion se puede realizar usando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene senales de control legibles electronicamente almacenadas en la misma, que cooperan (o que pueden cooperar) con un sistema informatico programable de modo que se realiza el metodo respectivo.
Algunas formas de realizacion de acuerdo con la invencion comprenden un portador de datos no transitorios que tienen senales de control legibles electronicamente, que pueden cooperar con un sistema informatico programable de modo que se realiza uno de los metodos descritos en la presente.
Generalmente, las formas de realizacion de la presente invencion se pueden implementar como un producto de programa informatico con un codigo de programa, siendo el codigo de programa operativo para realizar uno de los metodos cuando el producto de programa informatico funciona en un ordenador. El codigo de programa por ejemplo se puede almacenar en un portador legible por maquina.
Otras formas de realizacion comprenden el programa informatico para realizar uno de los metodos descritos en la presente, almacenados en un portador legible por maquina.
En otras palabras, una forma de realizacion del metodo de invencion es, en consecuencia, un programa informatico que tiene un codigo de programa para realizar uno de los metodos descritos en la presente, cuando el programa informatico se ejecuta en un ordenador.
Una forma de realizacion de los metodos de la invencion es, en consecuencia, un transportador de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el programa informatico para realizar uno de los metodos descritos en la presente.
Una forma de realizacion del metodo de invencion adicional es, en consecuencia, una corriente de datos o una secuencia de senales que representan el programa informatico para realizar uno de los metodos descritos en la presente. La corriente de datos o la secuencia de senales por ejemplo se pueden configurar para transferirse mediante una conexion de comunicacion de datos, por ejemplo mediante internet.
Una forma de realizacion adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo logico programable, configurado para o adaptado para realizar uno de los metodos descritos en la presente.
Una forma de realizacion adicional comprende un ordenador que tiene instalado en el mismo el programa informatico para realizar uno de los metodos descritos en la presente.
En algunas formas de realizacion, un dispositivo logico programable (por ejemplo un campo de matrices de puertas programables) se puede usar para realizar algunas o todas las funcionalidades de los metodos descritos en la presente. En algunas formas de realizacion, un campo de matrices de puertas programables puede cooperar con un microprocesador para realizar uno de los metodos descritos en la presente. Generalmente, los metodos se realizan con preferencia con algun aparato de hardware.
Las formas de realizacion anteriormente descritas son solo ilustrativas para los principios de la presente invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente seran evidentes para los expertos en la materia. Es la intencion, en consecuencia, estar limitado solo por el alcance de las reivindicaciones de patente proximas y no por los detalles espedficos presentados a modo de descripcion y explicacion de las formas de realizacion en la presente.
Referencias
[1] Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11): 859-871, 1985.
[2] V. Pulkki, “Directional audio coding in spatial sound reproduction and stereo upmixing”, in Proceedings of the aEs 28th International Conference, pag. 251-258, Pitea, Suecia, 30 de junio - 2 de julio de 2006.
[3] V. Pulkki, “Spatial sound reproduction with directional audio coding”, J. Audio Eng. Soc., vol. 55, n.° 6, pag. 503-516, junio de 2007.
[4] C. Faller: “Microphone Front-Ends for Spatial Audio Coders”, in Proceedings of the AES 125th International
5
10
15
20
25
30
35
40
45
50
55
Convention, San Francisco, octubre de 2008.
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuch, D. Mahne, R. Schultz-Amling. y O. Thiergart, “A spatial filtering approach for directional audio coding”, in Audio Engineering Society Convention 126, Munich, Alemania, mayo de 2009.
[6] R. Schultz-Amling, F. Kuch, O. Thiergart, y M. Kallinger, “Acoustical zooming based on a parametric sound field representation”, in Audio Engineering Society Convention 128, Londres Reino Unido, mayo de 2010.
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, y O. Thiergart, “Interactive teleconferencing combining spatial audio object coding and DirAC technology”, in Audio Engineering Society Convention 128, Londres Reino Unido, mayo de 2010.
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
[9] A. Kuntz y R. Rabenstein, “Limitations in the extrapolation of wave fields from circular measurements”, in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
[10] A. Walther y C. Faller, “Linear simulation of spaced microphone arrays using b-format recordings”, in Audio Engiineering Society Convention 128, Londres Reino Unido, mayo de 2010.
[11] Documento US61/287.596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
[12] S. Rickard y Z. Yilmaz, “On the approximate W-disjoint orthogonality of speech”, in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, abril de 2002, vol. 1.
[13] R. Roy, A. Paulraj, y T. Kailath, “Direction-of-arrival estimation by subspace rotation methods - ESPRIT”, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, Estados Unidos, abril de 1986.
[14] R. Schmidt, “Multiple emitter location and signal parameter estimation”, IEEE Transactions on Antennas and Propagation, vol. 34, n.° 3, pag. 276-280, 1986.
[15] J. Michael Steele, “Optimal Triangulation of Random Samples in the Plane”, The Annals of Probability, Vol. 10, N.° 3 (agosto de 1982), pag. 548-553.
[16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989.
[17] R. Schultz-Amling, F. Kuch, M. Kallinger, G. Del Galdo, T. Ahonen y V. Pulkki, “Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding”, in Audio Engineering Society Convention 124, Amsterdam, Pafses Bajos, mayo de 2008.
[18] M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen y V. Pulkki, “Enhanced direction estimation using microphone arrays for directional audio coding;” in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, mayo de 2008, pag. 45-48.
[19] R. K. Furness, “Ambisonics - An overview”, in AES 8th International Conference, abril de 1990, pag. 181-189.
[20] Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, y E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA '11), Edimburgo, Reino Unido, mayo de 2011.
[21] Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6): 503-516, junio de 2007.

Claims (11)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    reivindicaciones
    1. Un aparato para la ubicacion de microfonos, que comprende:
    un determinador de densidad de potencia espacial (10; 21) para determinar una densidad de potencia espacial que indica los valores de potencia para una pluralidad de ubicaciones de un ambiente basandose en la informacion de la fuente de sonido que indica uno o mas valores de potencia y uno o mas valores de posicion de una o mas fuentes de sonido ubicadas en el ambiente, y
    un estimador de informacion espacial (20; 22) para estimar una posicion de un microfono basandose en la densidad de potencia espacial,
    en el que el estimador de informacion espacial (20; 22) comprende un estimador del centro de la escena sonora (41) para estimar una posicion de un centro de una escena sonora en el ambiente,
    en el que el estimador de informacion espacial (20; 22) comprende ademas un calculador de la posicion del microfono (42; 44) para determinar la posicion de un microfono basandose en la posicion del centro de la escena sonora,
    en el que el estimador de informacion espacial (20; 22) comprende un determinador de la orientacion (45) para determinar una orientacion del microfono basandose en la densidad de potencia espacial, en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad de potencia espacial aplicando la formula
    N
    r<x(y,ktn) = ^ potencia i(k,r>) g(ytl x - x^i, y - y^Sf , k, n),
    para calcular los valores de potencia r(x,y,k,n) para la pluralidad de ubicaciones en el ambiente durante un segmento de tiempo-frecuencia (k, n), en el que k indica el mdice de frecuencia y n indica el mdice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, indican coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k, n) indica el valor de potencia a una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que XEssi, yEssi indican coordenadas de la fuente de sonido i-esima, en el que Y es un valor escalar y en el que g es una funcion que depende de x, y, XEssi, yEssi, k, n y y, cuando el ambiente es un ambiente bidimensional, o
    en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad de potencia espacial aplicando la formula
    N
    r(x,y,z,k,n) = X ' xESSi,i Y - ynssi> z > zes$l * k> 4,»
    t-i
    para calcular los valores de potencia r(x,y,z,k,n) para la pluralidad de ubicaciones del ambiente para un segmento de tiempo-frecuencia (k, n), en el que k indica el mdice de frecuencia y n indica el mdice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, z indican las coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k,n) indica el valor de potencia en una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que XEssi, yEssi, ZEssi indican las coordenadas de la fuente de sonido i-esima, en el que y es un valor escalar y en el que g es una funcion que depende de x, y, z, XEssi, yEssi, ZEssi, k, n y yi, cuando el ambiente es un ambiente tridimensional.
  2. 2. Un aparato de acuerdo con la reivindicacion 1, en el que el determinador de la orientacion (45) esta adaptado para determinar la orientacion del microfono de manera que el microfono esta orientado hacia el centro de la escena sonora.
  3. 3. Un aparato de acuerdo con la reivindicacion 1 o 2, en el que el calculador de la posicion del microfono (42; 44) esta adaptado para calcular la posicion del microfono, en el que el microfono es un microfono espacial virtual.
  4. 4. Un aparato de acuerdo con una de las reivindicaciones anteriores, en el que el estimador del centro de la escena sonora (41) esta adaptado para calcular un centro de gravedad de la densidad de potencia espacial para estimar el centro de la escena sonora.
  5. 5. Un aparato de acuerdo con una de las reivindicaciones 1 a 3,
    en el que el estimador de centro de escena sonora (41) esta configurado para determinar un perfil de retardo de potencia basandose en la densidad de potencia espacial y para determinar un retardo de acuerdo con un valor cuadratico medio basandose en el perfil de retardo de potencia para cada una de una pluralidad de ubicaciones en el ambiente, y
    en el que el estimador de centro de escena sonora (41) esta configurado para determinar la ubicacion de la
    25
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    pluralidad de ubicaciones como el centro de la escena sonora, que tiene el retardo de acuerdo con un valor cuadratico medio mmimo de los retardos de acuerdo con unos valores cuadraticos medios de la pluralidad de ubicaciones.
  6. 6. Un aparato de acuerdo con una de las reivindicaciones anteriores,
    en el que el calculador de la posicion del microfono (42; 44) esta adaptado para determinar una lmea de ancho mas amplio de una pluralidad de lmeas a traves del centro de la escena sonora en el ambiente,
    en el que cada una de la pluralidad de lmeas a traves del centro de la escena sonora esta asociada con un ancho de energfa, y en el que la lmea de ancho mas amplio se define como la lmea de la pluralidad de lmeas a traves del centro de la escena sonora que tiene el ancho de energfa mas grande,
    en el que el calculador de la posicion del microfono (42; 44) esta adaptado para determinar la posicion del microfono de manera que una segunda lmea, que atraviesa el centro de la escena sonora y la posicion del microfono es ortogonal a la lmea de ancho mas amplio.
  7. 7. Un aparato de acuerdo con la reivindicacion 6, en el que el ancho de energfa de una lmea considerada de la pluralidad de lmeas indica un ancho mas grande de un segmento de la lmea considerada, de manera que el primer punto del segmento que limita el segmento, y de manera que un segundo punto diferente del segmento que limita el segmento, tienen ambos un valor de potencia indicado por la densidad de potencia espacial, que es mayor que o igual a un valor de potencia predefinido.
  8. 8. Un aparato de acuerdo con una de las reivindicaciones 1 a 5, en el que el calculador de la posicion del microfono (42; 44) esta configurado para aplicar una descomposicion de valor singular a una matriz que tiene una pluralidad de columnas,
    en el que las columnas de la matriz indican posiciones de ubicaciones en el ambiente con relacion al centro de la escena sonora, y
    en el que las columnas de la matriz indican unicamente las posiciones de ubicaciones que tienen valores de potencia indicados por la densidad de potencia espacial que son mayores que un valor umbral predefinido, o las columnas de la matriz unicamente indican las posiciones de las ubicaciones que tienen valores de potencia indicados por la densidad de potencia espacial que son mayores que o iguales a un valor umbral predefinido.
  9. 9. Un aparato (991) para generar una senal de salida virtual, que comprende:
    un aparato para colocacion de microfonos (992) de acuerdo con una de las reivindicaciones 1 a 8, en el que el calculador de la posicion del microfono (993) del aparato para la colocacion de microfonos esta configurado para calcular la posicion de un microfono como una posicion de microfono calculada, y
    un aparato (994) para generar una senal de salida de audio como la senal de salida virtual para simular una grabacion de un microfono virtual en la posicion de microfono calculada, en el que el aparato para generar una senal de salida de audio comprende:
    un estimador de posicion de eventos sonoros (110) para estimar una posicion de fuente de sonido que indica una posicion de una fuente de sonido en el ambiente, emitiendo la fuente de sonido una onda de sonido, en el que el estimador de posicion de eventos sonoros (110) esta adaptado para estimar la posicion de la fuente de sonido basandose en una primera informacion de direccion proporcionada mediante un primer microfono espacial real que esta ubicado en una primera posicion de microfono real en el ambiente, y basandose en una segunda informacion de direccion proporcionada mediante un segundo microfono espacial real que esta ubicado en una segunda posicion de microfono real en el ambiente; y un modulo de calculo de informacion (120) para generar la senal de salida de audio basandose en una primera senal de entrada de audio grabada que se graba mediante el primer microfono espacial real, basandose en la primera posicion de microfono real y basandose en la posicion de microfono calculada.
  10. 10. Un metodo para colocacion de microfonos, que comprende:
    determinar una densidad de potencia espacial que indica valores de potencia para una pluralidad de ubicaciones de un ambiente basandose en informacion de la fuente de sonido que indica uno o mas valores de potencia y uno o mas valores de posicion de una o mas fuentes de sonido ubicadas en el entorno, y estimar una posicion de un microfono basandose en la densidad de potencia espacial, y determinar una orientacion del microfono,
    en el que estimar la posicion del microfono basandose en la densidad de potencia espacial se realiza estimando una posicion de un centro de una escena sonora en el ambiente, y determinando la posicion del microfono basandose en la posicion del centro de la escena sonora,
    en el que el estimador de informacion espacial (20; 22) comprende un determinador de orientacion (45) para determinar una orientacion del microfono, en el que el determinador de orientacion (45) esta adaptado para determinar la orientacion del microfono basandose en la densidad de potencia espacial,
    en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad
    5
    10
    15
    20
    25
    de potencia espacial aplicando la formula
    imagen1
    para calcular los valores de potencia r(x,y,k,n) para la pluralidad de ubicaciones en el ambiente durante un segmento de tiempo-frecuencia (k, n), en el que k indica el mdice de frecuencia y n indica el mdice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, indican coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k,n) indica el valor de potencia a una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que XEssi, yEssi indican coordenadas de la fuente de sonido i-esima, en el que Y es un valor escalar y en el que g es una funcion que depende de x, y, XEssi, yEssi, k, n y y, cuando el ambiente es un ambiente bidimensional, o
    en el que el determinador de densidad de potencia espacial (10; 21) esta adaptado para determinar la densidad de potencia espacial aplicando la formula
    N
    r(x,y,z,k,n) = X ' £<T.. * ' xESSi,i 7 - ynssi> z * zes$l * k> 4,»
    t-i
    para calcular los valores de potencia r(x,y,z,k,n) para la pluralidad de ubicaciones del ambiente para un segmento de tiempo-frecuencia (k, n), en el que k indica el mdice de frecuencia y n indica el mdice de tiempo, en el que N indica un numero de las fuentes de sonido, en el que x, y, z indican las coordenadas de una de la pluralidad de ubicaciones, en el que la potencia i(k,n) indica el valor de potencia en una fuente de sonido i-esima para el segmento de tiempo-frecuencia (k, n), en el que XEssi, yEssi, ZEssi indican las coordenadas de la fuente de sonido i-esima, en el que y es un valor escalar y en el que g es una funcion que depende de x, y, z, XEssi, yEssi, ZEssi, k, n y yi, cuando el ambiente es un ambiente tridimensional.
  11. 11. Producto de programa informatico adecuado para implementar el metodo de acuerdo con la reivindicacion 10 cuando el programa informatico se ejecuta en un ordenador o procesador.
ES12794942.8T 2011-12-02 2012-11-29 Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial Active ES2573802T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11191828 2011-12-02
EP11191828.0A EP2600637A1 (en) 2011-12-02 2011-12-02 Apparatus and method for microphone positioning based on a spatial power density
US13/445,560 US10284947B2 (en) 2011-12-02 2012-04-12 Apparatus and method for microphone positioning based on a spatial power density
US201213445560 2012-04-12
PCT/EP2012/073906 WO2013079568A1 (en) 2011-12-02 2012-11-29 Apparatus and method for microphone positioning based on a spatial power density

Publications (1)

Publication Number Publication Date
ES2573802T3 true ES2573802T3 (es) 2016-06-10

Family

ID=45218364

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12794942.8T Active ES2573802T3 (es) 2011-12-02 2012-11-29 Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial

Country Status (21)

Country Link
US (1) US10284947B2 (es)
EP (2) EP2600637A1 (es)
JP (1) JP5814476B2 (es)
KR (1) KR101591220B1 (es)
CN (1) CN104094613B (es)
AR (1) AR089052A1 (es)
AU (1) AU2012343907B2 (es)
BR (1) BR112014013335B1 (es)
CA (1) CA2857611C (es)
ES (1) ES2573802T3 (es)
HK (1) HK1202746A1 (es)
IN (1) IN2014KN01144A (es)
MX (1) MX338524B (es)
MY (1) MY167624A (es)
PL (1) PL2786593T3 (es)
PT (1) PT2786593E (es)
RU (1) RU2589469C2 (es)
SG (1) SG11201402782VA (es)
TW (1) TWI558228B (es)
WO (1) WO2013079568A1 (es)
ZA (1) ZA201404822B (es)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9307335B2 (en) * 2012-07-31 2016-04-05 Japan Science And Technology Agency Device for estimating placement of physical objects
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
US9042563B1 (en) * 2014-04-11 2015-05-26 John Beaty System and method to localize sound and provide real-time world coordinates with communication
CN104123950B (zh) * 2014-07-17 2015-11-25 努比亚技术有限公司 一种录音方法及装置
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104794894B (zh) * 2015-01-29 2018-02-27 青岛智能产业技术研究院 一种汽车鸣笛噪声监视装置、系统及方法
US9794721B2 (en) * 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
EP3070876A1 (en) 2015-03-17 2016-09-21 Telefonica Digital España, S.L.U. Method and system for improving teleconference services
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
CN104811886B (zh) * 2015-04-10 2018-04-17 西安电子科技大学 基于相位差测量的麦克风阵列测向方法
CN104898091B (zh) * 2015-05-29 2017-07-25 复旦大学 基于迭代优化算法的麦克风阵列自校准声源定位系统
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US10063987B2 (en) 2016-05-31 2018-08-28 Nureva Inc. Method, apparatus, and computer-readable media for focussing sound signals in a shared 3D space
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
JP2019021966A (ja) * 2017-07-11 2019-02-07 オリンパス株式会社 収音装置および収音方法
SG11202000285QA (en) 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
AR112556A1 (es) 2017-07-14 2019-11-13 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado
AU2018298874C1 (en) 2017-07-14 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
PL422711A1 (pl) * 2017-08-31 2019-03-11 Adrian Połaniecki Sposób i urządzenie do detekcji, lokalizowania i identyfikacji pojazdów wytwarzających sygnały akustyczne, a także optyczne, zwłaszcza pojazdów uprzywilejowanych emitujących sygnały akustyczne i/lub świetlne
WO2019149337A1 (en) * 2018-01-30 2019-08-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses for converting an object position of an audio object, audio stream provider, audio content production system, audio playback apparatus, methods and computer programs
GB2572368A (en) * 2018-03-27 2019-10-02 Nokia Technologies Oy Spatial audio capture
WO2019222856A1 (en) * 2018-05-24 2019-11-28 Nureva Inc. Method, apparatus and computer-readable media to manage semi-constant (persistent) sound sources in microphone pickup/focus zones
JP7001566B2 (ja) * 2018-09-04 2022-02-04 本田技研工業株式会社 音響処理装置、音響処理方法、およびプログラム
US11190871B2 (en) 2019-01-29 2021-11-30 Nureva, Inc. Method, apparatus and computer-readable media to create audio focus regions dissociated from the microphone system for the purpose of optimizing audio processing at precise spatial locations in a 3D space
EP3962101A4 (en) * 2019-04-24 2022-07-06 Panasonic Intellectual Property Corporation of America DIRECTION OF ARRIVAL ESTIMATING DEVICE, SYSTEM, AND METHOD FOR DIRECTION OF ARRIVAL
CN110223715B (zh) * 2019-05-07 2021-05-25 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN116978387A (zh) * 2019-07-02 2023-10-31 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和系统
CN110364161A (zh) * 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US11276388B2 (en) * 2020-03-31 2022-03-15 Nuvoton Technology Corporation Beamforming system based on delay distribution model using high frequency phase difference
CN113949967A (zh) * 2020-07-16 2022-01-18 华为技术有限公司 一种会议语音增强的方法、装置和系统
US11483649B2 (en) * 2020-08-21 2022-10-25 Waymo Llc External microphone arrays for sound source localization
GB2602148A (en) * 2020-12-21 2022-06-22 Nokia Technologies Oy Audio rendering with spatial metadata interpolation and source position information
WO2022162878A1 (ja) * 2021-01-29 2022-08-04 日本電信電話株式会社 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
WO2022260646A1 (en) * 2021-06-07 2022-12-15 Hewlett-Packard Development Company, L.P. Microphone directional beamforming adjustments
CN117268796B (zh) * 2023-11-16 2024-01-26 天津大学 车辆故障声学事件检测方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3467758A (en) * 1964-03-12 1969-09-16 Baldwin Co D H Multiple speaker sound output system for reducing intermodulation distortion
JP2687613B2 (ja) * 1989-08-25 1997-12-08 ソニー株式会社 マイクロホン装置
FR2682251B1 (fr) 1991-10-02 1997-04-25 Prescom Sarl Procede et systeme de prise de son, et appareil de prise et de restitution de son.
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
CN1830026B (zh) * 2001-01-30 2011-06-15 汤姆森特许公司 几何源分离的几何信号处理技术
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
WO2004084577A1 (en) * 2003-03-21 2004-09-30 Technische Universiteit Delft Circular microphone array for multi channel audio recording
US7362792B2 (en) * 2004-01-12 2008-04-22 Telefonaktiebolaget Lm Ericsson (Publ) Method of and apparatus for computation of unbiased power delay profile
US7522736B2 (en) * 2004-05-07 2009-04-21 Fuji Xerox Co., Ltd. Systems and methods for microphone localization
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
EP1971183A1 (en) 2005-11-15 2008-09-17 Yamaha Corporation Teleconference device and sound emission/collection device
US7565288B2 (en) 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US8494177B2 (en) 2007-06-13 2013-07-23 Aliphcom Virtual microphone array systems using dual omindirectional microphone array (DOMA)
KR101415026B1 (ko) * 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
ATE554481T1 (de) 2007-11-21 2012-05-15 Nuance Communications Inc Sprecherlokalisierung
JP5686358B2 (ja) 2008-03-07 2015-03-18 学校法人日本大学 音源距離計測装置及びそれを用いた音響情報分離装置
JP5206151B2 (ja) 2008-06-25 2013-06-12 沖電気工業株式会社 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
EP2321978A4 (en) * 2008-08-29 2013-01-23 Dev Audio Pty Ltd MICROPHONE NETWORK SYSTEM AND METHOD FOR ACQUIRING SOUNDS
CN102308597B (zh) * 2009-02-03 2014-09-17 方头技术有限公司 会议传声系统
GB2467534B (en) * 2009-02-04 2014-12-24 Richard Furse Sound system
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5639362B2 (ja) 2010-01-29 2014-12-10 ローランド株式会社 ユーザインターフェイス装置
US8124864B2 (en) 2009-12-04 2012-02-28 Roland Corporation User interface apparatus for displaying vocal or instrumental unit signals in an input musical tone signal
EP2375779A3 (en) 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
JP5728094B2 (ja) * 2010-12-03 2015-06-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 到来方向推定から幾何学的な情報の抽出による音取得
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US9374652B2 (en) 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Conferencing device self test
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals

Also Published As

Publication number Publication date
PT2786593E (pt) 2016-06-24
JP5814476B2 (ja) 2015-11-17
EP2600637A1 (en) 2013-06-05
MX2014006499A (es) 2014-08-18
CN104094613A (zh) 2014-10-08
IN2014KN01144A (es) 2015-10-16
AU2012343907B2 (en) 2015-12-10
AU2012343907A1 (en) 2014-07-17
TWI558228B (zh) 2016-11-11
US20130142342A1 (en) 2013-06-06
PL2786593T3 (pl) 2016-10-31
JP2015502716A (ja) 2015-01-22
SG11201402782VA (en) 2014-06-27
AR089052A1 (es) 2014-07-23
WO2013079568A1 (en) 2013-06-06
MX338524B (es) 2016-04-20
EP2786593B1 (en) 2016-04-27
KR101591220B1 (ko) 2016-02-03
TW201330648A (zh) 2013-07-16
EP2786593A1 (en) 2014-10-08
KR20140099536A (ko) 2014-08-12
RU2589469C2 (ru) 2016-07-10
HK1202746A1 (zh) 2015-10-02
MY167624A (en) 2018-09-20
US10284947B2 (en) 2019-05-07
CN104094613B (zh) 2017-06-09
RU2014126819A (ru) 2016-02-10
BR112014013335A2 (pt) 2021-01-26
CA2857611C (en) 2017-04-25
ZA201404822B (en) 2015-12-23
CA2857611A1 (en) 2013-06-06
BR112014013335B1 (pt) 2021-11-23

Similar Documents

Publication Publication Date Title
ES2573802T3 (es) Aparato y método para colocar micrófonos basándose en una densidad de potencia espacial
ES2525839T3 (es) Adquisición de sonido mediante la extracción de información geométrica de estimativos de dirección de llegada
ES2779198T3 (es) Aparato y procedimiento para la adquisición espacialmente selectiva del sonido mediante triangulación acústica
EP2423702A1 (en) Apparatus and method for resolving ambiguity from a direction of arrival estimate
Zohourian et al. Direct-to-reverberant energy ratio estimation based on interaural coherence and a joint ITD/ILD model
BR112013013678B1 (pt) Aparelho e método para codificação de áudio espacial com base em geometria