ES2433100T3 - Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico "manos libres" que opera en un entorno ruidoso - Google Patents

Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico "manos libres" que opera en un entorno ruidoso Download PDF

Info

Publication number
ES2433100T3
ES2433100T3 ES10727770T ES10727770T ES2433100T3 ES 2433100 T3 ES2433100 T3 ES 2433100T3 ES 10727770 T ES10727770 T ES 10727770T ES 10727770 T ES10727770 T ES 10727770T ES 2433100 T3 ES2433100 T3 ES 2433100T3
Authority
ES
Spain
Prior art keywords
microphones
word
microphone
channel
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10727770T
Other languages
English (en)
Inventor
Guillaume Vitte
Alexandre Briot
Guillaume Pinto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Application granted granted Critical
Publication of ES2433100T3 publication Critical patent/ES2433100T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema multimicrófono de tratamiento de la palabra que opera en un entorno ruidoso, estando cada uno de los micrófonos asociado a un canal y siendo apto para captar una señal acústica ruidosa que comprende una componente útil de palabra procedente de una fuente principal (s(t)) de señal acústica mezclada con una componente de ruido difusa, comprendiendo este procedimiento las etapas siguientes: - digitalización de las señales acústicas captadas simultáneamente por los dos micrófonos (N, M); - transformación de las señales (xn(t), xm(t)) captadas sobre los dos canales, de forma que se produzca una sucesión de tramas en una serie de bandas de frecuencias; - aplicación de un algoritmo de cálculo de un índice de presencia de palabra sobre cada canal; - selección de uno de los dos micrófonos por aplicación a las tramas sucesivas de cada uno de los canales de una regla de decisión en función tanto de un criterio de selección de canal como de dicho índice de presencia de palabra; e - implementación del tratamiento de la palabra a partir de la señal acústica captada por el único micrófono seleccionado, procedimiento caracterizado por que: - dicha transformación de las señales (xn(t), xm(t)) captadas sobre los dos canales es una transformación de Fourier a corto plazo; - dicho índice de presencia de palabra es un índice de confianza calculado para cada banda de frecuencias de cada trama; y - dicho criterio de selección se calcula por bandas de frecuencias sobre las únicas bandas de frecuencias cuyo índice de confianza es superior a un primer canal dado.

Description

Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico “manos libres” que opera en un entorno ruidoso
La invención se refiere al tratamiento de la palabra en un medio ruidoso.
Se refiere, en particular, pero de forma no limitativa, al tratamiento de las señales de palabra captadas por
dispositivos de tipo “manos libres” para vehículos automóviles.
Estos aparatos incorporan un micrófono (“micro”) sensible que capta no solamente la voz del usuario, sino igualmente el ruido circundante, ruido que constituye un elemento perturbador hasta el punto de que, en ciertos casos, puede hacer incomprensibles las palabras del locutor. Lo mismo sucede si se quieren emplear técnicas de reconocimiento de voz, pues es muy difícil efectuar un reconocimiento de forma sobre palabras ahogadas en un nivel de ruido intenso.
Esta dificultad conectada con el ruido ambiente es particularmente restringente en el caso de los dispositivos “manos libres” para vehículos automóviles. En particular, la distancia considerable entre el micro y el locutor provoca un nivel
relativo de ruido intenso que hace difícil la extracción de la señal útil ahogada en el ruido. Asimismo, el medio muy ruidoso típico del entorno automovilístico presenta características espectrales no constantes, es decir que evolucionan de manera imprevisible en función de las condiciones de la conducción: paso por calzadas deformadas
o adoquinadas, radio del coche en funcionamiento, etc.
Algunos de estos dispositivos prevén la utilización de varios micros, generalmente dos micros, y utilizan la media de las señales captadas, u otras operaciones más complejas, para obtener una señal con un nivel de perturbaciones menor. En particular, una técnica llamada beamforming emplea una red de micrófonos para crear, por medios software relativamente simples, una directividad que permite mejorar la relación señal/ruido. Esta técnica presupone, sin embargo, que la posición del locutor con relación a los micros sea casi constante, lo que generalmente es el caso respecto de un teléfono de coche utilizado por el conductor (pero no por el pasajero).
Con carácter general, en todas las técnicas referidas de beamforming, para obtener una eficacia casi satisfactoria se requiere un número importante (al menos superior a cuatro) de micrófonos, lo que no es el caso en la mayoría de las aplicaciones industriales.
Por esta razón, se utilizan más a menudo técnicas que implementan un solo micro.
En este caso es preferible utilizar un micro unidireccional, que ofrezca una mejor relación señal/ruido, pero en una sola dirección fija y, por tanto, para una sola posición del locutor.
Dicho dispositivo “manos libres” para vehículo automóvil se describe por ejemplo en el documento WO 2008/049982 A1 (Parrot SA), que describe los diversos tratamientos de anulación y de supresión de eco, de supresión de ruido, etc., aplicados a una señal captada por un único micro que recoge la señal acústica (ruidosa) del locutor próximo.
La invención tiene por objetivo dicho sistema de tratamiento de la palabra que no utiliza más que un solo micro (por tanto, diferente de los sistemas de tipo beamforming u otros), pero en el que este (único) micro se selecciona automáticamente entre dos micros distintos, o entre varios micros de una red de micrófonos.
El objetivo de la invención consiste en proponer un procedimiento que permita determinar entre estos dos micros o entre todos los micros de la red, aquel que capte la señal de palabra menos ruidosa, para poder activar luego diversos tratamientos (eliminación del ruido, anulación del eco, etc.) sobre la señal captada por el micro así determinado, designado a continuación como “micro de referencia”.
Se conocen diversas técnicas de selección de un micrófono entre varios, por ejemplo en un dispositivo de teleconferencia como el que se describe en el documento EP 1 564 980 A1, que comprende varios micros dirigidos hacia los participantes instalados alrededor del dispositivo. Este documento describe medios de selección dinámica susceptibles de discriminar entre palabra y ruido para no activar en un instante dado más que el micro situado frente al locutor activo.
En el caso de un dispositivo de tipo “manos libres” para vehículo automóvil indicado con anterioridad, la situación más frecuente (aunque no limitativa) es la de un sistema de dos micros. Se contemplan entonces diversas configuraciones.
Una primera configuración consiste en prever dos micros direccionales situados bastante próximos uno de otro, por ejemplo en los dos extremos del frontal de una radio de automóvil situada en la parte central del habitáculo del vehículo, teniendo uno de los micros el lóbulo principal de su diagrama de directividad orientado hacia el conductor y el otro micro hacia el pasajero.
Otra configuración consiste en prever dos micros alejados, por ejemplo situados en la parte alta, en los ángulos extremos de la luz cenital del vehículo, o en los dos extremos del salpicadero del vehículo.
En uno u otro caso, el micro más eficaz para ser seleccionado es la mayor parte de las veces el que está dirigido hacia el locutor activo (ya sea el conductor o el pasajero). Pero a veces puede ser necesario tener en cuenta situaciones particulares: así, en el caso de un motorista que adelantara al vehículo por la izquierda, podría ser preferible seleccionar el micro derecho, incluso si el locutor es el conductor.
El objetivo de la invención es proponer un sistema robusto de selección automática de micrófono para un sistema de dos micros (pudiendo evidentemente la invención aplicarse a la conmutación de un micro entre más de dos micros para la aplicación de los mismos algoritmos a cada par de micros posibles).
La idea subyacente es que, cualquiera que sea la configuración de los micros (próximos o alejados), es posible diferenciar las tomas de sonido efectuadas por cada uno de los micros partiendo de la hipótesis de que la señal captada por uno de los dos micros será mejor que la otra, es decir que uno de los micros estará en mejores condiciones de captar la señal deseada con menos perturbaciones o menos pérdidas que el otro micro.
Uno de los principios de base de la invención consiste en derivar a este efecto un índice de confianza de presencia de una palabra para cada uno de los dos canales correspondientes a los dos micros, y en condicionar la selección de uno o del otro de estos micros a una regla de decisión en función, entre otros factores, de este índice de confianza de presencia de una palabra.
Este principio permite acrecentar de forma sustancial la robustez de la selección del micro de referencia en el curso del tiempo, en función de los resultados calculados sin interrupción, adaptando esta selección a la evolución de las diversas desviaciones y a las variaciones del entorno acústico.
Los objetivos mencionados se obtienen mediante un procedimiento de tipo general divulgado en el documento EP 1 564 980 A1 precitado, es decir, mediante un procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema multimicrófono de tratamiento de la palabra que opera en un entorno ruidoso, estando cada uno de los micrófonos asociado a un canal y siendo cada uno de los micrófonos apto para captar una señal acústica ruidosa que comprende un componente útil de palabra emitida por una fuente principal de señal acústica mezclada con un componente de ruido difuso. Este procedimiento comprende las etapas de:
-
digitalización de las señales acústicas captadas simultáneamente por los dos micrófonos:
-
ejecución de una transformación de las señales captadas sobre los dos canales, para producir una sucesión de tramas en una serie de bandas de frecuencias:
-
aplicación de un algoritmo de cálculo de un índice de presencia de palabra sobre cada canal;
-
selección de uno de los dos micrófonos por aplicación a las tramas sucesivas de cada uno de los canales de una regla de decisión en función tanto de un criterio de selección de canal como de dicho índice de presencia de palabra; e
-
implementación del tratamiento de la palabra a partir de la señal acústica captada por el único micrófono seleccionado.
De manera característica de la invención:
-
la transformación de las señales captadas por los dos canales es una transformación de Fourier a corto plazo;
-
el índice de presencia de palabra es un índice de confianza calculado para cada banda de frecuencias de cada trama; y
-
el criterio de selección se calcula por bandas de frecuencias sobre las únicas bandas de frecuencias cuyo índice de confianza es superior a un primer umbral dado.
Según diversas características subsidiarias de implementación:
-
el procedimiento comprende además una etapa de eliminación, en las tramas sucesivas, de las bandas de frecuencias situadas por debajo de un segundo umbral dado;
-
el índice de confianza de presencia de palabra es una probabilidad de presencia de palabra;
-
el índice de confianza de presencia de palabra se calcula para cada banda de frecuencias y la selección se aplica si el índice es superior a un tercer umbral dado, en un número de bandas de frecuencias superior a un cuarto umbral dado;
-
el sistema multimicrófono de tratamiento de la palabra es un sistema de micrófonos directivos próximos y el criterio de selección de canal es un criterio angular basado en una comparación de las fases respectivas de las señales captadas de forma simultánea sobre los dos canales, siendo el micrófono que debe seleccionarse aquel
para el que la señal se capta antes que el otro;
-
el sistema multimicrófono de tratamiento de la palabra es un sistema de micrófonos directivos o no directivos alejados y el criterio de selección de canal es un criterio energético basado en una comparación de los valores de la relación señal/ruido respectivos de las señales captadas de forma simultánea sobre los dos canales, siendo el micrófono que debe seleccionarse aquel para el que la relación señal/ruido es superior al otro;
-
la selección de uno de los dos micrófonos se lleva a cabo de manera condicionada solamente si la regla de decisión se verifica sobre un número de tramas sucesivas superior a un quinto umbral dado;
-
si se ha decidido una selección de uno de los micrófonos, esta se activa de forma progresiva sobre un periodo de tiempo de transición dado, por aplicación de una ganancia creciente en el canal del micrófono que debe seleccionarse y de una ganancia decreciente en el canal del micrófono que no debe seleccionarse.
A continuación se describirá un ejemplo de implementación del dispositivo de la invención, con referencia a los dibujos adjuntos, en los que las mismas referencias designan elementos funcionalmente similares.
La Figura 1 ilustra de forma esquemática una configuración con dos micrófonos próximos.
La Figura 2 ilustra de forma esquemática una configuración con dos micrófonos alejados.
A continuación se describirá el principio de base de la invención y su aplicación a los dos supuestos de las figuras indicadas anteriormente (micros próximos y micros alejados).
La hipótesis de base es que una de las señales captadas por los dos micrófonos es a priori mejor que la otra, es decir que contiene menos perturbaciones o pérdidas que la otra con relación a la señal de palabra útil.
El objetivo de la invención es determinar entre las dos señales captadas cuál es la mejor, con el fin de aplicar ulteriormente un tratamiento de la palabra (eliminación del ruido, anulación del eco, etc.) a esa única señal seleccionada, denominada a continuación “señal de referencia” o “señal procedente del micro de referencia”.
Dos micros captan una señal emitida por una fuente de señal principal s y la diferencia de posición entre los micros va a producir un conjunto de desfases y de variaciones de amplitud con relación a la señal emitida por s. Más exactamente, se tendrá en función del instante t:
xn (t) = anx s (t
n) + vn (t)
donde an es la atenuación de amplitud debida a la pérdida de energía sobre la trayectoria acústica comprendida entre la posición de la fuente sonora s y el micro indexado n,
n es el desfase entre la señal emitida y recibida por el micro n representando el término suplementario vn el valor del campo de ruido difuso en el lugar donde se encuentra el micro n.
Si se anotan en mayúsculas las transformaciones de Fourier a corto plazo de las señales anteriores, tendremos:
Xn (k,l) = dn (k) x S (k,l) + Vn (k, l)
donde k y l designan, respectivamente, la banda de frecuencias y la trama considerada, con:
donde fk es la frecuencia central de la banda de frecuencias indexada por k.
Se observará que los coeficientes dn(k) dependen únicamente de los datos geométricos del sistema y no de la naturaleza de la señal emitida s. Estos coeficientes son por otro lado característicos de la configuración geométrica considerada.
A continuación se analizarán los dos supuestos de las figuras, a saber:
-
configuración con micros próximos, donde se considerará que la distancia entre los dos micros es pequeña ante la distancia entre la fuente y los micros (una definición matemática más precisa de esta condición se ofrecerá más adelante); y
-
configuración con micros alejados, donde se considerará que la distancia entre la fuente y uno de los dos micros es relativamente mayor que entre la fuente y el otro micro.
Configuración con micrófonos próximos
Esta configuración, ilustrada de forma esquemática en la Figura 1, se encuentra por ejemplo en el caso de que los dos micros estén dispuestos al nivel del frontal de una radio de automóvil, estando dicha radio colocada en posición central sobre el salpicadero del vehículo. La distancia entre los micros es típicamente del orden de 5 cm, como máximo 10 cm.
Se utilizarán de forma muy ventajosa en esta configuración micros directivos, orientados de manera diferente. Si se designan los dos micros como N y M, el micro M tendrá, idealmente, un diagrama de directividad cuyo lóbulo principal cubra el medio plano Pm, mientras que el micro N tendrá un diagrama de directividad que cubra el otro medio plano Pn.
En el caso considerado aquí de micros próximos, se podrá hacer la aproximación que la fuente sonora emite una onda plana (basta con que la fuente esté alejada en al menos algunos centímetros de los micros) y se buscará simplemente evaluar la dirección de propagación de la onda en cuestión (en el espacio o en proyección sobre un plano particular). Entonces sólo será útil la información de desfase entre los micros y se utilizará entonces la fórmula:
donde E designa la esperanza matemática, que podrá evaluarse por el cálculo del valor medio del producto considerado sobre varias tramas.
La hipótesis con “micros próximos” puede expresarse de manera más precisa por una condición sobre la distancia ln,m en los dos micros, debiendo el desfase Δø entre xn(t) y xm(t) pertenecer al intervalo [-π;π] para evitar las confusiones entre retrasos y avances, es decir:
Si, no obstante, la distancia D es mayor, es posible utilizar el mismo algoritmo, pero retirando del conjunto analizado las frecuencias más altas. La frecuencia máxima se expresará entonces:
Basta con determinar en cuál de los dos medios planos Pn o Pm se sitúa la fuente. El problema se reduce pues al estudio del signo de la expresión arg(E ( m (k, l) Xn (k. l))):
Teóricamente, para una trama dada, los ángulos θn,m (k, l) deberían ser los mismos para todas las frecuencias. En la práctica, la componente de ruido introduce ligeras variaciones. El signo de:
por tanto se va a calcular para diferentes frecuencias y se adoptará una decisión global en función de la repartición de los resultados por frecuencias, calculando una suma de decisiones elementales no ponderadas.
En la práctica, diversos ruidos de fase entran en juego y para valores débiles de θn,m (k, l) la determinación del signo de (θn,m (k, l) puede desviarse. No obstante, la fórmula:
pone de manifiesto el hecho de que el término de ruido tendrá menos impacto en las altas frecuencias. En consecuencia, los cálculos realizados para valores débiles de k serán menos fiables, especialmente si el ángulo de incidencia de la señal es pequeño. Será, por tanto, deseable utilizar una ponderación con un índice de confianza más elevado en las altas frecuencias.
Como no se trata aquí de una media, sino solamente de un descuento de los signos sobre un conjunto de frecuencias, se pueden excluir de este cálculo las frecuencias más bajas (aquellas para las que k ≤ kmin). En definitiva, la regla de selección será la siguiente (siendo NbPlusThreshold un umbral predeterminado):
para la trama l:
-
M es el mejor micro si Card(E+) - Card(E-) > NbPlusThreshold
-
N es el mejor micro si Card(E-) - Card(E+) > NbPlusThreshold
- Si no, ninguna decisión. con:
En otras palabras, en lugar de medir el ángulo de incidencia de la señal procedente de la fuente a partir de los desfases relativos de las señales captadas por los micros, se determina el signo de la expresión anterior para cada banda de un subconjunto de bandas de frecuencias y se descuentan estos signos. Si el descuento muestra una mayoría significativa (determinada por el umbral NbPlusThreshold) a favor de uno de los micros N o M, entonces este será considerado como el micro de referencia.
Configuración con dos micros alejados
Esta configuración se ilustra de forma esquemática en la Figura 2.
La distancia entre los micros es aquí del orden de 1 a 1,5 m, correspondiente por ejemplo a una instalación en la que los dos micros están situados a cada lado de la luz cenital del habitáculo del vehículo.
En esta configuración, la información de desfase ya no es explotable, pues la distancia entre los dos micrófonos es demasiado elevada (correlación insuficiente y confusión entre retardo y avance).
Por contra, los términos an y am de atenuación de la señal son mucho más pertinentes. En efecto, en la señal captada globalmente por uno de los micros, la contribución de la fuente, es decir la señal útil, será tanto más débil cuanto más alejado esté este micro de dicha fuente.
Aquí ya no es necesario utilizar micros directivos para diferenciar las dos tomas de sonido. En efecto, esta diferenciación será intrínseca a la dirección de los micros con relación a la fuente: por ejemplo, en el caso de un automóvil, uno de los micros estará mucho más cerca del conductor y el otro del pasajero. El ruido será, por tanto, mucho más atenuado en la señal captada por uno de los micros que en la señal captada por el otro.
El principio de base consiste, en estas condiciones, en utilizar como criterio de selección el valor de la relación señal/ruido. El criterio de selección ya no es, por tanto, un criterio angular, como en el caso de los micros próximos, sino un criterio energético.
La decisión se tomará con relación a un umbral ΔSNRThreshold sobre el mismo principio que para el criterio angular en la configuración de micros próximos. La regla de decisión será la siguiente:
para la trama l :
-
M es mejor micro si SNRm(l) - SNRn(I) > ΔSNRThreshold
-
N es mejor micro si SNRn(l) - SNRm(l) > ΔSNRThreshold
- Si no, ninguna decisión con:
designando m(k,l) y n(k,l) las estimaciones de la componente de ruido respectivamente captada por los micros M y N.
Refuerzo de la robustez de la selección del micro de referencia
Las técnicas de selección automática del micro de referencia están sometidas a diversas desviaciones ligadas al ruido y a las aproximaciones de cálculo.
Para evitar un número excesivo de malas detecciones, la presente invención propone completar estas técnicas de selección automática por un mecanismo global que procura una robustez excelente a los ruidos difusos y eficaz cualquiera que sea la técnica de tratamiento aplicada posteriormente a la señal de referencia seleccionada (interrelación, suma, …). Esencialmente, la invención propone derivar un índice de confianza de presencia de palabra en cada una de las señales captadas por los micros y condicionar la selección del micro de referencia a un nivel mínimo de este índice de confianza de presencia de palabra.
En efecto, es inútil pretender seleccionar uno de los dos micros antes que el otro si la señal útil de la fuente (la palabra del locutor) es nula. Convendrá, por tanto, no aplicar los criterios de selección indicados anteriormente más que sobre las tramas para las que la señal de la fuente está -verosímilmente- presente.
El índice de confianza puede ser en particular una probabilidad de presencia de palabra, calculada de la manera descrita por el documento WO 2007/0992221 A1 (Parrot SA) por ejemplo, que describe un procedimiento de eliminación de ruidos que implica el cálculo de dicha probabilidad, procedimiento derivado de la técnica expuesta por
I. Cohen y B. Berdugo, Speech Enhancement for Non-Stationary Noise Environments, Signal Processing, Elsevier, vol. 81, páginas 2403 a 2481, 2001.
El cálculo de una probabilidad de presencia de palabra (o cualquier otra técnica conocida comparable), descrito en el marco de un tratamiento de reducción de ruido para el que la señal de la fuente se corresponde con una señal de palabra, puede aplicarse a la presente invención para incrementar la robustez del algoritmo de selección del micro de referencia (antes, por tanto, de cualquier tratamiento de eliminación del ruido).
Como sucede con frecuencia en el ámbito de la eliminación del ruido de una señal de palabra mezclada con una componente de ruido, no se trata de identificar precisamente sobre qué componentes frecuenciales de qué tramas la palabra está presente o ausente, sino de proporcionar un índice de confianza comprendido entre 0 y 1, indicando un valor 1 que la palabra está (según el algoritmo) ausente con seguridad, mientras que un valor 0 indica lo contrario. Por su propia naturaleza, este índice es asimilable a la probabilidad de ausencia de la palabra a priori, es decir la probabilidad de que la palabra esté ausente en una componente frecuencial dada de la trama considerada.
La probabilidad de presencia de palabra PPresProba puede, por tanto, utilizarse como un criterio suplementario para condicionar la selección de un micro o del otro, comparándola con un umbral predeterminado PresProba-Threshold: no se conservará así, para aplicar la regla de la selección, más que el conjunto F(l) de las “frecuencias pertinentes” para tener, para cada trama l de la señal:
F (l) = {k t.q.PPres Proba (k l) > PresProbaTreshold}
Si este conjunto formado por las frecuencias contenidas en la señal útil es demasiado pequeño (es decir, si Card(F(l) < MinSize), no se tomará ninguna decisión para la trama actual l. Este criterio permite, de la misma forma que la introducción de los umbrales NbPlusThreshold o ΔSNRThreshold, limitar y controlar el número de decisiones erróneas.
En caso contrario (es decir si Card(F(l)) > MinSize), el cálculo de selección del mejor micro se efectuará a partir de las únicas frecuencias pertinentes, sin tener en cuenta para la toma de decisión las frecuencias para las que el contenido de la fuente es nulo (sin palabra).
Las dos reglas explicitadas más arriba de selección del mejor micro para una trama se reescriben pues como sigue. En el primer supuesto de las figuras (micros próximos): para la trama l
-
M es mejor micro si Card(E+) - Card(E-) > NbPlusThreshold y si Card(F(l)) > MinSize
-
N es mejor micro si Card(E-) - Card(E+) > NbPlusThreshold y si Card(F(l)) > MinSize
- Si no, ninguna decisión con:
En el segundo caso de las figuras (micros alejados): para la trama l
M es mejor micro si SNRm (l) - SNRn (l) >ΔSNRThreshold y si Card (F (l)) > MinSize
N es mejor micro si SNRn (l) - SNRm (l) >ΔSNRThreshold y si Card (F (l)) > MinSize
• Si no, ninguna decisión con:
Cambio de micrófono de referencia
Uno de los objetivos del sistema de acuerdo con la invención es poder seguir los desplazamientos de la fuente, por tanto cambiar el micro de referencia con el paso del tiempo cuando la fuente es móvil, o cuando dos fuentes emiten en alternancia (por ejemplo el conductor y el pasajero del vehículo). Para disponer de un sistema estable, es sin embargo importante no cambiar de micro con demasiada brusquedad ni con demasiada frecuencia.
Para conseguir esto, la invención propone igualmente que las fases de cambio del micro de referencia resulten más robustas.
Para evitar las conmutaciones intempestivas, es posible condicionar la conmutación de un micro de referencia al otro (M en lugar de N, o a la inversa) a un cierto de número de reglas de estabilidad como las siguientes:
-
el micro de referencia sólo se modificará si varias repeticiones consecutivas del algoritmo de selección del mejor micro por trama conducen a una decisión de cambio del micro de referencia y/o
-
el cambio de micro no será repentino, sino que se producirá de forma progresiva, sobre varias tramas consecutivas aplicando una ganancia variable, creciendo en uno de los micros y decreciendo en el otro, con el fin de obtener un efecto de “fundido” progresivo.

Claims (8)

  1. REIVINDICACIONES
    1. Un procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema multimicrófono de tratamiento de la palabra que opera en un entorno ruidoso, estando cada uno de los micrófonos asociado a un canal y siendo apto para captar una señal acústica ruidosa que comprende una componente útil de palabra procedente de una fuente principal (s(t)) de señal acústica mezclada con una componente de ruido difusa, comprendiendo este procedimiento las etapas siguientes:
    -
    digitalización de las señales acústicas captadas simultáneamente por los dos micrófonos (N, M);
    -
    transformación de las señales (xn(t), xm(t)) captadas sobre los dos canales, de forma que se produzca una sucesión de tramas en una serie de bandas de frecuencias;
    -
    aplicación de un algoritmo de cálculo de un índice de presencia de palabra sobre cada canal;
    -
    selección de uno de los dos micrófonos por aplicación a las tramas sucesivas de cada uno de los canales de una regla de decisión en función tanto de un criterio de selección de canal como de dicho índice de presencia de palabra; e
    -
    implementación del tratamiento de la palabra a partir de la señal acústica captada por el único micrófono seleccionado,
    procedimiento caracterizado por que:
    -
    dicha transformación de las señales (xn(t), xm(t)) captadas sobre los dos canales es una transformación de Fourier a corto plazo;
    -
    dicho índice de presencia de palabra es un índice de confianza calculado para cada banda de frecuencias de cada trama; y
    -
    dicho criterio de selección se calcula por bandas de frecuencias sobre las únicas bandas de frecuencias cuyo índice de confianza es superior a un primer canal dado.
  2. 2.
    El procedimiento de la reivindicación 1, que comprende también una etapa de eliminación, en las tramas sucesivas, de las bandas de frecuencias situadas por debajo de un segundo umbral dado.
  3. 3.
    El procedimiento de la reivindicación 1, en el que el índice de confianza de presencia de palabra es una probabilidad de presencia de palabra.
  4. 4.
    El procedimiento de la reivindicación 1, en el que el índice de confianza de presencia de palabra se calcula para cada banda de frecuencias y dicha selección se aplica si el índice es superior a un tercer umbral dado, en un número de bandas de frecuencias superior a un cuarto umbral dado.
  5. 5.
    El procedimiento de la reivindicación 1, en el que:
    -
    dicho sistema multimicrófono de tratamiento de la palabra es un sistema con micrófonos directivos próximos, y
    -
    dicho criterio de selección de canal es un criterio angular basado en una comparación de las fases respectivas de las señales captadas de forma simultánea sobre los dos canales, siendo el micrófono que hay que seleccionar aquel para el que la señal se capta antes que el otro.
  6. 6.
    El procedimiento de la reivindicación 1, en el que:
    -
    dicho sistema multimicrófono de tratamiento de la palabra es un sistema con micrófonos directivos o no directivos alejados, y
    -
    dicho criterio de selección de canal es un criterio energético basado en una comparación de los valores de relación señal/ruido respectivos de las señales captadas de forma simultánea sobre los dos canales, siendo el micrófono que hay que seleccionar aquel para el que la relación señal/ruido es superior al otro.
  7. 7.
    El procedimiento de la reivindicación 1, en el que la selección de uno de los dos micrófonos se aplica condicionalmente sólo si dicha regla de decisión se verifica sobre un número de tramas sucesivas superior a un quinto umbral dado.
  8. 8.
    El procedimiento de la reivindicación 1, en el que si se ha decidido una selección de uno de los micrófonos, ésta se aplica de forma progresiva durante un periodo de tiempo de transición dado, por aplicación de una ganancia creciente en el canal del micrófono que hay que seleccionar y de una ganancia decreciente en el canal del micrófono que no hay que seleccionar.
ES10727770T 2009-05-14 2010-05-07 Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico "manos libres" que opera en un entorno ruidoso Active ES2433100T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0953176A FR2945696B1 (fr) 2009-05-14 2009-05-14 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
FR0953176 2009-05-14
PCT/FR2010/050888 WO2010130928A1 (fr) 2009-05-14 2010-05-07 Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite

Publications (1)

Publication Number Publication Date
ES2433100T3 true ES2433100T3 (es) 2013-12-09

Family

ID=41560875

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10727770T Active ES2433100T3 (es) 2009-05-14 2010-05-07 Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico "manos libres" que opera en un entorno ruidoso

Country Status (7)

Country Link
US (1) US8892433B2 (es)
EP (1) EP2430825B1 (es)
JP (1) JP5718903B2 (es)
CN (1) CN102498709B (es)
ES (1) ES2433100T3 (es)
FR (1) FR2945696B1 (es)
WO (1) WO2010130928A1 (es)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
CN103165137B (zh) * 2011-12-19 2015-05-06 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9779731B1 (en) * 2012-08-20 2017-10-03 Amazon Technologies, Inc. Echo cancellation based on shared reference signals
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
EP2765787B1 (en) 2013-02-07 2019-12-11 Sennheiser Communications A/S A method of reducing un-correlated noise in an audio processing device
JP6473972B2 (ja) * 2013-02-12 2019-02-27 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
EP3950433A1 (en) * 2013-05-23 2022-02-09 NEC Corporation Speech processing system, speech processing method, speech processing program and vehicle including speech processing system on board
US10147441B1 (en) 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9313621B2 (en) 2014-04-15 2016-04-12 Motorola Solutions, Inc. Method for automatically switching to a channel for transmission on a multi-watch portable radio
EP3163850B1 (en) * 2014-07-28 2019-08-28 Huawei Technologies Co. Ltd. Acoustical signal processing method and device of communication device
CN104270489A (zh) * 2014-09-10 2015-01-07 中兴通讯股份有限公司 一种从多个麦克风中确定主副麦克风的方法和系统
CN104503566B (zh) * 2014-11-26 2019-12-24 联想(北京)有限公司 信息处理方法及电子设备
US9485599B2 (en) * 2015-01-06 2016-11-01 Robert Bosch Gmbh Low-cost method for testing the signal-to-noise ratio of MEMS microphones
CN105848061B (zh) * 2016-03-30 2021-04-13 联想(北京)有限公司 一种控制方法及电子设备
EP3434024B1 (en) * 2016-04-21 2023-08-02 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
CN106911996A (zh) * 2017-03-03 2017-06-30 广东欧珀移动通信有限公司 麦克风状态的检测方法、装置及终端设备
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
CN108674344B (zh) * 2018-03-30 2024-04-02 斑马网络技术有限公司 基于方向盘的语音处理系统及其应用
CN110491376B (zh) * 2018-05-11 2022-05-10 北京国双科技有限公司 一种语音处理方法及装置
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN113763957A (zh) * 2019-03-12 2021-12-07 百度在线网络技术(北京)有限公司 应用于车辆的交互方法和装置
FR3098076B1 (fr) 2019-06-26 2022-06-17 Parrot Faurecia Automotive Sas Système audio pour appui-tête avec microphone(s) intégré(s), appui-tête et véhicule associés
CN110166879B (zh) 2019-06-28 2020-11-13 歌尔科技有限公司 语音采集控制方法、装置及tws耳机
KR102268245B1 (ko) * 2019-06-28 2021-06-23 주식회사 카카오엔터프라이즈 음성 인식 서비스를 제공하는 단말, 방법 및 서버
WO2021060680A1 (en) 2019-09-24 2021-04-01 Samsung Electronics Co., Ltd. Methods and systems for recording mixed audio signal and reproducing directional audio

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2330048B (en) * 1997-10-02 2002-02-27 Sony Uk Ltd Audio signal processors
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
JP3435686B2 (ja) * 1998-03-02 2003-08-11 日本電信電話株式会社 収音装置
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
US7181026B2 (en) * 2001-08-13 2007-02-20 Ming Zhang Post-processing scheme for adaptive directional microphone system with noise/interference suppression
WO2007106399A2 (en) * 2006-03-10 2007-09-20 Mh Acoustics, Llc Noise-reducing directional microphone array
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP4192800B2 (ja) * 2004-02-13 2008-12-10 ソニー株式会社 音声集音装置と方法
EP1581026B1 (en) 2004-03-17 2015-11-11 Nuance Communications, Inc. Method for detecting and reducing noise from a microphone array
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
FR2898209B1 (fr) * 2006-03-01 2008-12-12 Parrot Sa Procede de debruitage d'un signal audio
KR100774519B1 (ko) * 2006-03-20 2007-11-08 엘지전자 주식회사 통신장치 및 그 통화방법
US8135148B2 (en) * 2006-04-26 2012-03-13 Microsemi Semiconductor Corp. Automatic gain control for mobile microphone
JP4984683B2 (ja) * 2006-06-29 2012-07-25 ヤマハ株式会社 放収音装置
US8077892B2 (en) * 2006-10-30 2011-12-13 Phonak Ag Hearing assistance system including data logging capability and method of operating the same
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center

Also Published As

Publication number Publication date
JP2012527003A (ja) 2012-11-01
EP2430825B1 (fr) 2013-07-31
FR2945696A1 (fr) 2010-11-19
CN102498709A (zh) 2012-06-13
FR2945696B1 (fr) 2012-02-24
US8892433B2 (en) 2014-11-18
EP2430825A1 (fr) 2012-03-21
WO2010130928A1 (fr) 2010-11-18
CN102498709B (zh) 2014-01-22
JP5718903B2 (ja) 2015-05-13
US20120284023A1 (en) 2012-11-08

Similar Documents

Publication Publication Date Title
ES2433100T3 (es) Procedimiento de selección de un micrófono entre dos o más micrófonos, para un sistema de tratamiento de la palabra, como un dispositivo telefónico &#34;manos libres&#34; que opera en un entorno ruidoso
ES2377056T3 (es) Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico &#34;manos libres&#34; para vehículo automóvil
ES2375844T3 (es) Procedimiento de filtrado optimizado de los ruidos no estacionarios captados por un dispositivo de audio multimicrófono, en particular un dispositivo telefónico &#34;manos libres&#34; para veh�?culo automóvil.
US10979805B2 (en) Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors
US8218397B2 (en) Audio source proximity estimation using sensor array for noise reduction
US9443532B2 (en) Noise reduction using direction-of-arrival information
ES2398407T3 (es) Sistema de supresión de ruidos de dos micrófonos robusto
ES2430121T3 (es) Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
KR100831655B1 (ko) 적응적 간섭 제거기의 적응 제어 조정 방법
US8953817B2 (en) System and method for producing a directional output signal
US8059840B2 (en) System and method for locating sound sources
US20140064514A1 (en) Target sound enhancement device and car navigation system
KR20140030686A (ko) 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법
JP6179081B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP2000312395A (ja) マイクロホンシステム
US20210021927A1 (en) Adaptive white noise gain control and equalization for differential microphone array
Beh et al. Dual channel based speech enhancement using novelty filter for robust speech recognition in automobile environment
Hong et al. Adaptive microphone array processing for high-performance speech recognition in car environment
JP5958218B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN110692257A (zh) 声音捕获
EP3764660B1 (en) Signal processing methods and systems for adaptive beam forming
Li et al. A two microphone-based approach for speech enhancement in adverse environments
Hu et al. A robust statistical-based speaker's location detection algorithm in a vehicular environment
CN116828352A (zh) 收音装置以及收音装置的控制方法
WO2021005225A1 (en) Signal processing methods and systems for beam forming with microphone tolerance compensation