ES2582232T3 - Detector de actividad de voz de múltiples micrófonos - Google Patents

Detector de actividad de voz de múltiples micrófonos Download PDF

Info

Publication number
ES2582232T3
ES2582232T3 ES09774127.6T ES09774127T ES2582232T3 ES 2582232 T3 ES2582232 T3 ES 2582232T3 ES 09774127 T ES09774127 T ES 09774127T ES 2582232 T3 ES2582232 T3 ES 2582232T3
Authority
ES
Spain
Prior art keywords
signal
microphone
voice activity
distance
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09774127.6T
Other languages
English (en)
Inventor
Rongshan Yu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2582232T3 publication Critical patent/ES2582232T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Un procedimiento para llevar a cabo una detección de actividad de voz, que comprende: recibir una primera señal de un primer micrófono, incluyendo la primera señal una primera componente objetivo y una primera componente perturbadora; recibir una segunda señal de un segundo micrófono desplazado con respecto al primer micrófono en una distancia, incluyendo la segunda señal una segunda componente objetivo y una segunda componente perturbadora, donde la primera componente objetivo difiere de la segunda componente objetivo en función de la distancia, y donde la primera componente perturbadora difiere de la segunda componente perturbadora en función de la distancia; estimar un primer nivel de señal en función de la primera señal; estimar un segundo nivel de señal en función de la segunda señal; estimar un primer nivel de ruido en función de la primera señal; estimar un segundo nivel de ruido en función de la segunda señal; calcular una primera relación en función del primer nivel de señal y del primer nivel de ruido; calcular una segunda relación en función del segundo nivel de señal y del segundo nivel de ruido; y calcular una decisión de actividad de voz actual, donde la decisión de actividad de voz actual significa que no se detecta ninguna actividad de voz si una diferencia entre la primera relación y la segunda relación es más pequeña que un umbral preseleccionado, donde el umbral es (1-p) ξ min, donde p es un factor de desvanecimiento de propagación y donde ξ min es un umbral SNR mínimo preseleccionado para la presencia de voz en el micrófono más cercano al sonido objetivo, y donde la decisión de actividad de voz actual significa que se detecta actividad de voz si la diferencia es mayor o igual al umbral preseleccionado.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
descripcion
Detector de actividad de voz de multiples microfonos Tecnolog^a
La presente invencion se refiere a detectores de actividad de voz. Mas en particular, las formas de realizacion de la presente invencion se refieren a detectores de actividad de voz que usan dos o mas microfonos.
Antecedentes
A no ser que se indique lo contrario en el presente documento, los enfoques descritos en esta seccion no forman parte de la tecnica anterior en relacion con las reivindicaciones de esta solicitud ni se considera que forman parte de la tecnica anterior por el hecho de que se incluyan en este apartado.
Una funcion de un detector de actividad de voz (VAD) es detectar la presencia o la ausencia del habla humana en las regiones de la senal de audio registrada por un microfono. Los VaD llevan a cabo una funcion importante en muchos sistemas de procesamiento de voz, ya que diferentes mecanismos de procesamiento se usan en la senal de entrada dependiendo de si la misma contiene voz o no, segun determine el modulo VAD. En estas aplicaciones, un funcionamiento preciso y robusto del VAD puede influir en el rendimiento global. Por ejemplo, en sistemas de comunicacion de voz se usa habitualmente DTX (transmision discontinua) para mejorar la eficacia del uso del ancho de banda. En un sistema de este tipo, el VAD se usa para determinar la presencia o la ausencia de voz en la senal de entrada, y la transmision real de la senal de voz se interrumpe si no se detecta voz. En este contexto, clasificar erroneamente la voz como una perturbacion puede dar como resultado la interrupcion de la voz en la senal transmitida, afectando a su inteligibilidad. Por ejemplo, en un sistema de mejora de voz normalmente es necesario estimar el nivel de la senal perturbadora en la senal grabada. Esto se realiza normalmente con la ayuda de un VAD, donde el nivel de perturbacion se estima a partir de las regiones que contienen solamente la senal perturbadora. Vease, por ejemplo, el documento de A. M. Kondoz, Digital Speech Coding for Low Bit Rate Communication Systems, capftulo 11 (John Wiley & Sons, 2004). En este caso, un VAD no preciso puede generar o bien una sobrestimacion o una subestimacion del nivel de perturbacion, lo que finalmente puede dar lugar a una calidad de mejora de voz no del todo optima.
En el pasado se han propuesto varios sistemas VAD. Vease, por ejemplo, el documento de A. M. Kondoz, Digital Speech Coding for Low Bit Rate Communication Systems, capftulo 10 (John Wiley & Sons, 2004). Algunos de estos sistemas utilizan los aspectos estadfsticos de la diferencia entre la voz objetivo y la perturbacion, y se basan en procedimientos de comparacion de umbrales para diferenciar esa voz objetivo de las senales perturbadoras. Las mediciones estad^sticas que se ha^an usado anteriormente en estos sistemas incluyen niveles de ene^a, medicion del tiempo, tono, tasas de cruce por cero, medicion de periodicidad, etc. La combinacion de mas de una medicion estadfstica se usa en sistemas mas sofisticados para mejorar adicionalmente la precision de los resultados de deteccion. En general, los procedimientos estadfsticos consiguen un buen rendimiento cuando la voz objetivo y la perturbacion tienen caractensticas estad^sticas muy diferentes, por ejemplo cuando la perturbacion tiene un nivel que es estable y esta por debajo del nivel de la voz objetivo. Sin embargo, en un entorno mas adverso es muy complicado mantener un buen rendimiento, en particular cuando el nivel de la senal objetivo con respecto a la proporcion del nivel de perturbacion es bajo o la senal perturbadora presenta caractensticas similares a las de la voz.
En algunos disenos de sistemas de conformacion de haz adaptativos y robustos tambien puede encontrarse un VAD en combinacion con una disposicion de microfonos. Vease, por ejemplo, el documento de O. Hoshuyama, B. Begasse, A. Sugiyama y A. Hirano, "A real time robust adaptive microphone array controlled by an SNR estimate", actas de la conferencia internacional del IEEE sobre acustica, voz y procesamiento de senales, celebrada en 1998. Esos VAD se basan en la diferencia en los niveles de las diferentes salidas del sistema de conformacion de haz de microfono, donde la senal objetivo solo esta presente en una salida y esta bloqueada para otras salidas. La eficacia de un diseno de VAD de este tipo puede estar relacionada por tanto con la capacidad que tiene el sistema de conformacion de haz de bloquear la senal objetivo para esas salidas, lo que puede resultar caro en los sistemas de uso cotidiano.
Otras referencias que pueden resultar utiles en relacion con estos antecedentes, pero que no se considera que forman parte de la tecnica anterior en lo que respecta a las formas de realizacion inventivas de ejemplo que se describiran en apartados subsiguientes, incluyen:
Referenda n.0 1: "Digital Speech Coding for Low Bit Rate Communication Systems", capftulo 10, de A. M. Kondoz (John Wiley & Sons, 2004);
Referenda n.o 2: "Digital Speech Coding for Low Bit Rate Communication Systems", capftulo 11, de A. M. Kondoz (John Wiley & Sons, 2004);
Referenda n.o 3: "Optimal nearfield responses for microphone array de J.G Ryan y R. a. Goubran, actas del taller del IEEE, Signal Processing to Audio Acoust., New Paltz, NY, EE.UU., 1997;
5
10
15
20
25
30
35
40
45
50
55
60
65
Referencia n.0 4: "A real time robust adaptive microphone array controlled by an SNR estimate" de O. Hoshuyama, B. Begasse, A. Sugiyama y A. Hirano, actas de la conferencia internacional del IEEE sobre acustica, voz y procesamiento de senales, celebrada en 1998;
Referenda n.o 5: US20030228023A1 / WO03083828A1 / CA2479758AA, "Multichannel voice detection in adverse environments"; y
Referenda n.o 6: US7174022, "Small array microphone for beam-forming and noise suppression".
El documento EP 0 386 765 A2 da a conocer una tecnica para detectar un periodo de voz en una senal acustica. Se obtienen dos senales diferentes con relaciones de sonido/ruido diferentes. Segun un procedimiento denominado "segundo procedimiento convencional", estas dos senales son senales de salida de dos microfonos que estan dispuestos o bien a dos distancias diferentes desde un altavoz, o bien delante y cerca de un lateral del altavoz. Se calcula la diferencia entre las respectivas potencias de corta duracion de las dos senales. Se detecta un periodo de voz si esta diferencia es mayor que un umbral dado.
Segun otro procedimiento, representado en la Fig. 9 del documento EP 0 386 765 A2, las dos senales se generan mediante una disposicion de microfonos unidireccionales y un microfono omnidireccional, respectivamente. De nuevo, la deteccion de voz se lleva a cabo en funcion de la diferencia de potencias de corta duracion. Segun otro procedimiento representado en la Fig. 15 del documento EP 0 386 765 A2, se calculan los niveles de potencia respectivos de corta duracion de las dos senales, y la deteccion de voz se lleva a cabo en funcion de la potencia de corta duracion de la primera senal y de la diferencia de potencias de corta duracion de ambas senales.
La patente estadounidense n.o 5.572.621 da a conocer un equipo de radio movil que procesa muestras digitales de senales de voz que presentan componentes de ruido y componentes de voz. Una unidad de control determina y suaviza los valores de potencia de las muestras, y determina el mmimo de cada grupo sucesivo de un determinado numero de valores de potencia suavizados. La unidad de control genera continuamente estimaciones de la relacion de senal a ruido de las senales de voz basandose en el valor de potencia suavizado actual y en el valor de potencia suavizado sucesivo mmimo determinado mas recientemente.
El documento WO 2007/091956 A2 da a conocer un detector de voz que procesa una unica senal de entrada que se divide en una pluralidad de subsenales, donde cada una representa una subbanda de frecuencia. Para cada subsenal se calcula un valor de relacion de senal de potencia/ruido conforme a una funcion no lineal. La suma de los valores de la relacion de senal de potencia/ruido para las subsenales se calcula y se compara con un valor umbral dado.
La presente invencion esta definida por las reivindicaciones independientes. Las reivindicaciones dependientes se refieren a caractensticas opcionales de algunas formas de realizacion de la invencion.
Breve descripcion de los dibujos
La FIG. 1 es un diagrama que ilustra una configuracion de microfono generica segun una forma de realizacion de la presente invencion.
La FIG. 2 es un diagrama que ilustra un dispositivo que incluye un detector de actividad de voz de microfono dual de ejemplo segun una forma de realizacion de la presente invencion.
La FIG. 3 es un diagrama de bloques que ilustra un sistema de detector de actividad de voz de ejemplo segun una forma de realizacion de la presente invencion.
La FIG. 4 es un diagrama de flujo de un procedimiento de ejemplo de deteccion de actividad de voz segun una forma de realizacion de la presente invencion.
Descripcion de formas de realizacion de ejemplo
En el presente documento se describen tecnicas para la deteccion de actividad de voz. En la siguiente descripcion se exponen, con fines explicativos, numerosos ejemplos y detalles espedficos para proporcionar un entendimiento minucioso de la presente invencion. Sin embargo, a los expertos en la tecnica les resultara evidente que la presente invencion, definida por las reivindicaciones, puede incluir algunas o todas las caractensticas de estos ejemplos, ya sea de manera individual o en combinacion con otras caractensticas descritas posteriormente, y que puede incluir ademas modificaciones y equivalencias de las caractensticas y conceptos descritos en el presente documento.
A continuacion se describen varios procedimientos y procesos. El que se describan siguiendo un determinado orden solo tiene como objetivo facilitar su exposicion. Debe entenderse que etapas particulares pueden llevarse a cabo siguiendo otro orden o en paralelo, segun se desee segun las diversas implementaciones. El que una etapa particular deba preceder o seguir a otra se indicara de manera espedfica cuando no resulte evidente a partir del contexto.
5
10
15
20
25
30
35
40
45
50
55
60
65
Vision general
Las formas de realizacion de la presente invencion mejoran los sistemas VAD. Segun una forma de realizacion, se da a conocer un sistema VAD basado en una disposicion de dos microfonos. En tal forma de realizacion, la disposicion de microfonos esta configurada de manera que un microfono esta colocado mas cerca que el otro con respecto a la fuente de sonido objetivo. La decision del VAD se realiza comparando los niveles de senal de las salidas de la disposicion de microfonos. Segun una forma de realizacion, puede usarse mas de dos microfonos de manera similar.
Ademas, segun un ejemplo, la presente invencion incluye un procedimiento de deteccion de actividad de voz. El procedimiento incluye recibir una primera senal en un primer microfono y una segunda senal en un segundo microfono. El segundo microfono esta desplazado con respecto al primer microfono. La primera senal incluye una primera componente objetivo y una primera componente perturbadora, y la segunda senal incluye una segunda componente objetivo y una segunda componente perturbadora. La primera componente objetivo difiere de la segunda componente objetivo en funcion de la distancia entre los microfonos, y la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia entre los microfonos. El procedimiento incluye ademas estimar un primer nivel de senal en funcion de la primera senal, estimar un segundo nivel de senal en funcion de la segunda senal, estimar un primer nivel de ruido en funcion de la primera senal y estimar un segundo nivel de ruido en funcion de la segunda senal. El procedimiento incluye ademas calcular una primera relacion en funcion del primer nivel de senal y el primer nivel de ruido, y calcular una segunda relacion en funcion del segundo nivel de senal y el segundo nivel de ruido. El procedimiento incluye ademas calcular una decision de actividad de voz actual en funcion de una diferencia entre la primera relacion y la segunda relacion.
Segun un ejemplo, un sistema de deteccion de actividad de voz incluye un primer microfono, un segundo microfono, un estimador de nivel de senal, un estimador de nivel de ruido, un primer divisor, un segundo divisor y un detector de actividad de voz. El primer microfono recibe una primera senal que incluye una primera componente objetivo y una primera componente perturbadora. El segundo microfono esta desplazado con respecto al primer microfono. El segundo microfono recibe una segunda senal que incluye una segunda componente objetivo y una segunda componente perturbadora. La primera componente objetivo difiere de la segunda componente objetivo y la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia entre los microfonos. El estimador de nivel de senal estima un primer nivel de senal basandose en la primera senal y estima un segundo nivel de senal basandose en la segunda senal. El estimador de nivel de ruido estima un primer nivel de ruido basandose en la primera senal y estima un segundo nivel de ruido basandose en la segunda senal. El primer divisor calcula una primera relacion basandose en el primer nivel de senal y en el primer nivel de ruido. El segundo divisor calcula una segunda relacion basandose en el segundo nivel de senal y en el segundo nivel de ruido. El detector de actividad de voz calcula una decision de actividad de voz actual basandose en una diferencia entre la primera relacion y la segunda relacion.
Las formas de realizacion de la presente invencion pueden llevarse a cabo como un procedimiento o un proceso. Los procedimientos pueden implementarse a traves de circuitos electronicos, como hardware, software o una combinacion de los mismos. Los circuitos usados para implementar el proceso pueden ser circuitos dedicados (que llevan a cabo solamente una tarea espedfica) o circuitos genericos (es decir, programados para llevar a cabo una o mas tareas espedficas).
Configuraciones, procesos e implementaciones de ejemplo
Segun una forma de realizacion de la presente invencion, un sistema VAD robusto determina un aspecto diferente de la diferencia entre la voz objetivo y la senal perturbadora. En muchas aplicaciones de comunicacion de voz, por ejemplo telefonos, telefonos moviles, etc., la fuente de la voz objetivo esta normalmente muy cerca del microfono, mientras que las senales perturbadoras normalmente proceden de fuentes que estan mucho mas alejadas. Por ejemplo, en un telefono movil, la distancia entre el microfono y la boca esta en un intervalo comprendido entre 2 y 10 cm, mientras que las perturbaciones se producen normalmente a una distancia de, al menos, algunos metros del microfono. A partir de la teona de propagacion de ondas de sonido se sabe que, en el primer caso, el nivel de la senal registrada sera muy sensible a la ubicacion del microfono, de tal manera que cuanto mas cerca del microfono este la fuente de sonido, mayor sera el nivel de senal captado, y esta sensibilidad desaparece si la senal procede de un punto lejano, como en el segundo caso. Al contrario de las diferencias estadfsticas descritas anteriormente, esta diferencia esta relacionada con las ubicaciones geometricas de la fuente de sonido y, como resultado, es robusta y altamente predecible. Esto ofrece una caractenstica muy robusta para diferenciar la senal de sonido objetivo de las perturbaciones.
Para aprovechar esta caractenstica, segun una forma de realizacion del sistema VAD se usa una disposicion de dos microfonos a pequena escala. La disposicion de microfonos esta configurada de manera que un microfono esta colocado mas cerca que el otro con respecto a la fuente de sonido objetivo. Por tanto, la decision VAD se calcula supervisando los niveles de senal de las salidas de estos dos microfonos. La implementacion detallada de una forma de realizacion de esta invencion se describe en detalle en el resto de este documento.
5
10
15
20
25
30
35
40
45
50
55
60
65
Configuracion de ejemplo de la disposicion de microfonos
La FIG. 1 es un diagrama de bloques que ilustra conceptualmente una configuracion de una disposicion de microfonos 102 de ejemplo usada en una forma de realizacion de la presente invencion. La disposicion de microfonos comprende dos microfonos: un microfono 102a (microfono cercano) esta a una distancia h de la fuente de sonido objetivo 104, mientras que el otro microfono 102b (microfono lejano) esta situado a una distancia de la fuente de sonido objetivo 104. En este caso, /i < 2 Ademas, estos dos microfonos 102a y 102b estan lo bastante cerca entre s^ como para considerar que estan practicamente en la misma posicion desde el punto de vista de las perturbaciones lejanas. Segun una forma de realizacion, esta condicion se satisface si la distancia A/ entre estos dos microfonos102a y 102b es de un orden u ordenes de magnitud inferior(es) en comparacion con su distancia a la perturbacion, lo que normalmente se cumple en aplicaciones reales en las que la disposicion de los microfonos puede tener un tamano de varios centimetres.
Segun una forma de realizacion, la distancia A/ entre estos dos microfonos 102a y 102b es al menos un orden de magnitud inferior a la distancia hasta la fuente de la senal perturbadora. Por ejemplo, si se preve que la fuente de la senal perturbadora esta a un 1 metro del microfono 102a (o 102b), la distancia A/ entre estos dos microfonos puede ser de 2 centimetres.
Segun una forma de realizacion, la distancia A/ entre estos dos microfonos 102a y 102b esta dentro de un orden de magnitud de la distancia hasta la fuente de la senal objetivo. Por ejemplo, si se preve que la fuente de la senal objetivo esta a 2 centimetres del microfono 102a (o 102b), la distancia A/ entre estos dos microfonos puede ser de 3 centimetres.
Segun una forma de realizacion, la distancia entre el microfono 102a (o 102b) y la fuente de la senal objetivo es un orden de magnitud mucho menor que la distancia entre el microfono 102a (o 102b) y la fuente de la senal perturbadora. Por ejemplo, si se preve que la fuente de la senal objetivo esta a 5 centimetres del microfono 102a (o 102b), la distancia hasta la fuente de la senal perturbadora puede ser de 51 centimetres.
En resumen, segun una forma de realizacion, la fuente de la senal objetivo puede estar a 5 centimetres del microfono 102a (o 102b), las perturbaciones pueden estar a al menos 1 metro del microfono 102a (o 102b), y la distancia entre los dos microfonos 102a y 102b puede ser de 3 centimetres.
La FIG. 2 es un diagrama de bloques que muestra un ejemplo de una disposicion de microfonos 102 que satisface los requisitos anteriores. En este caso, el microfono cercano 102a esta situado en la parte delantera de un telefono movil 204, y el microfono lejano 102b esta situado en la parte trasera del telefono movil 204. En este ejemplo particular, /1 = 3~5 (cm), = 5~7 (cm) y A/ = 2~3 (cm).
Decision VAD de ejemplo
La FIG. 3 es un diagrama de bloques de un sistema VAD 300 de ejemplo segun una forma de realizacion de la presente invencion. El sistema VAD 300 incluye un microfono cercano 102a, un microfono lejano 102b, convertidores de analogico a digital 302a y 302b, filtros de paso banda 304a y 304b, estimadores de nivel de senal 306a y 306b, estimadores de nivel de ruido 308a y 308b, divisores 310a y 310b, elementos de retardo unitario 312a y 312b, y un bloque de decision VAD 314. Estos elementos del sistema VAD 300 llevan a cabo varias funciones, como se describe posteriormente.
En el sistema VAD 300, las salidas analogicas de la disposicion de microfonos 102 se digitalizan en senales PCM (modulacion por impulsos codificados) mediante los convertidores de analogico a digital 302a y 302b. Para mejorar la robustez del algoritmo puede examinarse la gama de frecuencias que tiene una energfa de voz considerable. Esto puede conseguirse procesando las senales digitalizadas con un par de filtros de paso banda (BPF) 304a y 304b, con frecuencias de paso banda que oscilan entre los 400 y los 1000 Hz.
En los bloques de estimacion de nivel de senal 306a y 306b se estiman los niveles de las senales X(n) proporcionadas por los BPF 304a y 304b. De manera conveniente, la estimacion de nivel puede realizarse llevando a cabo una operacion recursiva de determinacion del promedio en la potencia de la senal X(n) de la siguiente manera:
imagen1
donde 0 < a < 1 es un valor bajo proximo a cero, y o,(0) esta inicializado a cero.
Supongase que la senal X-i(n) precede del microfono cercano 102a y que X2(n) precede del microfono lejano 102b. Ahora bien, si la estimacion de nivel para la senal X-i(n) es o-i(n) = Ad(n) + Xx(n), donde Ad(n) es el nivel de las componentes de la senal perturbadora y Ax(n) precede de la senal objetivo, el nivel de senal X2(n) viene dado por
5
10
15
20
25
30
35
40
45
50
imagen2
En este caso, g es la diferencia de ganancia entre el microfono lejano 102b y el microfono cercano 120a; y p se debe al desvanecimiento de la propagacion de la senal. En condiciones ideales, el nivel del sonido registrado es inversamente proporcional a la potencia de la distancia del sonido con respecto al microfono. Vease, por ejemplo, el documento de J.G. Ryan y R. a. Goubran, "Optimal nearfield responses for microphone array', actas del taller del IEEE, Signal Processing to Audio Acoust., (New Paltz, NY, EE.UU., 1997). En este caso, p viene dado por:
imagen3
donde I1 e I2 son las distancias del sonido objetivo con respecto al microfono cercano 102a y al microfono lejano 102b, respectivamente. En aplicaciones practicas, p puede depender de la configuracion acustica real de la disposicion de microfonos y su valor puede obtenerse a traves de mediciones. Cabe senalar que se supone que los niveles de las senales perturbadoras de los dos microfonos son identicos despues de compensar la diferencia de ganancia de los microfonos ya que, en este caso, la diferencia del desvanecimiento de la propagacion entre estos dos microfonos es insignificante.
El sistema VAD 300 tambien supervisa los niveles de la perturbacion en X-i(n) y X2(n) de la siguiente manera:
\ («):
\P l^(«)P+(l-W(«-l) VAD(n-l) - 0
en otro caso
i= 1,2
donde 0 < B < 1 es un valor bajo proximo a cero, y 2j(0) esta inicializado a cero. En este caso, solo las muestras que se han clasificado como perturbaciones (VAD = 0) se incluyen en la estimacion. Puesto que la decision VAD de la muestra actual no ha realizado todav^a, en este caso se usa la decision VAD de la muestra anterior (a traves de los retardos 312a y 312b). Asimismo, suponiendo que A-i(n) = Ad(n), Ad^n) se calculara como:
imagen4
debido a la diferencia de ganancia entre el microfono lejano y el microfono cercano.
En general, Ad(n) ± Ad(n), aunque ambos son niveles estimados de las perturbaciones. Esto se debe a que las constantes de tiempo usadas en estos dos estimadores de nivel (a y B) son diferentes. Normalmente, puede seleccionarse un valor mayor de a ya que es deseable que la respuesta del estimador del nivel de senal sea lo bastante rapida cuando el objetivo esta presente; y un valor mas pequeno de B para permitir una estimacion sencilla del nivel de perturbacion. Por este motivo, Ad(n) se denomina estimacion a corto plazo del nivel de perturbacion, y Ad(n) se denomina estimacion a largo plazo del nivel de perturbacion. Segun una forma de realizacion, a=0,1 y B=0,01. En otras formas de realizacion, los valores de a y B pueden ajustarse dependiendo de las caractensticas de la senal objetivo y de la senal perturbadora. Estos dos valores pueden fijarse de manera empmca, dependiendo de las caractensticas de las senales.
En el sistema VAD se calculan ademas las siguientes relaciones:
2,(»)
y
r2(,,)±
M")
-/(") + r^(n)
donde y(n) = Ad(n)/Ad(n) es la relacion de la estimacion a corto plazo y a largo plazo del nivel de perturbacion en el microfono cercano 102a, y %(n) = !x(n)/ Ad(n) es la relacion de las estimaciones del nivel de senal objetivo y del nivel de perturbacion en el microfono cercano 102a. Debe observarse que la diferencia de ganancia g de microfono no conocida se ha cancelado en estas dos relaciones.
La decision VAD se basa realmente en la diferencia entre estas dos relaciones:
5
10
15
20
25
30
35
40
45
50
55
imagen5
Evidentemente, las componentes de las perturbaclones dlstantes se han cancelado en u(n), dejando solamente las componentes de la senal de voz objetivo. Esto ofrecera una indicacion muy robusta de si la senal de voz objetivo esta presente o no en la senal de entrada. Segun una forma de realizacion adicional, en una implementacion se determina la decision VAD comparando el valor de u(n) con un umbral preseleccionado, de la siguiente manera:
VAD(n)
0 u(n)<{\-p)tmi„
1 en otro caso
donde fmin es un umbral SNR mmimo preseleccionado para la presencia de voz en el microfono cercano 102a. El valor de $™n determina la sensibilidad del VAD, y su valor optimo puede depender de los niveles de la voz objetivo y de la perturbacion en la senal de entrada. Por lo tanto, su valor se establece mejor por medio de experimentos en las componentes espedficas usadas en el VAD. Los experimentos han mostrado resultados satisfactorios fijando este umbral al valor 1.
Consideracion de ejemplo para ruido generado por el viento
El ruido del viento es un tipo especial de perturbacion. Puede formarse debido a la turbulencia de aire que se genera cuando el flujo de aire del viento es bloqueado por un objeto con bordes irregulares. A diferencia de algunas otras perturbaciones, el ruido del viento puede producirse en una ubicacion muy proxima al microfono, por ejemplo en los bordes del dispositivo de grabacion o el microfono. Cuando esto sucede, pueden generarse valores elevados de u(n) incluso cuando la voz objetivo no esta presente, dando lugar a problemas de falsa alarma. Por tanto, una forma de realizacion del bloque de decision VAD 314 detecta ademas el ruido del viento mediante el calculo y/o el analisis de la relacion entre r-i(n) y ^(n):
imagen6
Si el ruido del viento no esta presente, esto da lugar a lo siguiente:
v(«) =
' + V{n)
1 + py(n)
donde ^(n) = lx(n)/Ad(n). Por tanto, el valor v(n) adquiere un valor entre 1 y 1/p dependiendo del valor real de y(n). Por otro lado, si hay ruido de viento presente, es posible que se produzca en una ubicacion diferente en relacion con la fuente de la voz objetivo y, por tanto, v(n) puede estar fuera de su intervalo normal. Esto proporciona una indicacion de la presencia del ruido del viento. En base a esto, la siguiente regla de decision se usa en el sistema que ha demostrado ser muy robusto a la perturbacion del ruido del viento:
1 u(n)>(\-p)4mia Y j<v(n)<-
£ p
0 en otro caso
VAD(n) =
En este caso, ses una constante ligeramente mayor que 1, que puede proporcionar un grado de tolerancia al error para el sistema VAD 300. Segun una forma de realizacion, el valor de s puede ser de 1,20. La seleccion del valor usado para s puede ajustarse en otras formas de realizacion para ajustar la sensibilidad del VAD con respecto al ruido del viento.
La FIG. 4 es un diagrama de flujo de un procedimiento 400 de ejemplo segun una forma de realizacion de la presente invencion. El procedimiento 400 puede implementarse mediante, por ejemplo, el sistema de deteccion de actividad de voz 300 (vease la FIG. 3).
En la etapa 410, las senales de entrada al sistema son recibidas por los microfonos. En un sistema con dos microfonos, el primer microfono esta mas cerca de la fuente de la senal objetivo (por ejemplo, la voz del usuario) que el segundo microfono, pero la distancia hasta la fuente de la senal perturbadora (por ejemplo, el ruido) es mucho mayor que la distancia hasta la fuente de la senal objetivo mas la distancia entre los microfonos. Por ejemplo, en el sistema 300 (vease la FIG. 3), el microfono 102a esta mas cerca de la fuente objetivo que el microfono l02b, pero ambos microfonos 102a y 102b estan relativamente alejados de la fuente perturbadora (no mostrada).
5
10
15
20
25
30
35
40
45
50
55
60
En la etapa 420 se estima el nlvel de la senal y el nlvel de ruldo en cada microfono. Por ejemplo, en el slstema 300 (vease la FIG. 3), el estimador de nivel de senal 306a estima el nivel de senal en el primer microfono, el estimador de nivel de ruido 308a estima el nivel de ruido en el primer microfono, el estimador de nivel de senal 306b estima el nivel de senal en el segundo microfono, y el estimador de nivel de ruido 308b estima el nivel de ruido en el segundo microfono. A modo de ejemplo, un estimador de nivel combinado estima dos o mas de los cuatro niveles, por ejemplo en funcion de una comparticion de tiempo.
Como se ha descrito anteriormente con referenda a la FIG. 3, la estimacion de nivel de ruido puede tener en cuenta la decision de deteccion de actividad de voz anterior.
En la etapa 430 se calcula la relacion del nivel de senal con respecto al nivel de ruido en cada microfono. Por ejemplo, en el sistema 300 (vease la FIG. 3), el divisor 310a calcula la relacion en el primer microfono, y el divisor 310b calcula la relacion en el segundo microfono. A modo de ejemplo, un divisor combinado puede calcular ambas relaciones, por ejemplo segun una comparticion de tiempo.
En la etapa 440, la decision de deteccion de actividad de voz actual se realiza segun la diferencia entre las dos relaciones. Por ejemplo, en el sistema 300 (vease la FIG. 3), el detector VAD 314 indica la presencia de actividad de voz cuando la diferencia supera un umbral definido.
Cada una de las etapas descritas anteriormente puede incluir subetapas. Los detalles de las subetapas pueden ser como los descritos anteriormente con referenda a la FIG. 3 y (por brevedad) no se repiten.
Interpretacion de ejemplo para la regla de decision VAD
En principio, u(n) es la diferencia entre el nivel de senal de salida entre el microfono lejano 102b y el microfono cercano 102a despues de haberse compensado la diferencia de ganancia entre estos dos microfonos. En efecto, esta diferencia proporciona una indicacion de la energfa de los eventos de sonido que se producen muy cerca del microfono. Segun una forma de realizacion, la diferencia se normaliza adicionalmente mediante el nivel de perturbacion, de modo que solamente un sonido cercano con una energfa considerable se etiquetara como la senal de voz objetivo.
El valor r(n) es la relacion entre el nivel de senal de salida entre el microfono lejano 102b y el microfono cercano 102a despues de haberse compensado la diferencia de ganancia entre estos dos microfonos. Para la senal de voz objetivo, r(n) estara dentro de un intervalo normal que se determina por la configuracion acustica de la disposicion de microfonos 102. Para el ruido del viento, r(n) puede estar fuera de su intervalo normal. Este fenomeno se utiliza en una forma de realizacion del sistema VAD 300 para diferenciar el ruido del viento de la senal de voz objetivo.
Un diseno del sistema VAD 300 puede variar en cierta medida con respecto a las formas de realizacion de ejemplo descritas en secciones anteriores, para su implementacion en varios tipos de sistemas de voz, incluyendo telefonos moviles, auriculares con microfono, sistemas de videoconferencia, sistemas de juegos y sistemas de protocolo de voz sobre Internet (VOIP), entre otros.
Una forma de realizacion de ejemplo puede incluir mas de dos microfonos. Usando la forma de realizacion de ejemplo mostrada en la FIG. 3 como punto de partida, la adicion de otros microfonos implica anadir una trayectoria de senal adicional (A/D, BPF, estimadores de nivel, divisor, retardo, etc.) que aplica las ecuaciones descritas anteriormente para procesar la senal para cada microfono adicional. Siguiendo el mismo principio, la forma de realizacion VAD de ejemplo puede basarse en una combinacion lineal de las relaciones r(n) calculadas como antes a partir de todos los microfonos:
N
u(n)='Lairi{n)
1=1
donde N es el numero total de microfonos y a/, / =1 es una constante preseleccionada que cumple lo siguiente:
N
I>i=°
<=i
de modo que las componentes de las perturbaciones de campo lejano en estas relaciones se cancelan en u(n).
La seleccion de at puede llevarse a cabo de manera emprnca segun la disposicion espedfica de elementos en una implementacion particular. Una posible seleccion de a, i = 1,...,N que da como resultado un buen rendimiento es
5
10
15
20
25
30
35
40
45
50
55
imagen7
En este caso, pi es la diferencia de nivel del sonldo objetlvo entre el l-eslmo mlcrofono y el primer mlcrofono debldo a la propagadon de la senal. Despues, el bloque de dedslon VAD 314 toma la dedslon VAD comparando el valor de u(n) con un umbral preselecdonado, como se ha descrlto anterlormente.
imagen8
Implementadones de ejemplo
Las formas de reaNzadon de la presente lnvendon pueden lmplementarse en hardware o en software, o en una combmadon de ambos (por ejemplo, matrlces loglcas programables). A menos que se lndlque lo contrarlo, los algorltmos lncluldos como parte de la lnvendon no estan reladonados lntrrnsecamente con nlngun ordenador partlcular nl con nlngun otro aparato. En partlcular, pueden usarse varlas maqulnas de proposlto general con programas escrltos segun las ensenanzas del presente documento, o puede ser mas convenlente fabrlcar aparatos mas espedaNzados (por ejemplo, drcultos lntegrados) para llevar a cabo las etapas de procedlmlento requerldas. Por tanto, la lnvendon puede lmplementarse en uno o mas programas lnformatlcos que se ejecutan en uno o mas slstemas lnformatlcos programables, donde cada uno comprende al menos un procesador, al menos un slstema de almacenamlento de datos (que lncluye memorla volatll y memorla no volatll y/o elementos de almacenamlento), al menos un dlsposltlvo o puerto de entrada, y al menos un dlsposltlvo o puerto de sallda. El codlgo de programa se apllca a datos de entrada para llevar a cabo las fundones descrltas en el presente documento y generar lnformadon de sallda. La lnformadon de sallda se apllca a uno o mas dlsposltlvos de sallda, de una manera conodda.
Cada uno de estos programas puede lmplementarse en cualquler lenguaje lnformatlco deseado (lncluyendo lenguaje maqulna, lenguaje ensamblador o lenguajes procedurales de alto nlvel, loglcos u orlentados a objetos) para comumcarse con un slstema lnformatlco. En cualquler caso, el lenguaje puede ser un lenguaje compllado o mterpretado.
Cada programa lnformatlco de este tlpo se almacena preferlblemente o se descarga en un medlo o dlsposltlvo de almacenamlento (por ejemplo, una memorla o un medlo de estado solldo, o un medlo magnetlco u optlco) leglble por un ordenador programable de proposlto general o espedflco, para conflgurar y hacer fundonar el ordenador cuando el medlo o dlsposltlvo de almacenamlento es lefdo por el slstema lnformatlco para llevar a cabo los procedlmlentos deschtos en el presente documento. Tamblen puede conslderarse que el slstema rnventlvo puede lmplementarse como un medlo de almacenamlento leglble por ordenador, conflgurado con un programa lnformatlco, donde el medlo de almacenamlento asf conflgurado hace que un slstema lnformatlco fundone de manera espedfica y predefirnda para llevar a cabo las fundones descrltas en el presente documento.
Segun una forma de reaNzadon, un procedlmlento para detectar la actlvldad de voz lncluye redblr una prlmera senal desde un prlmer mlcrofono. La prlmera senal lncluye una prlmera componente objetlvo y una prlmera componente perturbadora. El procedlmlento lncluye ademas redblr una segunda senal desde un segundo mlcrofono desplazado con respecto al prlmer mlcrofono en una dlstanda. La segunda senal lncluye una segunda componente objetlvo y una segunda componente perturbadora. La prlmera componente objetlvo dlflere de la segunda componente objetlvo en fundon de la dlstanda, y la prlmera componente perturbadora dlflere de la segunda componente perturbadora en fundon de la dlstanda. El procedlmlento lncluye ademas estlmar un prlmer nlvel de senal en fundon de la prlmera senal, estlmar un segundo nlvel de senal en fundon de la segunda senal, estlmar un prlmer nlvel de ruldo en fundon de la prlmera senal, y estlmar un segundo nlvel de ruldo en fundon de la segunda senal. El procedlmlento lncluye ademas calcular una prlmera reladon en fundon del prlmer nlvel de senal y del prlmer nlvel de ruldo, y calcular una segunda reladon en fundon del segundo nlvel de senal y del segundo nlvel de ruldo. El procedlmlento lncluye ademas calcular una dedslon de actlvldad de voz actual en fundon de una dlferenda entre la prlmera reladon y la segunda reladon.
Segun una forma de reaNzadon, el procedlmlento lncluye ademas llevar a cabo un flltrado de paso banda en la prlmera senal antes de estlmar el prlmer nlvel de senal, y llevar a cabo un flltrado de paso banda en la segunda senal antes de estlmar el segundo nlvel de senal. Una frecuenda de paso banda osdla entre los 400 y los 1000 herdos.
Segun una forma de reaNzadon, la dlstanda entre el prlmer mlcrofono y el segundo mlcrofono es al menos un orden de magnltud mfenor a una segunda dlstanda entre el prlmer mlcrofono y una fuente perturbadora de la componente
5
10
15
20
25
30
35
40
45
50
55
60
65
perturbadora. Segun una forma de realizacion, la distancia entre el primer microfono y el segundo microfono esta dentro de un orden de magnitud de una segunda distancia entre el primer microfono y una fuente objetivo de la componente objetivo, y la distancia entre el primer microfono y el segundo microfono es al menos un orden de magnitud inferior a una tercera distancia entre el primer microfono y una fuente perturbadora de la componente perturbadora. Segun una forma de realizacion, el primer microfono esta alejado una primera distancia de una fuente objetivo de la componente objetivo y esta alejado una segunda distancia de una fuente perturbadora de la componente perturbadora, y la primera distancia es un orden de magnitud mucho menor que la segunda distancia.
Segun una forma de realizacion, estimar el primer nivel de senal incluye estimar el primer nivel de senal llevando a cabo una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal.
Segun una forma de realizacion, estimar el primer nivel de ruido incluye estimar el primer nivel de ruido llevando a cabo, como se ha indicado mediante una decision de actividad de voz anterior, una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal.
Segun una forma de realizacion, estimar el primer nivel de senal incluye estimar el primer nivel de senal llevando a cabo una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal usando una primera constante de tiempo, y estimar el primer nivel de ruido incluye estimar el primer nivel de ruido llevando a cabo, como se ha indicado mediante una decision de actividad de voz anterior, una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal usando una segunda constante de tiempo, donde la primera constante de tiempo es mayor que la segunda constante de tiempo.
Segun una forma de realizacion, el procedimiento incluye ademas detectar un ruido de viento en funcion de una tercera relacion entre la primera relacion y la segunda relacion, donde calcular la decision de actividad de voz actual incluye calcular la decision de actividad de voz actual en funcion del ruido del viento y de la diferencia entre la primera relacion y la segunda relacion.
Segun una forma de realizacion, un procedimiento para detectar actividad de voz incluye recibir multiples senales desde multiples microfonos. El procedimiento incluye ademas estimar multiples niveles de senal en funcion de las multiples senales (por ejemplo, se estima el nivel de senal de cada senal). El procedimiento incluye ademas estimar multiples niveles de ruido en funcion de las multiples senales (por ejemplo, se estima el nivel de ruido de cada senal). El procedimiento incluye ademas calcular multiples relaciones en funcion de los multiples niveles de senal y los multiples niveles de ruido (por ejemplo, para una senal procedente de un microfono particular, el nivel de senal correspondiente y el nivel de ruido correspondiente dan como resultado una relacion correspondiente a ese microfono). El procedimiento incluye ademas ajustar las multiples relaciones segun multiples constantes. (A modo de ejemplo, la constante aplicada a la relacion correspondiente al segundo microfono se obtiene de la diferencia de nivel entre el primer microfono y el segundo microfono). El procedimiento incluye ademas calcular una decision de actividad de voz actual en funcion de las multiples relaciones despues de haberse ajustado por las multiples constantes.
Segun una forma de realizacion, un aparato incluye un circuito que lleva a cabo la deteccion de actividad de voz. El aparato incluye un primer microfono, un segundo microfono, un estimador de nivel de senal, un estimador de nivel de ruido, un primer divisor, un segundo divisor y un detector de actividad de voz. El primer microfono recibe una primera senal que incluye una primera componente objetivo y una primera componente perturbadora. El segundo microfono esta desplazado con respecto al primer microfono en una distancia. El segundo microfono recibe una segunda senal que incluye una segunda componente objetivo y una segunda componente perturbadora. La primera componente objetivo difiere de la segunda componente objetivo en funcion de la distancia, y la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia. El estimador de nivel de senal estima un primer nivel de senal basandose en la primera senal y estima un segundo nivel de senal basandose en la segunda senal. El estimador de nivel de ruido estima un primer nivel de ruido basandose en la primera senal y estima un segundo nivel de ruido basandose en la segunda senal. El primer divisor calcula una primera relacion basandose en el primer nivel de senal y en el primer nivel de ruido. El segundo divisor calcula una segunda relacion basandose en el segundo nivel de senal y en el segundo nivel de ruido. El detector de actividad de voz calcula una decision de actividad de voz actual basandose en una diferencia entre la primera relacion y la segunda relacion. El aparato tambien funciona de manera similar a lo descrito anteriormente en relacion con el procedimiento.
Un medio legible por ordenador puede incluir un programa informatico que controla que un procesador ejecute el procesamiento de manera similar a lo descrito anteriormente en relacion con el procedimiento.
La descripcion anterior ilustra varias formas de realizacion de la presente invencion junto con ejemplos de la manera en que pueden implementarse los aspectos de la presente invencion. No debe considerarse que los ejemplos y formas de realizacion anteriores son las unicas formas de realizacion, sino que se presentan para ilustrar la flexibilidad y las ventajas de la presente invencion, definida por las siguientes reivindicaciones. En base a la anterior descripcion y las siguientes reivindicaciones, otras disposiciones, formas de realizacion, implementaciones y equivalencias resultaran evidentes a los expertos en la tecnica y pueden utilizarse sin apartarse del alcance de la invencion, definido por las reivindicaciones.

Claims (13)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    reivindicaciones
    1. Un procedimiento para llevar a cabo una deteccion de actividad de voz, que comprende:
    recibir una primera senal de un primer microfono, incluyendo la primera senal una primera componente objetivo y una primera componente perturbadora;
    recibir una segunda senal de un segundo microfono desplazado con respecto al primer microfono en una distancia, incluyendo la segunda senal una segunda componente objetivo y una segunda componente perturbadora, donde la primera componente objetivo difiere de la segunda componente objetivo en funcion de la distancia, y donde la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia;
    estimar un primer nivel de senal en funcion de la primera senal; estimar un segundo nivel de senal en funcion de la segunda senal; estimar un primer nivel de ruido en funcion de la primera senal; estimar un segundo nivel de ruido en funcion de la segunda senal;
    calcular una primera relacion en funcion del primer nivel de senal y del primer nivel de ruido; calcular una segunda relacion en funcion del segundo nivel de senal y del segundo nivel de ruido; y calcular una decision de actividad de voz actual, donde la decision de actividad de voz actual significa que no se detecta ninguna actividad de voz si una diferencia entre la primera relacion y la segunda relacion es mas pequena que un umbral preseleccionado, donde el umbral es (1-p) ^min, donde p es un factor de desvanecimiento de propagacion y donde ^min es un umbral SNR mmimo preseleccionado para la presencia de voz en el microfono mas cercano al sonido objetivo, y donde la decision de actividad de voz actual significa que se detecta actividad de voz si la diferencia es mayor o igual al umbral preseleccionado.
  2. 2. El procedimiento segun la reivindicacion 1, que comprende ademas:
    llevar a cabo un filtrado de paso banda en la primera senal antes de estimar el primer nivel de senal; y llevar a cabo un filtrado de paso banda en la segunda senal antes de estimar el segundo nivel de senal, donde una frecuencia de paso banda oscila entre los 400 y los 1000 hercios.
  3. 3. El procedimiento segun la reivindicacion 1 o la reivindicacion 2, que comprende ademas:
    detectar un ruido de viento en funcion de una tercera relacion entre la primera relacion y la segunda relacion, donde calcular la decision de actividad de voz actual comprende calcular la decision de actividad de voz actual en funcion del ruido del viento y de la diferencia entre la primera relacion y la segunda relacion.
  4. 4. El procedimiento segun una cualquiera de las reivindicaciones 1 a 3, en el que la distancia entre el primer microfono y el segundo microfono es al menos un orden de magnitud inferior a una segunda distancia entre el primer microfono y una fuente perturbadora de la componente perturbadora.
  5. 5. El procedimiento segun una cualquiera de las reivindicaciones 1 a 3, en el que la distancia entre el primer microfono y el segundo microfono esta dentro de un orden de magnitud de una segunda distancia entre el primer microfono y una fuente objetivo de la componente objetivo, y donde la distancia entre el primer microfono y el segundo microfono es al menos un orden de magnitud inferior a una tercera distancia entre el primer microfono y una fuente perturbadora de la componente perturbadora.
  6. 6. El procedimiento segun una cualquiera de las reivindicaciones 1 a 3, en el que el primer microfono esta alejado una primera distancia de una fuente objetivo de la componente objetivo y esta alejado una segunda distancia de una fuente perturbadora de la componente perturbadora, y donde la primera distancia es un orden de magnitud mucho menor que la segunda distancia.
  7. 7. El procedimiento segun una cualquiera de las reivindicaciones 1 a 6, en el que estimar el primer nivel de senal comprende estimar el primer nivel de senal llevando a cabo una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal.
  8. 8. El procedimiento segun una cualquiera de las reivindicaciones 1 a 7, en el que estimar el primer nivel de ruido comprende estimar el primer nivel de ruido llevando a cabo, como se ha indicado mediante una decision de actividad de voz anterior, una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal.
  9. 9. El procedimiento segun una cualquiera de las reivindicaciones 1 a 6, en el que:
    estimar el primer nivel de senal comprende estimar el primer nivel de senal llevando a cabo una operacion recursiva de determinacion del promedio en un nivel de potencia de la primera senal usando una primera constante de tiempo; y
    estimar el primer nivel de ruido comprende estimar el primer nivel de ruido llevando a cabo, como se ha indicado mediante una decision de actividad de voz anterior, una operacion recursiva de determinacion del
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    promedio en un nivel de potencia de la primera senal usando una segunda constante de tiempo, donde la prlmera constante de tiempo es mayor que la segunda constante de tiempo.
  10. 10. Un aparato que incluye un circuito que esta configurado para llevar a cabo una deteccion de actividad de voz, comprendiendo el aparato:
    un primer microfono que esta configurado para recibir una primera senal que incluye una primera componente objetivo y una primera componente perturbadora;
    un segundo microfono, desplazado con respecto al primer microfono en una distancia, que esta configurado para recibir una segunda senal que incluye una segunda componente objetivo y una segunda componente perturbadora, donde la primera componente objetivo difiere de la segunda componente objetivo en funcion de la distancia, y donde la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia;
    un estimador de nivel de senal que esta configurado para estimar un primer nivel de senal basandose en la
    primera senal y que estima un segundo nivel de senal basandose en la segunda senal;
    un estimador de nivel de ruido que esta configurado para estimar un primer nivel de ruido basandose en la
    primera senal y que estima un segundo nivel de ruido basandose en la segunda senal;
    un primer divisor que esta configurado para calcular una primera relacion basandose en el primer nivel de
    senal y en el primer nivel de ruido;
    un segundo divisor que esta configurado para calcular una segunda relacion basandose en el segundo nivel de senal y en el segundo nivel de ruido; y
    un detector de actividad de voz que esta configurado para calcular una decision de actividad de voz actual, donde la decision de actividad de voz actual significa que no se detecta ninguna actividad de voz si una diferencia entre la primera relacion y la segunda relacion es mas pequena que un umbral preseleccionado, donde el umbral es (1-p) ^min, donde p es un factor de desvanecimiento de propagacion y donde ^min es un umbral SNR mmimo preseleccionado para la presencia de voz en el microfono mas cercano al sonido objetivo, y donde la decision de actividad de voz actual significa que se detecta actividad de voz si la diferencia es mayor o igual al umbral preseleccionado.
  11. 11. El aparato segun la reivindicacion 12, en el que el aparato esta adaptado para llevar a cabo el procedimiento segun una cualquiera de las reivindicaciones 2 a 9.
  12. 12. Un producto usado para llevar a cabo una deteccion de actividad de voz, que comprende:
    un primer microfono que esta configurado para recibir una primera senal que incluye una primera componente objetivo y una primera componente perturbadora;
    un segundo microfono, desplazado con respecto al primer microfono en una distancia, que esta configurado para recibir una segunda senal que incluye una segunda componente objetivo y una segunda componente perturbadora, donde la primera componente objetivo difiere de la segunda componente objetivo en funcion de la distancia, y donde la primera componente perturbadora difiere de la segunda componente perturbadora en funcion de la distancia;
    medios para estimar un primer nivel de senal basandose en la primera senal y que estiman un segundo nivel de senal basandose en la segunda senal;
    medios para estimar un primer nivel de ruido basandose en la primera senal y que estiman un segundo nivel de ruido basandose en la segunda senal;
    medios para calcular una primera relacion en funcion del primer nivel de senal y del primer nivel de ruido; medios para calcular una segunda relacion en funcion del segundo nivel de senal y del segundo nivel de ruido;
    medios para calcular una decision de actividad de voz actual, donde la decision de actividad de voz actual significa que no se detecta ninguna actividad de voz si una diferencia entre la primera relacion y la segunda relacion es mas pequena que un umbral preseleccionado, donde el umbral es (1-p) ^min, donde p es un factor de desvanecimiento de propagacion y donde ^min es un umbral SNR mmimo preseleccionado para la presencia de voz en el microfono mas cercano al sonido objetivo, y donde la decision de actividad de voz actual significa que se detecta actividad de voz si la diferencia es mayor o igual al umbral preseleccionado; y medios para llevar a cabo el procedimiento segun una cualquiera de las reivindicaciones 2 a 9.
  13. 13. Un medio tangible legible por ordenador que incluye un programa informatico para llevar a cabo la deteccion de actividad de voz, controlando el programa informatico un procesador para ejecutar el procedimiento segun una cualquiera de las reivindicaciones 1 a 9.
ES09774127.6T 2008-06-30 2009-06-25 Detector de actividad de voz de múltiples micrófonos Active ES2582232T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US77087P 1998-03-06
US7708708P 2008-06-30 2008-06-30
PCT/US2009/048562 WO2010002676A2 (en) 2008-06-30 2009-06-25 Multi-microphone voice activity detector

Publications (1)

Publication Number Publication Date
ES2582232T3 true ES2582232T3 (es) 2016-09-09

Family

ID=41010661

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09774127.6T Active ES2582232T3 (es) 2008-06-30 2009-06-25 Detector de actividad de voz de múltiples micrófonos

Country Status (5)

Country Link
US (1) US8554556B2 (es)
EP (1) EP2297727B1 (es)
CN (2) CN103137139B (es)
ES (1) ES2582232T3 (es)
WO (1) WO2010002676A2 (es)

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8452023B2 (en) 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
TWI408673B (zh) * 2010-03-17 2013-09-11 Issc Technologies Corp Voice detection method
CN203242334U (zh) * 2010-05-03 2013-10-16 艾利佛卡姆公司 用于电子系统的风抑制/替换部件
US8908877B2 (en) 2010-12-03 2014-12-09 Cirrus Logic, Inc. Ear-coupling detection and adjustment of adaptive response in noise-canceling in personal audio devices
WO2012075343A2 (en) 2010-12-03 2012-06-07 Cirrus Logic, Inc. Oversight control of an adaptive noise canceler in a personal audio device
WO2012083555A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
US9264804B2 (en) 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
US9313597B2 (en) 2011-02-10 2016-04-12 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US9076431B2 (en) 2011-06-03 2015-07-07 Cirrus Logic, Inc. Filter architecture for an adaptive noise canceler in a personal audio device
US9214150B2 (en) 2011-06-03 2015-12-15 Cirrus Logic, Inc. Continuous adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9824677B2 (en) 2011-06-03 2017-11-21 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US9318094B2 (en) 2011-06-03 2016-04-19 Cirrus Logic, Inc. Adaptive noise canceling architecture for a personal audio device
US8848936B2 (en) 2011-06-03 2014-09-30 Cirrus Logic, Inc. Speaker damage prevention in adaptive noise-canceling personal audio devices
US8948407B2 (en) 2011-06-03 2015-02-03 Cirrus Logic, Inc. Bandlimiting anti-noise in personal audio devices having adaptive noise cancellation (ANC)
US8958571B2 (en) * 2011-06-03 2015-02-17 Cirrus Logic, Inc. MIC covering detection in personal audio devices
JP5853534B2 (ja) * 2011-09-26 2016-02-09 オムロンヘルスケア株式会社 体重管理装置
US9325821B1 (en) * 2011-09-30 2016-04-26 Cirrus Logic, Inc. Sidetone management in an adaptive noise canceling (ANC) system including secondary path modeling
US9648421B2 (en) 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
CN103248992B (zh) * 2012-02-08 2016-01-20 中国科学院声学研究所 一种基于双麦克风的目标方向语音活动检测方法及系统
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9142205B2 (en) 2012-04-26 2015-09-22 Cirrus Logic, Inc. Leakage-modeling adaptive noise canceling for earspeakers
US9014387B2 (en) 2012-04-26 2015-04-21 Cirrus Logic, Inc. Coordinated control of adaptive noise cancellation (ANC) among earspeaker channels
US9002030B2 (en) * 2012-05-01 2015-04-07 Audyssey Laboratories, Inc. System and method for performing voice activity detection
US9082387B2 (en) 2012-05-10 2015-07-14 Cirrus Logic, Inc. Noise burst adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9076427B2 (en) 2012-05-10 2015-07-07 Cirrus Logic, Inc. Error-signal content controlled adaptation of secondary and leakage path models in noise-canceling personal audio devices
US9319781B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Frequency and direction-dependent ambient sound handling in personal audio devices having adaptive noise cancellation (ANC)
US9123321B2 (en) 2012-05-10 2015-09-01 Cirrus Logic, Inc. Sequenced adaptation of anti-noise generator response and secondary path response in an adaptive noise canceling system
US9318090B2 (en) 2012-05-10 2016-04-19 Cirrus Logic, Inc. Downlink tone detection and adaptation of a secondary path response model in an adaptive noise canceling system
US9100756B2 (en) 2012-06-08 2015-08-04 Apple Inc. Microphone occlusion detector
US9966067B2 (en) * 2012-06-08 2018-05-08 Apple Inc. Audio noise estimation and audio noise reduction using multiple microphones
US9532139B1 (en) 2012-09-14 2016-12-27 Cirrus Logic, Inc. Dual-microphone frequency amplitude response self-calibration
JP6003472B2 (ja) * 2012-09-25 2016-10-05 富士ゼロックス株式会社 音声解析装置、音声解析システムおよびプログラム
US9107010B2 (en) 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9369798B1 (en) 2013-03-12 2016-06-14 Cirrus Logic, Inc. Internal dynamic range control in an adaptive noise cancellation (ANC) system
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9106989B2 (en) 2013-03-13 2015-08-11 Cirrus Logic, Inc. Adaptive-noise canceling (ANC) effectiveness estimation and correction in a personal audio device
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US9414150B2 (en) 2013-03-14 2016-08-09 Cirrus Logic, Inc. Low-latency multi-driver adaptive noise canceling (ANC) system for a personal audio device
US9215749B2 (en) 2013-03-14 2015-12-15 Cirrus Logic, Inc. Reducing an acoustic intensity vector with adaptive noise cancellation with two error microphones
US9208771B2 (en) 2013-03-15 2015-12-08 Cirrus Logic, Inc. Ambient noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9467776B2 (en) 2013-03-15 2016-10-11 Cirrus Logic, Inc. Monitoring of speaker impedance to detect pressure applied between mobile device and ear
US9324311B1 (en) 2013-03-15 2016-04-26 Cirrus Logic, Inc. Robust adaptive noise canceling (ANC) in a personal audio device
US9635480B2 (en) 2013-03-15 2017-04-25 Cirrus Logic, Inc. Speaker impedance monitoring
CN103227863A (zh) * 2013-04-05 2013-07-31 瑞声科技(南京)有限公司 自动切换通话方向系统、方法及应用该系统的移动终端
US10206032B2 (en) 2013-04-10 2019-02-12 Cirrus Logic, Inc. Systems and methods for multi-mode adaptive noise cancellation for audio headsets
US9066176B2 (en) 2013-04-15 2015-06-23 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation including dynamic bias of coefficients of an adaptive noise cancellation system
US9462376B2 (en) 2013-04-16 2016-10-04 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9478210B2 (en) 2013-04-17 2016-10-25 Cirrus Logic, Inc. Systems and methods for hybrid adaptive noise cancellation
US9460701B2 (en) 2013-04-17 2016-10-04 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by biasing anti-noise level
US9578432B1 (en) 2013-04-24 2017-02-21 Cirrus Logic, Inc. Metric and tool to evaluate secondary path design in adaptive noise cancellation systems
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US9264808B2 (en) 2013-06-14 2016-02-16 Cirrus Logic, Inc. Systems and methods for detection and cancellation of narrow-band noise
CN104253889A (zh) * 2013-06-26 2014-12-31 联想(北京)有限公司 一种通话降噪的方法及电子设备
US9392364B1 (en) 2013-08-15 2016-07-12 Cirrus Logic, Inc. Virtual microphone for adaptive noise cancellation in personal audio devices
US9666176B2 (en) 2013-09-13 2017-05-30 Cirrus Logic, Inc. Systems and methods for adaptive noise cancellation by adaptively shaping internal white noise to train a secondary path
US9620101B1 (en) 2013-10-08 2017-04-11 Cirrus Logic, Inc. Systems and methods for maintaining playback fidelity in an audio system with adaptive noise cancellation
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10219071B2 (en) 2013-12-10 2019-02-26 Cirrus Logic, Inc. Systems and methods for bandlimiting anti-noise in personal audio devices having adaptive noise cancellation
US9704472B2 (en) 2013-12-10 2017-07-11 Cirrus Logic, Inc. Systems and methods for sharing secondary path information between audio channels in an adaptive noise cancellation system
US10382864B2 (en) 2013-12-10 2019-08-13 Cirrus Logic, Inc. Systems and methods for providing adaptive playback equalization in an audio device
US9524735B2 (en) 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
US9369557B2 (en) 2014-03-05 2016-06-14 Cirrus Logic, Inc. Frequency-dependent sidetone calibration
US9479860B2 (en) 2014-03-07 2016-10-25 Cirrus Logic, Inc. Systems and methods for enhancing performance of audio transducer based on detection of transducer status
US9648410B1 (en) 2014-03-12 2017-05-09 Cirrus Logic, Inc. Control of audio output of headphone earbuds based on the environment around the headphone earbuds
US9319784B2 (en) 2014-04-14 2016-04-19 Cirrus Logic, Inc. Frequency-shaped noise-based adaptation of secondary path adaptive response in noise-canceling personal audio devices
US9467779B2 (en) 2014-05-13 2016-10-11 Apple Inc. Microphone partial occlusion detector
US9609416B2 (en) 2014-06-09 2017-03-28 Cirrus Logic, Inc. Headphone responsive to optical signaling
US10181315B2 (en) 2014-06-13 2019-01-15 Cirrus Logic, Inc. Systems and methods for selectively enabling and disabling adaptation of an adaptive noise cancellation system
US9478212B1 (en) 2014-09-03 2016-10-25 Cirrus Logic, Inc. Systems and methods for use of adaptive secondary path estimate to control equalization in an audio device
CN105575405A (zh) * 2014-10-08 2016-05-11 展讯通信(上海)有限公司 一种双麦克风语音激活检测方法及语音采集设备
CN104320544B (zh) * 2014-11-10 2017-10-24 广东欧珀移动通信有限公司 移动终端的麦克风控制方法及移动终端
US9552805B2 (en) 2014-12-19 2017-01-24 Cirrus Logic, Inc. Systems and methods for performance and stability control for feedback adaptive noise cancellation
WO2016112113A1 (en) * 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
WO2017029550A1 (en) 2015-08-20 2017-02-23 Cirrus Logic International Semiconductor Ltd Feedback adaptive noise cancellation (anc) controller and method having a feedback response partially provided by a fixed-response filter
US9578415B1 (en) 2015-08-21 2017-02-21 Cirrus Logic, Inc. Hybrid adaptive noise cancellation system with filtered error microphone signal
US9721581B2 (en) * 2015-08-25 2017-08-01 Blackberry Limited Method and device for mitigating wind noise in a speech signal generated at a microphone of the device
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US10013966B2 (en) 2016-03-15 2018-07-03 Cirrus Logic, Inc. Systems and methods for adaptive active noise cancellation for multiple-driver personal audio device
US10482899B2 (en) 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
RU174044U1 (ru) * 2017-05-29 2017-09-27 Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) Аудиовизуальный многоканальный детектор наличия голоса
CN108975114B (zh) * 2017-06-05 2021-05-11 奥的斯电梯公司 用于电梯中的故障检测的系统和方法
US10431237B2 (en) * 2017-09-13 2019-10-01 Motorola Solutions, Inc. Device and method for adjusting speech intelligibility at an audio device
CN108449691B (zh) * 2018-05-04 2021-05-04 科大讯飞股份有限公司 一种拾音装置及声源距离确定方法
CN110648692B (zh) * 2019-09-26 2022-04-12 思必驰科技股份有限公司 语音端点检测方法及系统
CN115699173A (zh) * 2020-06-16 2023-02-03 华为技术有限公司 语音活动检测方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208864A (en) * 1989-03-10 1993-05-04 Nippon Telegraph & Telephone Corporation Method of detecting acoustic signal
US5572621A (en) * 1993-09-21 1996-11-05 U.S. Philips Corporation Speech signal processing device with continuous monitoring of signal-to-noise ratio
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7171003B1 (en) * 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
CA2448669A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
TW200305854A (en) * 2002-03-27 2003-11-01 Aliphcom Inc Microphone and voice activity detection (VAD) configurations for use with communication system
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
KR101118217B1 (ko) * 2005-04-19 2012-03-16 삼성전자주식회사 오디오 데이터 처리 장치 및 방법
EP1732352B1 (en) * 2005-04-29 2015-10-21 Nuance Communications, Inc. Detection and suppression of wind noise in microphone signals
WO2007091956A2 (en) 2006-02-10 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) A voice detector and a method for suppressing sub-bands in a voice detector
CN101154382A (zh) * 2006-09-29 2008-04-02 松下电器产业株式会社 检测风噪声的方法及其系统
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
CN101430882B (zh) * 2008-12-22 2012-11-28 无锡中星微电子有限公司 一种抑制风噪声的方法及装置
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal

Also Published As

Publication number Publication date
CN102077274A (zh) 2011-05-25
WO2010002676A3 (en) 2010-02-25
CN102077274B (zh) 2013-08-21
WO2010002676A2 (en) 2010-01-07
CN103137139A (zh) 2013-06-05
CN103137139B (zh) 2014-12-10
US20110106533A1 (en) 2011-05-05
EP2297727B1 (en) 2016-05-11
EP2297727A2 (en) 2011-03-23
US8554556B2 (en) 2013-10-08

Similar Documents

Publication Publication Date Title
ES2582232T3 (es) Detector de actividad de voz de múltiples micrófonos
KR101275442B1 (ko) 멀티채널 신호의 위상 기반 프로세싱을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능한 매체
KR101532153B1 (ko) 음성 활동 검출 시스템, 방법, 및 장치
US10218327B2 (en) Dynamic enhancement of audio (DAE) in headset systems
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
US9959886B2 (en) Spectral comb voice activity detection
KR102313894B1 (ko) 바람 잡음 검출을 위한 방법 및 장치
CN203351200U (zh) 用于电子系统的振动传感器和声学语音活动检测系统(vads)
US10412518B2 (en) Blocked microphone detection
US8143620B1 (en) System and method for adaptive classification of audio sources
CN203242334U (zh) 用于电子系统的风抑制/替换部件
KR20140026229A (ko) 음성 액티비티 검출
US11659326B2 (en) Apparatus for and method of wind detection
KR20180036778A (ko) 오디오 디바이스에서 재생 관리를 위한 사건 검출
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
JP5853133B2 (ja) 音響処理装置および音響処理方法
WO2018173266A1 (ja) 収音装置および収音方法