ES2430121T3 - Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario - Google Patents
Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario Download PDFInfo
- Publication number
- ES2430121T3 ES2430121T3 ES12170407T ES12170407T ES2430121T3 ES 2430121 T3 ES2430121 T3 ES 2430121T3 ES 12170407 T ES12170407 T ES 12170407T ES 12170407 T ES12170407 T ES 12170407T ES 2430121 T3 ES2430121 T3 ES 2430121T3
- Authority
- ES
- Spain
- Prior art keywords
- speech
- signal
- filter
- equipment
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 19
- 238000001914 filtration Methods 0.000 title description 9
- 230000003044 adaptive effect Effects 0.000 claims abstract description 29
- 230000001755 vocal effect Effects 0.000 claims abstract description 28
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 13
- 238000011282 treatment Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000001364 causal effect Effects 0.000 description 6
- 230000003071 parasitic effect Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 210000003800 pharynx Anatomy 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241000287531 Psittacidae Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Un equipo de audio, que comprende: - un conjunto de dos sensores microfónicos (10, 12) aptos para recoger el habla del usuario del equipo y paraemitir unas señales de habla ruidosas respectivas; - medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y - medios de supresión de ruido de una señal de habla, que reciben como entrada las muestras de las señalesde habla emitidas por los dos sensores microfónicos, y emiten como salida una señal de habla carente de ruidorepresentativa del habla emitida por el usuario del equipo, en el que los medios de supresión de ruido son medios de reducción de ruido no frecuencial que comprendenun combinador de filtro adaptativo (14) de las señales emitidas por los dos sensores microfónicos, que operanmediante búsqueda iterativa con el objeto de anular el ruido captado por uno de los sensores microfónicos (10)en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico (12); estando el equipo caracterizado por que: - el filtro adaptativo (16) es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo demuestreo de los medios de muestreo; - el equipo comprende además medios de detección de actividad vocal (20, 22) aptos para emitir una señalrepresentativa de la presencia o de la ausencia de habla por el usuario del equipo; y - el filtro adaptativo recibe igualmente como entrada la señal de presencia o de ausencia de habla para, demanera selectiva: i) o bien operar una búsqueda adaptativa de los parámetros del filtro en ausencia de habla, ii)o bien congelar estos parámetros del filtro en presencia de habla.
Description
Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
La invención se refiere al tratamiento del habla en un medio ruidoso.
Se refiere, en particular, al tratamiento de las señales de habla captadas por unos dispositivos de telefonía de tipo “manos libres” destinados a ser utilizados en un entorno ruidoso.
Estos aparatos incorporan uno o varios micrófonos (“micros”) sensibles, que captan no solo la voz del usuario sino igualmente el ruido circundante, ruido que constituye un elemento perturbador que puede llegar en ciertos casos a convertir en ininteligible el habla del locutor. Lo mismo sucede si se quieren poner en práctica técnicas de reconocimiento de voz, pues es difícil efectuar un reconocimiento de forma sobre hablas ahogadas en un nivel de ruido elevado.
Esta dificultad unida a los ruidos circundantes es particularmente apremiante en el caso de los dispositivos “manos libres” para vehículos automóviles, ya se trata de equipos incorporados al vehículo o bien de accesorios en forma de carcasa inmóvil que integra todos los componentes y funciones de tratamiento de la señal para la comunicación telefónica.
En efecto, la importante distancia entre el micro (colocado al nivel del salpicadero o en un ángulo superior del techo del habitáculo) y el locutor (cuyo alejamiento está condicionado por la posición de la conducción) provoca la captación de un nivel de ruido relativamente elevado, que hace difícil la extracción de la señal útil, ahogada en el ruido. Así mismo, el medio muy ruidoso típico del entorno del automóvil presenta unas características espectrales no fijas, es decir que evolucionan de manera imprevisible en función de las condiciones de la conducción: paso por calzadas bacheadas o adoquinadas, la radio del vehículo en funcionamiento, etc.
Dificultades del mismo tipo se presentan en el caso de que el dispositivo consista en unos cascos de audio de tipo micro/cascos combinado utilizado para funciones de comunicación como por ejemplo funciones de telefonía “manos libres”, como complemento de la escucha de una fuente de audio (música, por ejemplo) proveniente de un aparato al que están conectados los cascos.
En este caso, se trata de utilizar una inteligibilidad suficiente de la señal captada por el micro, es decir de la señal de habla del locutor próximo (el portador de los cascos), o bien los cascos pueden ser utilizados en un entorno ruidoso (metro, calle de mucho tránsito, tren, etc.), de manera que el micro captará no solo el habla del portador de los cascos, sino los ruidos parásitos circundantes. El portador está ciertamente protegido de este ruido por los cascos, en especial si se trata de un modelo con auriculares cerrados que aíslen el ruido del exterior, y todavía más si los cascos están provistos de un “control activo del ruido”. Por contra, el locutor distante (el que se encuentra en el otro extremo del canal de comunicación) sufrirá ruidos parásitos captados por el micro y que vienen a interponerse y a interferir con la señal de habla del locutor próximo (el portador de los cascos). En particular, determinados formantes del habla esenciales para la comprensión de la voz quedan a menudo ahogados en componentes de ruido que habitualmente se encuentran en los entornos habituales.
La invención se refiere, más en concreto, a técnicas de supresión de ruido que incorporan varios micros, generalmente dos micros, para combinar de manera equilibrada las señales captadas simultáneamente por estos micros con el fin de aislar los componentes del habla útiles de los componentes de ruidos parásitos.
Una técnica clásica consiste en colocar y orientar uno de los micros para que capte principalmente la voz del locutor, mientras que el otro se dispone para que capte un componente de ruido más importante que el micro principal. La comparación de los signos captados permite extraer la voz del ruido ambiental mediante el análisis de la coherencia espacial de las dos señales, con medios software relativamente simples.
El documento US 2008/0280653 A1 describe una configuración de este tipo, en la que uno de los micros (el que capta principalmente la voz) es el de un auricular inalámbrico que lleva el conductor del vehículo, mientras que el otro (el que capta principalmente el ruido) es el del aparato telefónico, situado a distancia dentro del habitáculo del vehículo, por ejemplo acoplado al salpicadero.
Esta técnica, sin embargo, tiene el inconveniente de que se necesitan dos micros distantes, de forma que la eficacia es tanto más elevada cuanto más alejados están los dos micros. Debido a ello, esta técnica no es aplicable al dispositivo en el que los dos micros están próximos, por ejemplo dos micros incorporados en el frontal de una radio de vehículo automóvil, o dos micros que estuvieran dispuestos sobre una de las carcasas de un auricular de los cascos de audio.
Otra técnica más, llamada conformación de haces, consiste en crear mediante medios software una directividad que mejore la relación señal/ruido de la red o “antena” de micros. El documento US 2007/0165879 A1 describe una técnica de este tipo, aplicada a un par de micros no direccionales colocados de espaldas. Un filtrado adaptativo de las señales captadas permite derivar de salida una señal en la que el componente de voz ha sido reforzado.
No obstante, se considera que un método de este tipo no proporciona buenos resultados más que a condición de que disponga de al menos ocho micros, resultando en prestaciones extremadamente limitadas cuando solamente se utilizan dos micros.
El problema general de la invención es, en un contexto como el referido, proceder a una reducción eficaz del ruido que permita transmitir al locutor distante una señal vocal representativa del habla emitida por el locutor próximo (conductor del vehículo o portador de los cascos), liberando a esta señal de los componentes parásitos del ruido exterior existentes en el entorno de este locutor próximo.
El problema de la invención es igualmente, en tal situación, el de poder incorporar a la vez un conjunto de micros de un número reducido (de modo ventajoso, dos micros solamente) y relativamente próximos (típicamente una separación de solo algunos centímetros). Otro aspecto importante del problema es la necesidad de restituir una señal de habla natural e inteligible, es decir no distorsionada y cuyo espectro de frecuencias útiles no resulte cercenado por los tratamientos de supresión de ruido.
Con este fin la invención propone un equipo de audio del tipo general divulgado por el documento US 2008/0280653 A1 precitado, es decir que comprende: un conjunto de dos sensores microfónicos aptos para recoger el habla del usuario del equipo y para emitir unas señales de habla ruidosas respectivas; unos medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y unos medios de supresión de ruido de una señal de habla, que reciben como salida las muestras de las señales de habla emitidas por los dos sensores microfónicos, y emiten de salida una señal de habla sin ruidos representativa del habla emitida por el usuario del equipo. Los medios de supresión de ruido son unos medios de reducción de ruido no frecuencial que comprenden un combinador con filtro adaptativo de las señales emitidas por los dos sensores microfónicos, que operan mediante la búsqueda iterativa que tiene por objeto anular el ruido captado por uno de los sensores microfónicos en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico.
Como característica distintiva de la invención, el filtro adaptativo es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo de muestreo de los medios de muestreo. El equipo comprende además unos medios de detección de la actividad vocal aptos para emitir una señal representativa de la presencia o ausencia de habla por el usuario del equipo, y el filtro adaptativo recibe igualmente como entrada la señal de presencia o ausencia de habla, para, de forma selectiva: i) o bien operar una búsqueda adaptativa de los parámetros de filtro en ausencia de habla, ii) o bien congelar estos parámetros del filtro en presencia de habla.
El filtro adaptativo es, en especial, apto para estimar un filtro óptimo H, como:
representando A la estimación del filtro óptimo H, la transferencia de ruido entre los dos sensores
microfónicos para una respuesta de impulso incluyendo un retardo fraccionario, representando G la estimación del filtro del retardo fraccionario G entre los dos sensores microfónicos, representando
la estimación de la respuesta acústica del entorno, indicando
una convolución,
siendo x(n) la serie de muestras de la señal de entrada del filtro H, siendo x’(n) la serie x(n) desplazada el retardo τ, siendo Te el periodo de muestreo de la señal de entrada del filtro H, siendo τ dicho retardo fraccionario, igual a un submúltiplo de Te, e indicando sinc la función seno cardinal.
De modo preferente, el filtro adaptativo es un filtro para algoritmo de predicción lineal de tipo mínimos cuadrados medios, LMS.
En una forma de realización, el equipo comprende una cámara de vídeo dirigida hacia el usuario del equipo y apta para captar una imagen de éste, y los medios de detección de actividad vocal comprenden unos medios de análisis de vídeo aptos para analizar la imagen producida por la cámara y para emitir, como respuesta, dicha señal de presencia o de ausencia de habla por dicho usuario.
En otra forma de realización, el equipo comprende un sensor fisiológico apto para situarse en contacto con la cabeza
del usuario del equipo para quedar acoplado a ella con el fin de captar las vibraciones vocales no acústicas transmitidas por conducción ósea interna, y los medios de detección de actividad vocal comprenden unos medios aptos para analizar la señal emitida por el sensor fisiológico y para emitir, como respuesta, dicha señal de presencia
o de ausencia de habla por dicho usuario, en especial mediante la evaluación de la energía de la señal emitida por el sensor fisiológico y su comparación con un umbral.
El equipo puede en particular ser unos cascos de audio del tipo combinado micro/cascos, que comprenda: unos auriculares cada uno de los cuales incorpore un transductor de reproducción sonora de una señal de audio alojada en una carcasa provista de una almohadilla circumaural; dichos dos sensores microfónicos, dispuestos sobre la carcasa de uno de los auriculares; y dicho sensor fisiológico incorporado a la almohadilla de uno de los auriculares y situado en una región de éste apta para situarse en contacto con la mejilla o con la sien del portador de los cascos. Estos dos sensores microfónicos están, de modo preferente, alineados en una red lineal siguiendo una dirección principal dirigida hacia la boca del usuario del equipo.
A continuación se describirá un ejemplo de puesta en práctica del dispositivo de la invención, con referencia a los dibujos adjuntos, en los que las mismas referencias numéricas designan a lo largo de ellos elementos idénticos o funcionalmente similares.
La Figura 1 ilustra de manera esquemática, en forma de bloques funcionales, la manera en la que se lleva a cabo el tratamiento de la supresión de ruido según la invención.
La Figura 2 es una representación gráfica de la función seno cardinal modelada en el tratamiento de la supresión de ruido de la invención.
Las Figuras 3a y 3b son dos representaciones de la función seno cardinal de la Figura 2, respectivamente para los diferentes puntos de una serie de muestras de señal, y para la misma serie desplazada en el tiempo un valor fraccionario.
La Figura 4 es una representación de la respuesta acústica del entorno con, como ordenada, la amplitud y, como abscisa, los coeficientes del filtro que representan esta transferencia.
La Figura 5 es análoga a la Figura 4, después de la convolución con una respuesta de seno cardinal.
La Figura 6 es una representación esquemática de una forma de realización consistente en la utilización de una cámara para asegurar la detección de actividad vocal.
La Figura 7 ilustra de forma general un conjunto de micros/cascos combinado al cual pueden aplicarse las enseñanzas de la invención.
La Figura 8 es un esquema de conjunto que ilustra en forma de bloques funcionales la manera en la que puede llevarse a cabo el tratamiento de la señal para emitir de salida una señal sin ruido representativa del habla emitida por el portador de los casos de la Figura 7.
La Figura 9 ilustra dos cronogramas correspondientes, respectivamente, a un ejemplo de la señal ruidosa recogida por los micros, y de la señal recogida por un sensor fisiológico que permite distinguir los periodos de habla y los periodos de silencio del locutor.
La Figura 1 ilustra de forma esquemática, en forma de bloques, las diferentes funciones puestas en práctica por la invención.
El proceso de la invención se pone en práctica mediante medios software, esquematizados mediante un cierto número de bloques funcionales correspondientes a algoritmos apropiados ejecutados por un microcontrolador o un procesador digital de señal. Aunque, para clarificar la exposición, las diferentes funciones se representen bajo la forma de módulos diferenciados, dichas funciones aplican elementos comunes y se corresponden en la práctica con una pluralidad de funciones globalmente ejecutadas por un mismo ordenador.
La señal de la que se desea suprimir los ruidos es emitida por una red de sensores microfónicos la cual, en la configuración mínima ilustrada, puede ser simplemente una red de dos sensores dispuestos según una configuración predeterminada, estando cada sensor constituido por un micro respectivo correspondiente 10, 12.
La invención puede, no obstante, generalizarse a una red de más de dos sensores microfónicos, y/o a unos sensores microfónicos de los cuales cada sensor esté constituido por una estructura más compleja de la de un solo micro, por ejemplo, una combinación de varios micros y/o de otros sensores de habla.
Los micros 10, 12 son unos micros que captan la señal emitida por la fuente de señal útil (la señal de habla del locutor), y la diferencia de posición entre los dos micros determina un conjunto de desfases y variaciones de amplitud en el registro de las señales emitidas por la fuente de señal útil.
En la práctica, los dos micros 10, 12, son unos micros omnidireccionales dispuestos a unos centímetros uno de otro
sobre la luz cenital de un habitáculo de automóvil, sobre el frontal de una radio del automóvil o de un emplazamiento apropiado del salpicadero, o bien sobre la carcasa de uno de los auriculares de unos cascos de audio, etc.
Como se podrá apreciar, la técnica de la invención permite asegurar una supresión de ruido eficaz incluso para micros muy próximos, es decir separados entre ellos por una separación d tal que el retardo de fase máxima de una señal captada por un micro y después por el otro sea inferior al periodo de muestreo del convertidor de digitalización de las señales. Ello se corresponde con una distancia máxima d del orden de 4,7 cm para una frecuencia de muestreo Fe de 8 kHz (y una separación d media menor para una frecuencia doble, etc.).
Una señal de habla emitida por un locutor próximo alcanzará uno de los micros antes que el otro y ofrecerá, por tanto, un retardo y, por tanto, un desfase <, sensiblemente constante. Respecto del ruido, puede sin duda existir igualmente un desfase entre los dos micros 10 y 12. Por contra, al estar unida la noción de desfase a la noción de onda incidente, se puede esperar que el desfase sea diferente al del habla. Por ejemplo, si un ruido directivo es dirigido en el sentido opuesto al de la boca, su desfase será de -< si el desfase para la voz es <. En el supuesto de la invención, la reducción de ruido sobre las señales captadas para los micros 10 y 12 no se opera en el dominio frecuencial (como sucede a menudo en las técnicas convencionales de supresión de ruido) sino en el dominio temporal.
Esta reducción de ruido se opera mediante un algoritmo que pretende la función de transferencia entre uno de los micros (por ejemplo el micro 10) y el otro micro (el micro 12) por medio de un combinador adaptativo 14 que emplea un filtro predictivo 16 de tipo LMS (Least Mean Squares, mínimos cuadrados medios). La salida del filtro 16 se sustrae en la convolución 18 de la señal del micro 10 para dar una señal S de ruido suprimido, aplicada otra vez al filtro 16 para permitir su adaptación iterativa en función del error de predicción. Es así posible predecir a partir de la señal captada por el micro 12 el componente de ruido contenido en la señal captada por el micro 10 (identificando la función de transferencia la transferencia del ruido).
La búsqueda adaptativa de la función de transferencia entre los dos micros no se opera más que durante las fases de ausencia de habla. Para ello, la adaptación iterativa del filtro 16 no se activa más que cuando un detector 20 de actividad vocal VAD (Detector de Actividad Vocal) accionado por un sensor 22 indica que el locutor próximo no está hablando. Esta función es esquematizada por el conmutador 24: en ausencia de la señal de habla manifestada por el detector de actividad vocalmente, el combinador adaptativo 14 pretende optimizar la función de transferencia entre los dos micros 10 y 12 para reducir el componente de ruido (posición cerrada del conmutador 24 como se ilustra en la figura); por contra en presencia de una señal de habla, manifestada por el detector de actividad vocal 20, el combinador adaptivo 14 congela los parámetros del filtro 16 en el valor en el que se encontraban justo antes de que se detecte el habla (apertura del conmutador 24), lo que evita cualquier degradación de la señal de habla del locutor próximo.
Se advertirá que esta manera de proceder no es molesta incluso en presencia de un entorno ruidoso evolutivo, pues las actualizaciones de los parámetros del filtro 16 son muy frecuentes ya que intervienen cada vez que el locutor próximo cesa de hablar.
Como característica distintiva de la invención, el filtrado del combinador adaptativo 14 es un filtrado de retardo fraccionario, es decir que permite aplicar un filtrado entre las señales captadas por los dos micros teniendo en cuenta un retardo inferior a la duración de una muestra de digitalización de las señales.
Es sabido que una señal temporal x(t) de paso banda [0,Fe/2] puede reconstruirse de manera perfecta a partir de la serie discreta x(k), donde las muestras x(k) se corresponden con los valores de x(t) en los instantes k.Te siendo (Te = 1/Fe) el periodo de muestreo).
La expresión matemática es la siguiente:
Definiéndose la función seno cardinal mediante:
La Figura 2 da una representación gráfica de esta función sinc (t). Como se puede constatar decrece rápidamente, con la consecuencia de que un número finito y relativamente débil de coeficientes k en la suma produce una muy buena aproximación al resultado real.
Para una señal digitalizada con un periodo de muestreo Te, el intervalo o separación entre dos muestras corresponde de manera temporal a una duración de Te secundaria.
La serie x(n) de n muestras sucesivas digitalizadas de la señal captada puede así representarse mediante la expresión siguiente para todo n entero:
Se advertirá que en la suma del término en sinc es nulo para todo k, salvo para k = n.
La Figura 3a ofrece una representación gráfica de esta función.
Se quiere calcular esta misma serie x(n) desplazada un valor fraccionario τ es decir con un retardo inferior a la
situación de una muestra de digitalización Te, la expresión anterior se convierte en:
La Figura 3b ofrece una representación gráfica de esta función, para un ejemplo de valor fraccionario τ = 0,5 (media 10 muestra).
La serie x’(n) (desplazada τ) puede considerarse como la convolución de x(n) mediante un filtro no causal G de forma que:
Se trata, por tanto, de determinar una estimación G de un filtro óptimo G de forma que:
15 siendo A la estimación de la transferencia de ruido entre los dos micros, incluyendo un retardo fraccionario, y siendo F la estimación de la respuesta acústica del entorno. Para la estimación del filtro de transferencia de ruido entre los dos micros, la estimación A corresponde a un filtro que minimiza un error: 20 e(n) = MicAvant(n) - A * MicArrière(n) siendo MicAvant(n) y MicArriére(n) los valores respectivos de las señales emitidas por los sensores microfónicos 10 y 12. La característica de este filtro es que no es causal, es decir que se sirve de las muestras futuras. En la práctica, esto significa que se produce un retardo entre el retardo de tratamiento algorítmico. Como no es causal, puede modelar
25 un retardo fraccionario y puede por tanto escribirse . (En el caso clásico de un filtro causal se tendría A = ).
Concretamente, en el algoritmo, la estimación de A tiene lugar directamente, por la minimización del error e(n)
anterior, sin que haya necesidad de estimar separadamente G y . En el caso clásico causal (por ejemplo para un filtro de anulación de eco), el error e(n) que hay que minimizar se 30 escribe, en forma desarrollada:
Siendo L la longitud del filtro.
En el caso de la presente invención (filtro no causal) el error se convierte en:
35 Se advertirá que la longitud del filtro se ha doblado, para tener en cuenta muestras futuras.
La predicción del filtro H ofrece un filtro de retardo fraccionario el cual, idealmente y en ausencia de habla, anula el
ruido del micro 10 al ser preferente el micro 12 (como se ha indicado más arriba, en periodo de habla el filtro es sin embargo congelado para evitar cualquier degradación del habla local).
Concretamente, el filtro A calculado para el algoritmo adaptativo que estima la transferencia de ruido entre el micro
10 y el micro 12, puede verse como la convolución de los filtros G y
donde:
- -
- G corresponde a la parte fraccionaria (con la forma seno cardinal), y
- -
corresponde a la transferencia acústica entre los dos micros, es decir a la parte “medioambiental” del sistema, representativa de la acústica del volumen en el que opera aquél.
La Figura 4 ilustra un ejemplo de respuesta acústica entre los dos micros, bajo la forma de una característica que ofrece una amplitud A en función de los coeficientes k del filtro F. Las diferentes reflexiones del sonido que pueden intervenir en función del entorno, por ejemplo en los cristales u otras paredes de un habitáculo de coche, crean unos picos visibles en esta característica de respuesta acústica.
La Figura 5 ilustra un ejemplo del resultado de la convolución G
F de los dos filtros G (respuesta en seno cardinal) y F (entorno de utilización), bajo la forma de una característica que ofrece la amplitud A en función de los coeficientes k del filtro convolucionado.
La estimación A puede calcularse mediante un algoritmo LMS iterativo que pretende minimizar el error y(n) -A x(n) para converger hacia el filtro óptimo.
Los algoritmos de tipo LMS - o NLMS (Normalized LMS) que son una versión normalizada del LMS - son unos algoritmos relativamente simples y poco exigentes en términos de recursos de cálculo. Se trata de algoritmos conocidos de por sí, descritos por ejemplo por:
[1] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R.E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563 - 587, 1970;
[2] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEEE, Vol. 63, No 12 pp. 1692 - 1716, dic. 1975.
[3] B. Widrow y S. Stearns, Adaptative Signal Processing, Prentice -Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
Como se ha indicado más arriba, para que el tratamiento precedente sea posible, es necesario disponer de un detector de actividad local que permita discriminar entre las fases de ausencia de habla (o que la adaptación del filtro permita optimizar la evolución del ruido) y de presencia de habla (o que los parámetros del filtro sean congelados en su último valor encontrado).
Más exactamente, el detector de actividad vocal es aquí, de modo preferente, un detector “perfecto”, es decir que emite una señal binaria (ausencia vs. presencia de habla). Se distingue así de la mayor parte de los detectores de actividad vocal utilizados en los sistemas de supresión de ruido conocidos, que emiten solamente una probabilidad de ausencia de habla variable entre un 0 y un 100 % de forma continua o en pasos sucesivos. Con tales detectores basados solamente en una probabilidad de ausencia de habla, las falsas detecciones pueden ser importantes en los entornos ruidosos. Para ser “perfecto”, el detector de actividad vocal no se puede basar únicamente en la señal captada por los micros, sino que debe disponer de una información adicional que permita discriminar las fases de habla y de silencio del locutor próximo.
Un primer ejemplo de un detector de este tipo se ilustra mediante la Figura 6, donde el detector vocal 20 opera como respuesta a la señal producida por una cámara.
Esta cámara es, por ejemplo, una cámara 26 instalada en el habitáculo de un vehículo automóvil, y orientada de forma que su ángulo de campo 28 englobe en todas las circunstancias la cabeza del conductor 30, considerado como el locutor próximo. La señal emitida por la cámara 26 se analiza para determinar, de acuerdo con el movimiento de la boca y de los labios, si el locutor habla o no.
Con este fin, se pueden utilizar unos algoritmos de detección de la zona de la boca en una imagen de un rostro, y de seguimiento del movimiento de los labios (lip contour tracking) como los analizados en especial por:
[4] G. Potamianos et al., Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing, G. Bailly et al. Eds., MIT Press, pp. 1 - 30, 2004.
Este documento describe, con carácter general, el aporte de una información visual como complemento de una señal de audio para, en especial, efectuar el reconocimiento vocal en condiciones acústicas degradadas.
Los datos de vídeo, vienen así a añadirse a los datos de audio convencionales para mejorar la información vocal.
Este tratamiento podrá utilizarse en el marco de la presente invención para distinguir entre las fases de habla y las fases de silencio del locutor. Para tener en cuenta el hecho de que en un habitáculo de automóvil los movimientos del usuario son lentos mientras que los movimientos de la boca son rápidos, se puede, por ejemplo, una vez localizada la boca, comparar dos imágenes consecutivas y evaluar la separación en un mismo píxel.
La ventaja de esta técnica de análisis de imagen consiste en disponer de una información complementaria totalmente independiente del entorno de ruido acústico.
Otro ejemplo de sensor utilizable para la detección vocal “perfecta” es un sensor fisiológico susceptible de detectar ciertas vibraciones locales del locutor que no estén o que estén escasamente corrompidas por el ruido circundante.
Un sensor de este tipo puede estar, en especial, constituido por un acelerómetro o por un sensor piezoeléctrico aplicado a la mejilla o la sien del locutor. En efecto, cuando una persona emite un sonido vocalizado (es decir un compuesto de habla cuya emisión se acompaña con una vibración de las cuerdas vocales), se propaga una vibración desde las cuerdas vocales hasta la faringe y en la cavidad buconasal, donde es modulada, amplificada y articulada. La boca, el velo del paladar, la faringe, los senos y las fosas nasales sirven luego de caja de resonancia a este sonido vocalizado y, siendo su pared elástica, vibran a su vez y estas vibraciones son transmitidas mediante conducción ósea interna y son perceptibles al nivel de la mejilla y de la sien.
Estas vibraciones al nivel de la mejilla y de la sien presentan la característica de estar, por naturaleza, muy poco corrompidas por el ruido ambiente: en efecto, en presencia de ruidos exteriores, incluso importantes, los tejidos de la mejilla y de la sien apenas vibran, y ello cualquiera que sea la composición espectral del ruido exterior.
Un sensor fisiológico que recoja estas vibraciones vocales desprovistas de ruido proporciona una señal representativa de la presencia o de la ausencia de los sonidos vocalizados emitidos por el locutor, que permiten, por tanto, discriminar muy bien las fases de habla y las fases de silencio del locutor.
Un sensor fisiológico de este tipo puede, en particular, incorporarse a un conjunto combinado de micro/cascos como por ejemplo el ilustrado en la Figura 7.
En esta figura, la referencia 32 designa globalmente los cascos según la invención, los cuales incorporan dos auriculares 34 unidos por un arco. Cada uno de los auriculares está, de modo preferente, constituido por una carcasa cerrada 36, que aloja un transductor de reproducción sonora, aplicado alrededor de la oreja del usuario con la interposición de una almohadilla 38 que aísla el oído del exterior.
El sensor fisiológico 40 que sirve para la detección de actividad vocal es, por ejemplo, un acelerómetro integrado en la almohadilla 38 para acoplarse a la mejilla o la sien del usuario con un acoplamiento lo más estrecho posible. El sensor fisiológico 40 puede, en particular, situarse sobre la cara interior de la piel de la almohadilla 38 de manera que, una vez que los cascos se colocan en posición, el sensor se aplique contra la mejilla o la sien del usuario por efecto de una ligera presión derivada del aplastamiento del material de la almohadilla, solamente con la interposición de la piel exterior de esta almohadilla.
Los cascos incorporan igualmente los micros 10, 12 del circuito de recogida y de supresión de ruido del habla del locutor. Estos dos micros son unos micros omnidireccionales situados sobre la carcasa 36, y están dispuestos con el micro 10 situado en posición adelantada (más cerca de la boca del portador de los cascos) y el micro 12 situado más hacia atrás. Por otro lado, la posición de alineamiento 42 de los dos micros 10, 12 está aproximadamente dirigida hacia la boca 44 del portador de los casos.
La Figura 8 es un esquema de bloques que muestra las diferentes funciones empleadas por el conjunto micro/cascos de la Figura 7.
Se vuelven a encontrar en este figura los dos micros 10 y 12, así como el detector de actividad vocal 20. El micro delantero 10 es el micro principal y el micro trasero 12 sirve de entrada al filtro adaptativo 16 del combinador 14. El detector de actividad vocal 20 es controlado por la señal emitida por el sensor fisiológico 40 con, por ejemplo, el alisado de la potencia de la señal emitida por el sensor 40.
Puissancecapteur (n) = a.puissancecapteur (n - 1) + (1 -a), (capteur (n))2
siendo a una constante de alisado próxima a 1. Basta entonces con fijar un umbral � de forma que el umbral sea sobrepasado en el momento en que el locutor habla.
La Figura 9 ilustra la traza de las señales recogidas:
- -
- la señal S10 del cronograma superior se corresponde con la que es captada por el micro delantero 10: se ve que es imposible producir a partir de esta señal (ruidosa) una discriminación eficaz entre las fases de presencia y ausencia de habla.
- -
- la señal S40 del cronograma de abajo se corresponde con el que emite simultáneamente el sensor fisiológico
40: las fases sucesivas de ausencia y presencia de habla están marcadas de manera muy visible. La señal
binaria designada como VAD se corresponde con la indicación emitida por el detector de actividad vocal 20 (‘1’ = presencia de habla; ‘0’ = ausencia de habla), después de la evaluación de la potencia de la señal S40 y la comparación en relación al umbral predefinido.
La señal emitida por el sensor fisiológico 40 puede utilizarse no solamente como señal de entrada de un detector de actividad vocal, sino igualmente para enriquecer la señal captada por los micros 10 y 12, en especial en el registro bajo del espectro.
Por supuesto, las señales emitidas por el sensor fisiológico, que se corresponden a los sonidos vocalizados, no son estrictamente hablando habla, puesto que el habla no está solamente formada por los sonidos vocalizados, sino que contiene componentes que no nacen al nivel de las cuerdas vocales: el contenido frecuencial es por ejemplo mucho más rico con el sonido proveniente de la garganta y emitido por la boca. Además, la conducción ósea interna y el atravesar la piel tienen como efecto filtrar determinados componentes vocales.
Por otro lado, en razón del filtrado debido a la propagación de las vibraciones hasta la sien o la mejilla, la señal recogida por el sensor fisiológico se utiliza típicamente en bajas frecuencias, principalmente en la región inferior del espectro sonoro (típicamente de 0 a 1500 Hz).
Pero como los ruidos que generalmente se perciben en un entorno habitual (calle, metro, tren, …) están mayoritariamente concentrados en frecuencias bajas, la señal de un sensor fisiológico presenta la ventaja considerable de estar naturalmente desprovista de componentes parásitos de ruido y será, por tanto, posible utilizar esta señal en el registro bajo del espectro, completándolo en el registro alto del espectro (por encima de 1500 Hz) mediante las señales (ruidosas) recogidas por los micros 10 y 12, después de haber sometido estas señales a una reducción de ruido operada por el combinador adaptativo 14.
El espectro completo es reconstruido por el bloque de mezcla 46 que recibe paralelamente: la señal del sensor fisiológico 40 para el registro bajo del espectro, y la señal de los micros 10 y 12 después de la supresión del ruido mediante el combinador adaptativo 14 para el registro alto del espectro. Esta reconstrucción se produce mediante la suma de las señales, que son aplicadas en sincronía al bloque de mezcla 46 para evitar cualquier deformación.
La señal resultante emitida por el bloque 46 puede someterse a una reducción final de ruido por el circuito 48, operada en el dominio frecuencial según una técnica convencional comparable a la descrita, por ejemplo, en el documento WO 2007/099222 A1 (Parrot), para producir como salida la señal últimas desprovista de ruido.
El establecimiento de esta técnica resulta, sin embargo, fuertemente simplificado con respecto a la que se da a conocer por ejemplo en el documento precitado. En efecto, en el caso presente, ya no es necesario evaluar una probabilidad de presencia de habla a partir de la señal recogida puesto que esta información puede obtenerse obtenida directamente por el bloque de detección de actividad 20 en respuesta a la emisión de la detección de sonido vocalizado detectada por el sensor fisiológico 40. El algoritmo puede así simplificarse haciéndolo más eficaz y rápido.
La reducción de ruido frecuencial se opera, de modo ventajoso, de manera diferente en presencia y en ausencia de habla (información dada por el detector de actividad vocal perfecto 20):
- -
- en ausencia de habla, la reducción de ruido es máxima en todas la bandas de frecuencias, es decir que la ganancia correspondiente a la supresión de ruido máxima es aplicada de la misma manera sobre todos los componentes de la señal (puesto que existe la seguridad en este caso de que aquella no contiene componente útil);
- -
- por el contrario, en presencia de habla, la reducción de ruido es una reducción frecuencial, aplicada de manera diferenciada sobre cada banda de frecuencias según el esquema clásico.
El sistema que se acaba de describir permite obtener excelentes rendimientos globales, típicamente del orden de 30 a 40 dB de reducción de ruido sobre la señal de habla del locutor próximo. El combinador adaptativo 14 que opera sobre las señales captadas por los micros 10 y 12 permite, en particular, con el filtrado de retardo fraccionario, obtener muy buenos rendimientos de supresión de ruido en frecuencias altas.
Gracias a la eliminación de todos los ruidos parásitos, ello da la impresión al locutor distante (con el que el portador de los cascos está en comunicación) que su interlocutor (el portador de los cascos) se encuentre en una habitación silenciosa.
Claims (8)
- REIVINDICACIONES
- 1.
- Un equipo de audio, que comprende:
- - un conjunto de dos sensores microfónicos (10, 12) aptos para recoger el habla del usuario del equipo y para
- emitir unas señales de habla ruidosas respectivas;
- 5
- - medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y
- - medios de supresión de ruido de una señal de habla, que reciben como entrada las muestras de las señales
- de habla emitidas por los dos sensores microfónicos, y emiten como salida una señal de habla carente de ruido
- representativa del habla emitida por el usuario del equipo,
- en el que los medios de supresión de ruido son medios de reducción de ruido no frecuencial que comprenden
- 10
- un combinador de filtro adaptativo (14) de las señales emitidas por los dos sensores microfónicos, que operan
- mediante búsqueda iterativa con el objeto de anular el ruido captado por uno de los sensores microfónicos (10)
- en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico (12);
- estando el equipo caracterizado por que:
- - el filtro adaptativo (16) es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo de
- 15
- muestreo de los medios de muestreo;
- - el equipo comprende además medios de detección de actividad vocal (20, 22) aptos para emitir una señal
- representativa de la presencia o de la ausencia de habla por el usuario del equipo; y
- - el filtro adaptativo recibe igualmente como entrada la señal de presencia o de ausencia de habla para, de
- manera selectiva: i) o bien operar una búsqueda adaptativa de los parámetros del filtro en ausencia de habla, ii)
- 20
- o bien congelar estos parámetros del filtro en presencia de habla.
-
- 2.
- El equipo de audio según la reivindicación 1, en el que el filtro adaptativo (16) es apto para estimar un filtro
- óptimo H de forma que:
con:representando A la estimación del filtro óptimo H, la transferencia de ruido entre los dos sensores microfónicos para una respuesta de impulso que incluye un retardo fraccionario,representando G la estimación del filtro del retardo fraccionario G entre los dos sensores microfónicos,representandola estimación de la respuesta acústica del entorno, indicandouna convolución, siendo x(n) la serie de muestras de la señal de entrada del filtro H,siendo x’(n) la serie x(n) desplazada el retardo τ,siendo Te el periodo de muestreo de la señal de entrada del filtro H, siendo τ dicho retardo fraccionario, igual a un submúltiplo de Te, e indicando sinc la función seno cardinal. -
- 3.
- El equipo de audio según la reivindicación 1, en el que el filtro adaptativo es un filtro de logaritmo de predicción lineal de tipo mínimos cuadrados medios, LMS.
-
- 4.
- El equipo de audio según la reivindicación 1, en el que:
30 - el equipo comprende además una cámara de vídeo (26) dirigida hacia el usuario (30) del equipo y apta para captar una imagen de éste, y- -
- los medios de detección de actividad vocal (20) comprenden medios de análisis de vídeo aptos para analizar la imagen producida por la cámara y emitir como respuesta dicha señal de presencia o de ausencia de habla por dicho usuario.
- 5. El equipo de audio según la reivindicación 1, en el que:
- -
- el equipo comprende además un sensor fisiológico (40) apto para situarse en contacto con la cabeza del
usuario del equipo para quedar allí acoplada con el fin de captar las vibraciones vocales acústicas transmitidas 5 por conducción ósea interna, y- -
- los medios de detección de actividad vocal (20) comprenden unos medios aptos para analizar la señal emitida por el sensor fisiológico y para emitir como respuesta dicha señal de presencia o de ausencia de habla por dicho usuario.
- 6. El equipo de audio según la reivindicación 5, en el que los medios de detección de actividad vocal comprenden 10 medios de evaluación de la energía de la señal emitida por el sensor fisiológico, y unos medios de umbral.
- 7. El equipo de audio según la reivindicación 6, en el que el equipo consiste en unos cascos de audio del tipo combinado micro/cascos, que comprende:
- -
- unos auriculares (34) que incorporan cada uno un transductor de reproducción sonora de una señal de audio alojada en una carcasa (36) provista de una almohadilla (38) circumaural;
15 - dichos dos sensores microfónicos (10, 12) dispuestos sobre la carcasa de uno de los auriculares; y- -
- dicho sensor fisiológico (40), incorporado en la almohadilla de dichos auriculares y colocado en una región de ésta apta para situarse en contacto con la mejilla o con la sien del portador de los casos.
- 8. El equipo de audio según la reivindicación 7, en el que los dos sensores microfónicos (10, 12) están alineados en una red lineal siguiendo una dirección principal (42) dirigida hacia la boca (44) del usuario del equipo.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1154825A FR2976111B1 (fr) | 2011-06-01 | 2011-06-01 | Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres" |
FR1154825 | 2011-06-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2430121T3 true ES2430121T3 (es) | 2013-11-19 |
Family
ID=44533268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12170407T Active ES2430121T3 (es) | 2011-06-01 | 2012-06-01 | Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario |
Country Status (6)
Country | Link |
---|---|
US (1) | US8682658B2 (es) |
EP (1) | EP2530673B1 (es) |
JP (1) | JP6150988B2 (es) |
CN (1) | CN103002170B (es) |
ES (1) | ES2430121T3 (es) |
FR (1) | FR2976111B1 (es) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2974655B1 (fr) * | 2011-04-26 | 2013-12-20 | Parrot | Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres". |
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
US9135915B1 (en) * | 2012-07-26 | 2015-09-15 | Google Inc. | Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors |
US9685171B1 (en) * | 2012-11-20 | 2017-06-20 | Amazon Technologies, Inc. | Multiple-stage adaptive filtering of audio signals |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
FR3002679B1 (fr) * | 2013-02-28 | 2016-07-22 | Parrot | Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement |
US9185199B2 (en) | 2013-03-12 | 2015-11-10 | Google Technology Holdings LLC | Method and apparatus for acoustically characterizing an environment in which an electronic device resides |
US20150199950A1 (en) * | 2014-01-13 | 2015-07-16 | DSP Group | Use of microphones with vsensors for wearable devices |
FR3021180B1 (fr) * | 2014-05-16 | 2016-06-03 | Parrot | Casque audio a controle actif de bruit anc avec prevention des effets d'une saturation du signal microphonique "feedback" |
US9953640B2 (en) | 2014-06-05 | 2018-04-24 | Interdev Technologies Inc. | Systems and methods of interpreting speech data |
US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
CN106157963B (zh) * | 2015-04-08 | 2019-10-15 | 质音通讯科技(深圳)有限公司 | 一种音频信号的降噪处理方法和装置及电子设备 |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
EP3147896B1 (en) * | 2015-09-25 | 2023-05-31 | Harman Becker Automotive Systems GmbH | Active road noise control system with overload detection of primary sense signal |
EP3557576B1 (en) * | 2016-12-16 | 2022-12-07 | Nippon Telegraph and Telephone Corporation | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program |
US10930298B2 (en) * | 2016-12-23 | 2021-02-23 | Synaptics Incorporated | Multiple input multiple output (MIMO) audio signal processing for speech de-reverberation |
US10366708B2 (en) * | 2017-03-20 | 2019-07-30 | Bose Corporation | Systems and methods of detecting speech activity of headphone user |
US10311889B2 (en) * | 2017-03-20 | 2019-06-04 | Bose Corporation | Audio signal processing for noise reduction |
JP6821126B2 (ja) * | 2017-05-19 | 2021-01-27 | 株式会社Jvcケンウッド | ノイズ除去装置、ノイズ除去方法およびノイズ除去プログラム |
CN108810692A (zh) * | 2018-05-25 | 2018-11-13 | 会听声学科技(北京)有限公司 | 主动降噪系统、主动降噪方法及耳机 |
US10455319B1 (en) * | 2018-07-18 | 2019-10-22 | Motorola Mobility Llc | Reducing noise in audio signals |
JP2020144204A (ja) * | 2019-03-06 | 2020-09-10 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 信号処理装置及び信号処理方法 |
CN110049395B (zh) * | 2019-04-25 | 2020-06-05 | 维沃移动通信有限公司 | 耳机控制方法及耳机设备 |
US11871190B2 (en) | 2019-07-03 | 2024-01-09 | The Board Of Trustees Of The University Of Illinois | Separating space-time signals with moving and asynchronous arrays |
US11227587B2 (en) * | 2019-12-23 | 2022-01-18 | Peiker Acustic Gmbh | Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation |
CN112822592B (zh) * | 2020-12-31 | 2022-07-12 | 青岛理工大学 | 一种可定向聆听的有源降噪耳机及控制方法 |
CN115914910A (zh) | 2021-08-17 | 2023-04-04 | 达发科技股份有限公司 | 适应性主动噪声消除装置以及使用其的声音播放系统 |
TWI777729B (zh) * | 2021-08-17 | 2022-09-11 | 達發科技股份有限公司 | 適應性主動雜訊消除裝置以及使用其之聲音播放系統 |
TWI790718B (zh) * | 2021-08-19 | 2023-01-21 | 宏碁股份有限公司 | 會議終端及用於會議的回音消除方法 |
CN113744735A (zh) * | 2021-09-01 | 2021-12-03 | 青岛海尔科技有限公司 | 一种分布式唤醒方法及系统 |
CN115132220B (zh) * | 2022-08-25 | 2023-02-28 | 深圳市友杰智新科技有限公司 | 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4672665A (en) * | 1984-07-27 | 1987-06-09 | Matsushita Electric Industrial Co. Ltd. | Echo canceller |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
US5694474A (en) * | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
US5761318A (en) * | 1995-09-26 | 1998-06-02 | Nippon Telegraph And Telephone Corporation | Method and apparatus for multi-channel acoustic echo cancellation |
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
US7072831B1 (en) * | 1998-06-30 | 2006-07-04 | Lucent Technologies Inc. | Estimating the noise components of a signal |
US6453285B1 (en) * | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US7062049B1 (en) * | 1999-03-09 | 2006-06-13 | Honda Giken Kogyo Kabushiki Kaisha | Active noise control system |
JP2000312395A (ja) * | 1999-04-28 | 2000-11-07 | Alpine Electronics Inc | マイクロホンシステム |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
US7206418B2 (en) * | 2001-02-12 | 2007-04-17 | Fortemedia, Inc. | Noise suppression for a wireless communication device |
US7617099B2 (en) * | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
DE10118653C2 (de) * | 2001-04-14 | 2003-03-27 | Daimler Chrysler Ag | Verfahren zur Geräuschreduktion |
JP3568922B2 (ja) * | 2001-09-20 | 2004-09-22 | 三菱電機株式会社 | エコー処理装置 |
US6937980B2 (en) * | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
US7167568B2 (en) * | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
CN1328707C (zh) * | 2002-07-19 | 2007-07-25 | 日本电气株式会社 | 音频解码设备以及解码方法 |
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8073689B2 (en) * | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
CA2473195C (en) * | 2003-07-29 | 2014-02-04 | Microsoft Corporation | Head mounted multi-sensory audio input system |
JP4496379B2 (ja) * | 2003-09-17 | 2010-07-07 | 財団法人北九州産業学術推進機構 | 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法 |
JP2005249816A (ja) * | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
JP2006039267A (ja) * | 2004-07-28 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
US7533017B2 (en) * | 2004-08-31 | 2009-05-12 | Kitakyushu Foundation For The Advancement Of Industry, Science And Technology | Method for recovering target speech based on speech segment detection under a stationary noise |
US7844059B2 (en) * | 2005-03-16 | 2010-11-30 | Microsoft Corporation | Dereverberation of multi-channel audio streams |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
FR2898209B1 (fr) | 2006-03-01 | 2008-12-12 | Parrot Sa | Procede de debruitage d'un signal audio |
FR2908003B1 (fr) * | 2006-10-26 | 2009-04-03 | Parrot Sa | Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres" |
US7983428B2 (en) * | 2007-05-09 | 2011-07-19 | Motorola Mobility, Inc. | Noise reduction on wireless headset input via dual channel calibration within mobile phone |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
-
2011
- 2011-06-01 FR FR1154825A patent/FR2976111B1/fr not_active Expired - Fee Related
-
2012
- 2012-05-18 US US13/475,431 patent/US8682658B2/en active Active
- 2012-06-01 ES ES12170407T patent/ES2430121T3/es active Active
- 2012-06-01 CN CN201210179601.4A patent/CN103002170B/zh active Active
- 2012-06-01 EP EP12170407.6A patent/EP2530673B1/fr active Active
- 2012-06-01 JP JP2012125653A patent/JP6150988B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US8682658B2 (en) | 2014-03-25 |
FR2976111B1 (fr) | 2013-07-05 |
FR2976111A1 (fr) | 2012-12-07 |
US20120310637A1 (en) | 2012-12-06 |
EP2530673B1 (fr) | 2013-07-10 |
CN103002170B (zh) | 2016-01-06 |
JP2012253771A (ja) | 2012-12-20 |
JP6150988B2 (ja) | 2017-06-21 |
EP2530673A1 (fr) | 2012-12-05 |
CN103002170A (zh) | 2013-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2430121T3 (es) | Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario | |
KR101434071B1 (ko) | 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성 | |
ES2775799T3 (es) | Método y aparato para la mejora multisensorial del habla en un dispositivo móvil | |
ES2898717T3 (es) | Sistemas, métodos, aparatos, y medios legibles por ordenador para un aumento de audio espacialmente selectivo | |
TWI281354B (en) | Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression | |
ES2377056T3 (es) | Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil | |
US8532987B2 (en) | Speech masking and cancelling and voice obscuration | |
US8023669B2 (en) | Shielded communication transducer | |
US20030179888A1 (en) | Voice activity detection (VAD) devices and methods for use with noise suppression systems | |
KR101402551B1 (ko) | 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법 | |
CN111432318B (zh) | 包括直接声音补偿的听力装置 | |
US8909523B2 (en) | Method and acoustic signal processing system for interference and noise suppression in binaural microphone configurations | |
US11832072B2 (en) | Audio processing using distributed machine learning model | |
US11122373B2 (en) | Hearing device configured to utilize non-audio information to process audio signals | |
CN110931027A (zh) | 音频处理方法、装置、电子设备及计算机可读存储介质 | |
JP5853133B2 (ja) | 音響処理装置および音響処理方法 | |
US20240205615A1 (en) | Hearing device comprising a speech intelligibility estimator | |
US11683634B1 (en) | Joint suppression of interferences in audio signal | |
WO2022231977A1 (en) | Recovery of voice audio quality using a deep learning model | |
Ziolko et al. | Dual-microphone speech extraction from signals with audio background |