ES2430121T3 - Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario - Google Patents

Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario Download PDF

Info

Publication number
ES2430121T3
ES2430121T3 ES12170407T ES12170407T ES2430121T3 ES 2430121 T3 ES2430121 T3 ES 2430121T3 ES 12170407 T ES12170407 T ES 12170407T ES 12170407 T ES12170407 T ES 12170407T ES 2430121 T3 ES2430121 T3 ES 2430121T3
Authority
ES
Spain
Prior art keywords
speech
signal
filter
equipment
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12170407T
Other languages
English (en)
Inventor
Guillaume Vitte
Michael Herve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Application granted granted Critical
Publication of ES2430121T3 publication Critical patent/ES2430121T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

Un equipo de audio, que comprende: - un conjunto de dos sensores microfónicos (10, 12) aptos para recoger el habla del usuario del equipo y paraemitir unas señales de habla ruidosas respectivas; - medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y - medios de supresión de ruido de una señal de habla, que reciben como entrada las muestras de las señalesde habla emitidas por los dos sensores microfónicos, y emiten como salida una señal de habla carente de ruidorepresentativa del habla emitida por el usuario del equipo, en el que los medios de supresión de ruido son medios de reducción de ruido no frecuencial que comprendenun combinador de filtro adaptativo (14) de las señales emitidas por los dos sensores microfónicos, que operanmediante búsqueda iterativa con el objeto de anular el ruido captado por uno de los sensores microfónicos (10)en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico (12); estando el equipo caracterizado por que: - el filtro adaptativo (16) es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo demuestreo de los medios de muestreo; - el equipo comprende además medios de detección de actividad vocal (20, 22) aptos para emitir una señalrepresentativa de la presencia o de la ausencia de habla por el usuario del equipo; y - el filtro adaptativo recibe igualmente como entrada la señal de presencia o de ausencia de habla para, demanera selectiva: i) o bien operar una búsqueda adaptativa de los parámetros del filtro en ausencia de habla, ii)o bien congelar estos parámetros del filtro en presencia de habla.

Description

Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
La invención se refiere al tratamiento del habla en un medio ruidoso.
Se refiere, en particular, al tratamiento de las señales de habla captadas por unos dispositivos de telefonía de tipo “manos libres” destinados a ser utilizados en un entorno ruidoso.
Estos aparatos incorporan uno o varios micrófonos (“micros”) sensibles, que captan no solo la voz del usuario sino igualmente el ruido circundante, ruido que constituye un elemento perturbador que puede llegar en ciertos casos a convertir en ininteligible el habla del locutor. Lo mismo sucede si se quieren poner en práctica técnicas de reconocimiento de voz, pues es difícil efectuar un reconocimiento de forma sobre hablas ahogadas en un nivel de ruido elevado.
Esta dificultad unida a los ruidos circundantes es particularmente apremiante en el caso de los dispositivos “manos libres” para vehículos automóviles, ya se trata de equipos incorporados al vehículo o bien de accesorios en forma de carcasa inmóvil que integra todos los componentes y funciones de tratamiento de la señal para la comunicación telefónica.
En efecto, la importante distancia entre el micro (colocado al nivel del salpicadero o en un ángulo superior del techo del habitáculo) y el locutor (cuyo alejamiento está condicionado por la posición de la conducción) provoca la captación de un nivel de ruido relativamente elevado, que hace difícil la extracción de la señal útil, ahogada en el ruido. Así mismo, el medio muy ruidoso típico del entorno del automóvil presenta unas características espectrales no fijas, es decir que evolucionan de manera imprevisible en función de las condiciones de la conducción: paso por calzadas bacheadas o adoquinadas, la radio del vehículo en funcionamiento, etc.
Dificultades del mismo tipo se presentan en el caso de que el dispositivo consista en unos cascos de audio de tipo micro/cascos combinado utilizado para funciones de comunicación como por ejemplo funciones de telefonía “manos libres”, como complemento de la escucha de una fuente de audio (música, por ejemplo) proveniente de un aparato al que están conectados los cascos.
En este caso, se trata de utilizar una inteligibilidad suficiente de la señal captada por el micro, es decir de la señal de habla del locutor próximo (el portador de los cascos), o bien los cascos pueden ser utilizados en un entorno ruidoso (metro, calle de mucho tránsito, tren, etc.), de manera que el micro captará no solo el habla del portador de los cascos, sino los ruidos parásitos circundantes. El portador está ciertamente protegido de este ruido por los cascos, en especial si se trata de un modelo con auriculares cerrados que aíslen el ruido del exterior, y todavía más si los cascos están provistos de un “control activo del ruido”. Por contra, el locutor distante (el que se encuentra en el otro extremo del canal de comunicación) sufrirá ruidos parásitos captados por el micro y que vienen a interponerse y a interferir con la señal de habla del locutor próximo (el portador de los cascos). En particular, determinados formantes del habla esenciales para la comprensión de la voz quedan a menudo ahogados en componentes de ruido que habitualmente se encuentran en los entornos habituales.
La invención se refiere, más en concreto, a técnicas de supresión de ruido que incorporan varios micros, generalmente dos micros, para combinar de manera equilibrada las señales captadas simultáneamente por estos micros con el fin de aislar los componentes del habla útiles de los componentes de ruidos parásitos.
Una técnica clásica consiste en colocar y orientar uno de los micros para que capte principalmente la voz del locutor, mientras que el otro se dispone para que capte un componente de ruido más importante que el micro principal. La comparación de los signos captados permite extraer la voz del ruido ambiental mediante el análisis de la coherencia espacial de las dos señales, con medios software relativamente simples.
El documento US 2008/0280653 A1 describe una configuración de este tipo, en la que uno de los micros (el que capta principalmente la voz) es el de un auricular inalámbrico que lleva el conductor del vehículo, mientras que el otro (el que capta principalmente el ruido) es el del aparato telefónico, situado a distancia dentro del habitáculo del vehículo, por ejemplo acoplado al salpicadero.
Esta técnica, sin embargo, tiene el inconveniente de que se necesitan dos micros distantes, de forma que la eficacia es tanto más elevada cuanto más alejados están los dos micros. Debido a ello, esta técnica no es aplicable al dispositivo en el que los dos micros están próximos, por ejemplo dos micros incorporados en el frontal de una radio de vehículo automóvil, o dos micros que estuvieran dispuestos sobre una de las carcasas de un auricular de los cascos de audio.
Otra técnica más, llamada conformación de haces, consiste en crear mediante medios software una directividad que mejore la relación señal/ruido de la red o “antena” de micros. El documento US 2007/0165879 A1 describe una técnica de este tipo, aplicada a un par de micros no direccionales colocados de espaldas. Un filtrado adaptativo de las señales captadas permite derivar de salida una señal en la que el componente de voz ha sido reforzado.
No obstante, se considera que un método de este tipo no proporciona buenos resultados más que a condición de que disponga de al menos ocho micros, resultando en prestaciones extremadamente limitadas cuando solamente se utilizan dos micros.
El problema general de la invención es, en un contexto como el referido, proceder a una reducción eficaz del ruido que permita transmitir al locutor distante una señal vocal representativa del habla emitida por el locutor próximo (conductor del vehículo o portador de los cascos), liberando a esta señal de los componentes parásitos del ruido exterior existentes en el entorno de este locutor próximo.
El problema de la invención es igualmente, en tal situación, el de poder incorporar a la vez un conjunto de micros de un número reducido (de modo ventajoso, dos micros solamente) y relativamente próximos (típicamente una separación de solo algunos centímetros). Otro aspecto importante del problema es la necesidad de restituir una señal de habla natural e inteligible, es decir no distorsionada y cuyo espectro de frecuencias útiles no resulte cercenado por los tratamientos de supresión de ruido.
Con este fin la invención propone un equipo de audio del tipo general divulgado por el documento US 2008/0280653 A1 precitado, es decir que comprende: un conjunto de dos sensores microfónicos aptos para recoger el habla del usuario del equipo y para emitir unas señales de habla ruidosas respectivas; unos medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y unos medios de supresión de ruido de una señal de habla, que reciben como salida las muestras de las señales de habla emitidas por los dos sensores microfónicos, y emiten de salida una señal de habla sin ruidos representativa del habla emitida por el usuario del equipo. Los medios de supresión de ruido son unos medios de reducción de ruido no frecuencial que comprenden un combinador con filtro adaptativo de las señales emitidas por los dos sensores microfónicos, que operan mediante la búsqueda iterativa que tiene por objeto anular el ruido captado por uno de los sensores microfónicos en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico.
Como característica distintiva de la invención, el filtro adaptativo es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo de muestreo de los medios de muestreo. El equipo comprende además unos medios de detección de la actividad vocal aptos para emitir una señal representativa de la presencia o ausencia de habla por el usuario del equipo, y el filtro adaptativo recibe igualmente como entrada la señal de presencia o ausencia de habla, para, de forma selectiva: i) o bien operar una búsqueda adaptativa de los parámetros de filtro en ausencia de habla, ii) o bien congelar estos parámetros del filtro en presencia de habla.
El filtro adaptativo es, en especial, apto para estimar un filtro óptimo H, como:
representando A la estimación del filtro óptimo H, la transferencia de ruido entre los dos sensores
microfónicos para una respuesta de impulso incluyendo un retardo fraccionario, representando G la estimación del filtro del retardo fraccionario G entre los dos sensores microfónicos, representando
la estimación de la respuesta acústica del entorno, indicando
una convolución,
siendo x(n) la serie de muestras de la señal de entrada del filtro H, siendo x’(n) la serie x(n) desplazada el retardo τ, siendo Te el periodo de muestreo de la señal de entrada del filtro H, siendo τ dicho retardo fraccionario, igual a un submúltiplo de Te, e indicando sinc la función seno cardinal.
De modo preferente, el filtro adaptativo es un filtro para algoritmo de predicción lineal de tipo mínimos cuadrados medios, LMS.
En una forma de realización, el equipo comprende una cámara de vídeo dirigida hacia el usuario del equipo y apta para captar una imagen de éste, y los medios de detección de actividad vocal comprenden unos medios de análisis de vídeo aptos para analizar la imagen producida por la cámara y para emitir, como respuesta, dicha señal de presencia o de ausencia de habla por dicho usuario.
En otra forma de realización, el equipo comprende un sensor fisiológico apto para situarse en contacto con la cabeza
del usuario del equipo para quedar acoplado a ella con el fin de captar las vibraciones vocales no acústicas transmitidas por conducción ósea interna, y los medios de detección de actividad vocal comprenden unos medios aptos para analizar la señal emitida por el sensor fisiológico y para emitir, como respuesta, dicha señal de presencia
o de ausencia de habla por dicho usuario, en especial mediante la evaluación de la energía de la señal emitida por el sensor fisiológico y su comparación con un umbral.
El equipo puede en particular ser unos cascos de audio del tipo combinado micro/cascos, que comprenda: unos auriculares cada uno de los cuales incorpore un transductor de reproducción sonora de una señal de audio alojada en una carcasa provista de una almohadilla circumaural; dichos dos sensores microfónicos, dispuestos sobre la carcasa de uno de los auriculares; y dicho sensor fisiológico incorporado a la almohadilla de uno de los auriculares y situado en una región de éste apta para situarse en contacto con la mejilla o con la sien del portador de los cascos. Estos dos sensores microfónicos están, de modo preferente, alineados en una red lineal siguiendo una dirección principal dirigida hacia la boca del usuario del equipo.
A continuación se describirá un ejemplo de puesta en práctica del dispositivo de la invención, con referencia a los dibujos adjuntos, en los que las mismas referencias numéricas designan a lo largo de ellos elementos idénticos o funcionalmente similares.
La Figura 1 ilustra de manera esquemática, en forma de bloques funcionales, la manera en la que se lleva a cabo el tratamiento de la supresión de ruido según la invención.
La Figura 2 es una representación gráfica de la función seno cardinal modelada en el tratamiento de la supresión de ruido de la invención.
Las Figuras 3a y 3b son dos representaciones de la función seno cardinal de la Figura 2, respectivamente para los diferentes puntos de una serie de muestras de señal, y para la misma serie desplazada en el tiempo un valor fraccionario.
La Figura 4 es una representación de la respuesta acústica del entorno con, como ordenada, la amplitud y, como abscisa, los coeficientes del filtro que representan esta transferencia.
La Figura 5 es análoga a la Figura 4, después de la convolución con una respuesta de seno cardinal.
La Figura 6 es una representación esquemática de una forma de realización consistente en la utilización de una cámara para asegurar la detección de actividad vocal.
La Figura 7 ilustra de forma general un conjunto de micros/cascos combinado al cual pueden aplicarse las enseñanzas de la invención.
La Figura 8 es un esquema de conjunto que ilustra en forma de bloques funcionales la manera en la que puede llevarse a cabo el tratamiento de la señal para emitir de salida una señal sin ruido representativa del habla emitida por el portador de los casos de la Figura 7.
La Figura 9 ilustra dos cronogramas correspondientes, respectivamente, a un ejemplo de la señal ruidosa recogida por los micros, y de la señal recogida por un sensor fisiológico que permite distinguir los periodos de habla y los periodos de silencio del locutor.
La Figura 1 ilustra de forma esquemática, en forma de bloques, las diferentes funciones puestas en práctica por la invención.
El proceso de la invención se pone en práctica mediante medios software, esquematizados mediante un cierto número de bloques funcionales correspondientes a algoritmos apropiados ejecutados por un microcontrolador o un procesador digital de señal. Aunque, para clarificar la exposición, las diferentes funciones se representen bajo la forma de módulos diferenciados, dichas funciones aplican elementos comunes y se corresponden en la práctica con una pluralidad de funciones globalmente ejecutadas por un mismo ordenador.
La señal de la que se desea suprimir los ruidos es emitida por una red de sensores microfónicos la cual, en la configuración mínima ilustrada, puede ser simplemente una red de dos sensores dispuestos según una configuración predeterminada, estando cada sensor constituido por un micro respectivo correspondiente 10, 12.
La invención puede, no obstante, generalizarse a una red de más de dos sensores microfónicos, y/o a unos sensores microfónicos de los cuales cada sensor esté constituido por una estructura más compleja de la de un solo micro, por ejemplo, una combinación de varios micros y/o de otros sensores de habla.
Los micros 10, 12 son unos micros que captan la señal emitida por la fuente de señal útil (la señal de habla del locutor), y la diferencia de posición entre los dos micros determina un conjunto de desfases y variaciones de amplitud en el registro de las señales emitidas por la fuente de señal útil.
En la práctica, los dos micros 10, 12, son unos micros omnidireccionales dispuestos a unos centímetros uno de otro
sobre la luz cenital de un habitáculo de automóvil, sobre el frontal de una radio del automóvil o de un emplazamiento apropiado del salpicadero, o bien sobre la carcasa de uno de los auriculares de unos cascos de audio, etc.
Como se podrá apreciar, la técnica de la invención permite asegurar una supresión de ruido eficaz incluso para micros muy próximos, es decir separados entre ellos por una separación d tal que el retardo de fase máxima de una señal captada por un micro y después por el otro sea inferior al periodo de muestreo del convertidor de digitalización de las señales. Ello se corresponde con una distancia máxima d del orden de 4,7 cm para una frecuencia de muestreo Fe de 8 kHz (y una separación d media menor para una frecuencia doble, etc.).
Una señal de habla emitida por un locutor próximo alcanzará uno de los micros antes que el otro y ofrecerá, por tanto, un retardo y, por tanto, un desfase <, sensiblemente constante. Respecto del ruido, puede sin duda existir igualmente un desfase entre los dos micros 10 y 12. Por contra, al estar unida la noción de desfase a la noción de onda incidente, se puede esperar que el desfase sea diferente al del habla. Por ejemplo, si un ruido directivo es dirigido en el sentido opuesto al de la boca, su desfase será de -< si el desfase para la voz es <. En el supuesto de la invención, la reducción de ruido sobre las señales captadas para los micros 10 y 12 no se opera en el dominio frecuencial (como sucede a menudo en las técnicas convencionales de supresión de ruido) sino en el dominio temporal.
Esta reducción de ruido se opera mediante un algoritmo que pretende la función de transferencia entre uno de los micros (por ejemplo el micro 10) y el otro micro (el micro 12) por medio de un combinador adaptativo 14 que emplea un filtro predictivo 16 de tipo LMS (Least Mean Squares, mínimos cuadrados medios). La salida del filtro 16 se sustrae en la convolución 18 de la señal del micro 10 para dar una señal S de ruido suprimido, aplicada otra vez al filtro 16 para permitir su adaptación iterativa en función del error de predicción. Es así posible predecir a partir de la señal captada por el micro 12 el componente de ruido contenido en la señal captada por el micro 10 (identificando la función de transferencia la transferencia del ruido).
La búsqueda adaptativa de la función de transferencia entre los dos micros no se opera más que durante las fases de ausencia de habla. Para ello, la adaptación iterativa del filtro 16 no se activa más que cuando un detector 20 de actividad vocal VAD (Detector de Actividad Vocal) accionado por un sensor 22 indica que el locutor próximo no está hablando. Esta función es esquematizada por el conmutador 24: en ausencia de la señal de habla manifestada por el detector de actividad vocalmente, el combinador adaptativo 14 pretende optimizar la función de transferencia entre los dos micros 10 y 12 para reducir el componente de ruido (posición cerrada del conmutador 24 como se ilustra en la figura); por contra en presencia de una señal de habla, manifestada por el detector de actividad vocal 20, el combinador adaptivo 14 congela los parámetros del filtro 16 en el valor en el que se encontraban justo antes de que se detecte el habla (apertura del conmutador 24), lo que evita cualquier degradación de la señal de habla del locutor próximo.
Se advertirá que esta manera de proceder no es molesta incluso en presencia de un entorno ruidoso evolutivo, pues las actualizaciones de los parámetros del filtro 16 son muy frecuentes ya que intervienen cada vez que el locutor próximo cesa de hablar.
Como característica distintiva de la invención, el filtrado del combinador adaptativo 14 es un filtrado de retardo fraccionario, es decir que permite aplicar un filtrado entre las señales captadas por los dos micros teniendo en cuenta un retardo inferior a la duración de una muestra de digitalización de las señales.
Es sabido que una señal temporal x(t) de paso banda [0,Fe/2] puede reconstruirse de manera perfecta a partir de la serie discreta x(k), donde las muestras x(k) se corresponden con los valores de x(t) en los instantes k.Te siendo (Te = 1/Fe) el periodo de muestreo).
La expresión matemática es la siguiente:
Definiéndose la función seno cardinal mediante:
La Figura 2 da una representación gráfica de esta función sinc (t). Como se puede constatar decrece rápidamente, con la consecuencia de que un número finito y relativamente débil de coeficientes k en la suma produce una muy buena aproximación al resultado real.
Para una señal digitalizada con un periodo de muestreo Te, el intervalo o separación entre dos muestras corresponde de manera temporal a una duración de Te secundaria.
La serie x(n) de n muestras sucesivas digitalizadas de la señal captada puede así representarse mediante la expresión siguiente para todo n entero:
Se advertirá que en la suma del término en sinc es nulo para todo k, salvo para k = n. La Figura 3a ofrece una representación gráfica de esta función. Se quiere calcular esta misma serie x(n) desplazada un valor fraccionario τ es decir con un retardo inferior a la
situación de una muestra de digitalización Te, la expresión anterior se convierte en:
La Figura 3b ofrece una representación gráfica de esta función, para un ejemplo de valor fraccionario τ = 0,5 (media 10 muestra).
La serie x’(n) (desplazada τ) puede considerarse como la convolución de x(n) mediante un filtro no causal G de forma que:
Se trata, por tanto, de determinar una estimación G de un filtro óptimo G de forma que:
15 siendo A la estimación de la transferencia de ruido entre los dos micros, incluyendo un retardo fraccionario, y siendo F la estimación de la respuesta acústica del entorno. Para la estimación del filtro de transferencia de ruido entre los dos micros, la estimación A corresponde a un filtro que minimiza un error: 20 e(n) = MicAvant(n) - A * MicArrière(n) siendo MicAvant(n) y MicArriére(n) los valores respectivos de las señales emitidas por los sensores microfónicos 10 y 12. La característica de este filtro es que no es causal, es decir que se sirve de las muestras futuras. En la práctica, esto significa que se produce un retardo entre el retardo de tratamiento algorítmico. Como no es causal, puede modelar 25 un retardo fraccionario y puede por tanto escribirse . (En el caso clásico de un filtro causal se tendría A = ).
Concretamente, en el algoritmo, la estimación de A tiene lugar directamente, por la minimización del error e(n) anterior, sin que haya necesidad de estimar separadamente G y . En el caso clásico causal (por ejemplo para un filtro de anulación de eco), el error e(n) que hay que minimizar se 30 escribe, en forma desarrollada:
Siendo L la longitud del filtro. En el caso de la presente invención (filtro no causal) el error se convierte en:
35 Se advertirá que la longitud del filtro se ha doblado, para tener en cuenta muestras futuras. La predicción del filtro H ofrece un filtro de retardo fraccionario el cual, idealmente y en ausencia de habla, anula el
ruido del micro 10 al ser preferente el micro 12 (como se ha indicado más arriba, en periodo de habla el filtro es sin embargo congelado para evitar cualquier degradación del habla local).
Concretamente, el filtro A calculado para el algoritmo adaptativo que estima la transferencia de ruido entre el micro
10 y el micro 12, puede verse como la convolución de los filtros G y
donde:
-
G corresponde a la parte fraccionaria (con la forma seno cardinal), y
-
corresponde a la transferencia acústica entre los dos micros, es decir a la parte “medioambiental” del sistema, representativa de la acústica del volumen en el que opera aquél.
La Figura 4 ilustra un ejemplo de respuesta acústica entre los dos micros, bajo la forma de una característica que ofrece una amplitud A en función de los coeficientes k del filtro F. Las diferentes reflexiones del sonido que pueden intervenir en función del entorno, por ejemplo en los cristales u otras paredes de un habitáculo de coche, crean unos picos visibles en esta característica de respuesta acústica.
La Figura 5 ilustra un ejemplo del resultado de la convolución G
F de los dos filtros G (respuesta en seno cardinal) y F (entorno de utilización), bajo la forma de una característica que ofrece la amplitud A en función de los coeficientes k del filtro convolucionado.
La estimación A puede calcularse mediante un algoritmo LMS iterativo que pretende minimizar el error y(n) -A x(n) para converger hacia el filtro óptimo.
Los algoritmos de tipo LMS - o NLMS (Normalized LMS) que son una versión normalizada del LMS - son unos algoritmos relativamente simples y poco exigentes en términos de recursos de cálculo. Se trata de algoritmos conocidos de por sí, descritos por ejemplo por:
[1] B. Widrow, Adaptative Filters, Aspect of Network and System Theory, R.E. Kalman and N. De Claris Eds., New York: Holt, Rinehart and Winston, pp. 563 - 587, 1970;
[2] B. Widrow et al., Adaptative Noise Cancelling: Principles and Applications, Proc. IEEEE, Vol. 63, No 12 pp. 1692 - 1716, dic. 1975.
[3] B. Widrow y S. Stearns, Adaptative Signal Processing, Prentice -Hall Signal Processing Series, Alan V. Oppenheim Series Editor, 1985.
Como se ha indicado más arriba, para que el tratamiento precedente sea posible, es necesario disponer de un detector de actividad local que permita discriminar entre las fases de ausencia de habla (o que la adaptación del filtro permita optimizar la evolución del ruido) y de presencia de habla (o que los parámetros del filtro sean congelados en su último valor encontrado).
Más exactamente, el detector de actividad vocal es aquí, de modo preferente, un detector “perfecto”, es decir que emite una señal binaria (ausencia vs. presencia de habla). Se distingue así de la mayor parte de los detectores de actividad vocal utilizados en los sistemas de supresión de ruido conocidos, que emiten solamente una probabilidad de ausencia de habla variable entre un 0 y un 100 % de forma continua o en pasos sucesivos. Con tales detectores basados solamente en una probabilidad de ausencia de habla, las falsas detecciones pueden ser importantes en los entornos ruidosos. Para ser “perfecto”, el detector de actividad vocal no se puede basar únicamente en la señal captada por los micros, sino que debe disponer de una información adicional que permita discriminar las fases de habla y de silencio del locutor próximo.
Un primer ejemplo de un detector de este tipo se ilustra mediante la Figura 6, donde el detector vocal 20 opera como respuesta a la señal producida por una cámara.
Esta cámara es, por ejemplo, una cámara 26 instalada en el habitáculo de un vehículo automóvil, y orientada de forma que su ángulo de campo 28 englobe en todas las circunstancias la cabeza del conductor 30, considerado como el locutor próximo. La señal emitida por la cámara 26 se analiza para determinar, de acuerdo con el movimiento de la boca y de los labios, si el locutor habla o no.
Con este fin, se pueden utilizar unos algoritmos de detección de la zona de la boca en una imagen de un rostro, y de seguimiento del movimiento de los labios (lip contour tracking) como los analizados en especial por:
[4] G. Potamianos et al., Audio-Visual Automatic Speech Recognition: An Overview, Audio-Visual Speech Processing, G. Bailly et al. Eds., MIT Press, pp. 1 - 30, 2004.
Este documento describe, con carácter general, el aporte de una información visual como complemento de una señal de audio para, en especial, efectuar el reconocimiento vocal en condiciones acústicas degradadas.
Los datos de vídeo, vienen así a añadirse a los datos de audio convencionales para mejorar la información vocal.
Este tratamiento podrá utilizarse en el marco de la presente invención para distinguir entre las fases de habla y las fases de silencio del locutor. Para tener en cuenta el hecho de que en un habitáculo de automóvil los movimientos del usuario son lentos mientras que los movimientos de la boca son rápidos, se puede, por ejemplo, una vez localizada la boca, comparar dos imágenes consecutivas y evaluar la separación en un mismo píxel.
La ventaja de esta técnica de análisis de imagen consiste en disponer de una información complementaria totalmente independiente del entorno de ruido acústico.
Otro ejemplo de sensor utilizable para la detección vocal “perfecta” es un sensor fisiológico susceptible de detectar ciertas vibraciones locales del locutor que no estén o que estén escasamente corrompidas por el ruido circundante.
Un sensor de este tipo puede estar, en especial, constituido por un acelerómetro o por un sensor piezoeléctrico aplicado a la mejilla o la sien del locutor. En efecto, cuando una persona emite un sonido vocalizado (es decir un compuesto de habla cuya emisión se acompaña con una vibración de las cuerdas vocales), se propaga una vibración desde las cuerdas vocales hasta la faringe y en la cavidad buconasal, donde es modulada, amplificada y articulada. La boca, el velo del paladar, la faringe, los senos y las fosas nasales sirven luego de caja de resonancia a este sonido vocalizado y, siendo su pared elástica, vibran a su vez y estas vibraciones son transmitidas mediante conducción ósea interna y son perceptibles al nivel de la mejilla y de la sien.
Estas vibraciones al nivel de la mejilla y de la sien presentan la característica de estar, por naturaleza, muy poco corrompidas por el ruido ambiente: en efecto, en presencia de ruidos exteriores, incluso importantes, los tejidos de la mejilla y de la sien apenas vibran, y ello cualquiera que sea la composición espectral del ruido exterior.
Un sensor fisiológico que recoja estas vibraciones vocales desprovistas de ruido proporciona una señal representativa de la presencia o de la ausencia de los sonidos vocalizados emitidos por el locutor, que permiten, por tanto, discriminar muy bien las fases de habla y las fases de silencio del locutor.
Un sensor fisiológico de este tipo puede, en particular, incorporarse a un conjunto combinado de micro/cascos como por ejemplo el ilustrado en la Figura 7.
En esta figura, la referencia 32 designa globalmente los cascos según la invención, los cuales incorporan dos auriculares 34 unidos por un arco. Cada uno de los auriculares está, de modo preferente, constituido por una carcasa cerrada 36, que aloja un transductor de reproducción sonora, aplicado alrededor de la oreja del usuario con la interposición de una almohadilla 38 que aísla el oído del exterior.
El sensor fisiológico 40 que sirve para la detección de actividad vocal es, por ejemplo, un acelerómetro integrado en la almohadilla 38 para acoplarse a la mejilla o la sien del usuario con un acoplamiento lo más estrecho posible. El sensor fisiológico 40 puede, en particular, situarse sobre la cara interior de la piel de la almohadilla 38 de manera que, una vez que los cascos se colocan en posición, el sensor se aplique contra la mejilla o la sien del usuario por efecto de una ligera presión derivada del aplastamiento del material de la almohadilla, solamente con la interposición de la piel exterior de esta almohadilla.
Los cascos incorporan igualmente los micros 10, 12 del circuito de recogida y de supresión de ruido del habla del locutor. Estos dos micros son unos micros omnidireccionales situados sobre la carcasa 36, y están dispuestos con el micro 10 situado en posición adelantada (más cerca de la boca del portador de los cascos) y el micro 12 situado más hacia atrás. Por otro lado, la posición de alineamiento 42 de los dos micros 10, 12 está aproximadamente dirigida hacia la boca 44 del portador de los casos.
La Figura 8 es un esquema de bloques que muestra las diferentes funciones empleadas por el conjunto micro/cascos de la Figura 7.
Se vuelven a encontrar en este figura los dos micros 10 y 12, así como el detector de actividad vocal 20. El micro delantero 10 es el micro principal y el micro trasero 12 sirve de entrada al filtro adaptativo 16 del combinador 14. El detector de actividad vocal 20 es controlado por la señal emitida por el sensor fisiológico 40 con, por ejemplo, el alisado de la potencia de la señal emitida por el sensor 40.
Puissancecapteur (n) = a.puissancecapteur (n - 1) + (1 -a), (capteur (n))2
siendo a una constante de alisado próxima a 1. Basta entonces con fijar un umbral � de forma que el umbral sea sobrepasado en el momento en que el locutor habla.
La Figura 9 ilustra la traza de las señales recogidas:
-
la señal S10 del cronograma superior se corresponde con la que es captada por el micro delantero 10: se ve que es imposible producir a partir de esta señal (ruidosa) una discriminación eficaz entre las fases de presencia y ausencia de habla.
-
la señal S40 del cronograma de abajo se corresponde con el que emite simultáneamente el sensor fisiológico
40: las fases sucesivas de ausencia y presencia de habla están marcadas de manera muy visible. La señal
binaria designada como VAD se corresponde con la indicación emitida por el detector de actividad vocal 20 (‘1’ = presencia de habla; ‘0’ = ausencia de habla), después de la evaluación de la potencia de la señal S40 y la comparación en relación al umbral predefinido.
La señal emitida por el sensor fisiológico 40 puede utilizarse no solamente como señal de entrada de un detector de actividad vocal, sino igualmente para enriquecer la señal captada por los micros 10 y 12, en especial en el registro bajo del espectro.
Por supuesto, las señales emitidas por el sensor fisiológico, que se corresponden a los sonidos vocalizados, no son estrictamente hablando habla, puesto que el habla no está solamente formada por los sonidos vocalizados, sino que contiene componentes que no nacen al nivel de las cuerdas vocales: el contenido frecuencial es por ejemplo mucho más rico con el sonido proveniente de la garganta y emitido por la boca. Además, la conducción ósea interna y el atravesar la piel tienen como efecto filtrar determinados componentes vocales.
Por otro lado, en razón del filtrado debido a la propagación de las vibraciones hasta la sien o la mejilla, la señal recogida por el sensor fisiológico se utiliza típicamente en bajas frecuencias, principalmente en la región inferior del espectro sonoro (típicamente de 0 a 1500 Hz).
Pero como los ruidos que generalmente se perciben en un entorno habitual (calle, metro, tren, …) están mayoritariamente concentrados en frecuencias bajas, la señal de un sensor fisiológico presenta la ventaja considerable de estar naturalmente desprovista de componentes parásitos de ruido y será, por tanto, posible utilizar esta señal en el registro bajo del espectro, completándolo en el registro alto del espectro (por encima de 1500 Hz) mediante las señales (ruidosas) recogidas por los micros 10 y 12, después de haber sometido estas señales a una reducción de ruido operada por el combinador adaptativo 14.
El espectro completo es reconstruido por el bloque de mezcla 46 que recibe paralelamente: la señal del sensor fisiológico 40 para el registro bajo del espectro, y la señal de los micros 10 y 12 después de la supresión del ruido mediante el combinador adaptativo 14 para el registro alto del espectro. Esta reconstrucción se produce mediante la suma de las señales, que son aplicadas en sincronía al bloque de mezcla 46 para evitar cualquier deformación.
La señal resultante emitida por el bloque 46 puede someterse a una reducción final de ruido por el circuito 48, operada en el dominio frecuencial según una técnica convencional comparable a la descrita, por ejemplo, en el documento WO 2007/099222 A1 (Parrot), para producir como salida la señal últimas desprovista de ruido.
El establecimiento de esta técnica resulta, sin embargo, fuertemente simplificado con respecto a la que se da a conocer por ejemplo en el documento precitado. En efecto, en el caso presente, ya no es necesario evaluar una probabilidad de presencia de habla a partir de la señal recogida puesto que esta información puede obtenerse obtenida directamente por el bloque de detección de actividad 20 en respuesta a la emisión de la detección de sonido vocalizado detectada por el sensor fisiológico 40. El algoritmo puede así simplificarse haciéndolo más eficaz y rápido.
La reducción de ruido frecuencial se opera, de modo ventajoso, de manera diferente en presencia y en ausencia de habla (información dada por el detector de actividad vocal perfecto 20):
-
en ausencia de habla, la reducción de ruido es máxima en todas la bandas de frecuencias, es decir que la ganancia correspondiente a la supresión de ruido máxima es aplicada de la misma manera sobre todos los componentes de la señal (puesto que existe la seguridad en este caso de que aquella no contiene componente útil);
-
por el contrario, en presencia de habla, la reducción de ruido es una reducción frecuencial, aplicada de manera diferenciada sobre cada banda de frecuencias según el esquema clásico.
El sistema que se acaba de describir permite obtener excelentes rendimientos globales, típicamente del orden de 30 a 40 dB de reducción de ruido sobre la señal de habla del locutor próximo. El combinador adaptativo 14 que opera sobre las señales captadas por los micros 10 y 12 permite, en particular, con el filtrado de retardo fraccionario, obtener muy buenos rendimientos de supresión de ruido en frecuencias altas.
Gracias a la eliminación de todos los ruidos parásitos, ello da la impresión al locutor distante (con el que el portador de los cascos está en comunicación) que su interlocutor (el portador de los cascos) se encuentre en una habitación silenciosa.

Claims (8)

  1. REIVINDICACIONES
    1.
    Un equipo de audio, que comprende:
    - un conjunto de dos sensores microfónicos (10, 12) aptos para recoger el habla del usuario del equipo y para
    emitir unas señales de habla ruidosas respectivas;
    5
    - medios de muestreo de las señales de habla emitidas por los sensores microfónicos; y
    - medios de supresión de ruido de una señal de habla, que reciben como entrada las muestras de las señales
    de habla emitidas por los dos sensores microfónicos, y emiten como salida una señal de habla carente de ruido
    representativa del habla emitida por el usuario del equipo,
    en el que los medios de supresión de ruido son medios de reducción de ruido no frecuencial que comprenden
    10
    un combinador de filtro adaptativo (14) de las señales emitidas por los dos sensores microfónicos, que operan
    mediante búsqueda iterativa con el objeto de anular el ruido captado por uno de los sensores microfónicos (10)
    en base a una referencia de ruido dada por la señal emitida por el otro sensor microfónico (12);
    estando el equipo caracterizado por que:
    - el filtro adaptativo (16) es un filtro de retardo fraccionario, apto para modelar un retardo inferior al periodo de
    15
    muestreo de los medios de muestreo;
    - el equipo comprende además medios de detección de actividad vocal (20, 22) aptos para emitir una señal
    representativa de la presencia o de la ausencia de habla por el usuario del equipo; y
    - el filtro adaptativo recibe igualmente como entrada la señal de presencia o de ausencia de habla para, de
    manera selectiva: i) o bien operar una búsqueda adaptativa de los parámetros del filtro en ausencia de habla, ii)
    20
    o bien congelar estos parámetros del filtro en presencia de habla.
  2. 2.
    El equipo de audio según la reivindicación 1, en el que el filtro adaptativo (16) es apto para estimar un filtro
    óptimo H de forma que:
    con:
    representando A la estimación del filtro óptimo H, la transferencia de ruido entre los dos sensores microfónicos para una respuesta de impulso que incluye un retardo fraccionario,
    representando G la estimación del filtro del retardo fraccionario G entre los dos sensores microfónicos,
    representando
    la estimación de la respuesta acústica del entorno, indicando
    una convolución, siendo x(n) la serie de muestras de la señal de entrada del filtro H,
    siendo x’(n) la serie x(n) desplazada el retardo τ,
    siendo Te el periodo de muestreo de la señal de entrada del filtro H, siendo τ dicho retardo fraccionario, igual a un submúltiplo de Te, e indicando sinc la función seno cardinal.
  3. 3.
    El equipo de audio según la reivindicación 1, en el que el filtro adaptativo es un filtro de logaritmo de predicción lineal de tipo mínimos cuadrados medios, LMS.
  4. 4.
    El equipo de audio según la reivindicación 1, en el que:
    30 - el equipo comprende además una cámara de vídeo (26) dirigida hacia el usuario (30) del equipo y apta para captar una imagen de éste, y
    -
    los medios de detección de actividad vocal (20) comprenden medios de análisis de vídeo aptos para analizar la imagen producida por la cámara y emitir como respuesta dicha señal de presencia o de ausencia de habla por dicho usuario.
  5. 5. El equipo de audio según la reivindicación 1, en el que:
    -
    el equipo comprende además un sensor fisiológico (40) apto para situarse en contacto con la cabeza del
    usuario del equipo para quedar allí acoplada con el fin de captar las vibraciones vocales acústicas transmitidas 5 por conducción ósea interna, y
    -
    los medios de detección de actividad vocal (20) comprenden unos medios aptos para analizar la señal emitida por el sensor fisiológico y para emitir como respuesta dicha señal de presencia o de ausencia de habla por dicho usuario.
  6. 6. El equipo de audio según la reivindicación 5, en el que los medios de detección de actividad vocal comprenden 10 medios de evaluación de la energía de la señal emitida por el sensor fisiológico, y unos medios de umbral.
  7. 7. El equipo de audio según la reivindicación 6, en el que el equipo consiste en unos cascos de audio del tipo combinado micro/cascos, que comprende:
    -
    unos auriculares (34) que incorporan cada uno un transductor de reproducción sonora de una señal de audio alojada en una carcasa (36) provista de una almohadilla (38) circumaural;
    15 - dichos dos sensores microfónicos (10, 12) dispuestos sobre la carcasa de uno de los auriculares; y
    -
    dicho sensor fisiológico (40), incorporado en la almohadilla de dichos auriculares y colocado en una región de ésta apta para situarse en contacto con la mejilla o con la sien del portador de los casos.
  8. 8. El equipo de audio según la reivindicación 7, en el que los dos sensores microfónicos (10, 12) están alineados en una red lineal siguiendo una dirección principal (42) dirigida hacia la boca (44) del usuario del equipo.
ES12170407T 2011-06-01 2012-06-01 Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario Active ES2430121T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1154825A FR2976111B1 (fr) 2011-06-01 2011-06-01 Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
FR1154825 2011-06-01

Publications (1)

Publication Number Publication Date
ES2430121T3 true ES2430121T3 (es) 2013-11-19

Family

ID=44533268

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12170407T Active ES2430121T3 (es) 2011-06-01 2012-06-01 Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario

Country Status (6)

Country Link
US (1) US8682658B2 (es)
EP (1) EP2530673B1 (es)
JP (1) JP6150988B2 (es)
CN (1) CN103002170B (es)
ES (1) ES2430121T3 (es)
FR (1) FR2976111B1 (es)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2974655B1 (fr) * 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
FR3002679B1 (fr) * 2013-02-28 2016-07-22 Parrot Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
US9185199B2 (en) 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US20150199950A1 (en) * 2014-01-13 2015-07-16 DSP Group Use of microphones with vsensors for wearable devices
FR3021180B1 (fr) * 2014-05-16 2016-06-03 Parrot Casque audio a controle actif de bruit anc avec prevention des effets d'une saturation du signal microphonique "feedback"
US9953640B2 (en) 2014-06-05 2018-04-24 Interdev Technologies Inc. Systems and methods of interpreting speech data
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN106157963B (zh) * 2015-04-08 2019-10-15 质音通讯科技(深圳)有限公司 一种音频信号的降噪处理方法和装置及电子设备
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3147896B1 (en) * 2015-09-25 2023-05-31 Harman Becker Automotive Systems GmbH Active road noise control system with overload detection of primary sense signal
WO2018110008A1 (ja) * 2016-12-16 2018-06-21 日本電信電話株式会社 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
WO2018119467A1 (en) * 2016-12-23 2018-06-28 Synaptics Incorporated Multiple input multiple output (mimo) audio signal processing for speech de-reverberation
US10311889B2 (en) * 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
US10366708B2 (en) * 2017-03-20 2019-07-30 Bose Corporation Systems and methods of detecting speech activity of headphone user
JP6821126B2 (ja) * 2017-05-19 2021-01-27 株式会社Jvcケンウッド ノイズ除去装置、ノイズ除去方法およびノイズ除去プログラム
CN108810692A (zh) * 2018-05-25 2018-11-13 会听声学科技(北京)有限公司 主动降噪系统、主动降噪方法及耳机
US10455319B1 (en) * 2018-07-18 2019-10-22 Motorola Mobility Llc Reducing noise in audio signals
JP2020144204A (ja) * 2019-03-06 2020-09-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 信号処理装置及び信号処理方法
CN110049395B (zh) * 2019-04-25 2020-06-05 维沃移动通信有限公司 耳机控制方法及耳机设备
EP3994867A4 (en) * 2019-07-03 2023-07-26 The Board Of Trustees Of The University Of Illinois SEPARATION OF SPACE-TIME SIGNALS WITH MOVING AND ASYNCHRONOUS ARRAYS
US11227587B2 (en) * 2019-12-23 2022-01-18 Peiker Acustic Gmbh Method, apparatus, and computer-readable storage medium for adaptive null-voice cancellation
CN112822592B (zh) * 2020-12-31 2022-07-12 青岛理工大学 一种可定向聆听的有源降噪耳机及控制方法
CN115914910A (zh) 2021-08-17 2023-04-04 达发科技股份有限公司 适应性主动噪声消除装置以及使用其的声音播放系统
TWI777729B (zh) * 2021-08-17 2022-09-11 達發科技股份有限公司 適應性主動雜訊消除裝置以及使用其之聲音播放系統
TWI790718B (zh) * 2021-08-19 2023-01-21 宏碁股份有限公司 會議終端及用於會議的回音消除方法
CN115132220B (zh) * 2022-08-25 2023-02-28 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672665A (en) * 1984-07-27 1987-06-09 Matsushita Electric Industrial Co. Ltd. Echo canceller
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
US5694474A (en) * 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
US5761318A (en) * 1995-09-26 1998-06-02 Nippon Telegraph And Telephone Corporation Method and apparatus for multi-channel acoustic echo cancellation
US5774562A (en) * 1996-03-25 1998-06-30 Nippon Telegraph And Telephone Corp. Method and apparatus for dereverberation
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7062049B1 (en) * 1999-03-09 2006-06-13 Honda Giken Kogyo Kabushiki Kaisha Active noise control system
JP2000312395A (ja) * 1999-04-28 2000-11-07 Alpine Electronics Inc マイクロホンシステム
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
JP3568922B2 (ja) * 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US7167568B2 (en) * 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
JP4496379B2 (ja) * 2003-09-17 2010-07-07 財団法人北九州産業学術推進機構 分割スペクトル系列の振幅頻度分布の形状に基づく目的音声の復元方法
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP2006039267A (ja) * 2004-07-28 2006-02-09 Nissan Motor Co Ltd 音声入力装置
US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
FR2898209B1 (fr) 2006-03-01 2008-12-12 Parrot Sa Procede de debruitage d'un signal audio
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US7983428B2 (en) * 2007-05-09 2011-07-19 Motorola Mobility, Inc. Noise reduction on wireless headset input via dual channel calibration within mobile phone
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique

Also Published As

Publication number Publication date
US8682658B2 (en) 2014-03-25
JP2012253771A (ja) 2012-12-20
FR2976111B1 (fr) 2013-07-05
US20120310637A1 (en) 2012-12-06
CN103002170B (zh) 2016-01-06
EP2530673A1 (fr) 2012-12-05
EP2530673B1 (fr) 2013-07-10
CN103002170A (zh) 2013-03-27
JP6150988B2 (ja) 2017-06-21
FR2976111A1 (fr) 2012-12-07

Similar Documents

Publication Publication Date Title
ES2430121T3 (es) Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
KR101434071B1 (ko) 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
ES2775799T3 (es) Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
ES2898717T3 (es) Sistemas, métodos, aparatos, y medios legibles por ordenador para un aumento de audio espacialmente selectivo
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
ES2377056T3 (es) Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico &#34;manos libres&#34; para vehículo automóvil
US8532987B2 (en) Speech masking and cancelling and voice obscuration
US8023669B2 (en) Shielded communication transducer
US20030179888A1 (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
CN111432318B (zh) 包括直接声音补偿的听力装置
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
US8909523B2 (en) Method and acoustic signal processing system for interference and noise suppression in binaural microphone configurations
US11832072B2 (en) Audio processing using distributed machine learning model
CN110931027A (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
EP3618457A1 (en) A hearing device configured to utilize non-audio information to process audio signals
WO2011105073A1 (ja) 音響処理装置および音響処理方法
US11950057B2 (en) Hearing device comprising a speech intelligibility estimator
WO2022231977A1 (en) Recovery of voice audio quality using a deep learning model
Ziolko et al. Dual-microphone speech extraction from signals with audio background