ES2349718T3 - Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento. - Google Patents

Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento. Download PDF

Info

Publication number
ES2349718T3
ES2349718T3 ES05802589T ES05802589T ES2349718T3 ES 2349718 T3 ES2349718 T3 ES 2349718T3 ES 05802589 T ES05802589 T ES 05802589T ES 05802589 T ES05802589 T ES 05802589T ES 2349718 T3 ES2349718 T3 ES 2349718T3
Authority
ES
Spain
Prior art keywords
frame
noise
signal
noise reduction
estimate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05802589T
Other languages
English (en)
Inventor
Cyril Plapous
Pascal Scalart
Claude Marro
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2349718T3 publication Critical patent/ES2349718T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)
  • Vehicle Body Suspensions (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

Procedimiento de tratamiento de una señal acústica ruidosa (x(n)) organizado en tramas sucesivas, que incluye las siguientes etapas respecto de al menos una de dichas tramas (x(k, n)): - aplicar a dicha trama de la señal acústica ruidosa una transformada hacia el ámbito frecuencial; - estimar una densidad espectral de potencia del ruido para dicha trama **(Ver fórmula)** - calcular un primer filtro de reducción de ruido **(Ver fórmula)** a partir de la densidad espectral de potencia del ruido estimada y de una estimación de la densidad espectral de potencia de una señal útil correspondiente a dicha trama; - filtrar dicha trama de la señal acústica ruidosa (x(k,n); X(k,f)) con la ayuda del primer filtro de reducción de ruido calculado, para obtener una primera estimación sin ruido de dicha trama **(Ver fórmula)** y - efectuar un tratamiento caracterizado por la etapa de regeneración de armonicidad de la primera estimación sin ruido de dicha trama de la señal acústica ruidosa, para obtener una trama de una segunda señal 166 que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa.

Description

Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.
La presente invención se refiere al tratamiento de señales acústicas ruidosas. La invención se refiere en particular a la reducción del ruido presente en tales señales.
Se conocen técnicas de reducción de ruido, es decir de una señal perturbadora, dentro de una señal acústica. Dichas técnicas están orientadas a tener en cuenta el entorno acústico en el que aparece la señal acústica para mejorar la calidad y la inteligibilidad de la señal. Estas técnicas consisten en extraer la información útil de la señal acústica considerada efectuando un tratamiento de esta señal ruidosa. Tales técnicas se aplican por ejemplo a comunicaciones orales, en aplicaciones tales como la telefonía, teleconferencia y videoconferencia, donde la señal acústica se transmite entre diversos interlocutores. Éstas se aplican, además, a aplicaciones de toma de sonido en medio ruidoso, así como de reconocimiento de voz, cuyas prestaciones se ven fuertemente modificadas cuando la señal de voz se emite en un entorno ruidoso.
Estas técnicas suelen consistir en estimar una función de transferencia de un filtro de reducción de ruido y, a continuación, en realizar un proceso de filtrado a partir de una multiplicación en el campo espectral. Dichas técnicas dependen de los enfoques denominados de "reducción de ruido mediante atenuación espectral a corto plazo".
Según estas técnicas, la señal acústica x(n) incluye una componente de señal útil s(n) y una componente de ruido b(n), representando n un índice temporal en tiempo discreto. Se observará sin embargo que también se podría adoptar una representación de la señal en tiempo continuo. La señal x(n) se organiza en tramas x(n, k) sucesivas de longitud constante y de índice k. Cada una de estas tramas se multiplica en primer lugar por una ventana de ponderación que permite mejorar la estimación posterior de las magnitudes espectrales necesarias para el cálculo del filtro de reducción de ruido. Cada trama así ventaneada se analiza a continuación en el ámbito espectral, por ejemplo con la ayuda de una transformación de Fourier discreta o rápida. Esta operación se denomina transformación de Fourier a corto plazo (TFCT).
La representación frecuencial X(k, f) así obtenida de la señal observada, donde f es un índice de frecuencia, permite a la vez estimar la función de transferencia H(k, f) del filtro de reducción de ruido, y aplicar este filtro en el ámbito espectral por simple multiplicación entre esta función de transferencia y el espectro a corto plazo de la señal ruidosa. El resultado del filtrado se puede escribir de este modo:
1
A continuación, se efectúa un regreso al ámbito temporal de la señal obtenida, con una transformada espectral inversa. La señal temporal correspondiente se sintetiza finalmente mediante una técnica de superposición y de adición de bloques (OLA para "overlap add") o bien mediante una técnica de salvaguarda de bloques (OLS para "overlap save"). Esta operación de reconstrucción de la señal en el campo temporal se denomina transformación de Fourier a corto plazo inversa (TFCTI).
Se encontrará una descripción detallada de los procedimientos de atenuación espectral a corto plazo en las referencias: J.S. Lim, A. V. Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proceedings of the IEEE, vol. 67, pp. 1586-1604, 1979; y R.E. Crochiere, L.R. Rabiner, "Multirate digital signal processing", Prentice Hall, 1983.
La atenuación espectral a corto plazo H(k, f) aplicada a la señal de observación X(k, f) en el segmento temporal de índice k y a la componente frecuencial f, se determina generalmente a partir de la estimación de la relación señal-ruido local RSB(k, f). Una característica común del conjunto de las reglas de supresión reside en su comportamiento asimétrico, dado por:
2
En la mayoría de las técnicas, se realizan las siguientes hipótesis: el ruido y la señal útil están estadísticamente sin correlación, la señal útil es intermitente (presencia de períodos de silencio) y el oído humano no es sensible a la fase de la señal (que generalmente no se modifica mediante el tratamiento).
Entre las reglas de supresión habitualmente utilizadas, se pueden mencionar a título de ejemplo la sustracción espectral en potencia, la sustracción espectral en amplitud y la aplicación directa del filtro de Wiener. Para estas reglas, la estimación a corto plazo de la componente frecuencial f de la señal útil de voz se escribe respectivamente:
3
para la sustracción espectral en potencia (véase el artículo mencionado anteriormente de J.S. Lim y A. V. Oppenheim);
4
para la sustracción espectral en amplitud (véase S. F. BoII, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Audio, Speech and Signal Processing, vol. 27, Nº. 2, pp. 113-120, Abril 1979); y
5
para el filtrado de Wiener (véase el artículo anteriormente mencionado de J.S. Lim y A. V. Oppenheim).
En estas expresiones, 6 representan respectivamente las densidades espectrales de potencia de la señal útil y del ruido presentes en el seno de la componente frecuencial f de la señal de observación X(k, f) en la ventana temporal de índice k.
A partir de las expresiones anteriores, es posible estudiar, en función de la relación señal-ruido local medida en una componente frecuencial dada f, el comportamiento de la atenuación espectral aplicada a la señal ruidosa. Estas curvas se trazan en la figura 1 para las tres reglas de supresión a corto plazo anteriormente mencionadas. Se puede observar que el conjunto de las reglas proporciona una atenuación sensiblemente idéntica cuando la relación señal-ruido local es importante (parte derecha de la figura 1). La regla de sustracción en potencia óptima en el sentido de la verosimilitud máxima para modelos gaussianos (véase O. Cappé, "Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor", IEEE Trans. on Speech and Audio Processing, vol. 2, Nº. 2, pp. 345-349, Abril 1994), sigue siendo aquella para la cual la potencia del ruido es la más importante a la salida del tratamiento. Para las tres reglas de supresión, se puede observar que una pequeña variación de la relación señal-ruido local alrededor de un valor de corte basta para pasar del caso de la atenuación total (H(k, f)\approxO) al caso de una modificación espectral despreciable (H(k, f) \approx1).
Esta última propiedad constituye una de las causas del fenómeno denominado "ruido musical". En efecto, el ruido ambiente, que incluye a la vez componentes deterministas y aleatorias, sólo se puede caracterizar durante los períodos de no actividad vocal. Debido a la presencia de componentes aleatorios, existen variaciones muy fuertes entre la contribución real de una componente frecuencial f del ruido durante los períodos de actividad vocal y su estimación media realizada en diversas tramas durante los instantes de no actividad vocal. Debido a esta diferencia, la estimación de la relación señal-ruido local puede fluctuar alrededor del nivel de corte y, por lo tanto, generar a la salida del tratamiento componentes espectrales que aparecen y desaparecen y cuya vida útil media no sobrepasa estadísticamente el orden de magnitud de la ventana de análisis considerada. La generalización de este comportamiento en el conjunto de la banda de paso introduce un ruido residual audible y molesto.
Se han llevado a cabo diversos estudios acerca de la reducción de la influencia de este ruido residual. Las soluciones preconizadas se plantean según diversos ejes: un promedio de las estimaciones a corto plazo (véase el artículo anteriormente mencionado S.F. BoII), una sobreestimación del espectro de potencia del ruido (véase M. Berouti et col., "Enhancement of speech corrupted by acoustic noise", Int. Conf. on Speech, Signal Processing, pp. 208-211, 1979; y P. Lockwood, J. Boudy, "Experiments with a non-linear spectral subtractor, hidden Markov models and the projection for robust speech recognition in cars", Proc. of EUSIPCO'91, pp. 79-82, 1991), o una búsqueda de los mínimos de la densidad espectral de ruido (véase R. Martin, "Spectral subtraction based on minimum statistics", in Signal Processing VII: Theories and Applications, EUSIPCO'94, pp. 1182-1185, Sept. 1994).
Una solución relativamente eficaz para suprimir el ruido musical consiste en un estimador de la densidad espectral de potencia de la señal útil denominada de "decisión dirigida" (véase Y. Ephraim, y D. Malah, "Speech enhancement using a minimun mean square error short-time spectral amplitude estimator", IEEE Trans. on Audio, Speech and Signal Processing, vol. 32, N0 6, pp. 1109- 1121, 1984 y el artículo O. Cappé anteriormente mencionado). Este estimador realiza un compromiso entre la densidad espectral de potencia de la señal útil instantánea y a largo plazo, lo cual permite eliminar eficazmente el ruido musical. Se conoce, además, la mejora de esta solución recuperando la demora inherente a este estimador (véase FR2820227 y C. Plapous, C. Marro, L. Mauuary, P. Scalart, "A Two-Step Noise Reduction Technique", ICASSP, Mayo 2004).
Se han llevado a cabo diversos estudios sobre el establecimiento de nuevas reglas de supresión basadas en modelos estadísticos de las señales de voz y de ruido aditivo. Estos estudios han permitido la introducción de nuevos algoritmos denominados algoritmos de "decisiones flexibles" ya que poseen un grado de libertad adicional respecto de los procedimientos clásicos (véase RJ. Mac Aulay, M. L. Malpass, "Speech enhancement using a soft-decision noise suppression filter", IEEE trans. on Audio, Speech and Signal Processing, vol. 28, Nº. 2, pp. 137-145, Abril 1980, Y. Ephraim, D. Malah, "Speech enhancement using optimal non-linear spectral amplitude estimation", Int. Conf. on Speech, Signal Processing, pp. 1118-1121, 1983, y el artículo Y. Ephraim, D. Malah, "Speech enhancement using a minimun mean square error short-time spectral amplitude estimator", anteriormente mencionado).
Como se ha mencionado anteriormente, el cálculo de la atenuación espectral a corto plazo se basa en la estimación de la relación señal-ruido en cada una de las componentes espectrales. A título de ejemplo, cada una de las ecuaciones mostradas anteriormente hace intervenir la siguiente cantidad:
\vskip1.000000\baselineskip
7
\vskip1.000000\baselineskip
De este modo, las prestaciones de la técnica de reducción de ruido, especialmente en términos de distorsiones y de reducción efectiva del nivel de ruido, se rigen por la pertinencia de este estimador de la relación señal-ruido.
Este defecto constituye la limitación más importante de los sistemas conocidos de eliminación de ruido de voz. En efecto, los sistemas de eliminación de ruido actuales son incapaces de eliminar el ruido de los armónicos caracterizados por una relación señal-ruido demasiado pequeña. En la práctica, los algoritmos de eliminación de ruido utilizan el RSB para detectar la presencia o la ausencia de una componente de voz para cada frecuencia. Si el RSB estimado es demasiado desfavorable, el algoritmo considera que no hay componente de señal y la suprime. De este modo, se pueden destruir armónicos mediante los sistemas de eliminación de ruido conocidos, aunque se sepa a priori que tales armónicos deben existir. Ahora bien, hay que resaltar que en la mayoría de las lenguas, los sonidos voceados (armónicos) representan una parte muy importante de los sonidos pronunciados.
El documento FR 2768546 divulga un procedimiento de eliminación de ruido de una señal digital de voz. En este procedimiento, un filtro permite proteger un armónico, sin eliminar el ruido del mismo. Existen otras diferencias, especialmente en el cálculo del filtro.
Un objeto de la presente invención consiste en superar la limitación de los sistemas conocidos de eliminación de ruido.
Otro objeto de la invención consiste en mejorar las prestaciones de los procedimientos de reducción de ruido.
Otro objeto de la invención consiste en proponer un tratamiento de señal acústica que no distorsiona la señal de manera excesiva. En particular, el tratamiento de la señal efectuado permite preservar todo o parte de los armónicos comprendidos en esta señal.
Otro objeto de la invención consiste en limitar la aparición de ruido musical después del tratamiento de la señal acústica.
Otro objeto de la invención es obtener una buena estimación del peine armónico de una señal útil.
La invención propone por lo tanto un procedimiento de tratamiento de una señal sonora ruidosa organizada en tramas sucesivas, según la reivindicación 1.
Dicho tratamiento de la señal acústica ruidosa permite de este modo obtener una regeneración de armonicidad a la salida de un primer filtro de reducción de ruido aplicado a la señal. La trama de la segunda señal así obtenida se construye de manera a eliminar las distorsiones de la trama de la señal sin ruido que han podido aparecer durante el primer filtrado.
Este tratamiento permite la obtención de una buena estimación del peine armónico de la señal útil, que puede ser objeto de una explotación posterior.
De manera ventajosa, en el ámbito de la eliminación de ruido, el procedimiento incluye, además, las siguientes etapas:
-
calcular un segundo filtro de reducción de ruido a partir de la densidad espectral de potencia del ruido estimada y de una combinación de las potencias de la primera estimación sin ruido de dicha trama y de la trama de la segunda señal obtenida;
-
filtrar dicha trama de la señal acústica ruidosa, con la ayuda del segundo filtro de reducción de ruido calculado, para obtener una segunda estimación sin ruido de dicha trama; y
-
sintetizar la segunda estimación sin ruido de dicha trama.
\vskip1.000000\baselineskip
En este modo de realización, el segundo filtro de reducción de ruido se calcula para preservar los armónicos, ya que se rige por la señal procedente de la regeneración de armonicidad. De este modo, la segunda estimación sin ruido de dicha trama obtenida después del segundo filtrado es más eficaz que las obtenidas en los sistemas de reducción de ruido clásicos, donde los armónicos de la señal de entrada se destruyen o, por lo menos, se deterioran.
El cálculo del primero y, en su caso, del segundo filtro de reducción de ruido puede incluir un primer paso en el que se aplica una técnica de atenuación espectral a corto plazo. A título de ilustración, se pueden mencionar por ejemplo las siguientes técnicas: una sustracción espectral en potencia, una sustracción espectral en amplitud y un filtro de Wiener en bucle abierto, etc. De manera ventajosa, puede incluir asimismo un segundo paso en el que se aplica una técnica de atenuación espectral a corto plazo, como por ejemplo una sustracción espectral en potencia, una sustracción espectral en amplitud y un filtro de Wiener en bucle abierto, etc., y utilizar una estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama que tiene en cuenta el cálculo efectuado durante el primer paso.
De manera ventajosa, la obtención de una trama de una segunda señal que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa, incluye la aplicación de una función non lineal a la primera estimación sin ruido de dicha trama de la señal acústica ruidosa cuando dicha primera estimación se encuentra en el ámbito temporal, y la aplicación de una convolución circular entre la primera estimación sin ruido de dicha trama de la señal acústica ruidosa y de una transformada en el ámbito frecuencial de una función non lineal cuando dicha primera estimación se encuentra en el ámbito frecuencial.
La función non lineal puede, por ejemplo, ser una entre las siguientes: una función de rectificación de monoalternancia, un valor absoluto, un máximo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral, y un mínimo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral.
La invención propone, además, un dispositivo de tratamiento de señales acústicas ruidosas, que incluye medios dispuestos para aplicar el procedimiento anteriormente mencionado.
La invención propone asimismo un programa informático en un soporte de información, incluyendo este programa instrucciones adaptadas a la aplicación del procedimiento anteriormente mencionado, cuando se carga y se ejecuta el programa mediante medios informáticos.
Otras particularidades y ventajas de la presente invención aparecerán en la siguiente descripción de ejemplos de realización non limitativos, en referencia a los dibujos adjuntos, en los cuales:
- la figura 1, ya comentada, es un esquema que compara el comportamiento de tres reglas conocidas de supresión a corto plazo;
- la figura 2 es un esquema que muestra diferentes bloques funcionales aptos para aplicar un modo de realización de la invención;
- la figura 3 es un esquema que muestra un ejemplo de restauración de los armónicos perdidos en una señal sin ruido;
- la figura 4 es un esquema que muestra el efecto de la restauración de armónicos en una señal según un modo de realización de la invención; y
- la figura 5 es un esquema que muestra un ejemplo de estimación de un segundo filtro de reducción de ruido según un modo de realización de la invención.
La figura 2 muestra un dispositivo 1 según un modo de realización de la invención. Una trama habitual 2 de una señal acústica ruidosa entra en el dispositivo 1 para su tratamiento. Esta trama va designada por x(k, n) según las anotaciones introducidas anteriormente.
El dispositivo 1 incluye una unidad de análisis 3 cuya función es realizar el paso de la trama habitual de la señal ruidosa x(k, n) al ámbito frecuencial X(k, f). La trama se multiplica en un premier tiempo por una ventana de ponderación w(n) que emite la señal x_{w}(k, n):
8
El paso al ámbito frecuencial se realiza a continuación utilizando una transformada de Fourier discreta (TFD), es decir:
9
La TFD en cuestión puede aplicarse ventajosamente mediante una transformada de Fourier rápida (o FFT para "Fast Fourier Transform").
Sin embargo, también son posibles otras transformaciones hacia el ámbito frecuencial, tales como las transformadas en ondas. Lo mismo ocurre para las operaciones inversas correspondientes, es decir las transformadas de Fourier discreta inversa (TFDI), que se mencionarán más adelante, para el regreso al ámbito temporal.
Se puede, por otra parte, aplicar una función 4 de detección de actividad vocal (DAV) ventajosamente a la trama corriente 2. La DAV permite saber cuando actualizar la estimación de la densidad espectral de potencia (DSP) del ruido. Así, para cada trama k_{b} de "sólo ruido" detectada por la DAV, la densidad espectral de potencia de ruido 10 se estima mediante un bloque funcional 5 según la expresión recursiva:
11
El parámetro \alpha(k_{b}) controla el factor de alisado. Este puede variar al lo largo del tiempo.
Si la trama corriente 2 no se detecta como una trama de ruido, entonces se fija la estimación de la densidad espectral de potencia del ruido, es decir que se conserva el último valor de DSP obtenido para una trama de ruido anterior.
Se observará que la estimación de 12 no se limita a este estimador de alisado exponencial, pudiéndose utilizar cualquier otro estimador de densidad espectral de potencia.
Se puede utilizar cualquier tipo de DAV, tanto si opera en el ámbito temporal como en el ámbito frecuencial. También es posible obviar tal detección de actividad vocal.
Se efectúa entonces una estimación de un primer filtro de reducción de ruido mediante el bloque funcional 7 de la figura 2. La función de transferencia de este primer filtro de reducción de ruido es ventajosamente estimada en el ámbito frecuencial gracias a una técnica en dos pasos (véase FR2820227 y C. Plapous, C. Marro, L. Mauuary, P. Scalart, "A Two-Step Noise Reduction Technique", ICASSP1 Mayo 2004 anteriormente mencionado). En el primer paso, se calcula el filtro que tiene la siguiente función de transferencia:
13
Esta expresión de la función de transferencia del filtro es una expresión matemática que depende de la DSP de la señal útil 14 y de la del ruido 15 En este sentido, la función f_{step1} se puede elegir según una técnica de atenuación espectral, a corto plazo, para que 16 aplique por ejemplo la regla de sustracción espectral en potencia (ecuación (1)), la regla de sustracción espectral en amplitud (ecuación (2)), la del filtro de Wiener en bucle abierto (ecuación (3)), etc. Se puede aplicar asimismo cualquier otra regla de supresión de ruido en frecuencia para estimar 17
El cálculo de la densidad espectral de potencia de ruido 18 se ha detallado anteriormente. En lo que respecta a la magnitud espectral 19, no se puede obtener directamente debido a la mezcla de la señal y del ruido durante los períodos de actividad vocal. Para calcularla, se utiliza un estimador de decisión dirigida (véase Y. Ephraim, D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", anteriormente mencionado), conforme a la siguiente expresión:
20
donde 21 es un parámetro baricéntrico que puede variar a lo largo del tiempo, y 22 es el espectro de la señal útil estimada respecto de la trama anterior de índice k-1. La función P, que garantiza el valor de umbral de la magnitud 23 que corre el riesgo de ser negativo en caso de error de estimación, es dado por:
24
Se observará que la estimación de 25 no se limita a este estimador de decisión dirigida. En efecto se puede utilizar un estimador de alisado exponencial o cualquier otro estimador de densidad espectral de potencia.
La función de transferencia 26 se puede reutilizar a continuación para afinar la estimación de la DSP de la señal útil 27 Se obtiene entonces la magnitud 28 dada por:
29
El segundo paso consiste entonces en el cálculo del estimador 30 de la función de transferencia del primer filtro de reducción de ruido a partir de 31 es decir:
32
Este cálculo en dos pasos, cuya particularidad reside en una actualización "más rápida" de la DSP de la señal útil 33 confiere al primer filtro de reducción de ruido 34 dos ventajas. Por una parte, se obtiene un seguimiento más rápido de las no estacionalidades de la señal útil, en particular durante variaciones rápidas de su envoltura temporal (por ejemplo ataques o extinciones de la señal de voz durante una transición silencio/voz). Por otra parte, el filtro de reducción de ruido se estima mejor, lo cual se traduce por un aumento de las prestaciones del procedimiento.
35 pueden aplicar una técnica de atenuación espectral a corto plazo, como por ejemplo la regla de sustracción espectral en potencia (ecuación (1)), la regla de sustracción espectral en amplitud (ecuación (2)), o la del filtro de Wiener en bucle abierto (ecuación (3)). Se puede aplicar asimismo cualquier otra regla de supresión de ruido en frecuencia para estimar 36 y 37 Evidentemente, también es posible limitarse al primer paso, sin aplicar el segundo.
Se realiza entonces un filtrado mediante el bloque funcional 6 del dispositivo 1, según el primer filtro calculado 38 Se puede efectuar en el ámbito frecuencial, lo que corresponde a multiplicar dos espectros. De hecho, esto equivale a una operación de convolución circular en el ámbito temporal. De este modo, conviene tomar algunas precauciones para evitar distorsiones debidas al repliegue temporal, que se traducen durante la escucha por unos clics al ritmo de las tramas. De este modo, para satisfacer la condición de convolución lineal, es necesario añadir, al mismo tiempo, cierto número de muestras nulas a cada trama de entrada (técnica denominada de "zero padding"), y limitar el soporte temporal de la respuesta impulsiva del filtro de reducción de ruido (lo que se puede efectuar en el ámbito temporal o frecuencial).
Se observa que, para limitar el soporte temporal de la respuesta impulsiva del filtro de reducción de ruido, se puede introducir una condición en el ámbito temporal, lo cual requiere:
i) una primera transformación espectral "inversa" que permite obtener la respuesta impulsiva 39 a partir del conocimiento de la función de transferencia del filtro 40
ii) una limitación del número de puntos de esta respuesta impulsiva, para obtener un filtro temporal truncado 41
iii) una segunda transformación espectral "directa" que permite obtener la función de transferencia modificada del filtro 42 a partir de la respuesta impulsiva con condición 43
\vskip1.000000\baselineskip
Al estar disponible la función de transferencia del filtro de reducción de ruido 44 (frecuencial), la respuesta impulsiva 45 (temporal) se obtiene mediante una transformada de Fourier discreta inversa (TFDI), es decir:
46
\vskip1.000000\baselineskip
Esta respuesta impulsiva se limita a continuación temporalmente seleccionando y ponderando los 47 coeficientes más significativos mediante una ventana 48
49
\vskip1.000000\baselineskip
Esta limitación del soporte temporal del filtro de reducción de ruido presenta una doble ventaja. Por una parte, permite evitar los problemas de repliegue temporal (cumplimiento de la convolución lineal). Por otra parte, asegura un alisado que permite evitar los efectos de un filtro demasiado agresivo.
La función de transferencia del filtro de reducción de ruido 50 se obtiene a continuación mediante transformada de Fourier discreta (TFD):
51
\vskip1.000000\baselineskip
Finalmente, la primera versión sin ruido de la señal ruidosa se obtiene mediante filtrado frecuencial, es decir multiplicando el espectro de la señal ruidosa por la función de transferencia del filtro de reducción de ruido, es decir:
52
\vskip1.000000\baselineskip
Esta etapa de filtrado frecuencial se puede realizar también de manera equivalente mediante un filtrado temporal, es decir filtrando directamente 53 mediante 54 y, a continuación, realizando una transformada de Fourier discreta (TFD) del resultado.
Esta primera estimación de la señal útil 55 posee distorsiones audibles ya que se han suprimido alguno armónicos por medio del filtro de reducción de ruido 56 como se explica en la introducción. Por supuesto, el nivel de distorsión está directamente ligado al RSB. Cuanto más potente es el ruido en una zona frecuencial, más propensos a degradación son los armónicos de esta zona.
Para paliar este inconveniente, un bloque funcional 8 del dispositivo 1 representado en la figura 2, crea una señal artificial 57 que posee armónicos donde se habían destruido o se habían reducido en gran medida.
Se puede obtener la señal 58 en el ámbito temporal o en el ámbito frecuencial. En el ámbito temporal, es posible volver a proporcionar armonicidad a una señal aplicándole una no linealidad, por ejemplo una función entre: una función de rectificación de monoalternancia, un valor absoluto, un mínimo/máximo respecto de un umbral, etc. Si se escribe NL la función non lineal utilizada, como se ilustra en la etapa 14 de la figura 3, se obtiene:
59
donde 60 se obtiene, según la etapa -13 de la figura 3, mediante transformada de Fourier discreta inversa (TFDI):
61
Se obtiene a continuación 62 como se indica en la etapa 15 de la figura 3, mediante transformada de Fourier discreta (TFD):
63
Se observará que los armónicos se recrean en las mismas posiciones que los de la señal útil. Esto se asegura implícitamente debido a que se utiliza una no linealidad temporal para restaurarlos.
Se observará, además, que en el caso en que la no linealidad se aplica en el ámbito temporal, es posible evitar el paso al ámbito frecuencial aplicando la no linealidad en la señal 64 obtenida directamente mediante la convolución de 65
La figura 4 ilustra el efecto y el interés de la no linealidad. El primer espectro (curva 16) corresponde a una trama de la señal útil no ruidosa y sirve de referencia. El segundo espectro (curva 17) corresponde a la señal 66 Se observa claramente en este segundo espectro que se han destruido algunos armónicos por completo y otros se han degradado. El último espectro (curva 18) corresponde a la señal 67 anteriormente mencionada. Se observa que la no linealidad aplicada a la señal 68 ha permitido efectivamente la recreación de los armónicos que faltan en la señal 69 El espectro de esta señal 70 posee por lo tanto informaciones de armonicidad muy útiles especialmente para calcular un nuevo filtro de reducción de ruido destinado a preservar los armónicos que las técnicas clásicas de reducción de ruido destruyen.
La no linealidad temporal posee un equivalente frecuencial que consiste en realizar una convolución circular entre el espectro de la señal 71 y el espectro de una señal que posee la misma estructura armónica (a nivel de las posiciones de los armónicos) que la señal útil. Dicho espectro se puede obtener, por ejemplo, gracias a la señal temporal d(k, n) que corresponde a una función de 72 Se puede, de este modo, obtener asimismo la señal 73 en el ámbito frecuencial, de la siguiente manera:
74
donde el signo 200 corresponde al operador de convolución circular. Si la no linealidad temporal elegida es la función de valor absoluto, por ejemplo, la señal d(k,n) se puede expresar de este modo, designando la función según el signo del valor al que se aplica:
75
De este modo, la señal 76 obtenida bien mediante una no linealidad temporal bien mediante una convolución circular frecuencial, posee armónicos donde se han destruido o degradado los de 77 Constituye en sí una buena estimación del peine armónico de la señal sin ruido, en el cual los armónicos se mantienen en las mismas posiciones que en la señal útil. Esta estimación del peine armónico es particularmente interesante y se puede explotar, especialmente, pero no exclusivamente, con fines de eliminación de ruido.
De manera ventajosa, esta señal puede permitir además el cálculo de un filtro de reducción de ruido capaz de preservar los armónicos normalmente destruidos por los algoritmos clásicos, como se describe en lo sucesivo.
Se observará que la presente invención nos se limita a los ejemplos descritos anteriormente para obtener la señal 78 Se extiende en efecto a cualquier otro procedimiento destinado a recrear los armónicos suprimidos por el filtro de reducción de ruido 79
De manera ventajosa, se estima un segundo filtro por parte del bloque funcional 9 de la figura 2. La función de transferencia de este segundo filtro de reducción de ruido 80 se estima ``en el ámbito frecuencial, como se ilustra en la figura 5, de la siguiente manera, representando g una función:
81
Esta expresión de la función de transferencia del filtro es una expresión matemática que depende de la DSP del ruido 82 y de la de la señal útil estimada gracias a la etapa de restauración armónica, es decir:
83
El parámetro \rho(k, f) se utiliza para controlar el nivel de reinyección de la señal 84 en el cálculo de la DSP 85 en función de la no linealidad NL que se ha elegido para crear la señal 86 Se observará que este parámetro puede ser fijo o bien depender de la frecuencia y/o del tiempo.
La función g se puede elegir para que 87 aplique por ejemplo la regla de sustracción espectral en potencia (ecuación (1)), la regla de sustracción espectral en amplitud (ecuación (2)), o la del filtro de Wiener en bucle abierto (ecuación (3)). Por supuesto, se puede aplicar cualquier otra regla de supresión de ruido en frecuencia para estimar 88
Esta función de transferencia de reducción de ruido, 89 posee la ventaja de preservar los armónicos de la señal que se destruyen normalmente mediante las técnicas clásicas de reducción de ruido. Esto limita por lo tanto las distorsiones de la señal sin ruido. Hay que resaltar también que este filtro conserva las buenas propiedades del filtro 90 es decir un buen seguimiento de las no estacionalidades y muy poco ruido musical residual.
A continuación, se realiza un segundo filtrado por parte del bloque funcional 10 del dispositivo 1, sobre la base del segundo filtro de reducción de ruido estimado. De este modo, como para la primera función de transferencia, se obtiene la respuesta impulsiva 91 (temporal) equivalente a la función de transferencia del filtro de reducción de ruido 92 (frecuencial), mediante una transformada de Fourier discreta inversa (TFDI), es decir:
93
Esta respuesta impulsiva se limita a continuación ventajosa y temporalmente seleccionando y ponderando los 94 coeficientes más significativos mediante una ventana 95 es decir:
96
La función de transferencia del filtro de reducción de ruido 97 se obtiene a continuación mediante transformada de Fourier discreta (TFD):
98
\vskip1.000000\baselineskip
Finalmente, la trama frecuencial sin ruido se obtiene mediante filtrado frecuencial, es decir multiplicando el espectro de la señal ruidosa por la función de transferencia del filtro de reducción de ruido, es decir:
99
\vskip1.000000\baselineskip
Esta etapa de filtrado frecuencial se puede realizar también de manera equivalente mediante un filtrado temporal, es decir filtrando directamente 100 por medio de 101. En este caso, se obtiene directamente la señal 102 en el ámbito temporal.
Cuando el filtrado se efectúa en el ámbito frecuencial, conviene volver al ámbito temporal. Esto se realiza mediante el bloque funcional 11 del dispositivo 1, mediante la aplicación de una transformada espectral inversa (TFDI), es
decir:
103
\vskip1.000000\baselineskip
La señal de salida sin ruido se sintetiza a continuación ventajosamente mediante una técnica de superposición y de adición de bloques (OLA para "overlap add") o una técnica de salvaguarda de bloques (OLS para "overlap save"). Esta operación de reconstrucción de la señal en el ámbito temporal se denomina transformación de Fourier a corto plazo inversa (TFCTI).
A la conclusión de estas etapas, se obtiene la trama 12 a la salida del dispositivo 1. Esta trama de salida 12 es una estimación sin ruido de la trama de entrada 2, en la cual la distorsión está limitada.
En el resto de la descripción, se describe una selección ventajosa de realizaciones de la invención. Esta selección consiste en ejemplos de realización y no se deben considerar como de carácter limitativo.
Para la aplicación del análisis y de la síntesis realizados mediante los bloques funcionales 3 y 11 del dispositivo 1, se elige ventajosamente la técnica OLA. Existe por otra parte una superposición entre las tramas analizadas. Por ejemplo, se puede elegir una tasa de superposición del 50%. La trama corriente 2 de la señal ruidosa x(k, n) {n = 0, .... L-1}, de longitud L, se multiplica en un primer tiempo por una ventana de ponderación w(n) que proporciona la señal x_{w}(k, n):
104
En el ejemplo, la ventana utilizada es una ventana de Hanning de dimensión L:
105
donde L = 256, lo cual corresponde a tramas de longitud 32 ms a la frecuencia de muestreo Fe = 8 kHz.
El paso al ámbito frecuencial se realiza ventajosamente utilizando la transformada de Fourier rápida (TFR), versión optimizada digitalmente de la transformada de Fourier discreta (TFD). Para tener una mejor resolución frecuencial y cumplir las condiciones de convolución lineal, se utiliza una TFR de longitud LTFR = 512. Por lo tanto es necesario previamente prolongar el bloque ventana x_{w}(k, n) mediante 256 muestras nulas ("zero-padding"):
106
La TFR X(k, f) de la trama de entrada se obtiene entonces mediante:
107
Se puede realizar una detección de actividad vocal, opcionalmente, mediante el bloque funcional 4.
En lo relativo a la estimación de la densidad espectral de potencia de ruido 108 realizada por el bloque funcional 5, se puede proceder ventajosamente de la siguiente manera. Para cada trama k_{b} de "sólo ruido" detectada por la DAV, se estima la densidad espectral de potencia de ruido 109 mediante la siguiente expresión recursiva:
110
Si no se detecta la trama corriente como una trama de ruido, se fija la estimación de la densidad espectral de potencia del ruido. La magnitud de alisado \alpha se elige constante e igual a \alpha = 0,8825, lo que corresponde a una constante de tiempo de 128 ms (teniendo en cuenta la superposición del 50% y la frecuencia de muestreo Fe = 8 kHz), considerada suficiente para asegurar un compromiso entre una estimación fiable y un seguimiento de las variaciones temporales de las estadísticas del ruido.
La función de transferencia 111 del primer filtro de reducción de ruido estimado por el bloque funcional 7 es ventajosamente la de un filtro de Wiener en bucle abierto tal como:
112
donde 113 representa la relación señal-ruido (RSB) a priori definida de manera teórica mediante la relación de las estimaciones de las DSP de la señal útil 114 y del ruido 115 es decir:
116
La DSP de la señal útil 117 se obtiene ventajosamente utilizando un estimador de decisión dirigida, es decir:
118
donde el parámetro baricéntrico \beta se elige constante e igual a \beta = 0,98. Como se ha indicado anteriormente, la función P asegura el valor de umbral de la magnitud ponderada medio de (1-\beta):
119
La función de transferencia 120 se reutiliza a continuación ventajosamente para afinar la estimación de la DSP de la señal útil 121 Se obtiene de este modo la magnitud 122 proporcionada por:
123
que se utiliza para hacer una segunda estimación de la relación señal-ruido a priori 124 proporcionada por:
125
Un segundo paso consiste ventajosamente en el cálculo del estimador de la función de transferencia 126 del primer filtro de reducción de ruido a partir de 127 es decir:
128
El filtrado realizado por el bloque funcional 6 se puede realizar como se indica en lo sucesivo. Al estar disponible la función de transferencia del filtro de reducción de ruido 129 (frecuencial), se obtiene la respuesta temporal 130 correspondiente utilizando ventajosamente la transformada de Fourier rápida inversa (TFRI), que es una versión optimizada digitalmente de la transformada de Fourier discreta inversa (TFDIa), es decir:
131
\vskip1.000000\baselineskip
Debido al hecho de que la señal 132 es real, se consigue que en un premier tiempo causal el filtro correspondiente sea temporal. Se seleccionan a continuación los L_{filt1}=256 coeficientes de este filtro correspondientes a las muestras significativas para la aplicación considerada. La respuesta impulsiva así obtenida se pondera a continuación mediante una ventana de Hanning de longitud L_{filt1}. Finalmente, la respuesta impulsiva ponderada se completa con L_{TFR}-L_{filt1} ceros, para proporcionar la respuesta impulsiva 133 que cumple la condición de convolución lineal sin repliegue.
La función de transferencia del filtro de reducción de ruido 134 se obtiene a continuación utilizando ventajosamente la transformada de Fourier rápida (TFR), versión optimizada digitalmente de la transformada de Fourier discreta (TFD), es decir:
135
\vskip1.000000\baselineskip
Finalmente, la primera versión sin ruido de la señal ruidosa se obtiene mediante filtrado frecuencial, es decir multiplicando el espectro de la señal ruidosa por la función de transferencia del filtro de reducción de ruido:
136
\newpage
En la etapa de restauración de los armónicos perdidos efectuada por el bloque funcional 8, la señal 137 se utiliza a continuación para crear la señal artificial 138 En un premier tiempo, la señal temporal 139 se obtiene utilizando ventajosamente la transformada de Fourier rápida inversa (TFRI):
\vskip1.000000\baselineskip
140
A continuación, se aplica a esta señal la función non lineal de rectificación de monoalternancia que tiene por objeto proporcionarle de nuevo armonicidad, es decir:
\vskip1.000000\baselineskip
141
Por supuesto, se puede utilizar cualquier otra no linealidad distinta de la rectificación de monoalternancia como se indica anteriormente (valor absoluto, máximo/mínimo respecto de un umbral, etc.). Finalmente, se obtiene la señal 142 utilizando ventajosamente la transformada de Fourier rápida (TFR), es decir:
\vskip1.000000\baselineskip
143
Se aprovecha a continuación esta señal para calcular ventajosamente la función de transferencia de un segundo filtro de reducción de ruido.
En el presente ejemplo de realización, la estimación de dicho segundo filtro se realiza mediante el bloque funcional 9 del dispositivo 1 de la siguiente manera. La función de transferencia del segundo filtro de reducción de ruido 144 es la de un filtro de Wiener en bucle abierto, como:
\vskip1.000000\baselineskip
145
donde 146 representa la relación señal-ruido (RSB) a priori definida teóricamente mediante la relación de las estimaciones de la DSP de la señal útil 147 y de las DSP del ruido 148 es decir:
\vskip1.000000\baselineskip
149
\vskip1.000000\baselineskip
donde la DSP de la señal útil 150 se obtiene de este modo:
151
El parámetro \rho(k, f) de control del nivel de reinyección de la señal 152 se elige fijo e igual a 0,5 para la aplicación considerada.
\newpage
Al estar disponible la función de transferencia del filtro de reducción de ruido 153 (frecuencial), se obtiene la respuesta temporal 154 correspondiente utilizando ventajosamente la transformada de Fourier rápida inversa (TFRI), versión optimizada digitalmente de la transformada de Fourier discreta inversa (TFDI):
155
Debido al hecho de que la señal 156 es real, se consigue que en un premier tiempo causal el filtro correspondiente sea temporal. Se seleccionan a continuación los L_{filt2}=256 coeficientes de este filtro correspondientes a las muestras significativas para esta aplicación. La respuesta impulsiva así obtenida se pondera a continuación mediante una ventana de Hanning de longitud L_{filt2}. Finalmente, la respuesta impulsiva ponderada se completa con L_{TFR}-L_{filt2} ceros, para proporcionar la respuesta impulsiva 157 que cumple la condición de convolución lineal sin repliegue.
La función de transferencia del filtro de reducción de ruido 158 se obtiene a continuación utilizando ventajosamente la transformada de Fourier rápida (TFR), versión optimizada digitalmente de la transformada de Fourier discreta (TFD):
159
Los valores del módulo del filtro de reducción de ruido 160 se pueden eventualmente umbralar para evitar una reducción de ruido demasiado agresiva.
Finalmente, la trama frecuencial sin ruido se obtiene mediante filtrado frecuencial realizado por el bloque funcional 10, es decir multiplicando el espectro de la señal ruidosa por la función de transferencia del filtro de reducción de ruido, es decir:
161
La vuelta al ámbito temporal de la señal así obtenida se efectúa a continuación, a nivel del bloque funcional 11, mediante transformada espectral inversa, utilizando ventajosamente la transformada de Fourier rápida inversa (TFRI), es decir:
162
La señal de salida sin ruido se sintetiza a continuación mediante la técnica OLA de superposición y de adición de bloques.
Se observará, además, que el dispositivo 1 ilustrado en la figura 2 se puede disponer en un equipo particular, en función de la aplicación apuntada, tal como un equipo de toma de sonido, un equipo de comunicación o un equipo de reconocimiento de voz.
Se observará, además, que el tratamiento aplicado por el dispositivo se puede efectuar de manera local, como en el caso de un terminal de comunicación, por ejemplo, o de manera centralizada en una red, por ejemplo en el caso de un servidor de reconocimiento de voz.
Por otra parte, de manera práctica, un dispositivo 1 de tratamiento de señales acústicas ruidosas, según la invención, está constituido por medios materiales (electrónicos) y/o programas informáticos adaptados para aplicar un procedimiento de tratamiento de una señal, según la invención.
Según una realización preferida, las etapas del procedimiento de tratamiento de una señal acústica ruidosa, según la invención, se determinan mediante las instrucciones de un programa informático utilizado en dicho equipo según la invención.
\newpage
El procedimiento según la invención se aplica cuando el programa anteriormente mencionado se carga en medios informáticos incorporados en el equipo, y cuyo funcionamiento se controla mediante la ejecución del programa.
Se entiende en la presente memoria descriptiva por "programa informático" uno o más programas informáticos que forman un conjunto (software) cuya finalidad es la aplicación de la invención, cuando se ejecuta con la ayuda de medios informáticos apropiados.
En consecuencia, la invención tiene asimismo por objeto dicho programa informático, en particular en forma de un software almacenado en un soporte de información. Este soporte de información puede estar formado por cualquier entidad o dispositivo capaz de almacenar un programa según la invención.
Por ejemplo, el soporte en cuestión puede incluir un medio de almacenamiento material, tal como una ROM, por ejemplo un CD ROM o una ROM de circuito microelectrónico, o también un medio de grabación magnética, por ejemplo un disco duro. Como variante, el soporte de información puede ser un circuito integrado en el cual se incorpora el programa, estando el circuito adaptado para ejecutar o para ser utilizado en la ejecución del procedimiento en cuestión.
Por otra parte, el soporte de información también puede ser un soporte inmaterial transmisible, tal como una señal eléctrica u óptica que se puede encaminar mediante un cable eléctrico u óptico, por radio o por otros medios. Un programa según la invención puede descargarse especialmente de una red del tipo Internet.
Desde un punto de vista conceptual, un programa informático según la invención puede utilizar cualquier lenguaje de programación y encontrarse en forma de código fuente, código objeto, o de código intermedio entre código fuente y código objeto (por ejemplo una forma parcialmente compilada), o en cualquier otra forma deseable para aplicar un procedimiento según la invención.

Claims (33)

1. Procedimiento de tratamiento de una señal acústica ruidosa (x(n)) organizado en tramas sucesivas, que incluye las siguientes etapas respecto de al menos una de dichas tramas (x(k, n)):
-
aplicar a dicha trama de la señal acústica ruidosa una transformada hacia el ámbito frecuencial;
-
estimar una densidad espectral de potencia del ruido para dicha trama 163
-
calcular un primer filtro de reducción de ruido 164 a partir de la densidad espectral de potencia del ruido estimada y de una estimación de la densidad espectral de potencia de una señal útil correspondiente a dicha trama;
-
filtrar dicha trama de la señal acústica ruidosa (x(k,n); X(k,f)) con la ayuda del primer filtro de reducción de ruido calculado, para obtener una primera estimación sin ruido de dicha trama 165 y
-
efectuar un tratamiento caracterizado por la etapa de regeneración de armonicidad de la primera estimación sin ruido de dicha trama de la señal acústica ruidosa, para obtener una trama de una segunda señal 166 que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa.
\vskip1.000000\baselineskip
2. Procedimiento según la reivindicación 1, que incluye, además, las siguientes etapas:
-
calcular un segundo filtro de reducción de ruido 167 a partir de la densidad espectral de potencia del ruido estimado y de una combinación de las potencias de la primera estimación sin ruido de dicha trama 168 y de la trama de la segunda señal obtenida 169
-
filtrar dicha trama de la señal acústica ruidosa (x(k, n); X(k, f)), con la ayuda del segundo filtro de reducción de ruido calculado, para obtener una segunda estimación sin ruido de dicha trama 170 y
-
sintetizar la segunda estimación sin ruido de dicha trama.
\vskip1.000000\baselineskip
3. Procedimiento según la reivindicación 2, en el cual, cuando el resultado del filtrado efectuado con la ayuda del segundo filtro de reducción de ruido se encuentra en el ámbito frecuencial, se aplica al resultado de dicho filtrado una transformada hacia el ámbito temporal, antes de sintetizar la segunda estimación sin ruido de dicha trama.
4. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que se multiplica dicha trama de la señal acústica ruidosa (x(k, n)) por una ventana de ponderación (w(n)) antes de aplicarle una transformada hacia el ámbito frecuencial.
5. Procedimiento según la reivindicación 4, en el que dicha ventana de ponderación es una ventana de Hanning que tiene como dimensión la longitud L de dicha trama de la señal acústica ruidosa.
6. Procedimiento según la reivindicación 5, en el que dicha ventana de ponderación es de forma
171 donde n es un número entero que va de 0 a L-1 y donde L es igual a 256.
7. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el que dicha transformada hacia el ámbito frecuencial aplicada a dicha trama de la señal acústica ruidosa (x(k, n)) es una transformada de Fourier rápida de longitud 512.
8. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual se busca una actividad vocal en dicha trama de la señal acústica ruidosa (x(k, n)), y en el cual la estimación de la densidad espectral de potencia del ruido para dicha trama 172 corresponde a una estimación de la densidad espectral de potencia del ruido incluido en dicha trama cuando no se detecta actividad vocal alguna en dicha trama y a una estimación de la densidad espectral de potencia del ruido incluido en al menos una trama de la señal acústica ruidosa que precede dicha trama cuando se detecta una actividad vocal en dicha trama.
9. Procedimiento según la reivindicación 8, en el cual la densidad espectral de potencia del ruido incluido en al menos una trama de índice k_{b} de la señal acústica ruidosa en la cual no se detecta actividad vocal alguna se realiza mediante alisado exponencial de la forma 173 donde X(k_{b}, f) representa la transformada hacia el ámbito frecuencial de la trama de índice k_{b} de la señal acústica ruidosa y \alpha es una magnitud de alisado.
10. Procedimiento según una cualquiera de las reivindicaciones anteriores en el cual el cálculo del primer filtro de reducción de ruido incluye un primer paso que aplica una técnica de atenuación espectral a corto plazo.
11. Procedimiento según la reivindicación 10, en el cual el cálculo del primer filtro de reducción de ruido incluye un primer paso que aplica un filtro de Wiener en bucle abierto que tiene una función de transferencia de la forma 174 donde k es un índice de dicha trama de la señal acústica ruidosa y 175 representa una relación de la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama por la densidad espectral de potencia del ruido estimada.
12. Procedimiento según la reivindicación 11, en el cual la estimación de la densidad espectral de potencia de una señal útil correspondiente a dicha trama incluye una estimación de decisión dirigida de la forma
176 donde \beta es un parámetro baricéntrico, o una estimación de alisado exponencial.
13. Procedimiento según una cualquiera de las reivindicaciones 10 a 12, en el cual el cálculo del primer filtro de reducción de ruido incluye además un segundo paso que aplica una técnica de atenuación espectral a corto plazo, y en la cual la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama tiene en cuenta el cálculo efectuado en el primer paso.
14. Procedimiento según la reivindicación 13, en el cual la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama que tiene en cuenta el cálculo efectuado en el primer paso es de forma 177 donde 178 representa una función de transferencia calculada en el primer paso y X(k, f) representa la transformada hacia el ámbito frecuencial de dicha trama de índice k de la señal acústica ruidosa, y en el cual el cálculo del primer filtro de reducción de ruido incluye un segundo paso que aplica un filtro de Wiener en bucle abierto que tiene una función de transferencia de la forma 179 donde 180 representa una relación de la estimación de la densidad espectral de potencia de la señal útil correspondiente a dicha trama que tiene en cuenta el cálculo efectuado en el primer paso mediante la densidad espectral de potencia del ruido estimada.
15. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del primer filtro de reducción de ruido se efectúa en la transformada hacia el ámbito frecuencial de dicha trama (X(k,f)).
16. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del primer filtro de reducción de ruido incluye una selección de coeficientes de dicho primer filtro de reducción de ruido y una ponderación de la respuesta impulsiva temporal de dicho primer filtro de reducción de ruido.
17. Procedimiento según la reivindicación 16, en el cual se seleccionan 256 coeficientes del primer filtro de reducción de ruido que se pondera mediante una ventana de Hanning.
\newpage
18. Procedimiento según la reivindicación 17, en el cual dicha transformada hacia el ámbito frecuencial aplicado a dicha trama de la señal acústica ruidosa es una transformada de Fourier rápida de longitud 512 y en el cual la respuesta impulsiva temporal de dicho primer filtro de reducción de ruido (x_{w}(k, n)) se completa con 256 ceros.
19. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual la obtención de una trama de una segunda señal 181 que incluye armónicos sensiblemente en las mismas posiciones que la señal útil correspondiente a dicha trama de la señal acústica ruidosa incluye la aplicación de una función no lineal a la primera estimación sin ruido de dicha trama de la señal acústica ruidosa 182 cuando dicha primera estimación está en el ámbito temporal, y la aplicación de una convolución circular entre la primera estimación sin ruido de dicha trama de la señal acústica ruidosa 183 y de una transformada en el ámbito frecuencial de una función no lineal (d(k, n)) cuando dicha primera estimación está en el ámbito frecuencial.
20. Procedimiento según la reivindicación 19, en el cual dicha función no lineal (d(k, n)) es una de entre: una función de rectificación de monoalternancia, un valor absoluto, un máximo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral, y un mínimo entre dicha primera estimación sin ruido de dicha trama de la señal acústica ruidosa y un umbral.
21. Procedimiento según una cualquiera de las reivindicaciones 2 a 20, en el cual el cálculo del segundo filtro de reducción de ruido 184 aplica una técnica de atenuación espectral a corto plazo.
22. Procedimiento según la reivindicación 21, en el cual el cálculo del segundo filtro de reducción de ruido aplica un filtro de Wiener en bucle abierto que tiene una función de transferencia de la forma 185 con 186 y 187 donde 188 representa la primera estimación sin ruido de dicha trama de índice k, 189 representa la trama de la segunda señal y \rho(k, f) es un parámetro de reinyección de la segunda señal.
23. Procedimiento según la reivindicación 22, en el cual \rho(k, f) varía en función de la frecuencia y/o del tiempo.
24. Procedimiento según una cualquiera de las reivindicaciones anteriores, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del segundo filtro de reducción de ruido se efectúa en la transformada hacia el ámbito frecuencial de dicha trama (X(k, f)).
25. Procedimiento según una cualquiera de las reivindicaciones 2 a 24, en el cual el filtrado de dicha trama de la señal acústica ruidosa (x(k, n);X(k, f)) con la ayuda del segundo filtro de reducción de ruido incluye una selección y una ponderación de la respuesta impulsiva temporal de dicho segundo filtro de reducción de ruido.
26. Procedimiento según la reivindicación 25, en el cual se seleccionan 256 coeficientes del segundo filtro de reducción de ruido que se ponderan mediante una ventana de Hanning.
27. Procedimiento según la reivindicación 26, en el cual dicha transformada hacia el ámbito frecuencial aplicada a dicha trama de la señal acústica ruidosa es una transformada de Fourier rápida de longitud 512 y en el cual la respuesta impulsiva temporal de dicho segundo filtro de reducción de ruido se completa con 256 ceros.
28. Procedimiento según una cualquiera de las reivindicaciones 2 a 27, en el cual la síntesis de la segunda estimación sin ruido de dicha trama utiliza una superposición y una adición de bloques OLA o una salvaguarda de bloques OLS.
29. Dispositivo (1) de tratamiento de señales acústicas ruidosas, que incluye medios dispuestos para aplicar el procedimiento según una cualquiera de las reivindicaciones anteriores.
30. Equipo de toma de sonido que incorpora el dispositivo según la reivindicación 29
31. Equipo de comunicación que incorpora el dispositivo según la reivindicación 29.
32. Equipo de reconocimiento de voz que incorpora el dispositivo según la reivindicación 29.
33. Programa informático en un soporte de información, caracterizado porque incluye instrucciones adaptadas para la aplicación de un procedimiento según una cualquiera de las reivindicaciones 1 a 28, cuando dicho programa se carga y se ejecuta mediante medios informáticos.
ES05802589T 2004-09-16 2005-09-14 Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento. Active ES2349718T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0409819 2004-09-16
FR0409819 2004-09-16

Publications (1)

Publication Number Publication Date
ES2349718T3 true ES2349718T3 (es) 2011-01-10

Family

ID=34949870

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05802589T Active ES2349718T3 (es) 2004-09-16 2005-09-14 Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.

Country Status (9)

Country Link
US (1) US7359838B2 (es)
EP (1) EP1789956B1 (es)
JP (1) JP5068653B2 (es)
KR (1) KR101168002B1 (es)
CN (1) CN101031963B (es)
AT (1) ATE476733T1 (es)
DE (1) DE602005022735D1 (es)
ES (1) ES2349718T3 (es)
WO (1) WO2006032760A1 (es)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452316B2 (en) * 2004-06-18 2013-05-28 Qualcomm Incorporated Power control for a wireless communication system utilizing orthogonal multiplexing
US7197692B2 (en) * 2004-06-18 2007-03-27 Qualcomm Incorporated Robust erasure detection and erasure-rate-based closed loop power control
US7594151B2 (en) * 2004-06-18 2009-09-22 Qualcomm, Incorporated Reverse link power control in an orthogonal system
US8942639B2 (en) * 2005-03-15 2015-01-27 Qualcomm Incorporated Interference control in a wireless communication system
US8848574B2 (en) * 2005-03-15 2014-09-30 Qualcomm Incorporated Interference control in a wireless communication system
EP1941638A2 (en) * 2005-10-27 2008-07-09 Qualcomm Incorporated Method and apparatus for estimating reverse link loading in a wireless communication system
US20080117849A1 (en) * 2006-09-08 2008-05-22 Qualcomm Incorporated Method and apparatus for interaction of fast other sector interference (osi) with slow osi
US8442572B2 (en) * 2006-09-08 2013-05-14 Qualcomm Incorporated Method and apparatus for adjustments for delta-based power control in wireless communication systems
US8670777B2 (en) 2006-09-08 2014-03-11 Qualcomm Incorporated Method and apparatus for fast other sector interference (OSI) adjustment
US8296135B2 (en) * 2008-04-22 2012-10-23 Electronics And Telecommunications Research Institute Noise cancellation system and method
US8346397B2 (en) * 2008-09-15 2013-01-01 Johnson Controls Technology Company Airflow adjustment user interfaces
US20100205628A1 (en) * 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
US8954320B2 (en) * 2009-07-27 2015-02-10 Scti Holdings, Inc. System and method for noise reduction in processing speech signals by targeting speech and disregarding noise
CN103109320B (zh) * 2010-09-21 2015-08-05 三菱电机株式会社 噪声抑制装置
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
WO2013027138A1 (en) * 2011-08-19 2013-02-28 Koninklijke Philips Electronics N.V. Frequency dependent combination of x-ray images of different modalities
JPWO2014017371A1 (ja) * 2012-07-25 2016-07-11 株式会社ニコン 音処理装置、電子機器、撮像装置、プログラム、及び、音処理方法
FR2999776B1 (fr) * 2012-12-19 2015-01-09 Electricite De France Procede d'evaluation du colmatage d'un echangeur thermique
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
CN104215265A (zh) * 2014-08-18 2014-12-17 中国空间技术研究院 一种高精度的psd信号降噪方法
CN106687027B (zh) * 2014-08-25 2020-10-23 德尔格制造股份两合公司 除去信号中的噪声
EP3230981B1 (en) 2014-12-12 2020-05-06 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
CN104637489B (zh) * 2015-01-21 2018-08-21 华为技术有限公司 声音信号处理的方法和装置
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
CN106328154B (zh) * 2015-06-30 2019-09-17 芋头科技(杭州)有限公司 一种前端音频处理系统
CN105390142B (zh) * 2015-12-17 2019-04-05 广州大学 一种数字助听器语音噪声消除方法
CN105743818A (zh) * 2016-02-03 2016-07-06 国网智能电网研究院 一种分配方法
CN105788607B (zh) * 2016-05-20 2020-01-03 中国科学技术大学 应用于双麦克风阵列的语音增强方法
CN105845146B (zh) * 2016-05-23 2019-09-06 珠海市杰理科技股份有限公司 语音信号处理的方法及装置
WO2017218386A1 (en) * 2016-06-13 2017-12-21 Med-El Elektromedizinische Geraete Gmbh Recursive noise power estimation with noise model adaptation
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
FR3086451B1 (fr) * 2018-09-20 2021-04-30 Sagemcom Broadband Sas Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale
CN110010144A (zh) * 2019-04-24 2019-07-12 厦门亿联网络技术股份有限公司 语音信号增强方法及装置
CN113015050B (zh) * 2019-12-20 2022-11-22 瑞昱半导体股份有限公司 具有抗噪机制的音频播放装置及方法
US12062369B2 (en) * 2020-09-25 2024-08-13 Intel Corporation Real-time dynamic noise reduction using convolutional networks
CN112242148B (zh) * 2020-11-12 2023-06-16 北京声加科技有限公司 一种基于头戴式耳机的风噪抑制方法及装置
CN112767962B (zh) * 2021-03-01 2021-08-03 北京电信易通信息技术股份有限公司 一种语音增强方法及系统
CN113270113B (zh) * 2021-05-18 2021-12-03 北京理工大学 一种声音信号混杂度的识别方法及系统
WO2022256577A1 (en) * 2021-06-02 2022-12-08 Board Of Regents, The University Of Texas System A method of speech enhancement and a mobile computing device implementing the method

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
FR2764469B1 (fr) * 1997-06-09 2002-07-12 France Telecom Procede et dispositif de traitement optimise d'un signal perturbateur lors d'une prise de son
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
FR2768546B1 (fr) * 1997-09-18 2000-07-21 Matra Communication Procede de debruitage d'un signal de parole numerique
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
US6459914B1 (en) * 1998-05-27 2002-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using spectrum dependent exponential gain function averaging
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
JP3960834B2 (ja) 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法
US7054453B2 (en) * 2002-03-29 2006-05-30 Everest Biomedical Instruments Co. Fast estimation of weak bio-signals using novel algorithms for generating multiple additional data frames
GB2398913B (en) * 2003-02-27 2005-08-17 Motorola Inc Noise estimation in speech recognition
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression

Also Published As

Publication number Publication date
US20070255535A1 (en) 2007-11-01
EP1789956B1 (fr) 2010-08-04
US7359838B2 (en) 2008-04-15
CN101031963A (zh) 2007-09-05
JP2008513819A (ja) 2008-05-01
KR101168002B1 (ko) 2012-07-26
CN101031963B (zh) 2010-09-15
KR20070055599A (ko) 2007-05-30
DE602005022735D1 (de) 2010-09-16
JP5068653B2 (ja) 2012-11-07
ATE476733T1 (de) 2010-08-15
WO2006032760A1 (fr) 2006-03-30
EP1789956A1 (fr) 2007-05-30

Similar Documents

Publication Publication Date Title
ES2349718T3 (es) Procedimiento de tratamiento de señales acústicas ruidosas y dispositivo para la realización del procedimiento.
ES2347760T3 (es) Procedimiento y dispositivo de reduccion de ruido.
JP4861645B2 (ja) スピーチノイズサプレッサ、スピーチノイズ抑圧方法、および、スピーチ信号におけるノイズ抑圧方法
Yegnanarayana et al. Speech enhancement using linear prediction residual
EP2130019B1 (en) Speech enhancement employing a perceptual model
Soon et al. Noisy speech enhancement using discrete cosine transform
ES2329046T3 (es) Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo.
US6289309B1 (en) Noise spectrum tracking for speech enhancement
JP4350690B2 (ja) 音声品質向上方法及び装置
Cohen et al. Spectral enhancement methods
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
JP2008513819A5 (es)
JP2006215568A (ja) 音声向上装置、音声向上方法及び音声向上プログラムを記録したコンピュータで読み取り可能な媒体
US8326621B2 (en) Repetitive transient noise removal
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
Nemer et al. Single-microphone wind noise reduction by adaptive postfiltering
US20070250312A1 (en) Signal processing apparatus and method thereof
JP2005258158A (ja) ノイズ除去装置
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
Nemer et al. Speech enhancement using fourth-order cumulants and optimum filters in the subband domain
WO2006114100A1 (en) Estimation of signal from noisy observations
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Ma et al. A perceptual kalman filtering-based approach for speech enhancement
Ishaq et al. Optimal subband Kalman filter for normal and oesophageal speech enhancement
Krishnamoorthy et al. Processing noisy speech for enhancement