ES2334429B2

ES2334429B2 - Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.

Info

Publication number: ES2334429B2
Application number: ES200930730A
Authority: ES
Inventors: Cesar Asensio Rivera; Manuel Recuero Lopez; Mariano Ruiz Gonzalez
Original assignee: Universidad Politecnica de Madrid
Current assignee: Universidad Politecnica de Madrid
Priority date: 2009-09-24
Filing date: 2009-09-24
Publication date: 2011-07-15
Anticipated expiration: 2029-09-24
Also published as: ES2334429A1

Abstract

Sistema y procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, que comprende: muestrear, una señal analógica de audio captada por unos medios sensores (1) a partir de al menos una fuente sonora objetivo (2); digitalizar la señal muestreada; enventanar la señal digitalizada para obtener tramas de carácter estacionario; extraer, para cada trama, al menos un vector de características; clasificar los vectores de características extraídos; estandarizar la salida de la clasificación; almacenar la señal de salida normalizada; suavizar la señal de salida normalizada almacenada y marcar y extraer eventos sonoros de la señal suavizada a partir de unos parámetros configurados por el usuario.

Adicionalmente, comprende una etapa de optimización que permite obtener indicadores estadísticos en la detección y unir eventos sonoros temporalmente próximos de acuerdo a un parámetro configurable por el usuario.

Description

Sistema y procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas.

Campo de la invención

La invención se encuadra en el campo técnico de los procesos de monitorización de contaminantes ambientales, concretamente en lo relativo a la medida y monitorización de las emisiones e inmisiones acústicas producidas por los medios del transporte.

Estado de la técnica

La contaminación acústica se ha convertido en una de las principales preocupaciones en materia medioambiental de nuestra sociedad. Dicha preocupación ha propiciado la aparición de legislación comunitaria, nacional, autonómica y local cuyo objetivo consiste en gestionar y reducir la contaminación acústica y sus efectos sobre las personas y el medio ambiente.

En este sentido, en relación a las infraestructuras del transporte, y de modo muy especial en los aeropuertos y líneas ferroviarias, el monitorado del ruido se convierte en una herramienta de suma importancia para la gestión del ruido, la planificación del territorio y la adopción de planes de acción.

Los terminales de monitorado de ruido ambiental, que se utilizan fundamentalmente en los aeropuertos, realizan una medición del nivel de ruido ambiental, y evalúan la aportación de las fuentes sonoras objetivo (según el caso aeronaves, trenes,...) al ambiente sonoro general. Para ello deben ser capaces de medir la evolución temporal del ruido, identificar eventos sonoros y clasificar aquellos que se correspondan con los producidos por la fuente sonora
objetivo.

\vskip1.000000\baselineskip

Por ejemplo, en lo referente al ruido de aeronaves, la propuesta de norma ISO/FDIS 20906, "Unattended monitoring of aircraft sound in the vicinity of airports", establece los siguientes requisitos (traducido):

-: La incertidumbre expandida del nivel de exposición sonora acumulado para todos los eventos sonoros de aeronaves no excederá de 3 dB.

-: Al menos el 50% de los eventos sonoros provocados verdaderamente por aeronaves serán correctamente clasificados como ruido de aeronaves.

-: El número de eventos sonoros no provocado por aeronaves que es clasificado de forma incorrecta como ruido de aeronaves es menor que el 50% del número de verdaderos eventos sonoros producidos por aeronaves.

\vskip1.000000\baselineskip

Es precisamente en este aspecto de la identificación del origen del ruido, donde los sistemas existentes en el mercado presentan las principales carencias.

Un sistema básico de monitorado de ruido realiza la detección de eventos mediante la utilización de umbrales, efectuando el marcado de eventos cuando el nivel sonoro L(t) supera el umbral definido, de forma ininterrumpida, un intervalo temporal predefinido.

Las técnicas de reconocimiento de patrones y reconocimiento automático de habla han sido aplicadas previamente al reconocimiento de fuentes de ruido ambiental. Sin embargo, el ámbito de actuación no permite concluir que los buenos resultados obtenidos en laboratorio (u otros entornos específicos controlados) puedan ser generalizados, y extrapolados a ambientes reales, en los que predominen altos niveles de ruido de fondo.

En el caso de ruido de aeronaves, los sistemas comerciales más avanzados, se integran con el sistema de radar del aeropuerto, de manera que son capaces de detectar eventos sonoros y determinar si los ha producido una aeronave en función de la distancia a la aeronave más cercana. Sin embargo este tipo de técnicas, que no realizan las tareas de identificación a partir del análisis de la señal audio, presentan problemas debido a que para poder clasificar un evento sonoro es necesario detectarlo previamente mediante umbrales de nivel.

Era por tanto deseable un sistema de detección e identificación de eventos sonoros producidos por una fuente sonora objetivo, que permitiera optimizar los procesos ya conocidos de detección, identificación, medida, monitorado o inspección de los indicadores acústicos asociados a una determinada fuente de ruido ambiental, independizando dicha tarea de elementos ajenos (como el radar), y que permitiera complementar el funcionamiento de los monitores de ruido (y sonómetros) comerciales.

Descripción de la invención

La presente invención resuelve los problemas existentes en el estado de la técnica mediante un sistema de detección de eventos sonoros en función del grado de semejanza con la fuente sonora objetivo, de forma independiente del nivel sonoro absoluto alcanzado, minimizando así la importancia del ruido de fondo existente en la zona.

La invención dispone de un sensor, o entrada equivalente, que le permite analizar el sonido existente a partir de una señal audio analógica. Dicha señal es muestreada y digitalizada en tiempo real (en este aspecto cabe destacar que la invención realiza la detección de la fuente objetivo en tiempo real, por lo que no es necesario almacenar la totalidad del sonido para poder efectuar la clasificación, minimizando los costes de transmisión y/o almacenamiento).

A continuación se produce un proceso de enventanado y extracción de vectores de características. Cada trama es representada por un único vector de características que será la entrada del sistema de clasificación o reconocimiento de patrones. El sistema de clasificación contará con una configuración de entrenamiento por defecto, y dejará abierta la posibilidad a nuevas configuraciones.

La salida del clasificador será normalizada, tomando valores entre 0 y 1 según el grado de semejanza del vector con la representación vectorial del sonido producido por la fuente sonora objetivo. Esta salida, denominada ANL (Aircraft Noise Likeness) indica la probabilidad de pertenencia del vector evaluado a la clase objetivo, en este caso, a la fuente sonora objetivo. Este índice ANL es refrescado continuamente, conforme al tamaño de la ventana y grado de solapamiento definidos. Su seguimiento permite la detección del sonido producido por fuentes sonoras objetivo.

La secuencia ANL es almacenada en memoria y suavizada, recibiendo el nombre de soft ANL, para proceder al marcado y extracción de eventos sonoros provocados por la fuente sonora objetivo.

La extracción de eventos se realiza en paralelo a la generación del índice ANL, pudiendo ser la cadencia de representación distinta de la de generación de la misma. La extracción de eventos sonoros se efectúa en función de un umbral y una duración definidos por el usuario, lo que le permitirá adecuar el funcionamiento del sistema al entorno acústico donde se efectúen las medidas.

Finalmente, el sistema realiza un proceso de optimización, que permite añadir criterios estadísticos a la detección, y une eventos sonoros temporalmente próximos.

Las salidas ofrecidas por la invención serán las siguientes:

-: evolución temporal del índice ANL;

-: evolución temporal del índice soft ANL;

-: listado de eventos correspondientes a la fuente sonora objetivo, caracterizados por:

\medcirc: instante de inicio del evento,

\medcirc: instante de finalización del evento,

\medcirc: indicadores estadísticos del índice ANL durante el evento.

El procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, comprende las siguientes etapas:

a): muestrear, una señal analógica de audio producida por una fuente sonora objetivo y captada por unos medios sensores;

b): digitalizar la señal muestreada;

c): enventanar la señal digitalizada para obtener tramas de carácter estacionario;

d): extraer, para cada trama, al menos un vector de características para su clasificación;

e): detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo, comprendiendo:

\medcirc: clasificar los vectores de características extraídos para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo identificando la fuente sonora a la que pertenecen dichos sonidos;

\medcirc: normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo;

\medcirc: almacenar la señal de salida normalizada;

\medcirc: suavizar la señal de salida normalizada almacenada para eliminar las irregularidades de la misma;

\medcirc: extraer y marcar temporalmente los eventos sonoros de la señal suavizada a partir de parámetros configurables por el usuario.

El marcado puede consistir en un listado de eventos con hora de inicio y duración, una señal digital que accione un sonómetro, un cambio en un indicador digital o cualquier salida que el usuario configure.

En una realización preferente, el procedimiento de detección e identificación de sonidos en tiempo real comprende una etapa de optimización que permite obtener indicadores estadísticos en la detección y unir eventos sonoros mediante la configuración de un parámetro por el usuario.

Preferentemente, la etapa de optimización obtiene:

\bullet: el instante de inicio del evento;

\bullet: el instante de fin del evento;

\bullet: indicadores estadísticos de la salida normalizada de la etapa e), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.

De manera preferente, la extracción de eventos sonoros se realiza en función de un umbral y una duración definidos por el usuario.

Igualmente, de manera preferente, la extracción de características se realiza mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients).

Preferentemente, la clasificación se realiza mediante un clasificador uniclase.

Preferentemente, el enventanado permite configurar el tamaño de ventana y el grado de solapamiento.

El sistema de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, comprende:

\bullet: unos medios sensores configurados para obtener señales analógicas de audio a partir de al menos una fuente sonora objetivo;

\bullet: unos medios de procesamiento configurados para la realización de las siguientes etapas:

f): muestrear, una señal analógica de audio producida por la fuente sonora objetivo y captada por los medios sensores;

g): digitalizar la señal muestreada;

h): enventanar la señal digitalizada para obtener tramas de carácter estacionario;

i): extraer, para cada trama, al menos un vector de características para la detección de eventos sonoros de la fuente sonora objetivo;

j): detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo, comprendiendo:

\medcirc: almacenar la señal de salida normalizada;

En una realización preferente, los medios de procesamiento del sistema de detección e identificación de sonidos en tiempo real están configurados para realizar una etapa de optimización que permite obtener indicadores estadísticos en la detección y unir eventos sonoros temporalmente próximos de acuerdo a un parámetro configurable por el usuario.

Preferentemente, los medios de procesamiento están configurados para caracterizar los eventos sonoros extraídos donde dicha caracterización comprende:

\bullet: el instante de inicio del evento;

\bullet: el instante de fin del evento;

\bullet: indicadores estadísticos de la salida estandarizada de la etapa j), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.

De manera preferente, los medios de procesamiento están configurados para extraer eventos sonoros en función de un umbral y una duración definidos por el usuario.

Igualmente, de manera preferente, los medios de procesamiento están configurados para realizar la extracción de características mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients).

Preferentemente, los medios de procesamiento están configurados para realizar la clasificación mediante un clasificador uniclase.

Preferentemente, los medios de procesamiento están configurados para configurar el tamaño de ventana y el grado de solapamiento del enventanado.

\vskip1.000000\baselineskip

Breve descripción de los dibujos

A continuación, para facilitar la comprensión de la invención, a modo ilustrativo pero no limitativo se describirá una realización de la invención que hace referencia a una serie de figuras.

La figura 1 muestra el sistema de detección implementado.

La figura 2 muestra el proceso de extracción de características mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients).

La figura 3 muestra un esquema del sistema detección e identificación de sonidos propuesto.

\vskip1.000000\baselineskip

Descripción detallada de un modo de realización

La figura 1 muestra, en primer lugar, el sensor, cuya salida, x(t), es convertida en una señal digital, x[n] mediante un ADC (Analog-to-Digital Converter). A continuación se enventana, generándose tramas de muestras de una longitud predefinida.

Para cada trama, se extraen las características, generándose un vector de características (v_{m}), que entra en un clasificador. El clasificador genera un vector de probabilidades (p_{m}) que es reducido a una dimensión y normalizado (entre 0 y 1) para marcar la probabilidad de que el vector v_{m} corresponda a la clase formada por la fuente sonora objetivo. De esta forma, se genera el índice ANL, cuya evolución temporal es almacenada y suavizada. Sobre dicha evolución temporal suavizada se realiza el proceso de extracción de eventos producidos por el objetivo a partir de los parámetros introducidos por el usuario. Tras el proceso de optimización se obtendrá un listado de eventos sonoros, caracterizados fundamentalmente por su instante de inicio y finalización.

La figura 2 muestra el proceso de extracción de características el cual consiste, en primer lugar, en calcular la transformada discreta de Fourier mediante el algoritmo FFT para cada trama de muestras, convenientemente enventanada. A continuación, sobre los coeficientes resultantes se aplican un banco de filtros en la escala denominada "Mel-scale". A continuación se calcula el logaritmo, y se realiza la transformada de coseno discreta (DCT). La extracción de características considera únicamente los 13 coeficientes MFCC más significativos.

La figura 3 muestra los elementos principales del sistema detección e identificación de sonidos propuesto. En ella se observan unos medios sensores (1), a partir de los cuales el sistema capta señales de audio analógicas procedentes de las fuentes sonoras objetivo (2) y unos medios de procesamiento (3), configurados para realizar la detección e identificación de sonidos.

La presente invención se ilustra adicionalmente mediante el siguiente ejemplo, el cual no pretende ser limitativo de su alcance.

Para la adquisición y transducción de la señal acústica se utilizará un micrófono:

-: El micrófono omnidireccional integrado en una estación de monitorado de ruido que puede ser accedido a partir de la señal AC (Alternating Current) de la misma, y que ha presentado un comportamiento eficiente.

-: La utilización de un micrófono directivo (p.ej. cardioide) dedicado exclusivamente a las tareas de detección permitirá optimizar la efectividad.

\vskip1.000000\baselineskip

El proceso de digitalización de la señal de audio se realizará con una frecuencia de muestreo mínima de 11025 Hz, y una resolución mínima de 8 bits. Siendo los valores recomendados 44100 Hz de frecuencia de muestreo y 16 bits de resolución.

El proceso de enventanado se realiza mediante una ventana tipo Hamming para una duración recomendada de 100 ms. Con este tipo de ventana se obtendrán 10 valores del índice ANL por segundo.

La extracción de características de cada trama se realiza mediante la obtención de 13 coeficientes MFCC a partir del proceso mostrado en la figura 2. Se considera adecuado que el rango de frecuencias debe empezar en 0 Hz, configurando un banco de 42 filtros triangulares.

El bloque clasificador ofrece múltiples posibilidades de implementación. Se consideran más adecuados los basados en el enfoque de clasificación uniclase (one-class classifiers), por su mayor flexibilidad de cara a amoldarse a una única clase objetivo. En este ejemplo la fuente sonora objetivo es el ruido producido por las aeronaves.

La realización del sistema preferida utiliza un clasificador uniclase que modeliza la clase objetivo mediante un sumatorio de 20 gausianas (mixture of gaussians one-class classifier).

La generalización del sistema establecerá que, por defecto, la probabilidad a priori de la clase objetivo sea del 50%. Un estudio estadístico particularizado de la zona donde se efectuará la detección permitirá ajustar este parámetro para mejorar la eficacia del clasificador.

Con un criterio equiparable se establecerán costes idénticos de reconocimiento para la clase objetivo (target) y la clase no objetivo (outliers).

El proceso de normalización garantizará que el índice ANL[m] varía entre 0 y 1. Este valor indicará la probabilidad a posteriori del vector de entrada, en relación a su pertenencia a la clase objetivo donde, para este caso concreto, la probabilidad de que el fragmento analizado se corresponda con un sonido de aeronave.

La evolución temporal del índice ANL debe ser almacenada. Tras un proceso de suavizado (p.ej. media móvil) se obtiene el índice soft ANL.

\vskip1.000000\baselineskip

La extracción de eventos sonoros se realiza a partir de los parámetros configurados por el usuario en lo referente a:

-: umbral ANL (adimensional),

-: duración (s).

\vskip1.000000\baselineskip

Cuando el índice soft ANL supera el umbral de forma continuada durante, al menos, el tiempo definido por el usuario, se extrae un evento.

Cuando el instante de inicio de un evento está muy próximo al instante de finalización del evento anterior (por defecto 2 s), el bloque de optimización junta ambos eventos en uno solo.

Como criterio adicional, en el bloque de optimización se considera adecuado imponer un criterio estadístico al índice ANL durante el evento extraído. Por lo tanto, el usuario también debe decidir cuál es el percentil 90 del índice ANL (ANL90) mínimo que debe tener el evento para que éste pueda ser considerado como producido por la clase objetivo.

\vskip1.000000\baselineskip

Además de los instantes de inicio y finalización de cada evento extraído (correspondiente a la fuente sonora objetivo, aeronaves en este ejemplo), cada evento tendrá asociado los siguientes datos:

-: valor medio del índice ANL durante el evento,

-: percentiles 1, 5, 10, 50, 90, 95 y 99, del índice ANL durante el evento (ANL1, ANL5..., ANL99).

\vskip1.000000\baselineskip

Finalmente, cabe destacar que la invención puede utilizarse junto con una estación de monitorado de ruido, tanto integrado en esta, como de forma accesoria a la misma.

Una vez descrita de forma clara la invención, se hace constar que las realizaciones particulares anteriormente descritas son susceptibles de modificaciones de detalle siempre que no alteren el principio fundamental y la esencia de la invención.

Claims

1. Procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, caracterizado porque comprende las siguientes etapas:

a): muestrear, una señal analógica de audio producida por una fuente sonora objetivo (2) y captada por unos medios sensores (1);

b): digitalizar la señal muestreada;

d): extraer, para cada trama, al menos un vector de características para su clasificación mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients);

e): detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo (2), comprendiendo:

\medcirc: clasificar los vectores de características extraídos mediante un clasificador uniclase para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo (2) identificando la fuente sonora a la que pertenecen dichos sonidos;

\medcirc: normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo (2);

\medcirc: almacenar la señal de salida normalizada;

2. Procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según la reivindicación anterior, caracterizado porque comprende una etapa de optimización que permite obtener indicadores estadísticos en la detección y unir eventos sonoros mediante la configuración de un parámetro por el usuario, obteniéndose en dicha etapa de optimización:

\bullet: el instante de inicio del evento;

\bullet: el instante de fin del evento;

3. Procedimiento automático de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según cualquiera de las reivindicaciones anteriores, caracterizado porque la extracción de eventos sonoros se realiza en función de un umbral y una duración definidos por el usuario.

4. Procedimiento de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según cualquiera de las reivindicaciones anteriores, caracterizado porque el enventanado permite configurar el tamaño de ventana y el grado de solapamiento.

5. Sistema de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, caracterizado porque comprende:

\bullet: unos medios sensores (1) configurados para obtener señales analógicas de audio a partir de al menos una fuente sonora objetivo (2);

\bullet: unos medios de procesamiento (3) configurados para la realización de las siguientes etapas:

f): muestrear, una señal analógica de audio producida por la fuente sonora objetivo (2) y captada por los medios sensores (1);

g): digitalizar la señal muestreada;

i): extraer, para cada trama, al menos un vector de características para la detección de eventos sonoros de la fuente sonora objetivo (2) mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients);

j): detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo (2), comprendiendo:

\medcirc: almacenar la señal de salida normalizada;

6. Sistema de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según la reivindicación 5, caracterizado porque los medios de procesamiento (3) están configurados para realizar una etapa de optimización que permite obtener indicadores estadísticos en la detección y unir eventos sonoros temporalmente próximos de acuerdo a un parámetro configurable por el usuario, obteniéndose en dicha etapa de optimización:

\bullet: el instante de inicio del evento;

\bullet: el instante de fin del evento;

7. Sistema de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según cualquiera de las reivindicaciones 5-6, caracterizado porque los medios de procesamiento (3) están configurados para extraer eventos sonoros en función de un umbral y una duración definidos por el usuario.

8. Sistema de detección e identificación de sonidos en tiempo real producidos por fuentes sonoras específicas, según cualquiera de las reivindicaciones 5-7, caracterizado porque los medios de procesamiento (3) están configurados para configurar el tamaño de ventana y el grado de solapamiento del enventanado.