ES2334429B2 - Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. - Google Patents
Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. Download PDFInfo
- Publication number
- ES2334429B2 ES2334429B2 ES200930730A ES200930730A ES2334429B2 ES 2334429 B2 ES2334429 B2 ES 2334429B2 ES 200930730 A ES200930730 A ES 200930730A ES 200930730 A ES200930730 A ES 200930730A ES 2334429 B2 ES2334429 B2 ES 2334429B2
- Authority
- ES
- Spain
- Prior art keywords
- sound
- produced
- signal
- detection
- medcirc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 239000002574 poison Substances 0.000 claims abstract description 5
- 231100000614 poison Toxicity 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 claims description 3
- 231100000572 poisoning Toxicity 0.000 claims description 2
- 230000000607 poisoning effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H3/00—Measuring characteristics of vibrations by using a detector in a fluid
- G01H3/04—Frequency
- G01H3/08—Analysing frequencies present in complex vibrations, e.g. comparing harmonics present
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Sistema y procedimiento de detección e
identificación de sonidos en tiempo real producidos por fuentes
sonoras específicas, que comprende: muestrear, una señal analógica
de audio captada por unos medios sensores (1) a partir de al menos
una fuente sonora objetivo (2); digitalizar la señal muestreada;
enventanar la señal digitalizada para obtener tramas de carácter
estacionario; extraer, para cada trama, al menos un vector de
características; clasificar los vectores de características
extraídos; estandarizar la salida de la clasificación; almacenar la
señal de salida normalizada; suavizar la señal de salida normalizada
almacenada y marcar y extraer eventos sonoros de la señal suavizada
a partir de unos parámetros configurados por el usuario.
Adicionalmente, comprende una etapa de
optimización que permite obtener indicadores estadísticos en la
detección y unir eventos sonoros temporalmente próximos de acuerdo a
un parámetro configurable por el usuario.
Description
Sistema y procedimiento de detección e
identificación de sonidos en tiempo real producidos por fuentes
sonoras específicas.
La invención se encuadra en el campo técnico de
los procesos de monitorización de contaminantes ambientales,
concretamente en lo relativo a la medida y monitorización de las
emisiones e inmisiones acústicas producidas por los medios del
transporte.
La contaminación acústica se ha convertido en
una de las principales preocupaciones en materia medioambiental de
nuestra sociedad. Dicha preocupación ha propiciado la aparición de
legislación comunitaria, nacional, autonómica y local cuyo objetivo
consiste en gestionar y reducir la contaminación acústica y sus
efectos sobre las personas y el medio ambiente.
En este sentido, en relación a las
infraestructuras del transporte, y de modo muy especial en los
aeropuertos y líneas ferroviarias, el monitorado del ruido se
convierte en una herramienta de suma importancia para la gestión del
ruido, la planificación del territorio y la adopción de planes de
acción.
Los terminales de monitorado de ruido ambiental,
que se utilizan fundamentalmente en los aeropuertos, realizan una
medición del nivel de ruido ambiental, y evalúan la aportación de
las fuentes sonoras objetivo (según el caso aeronaves, trenes,...)
al ambiente sonoro general. Para ello deben ser capaces de medir la
evolución temporal del ruido, identificar eventos sonoros y
clasificar aquellos que se correspondan con los producidos por la
fuente sonora
objetivo.
objetivo.
\vskip1.000000\baselineskip
Por ejemplo, en lo referente al ruido de
aeronaves, la propuesta de norma ISO/FDIS 20906, "Unattended
monitoring of aircraft sound in the vicinity of airports",
establece los siguientes requisitos (traducido):
- -
- La incertidumbre expandida del nivel de exposición sonora acumulado para todos los eventos sonoros de aeronaves no excederá de 3 dB.
- -
- Al menos el 50% de los eventos sonoros provocados verdaderamente por aeronaves serán correctamente clasificados como ruido de aeronaves.
- -
- El número de eventos sonoros no provocado por aeronaves que es clasificado de forma incorrecta como ruido de aeronaves es menor que el 50% del número de verdaderos eventos sonoros producidos por aeronaves.
\vskip1.000000\baselineskip
Es precisamente en este aspecto de la
identificación del origen del ruido, donde los sistemas existentes
en el mercado presentan las principales carencias.
Un sistema básico de monitorado de ruido realiza
la detección de eventos mediante la utilización de umbrales,
efectuando el marcado de eventos cuando el nivel sonoro L(t)
supera el umbral definido, de forma ininterrumpida, un intervalo
temporal predefinido.
Las técnicas de reconocimiento de patrones y
reconocimiento automático de habla han sido aplicadas previamente
al reconocimiento de fuentes de ruido ambiental. Sin embargo, el
ámbito de actuación no permite concluir que los buenos resultados
obtenidos en laboratorio (u otros entornos específicos controlados)
puedan ser generalizados, y extrapolados a ambientes reales, en los
que predominen altos niveles de ruido de fondo.
En el caso de ruido de aeronaves, los sistemas
comerciales más avanzados, se integran con el sistema de radar del
aeropuerto, de manera que son capaces de detectar eventos sonoros y
determinar si los ha producido una aeronave en función de la
distancia a la aeronave más cercana. Sin embargo este tipo de
técnicas, que no realizan las tareas de identificación a partir del
análisis de la señal audio, presentan problemas debido a que para
poder clasificar un evento sonoro es necesario detectarlo
previamente mediante umbrales de nivel.
Era por tanto deseable un sistema de detección e
identificación de eventos sonoros producidos por una fuente sonora
objetivo, que permitiera optimizar los procesos ya conocidos de
detección, identificación, medida, monitorado o inspección de los
indicadores acústicos asociados a una determinada fuente de ruido
ambiental, independizando dicha tarea de elementos ajenos (como el
radar), y que permitiera complementar el funcionamiento de los
monitores de ruido (y sonómetros) comerciales.
La presente invención resuelve los problemas
existentes en el estado de la técnica mediante un sistema de
detección de eventos sonoros en función del grado de semejanza con
la fuente sonora objetivo, de forma independiente del nivel sonoro
absoluto alcanzado, minimizando así la importancia del ruido de
fondo existente en la zona.
La invención dispone de un sensor, o entrada
equivalente, que le permite analizar el sonido existente a partir
de una señal audio analógica. Dicha señal es muestreada y
digitalizada en tiempo real (en este aspecto cabe destacar que la
invención realiza la detección de la fuente objetivo en tiempo real,
por lo que no es necesario almacenar la totalidad del sonido para
poder efectuar la clasificación, minimizando los costes de
transmisión y/o almacenamiento).
A continuación se produce un proceso de
enventanado y extracción de vectores de características. Cada trama
es representada por un único vector de características que será la
entrada del sistema de clasificación o reconocimiento de patrones.
El sistema de clasificación contará con una configuración de
entrenamiento por defecto, y dejará abierta la posibilidad a nuevas
configuraciones.
La salida del clasificador será normalizada,
tomando valores entre 0 y 1 según el grado de semejanza del vector
con la representación vectorial del sonido producido por la fuente
sonora objetivo. Esta salida, denominada ANL (Aircraft Noise
Likeness) indica la probabilidad de pertenencia del vector evaluado
a la clase objetivo, en este caso, a la fuente sonora objetivo.
Este índice ANL es refrescado continuamente, conforme al tamaño de
la ventana y grado de solapamiento definidos. Su seguimiento
permite la detección del sonido producido por fuentes sonoras
objetivo.
La secuencia ANL es almacenada en memoria y
suavizada, recibiendo el nombre de soft ANL, para proceder al
marcado y extracción de eventos sonoros provocados por la fuente
sonora objetivo.
La extracción de eventos se realiza en paralelo
a la generación del índice ANL, pudiendo ser la cadencia de
representación distinta de la de generación de la misma. La
extracción de eventos sonoros se efectúa en función de un umbral y
una duración definidos por el usuario, lo que le permitirá adecuar
el funcionamiento del sistema al entorno acústico donde se efectúen
las medidas.
Finalmente, el sistema realiza un proceso de
optimización, que permite añadir criterios estadísticos a la
detección, y une eventos sonoros temporalmente próximos.
Las salidas ofrecidas por la invención serán las
siguientes:
- -
- evolución temporal del índice ANL;
- -
- evolución temporal del índice soft ANL;
- -
- listado de eventos correspondientes a la fuente sonora objetivo, caracterizados por:
- \medcirc
- instante de inicio del evento,
- \medcirc
- instante de finalización del evento,
- \medcirc
- indicadores estadísticos del índice ANL durante el evento.
El procedimiento de detección e identificación
de sonidos en tiempo real producidos por fuentes sonoras
específicas, comprende las siguientes etapas:
- a)
- muestrear, una señal analógica de audio producida por una fuente sonora objetivo y captada por unos medios sensores;
- b)
- digitalizar la señal muestreada;
- c)
- enventanar la señal digitalizada para obtener tramas de carácter estacionario;
- d)
- extraer, para cada trama, al menos un vector de características para su clasificación;
- e)
- detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo, comprendiendo:
- \medcirc
- clasificar los vectores de características extraídos para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo identificando la fuente sonora a la que pertenecen dichos sonidos;
- \medcirc
- normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo;
- \medcirc
- almacenar la señal de salida normalizada;
- \medcirc
- suavizar la señal de salida normalizada almacenada para eliminar las irregularidades de la misma;
- \medcirc
- extraer y marcar temporalmente los eventos sonoros de la señal suavizada a partir de parámetros configurables por el usuario.
El marcado puede consistir en un listado de
eventos con hora de inicio y duración, una señal digital que
accione un sonómetro, un cambio en un indicador digital o cualquier
salida que el usuario configure.
En una realización preferente, el procedimiento
de detección e identificación de sonidos en tiempo real comprende
una etapa de optimización que permite obtener indicadores
estadísticos en la detección y unir eventos sonoros mediante la
configuración de un parámetro por el usuario.
Preferentemente, la etapa de optimización
obtiene:
- \bullet
- el instante de inicio del evento;
- \bullet
- el instante de fin del evento;
- \bullet
- indicadores estadísticos de la salida normalizada de la etapa e), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.
De manera preferente, la extracción de eventos
sonoros se realiza en función de un umbral y una duración definidos
por el usuario.
Igualmente, de manera preferente, la extracción
de características se realiza mediante la obtención de trece
coeficientes MFCC (Mel Frequency Cepstra Coefficients).
Preferentemente, la clasificación se realiza
mediante un clasificador uniclase.
Preferentemente, el enventanado permite
configurar el tamaño de ventana y el grado de solapamiento.
El sistema de detección e identificación de
sonidos en tiempo real producidos por fuentes sonoras específicas,
comprende:
- \bullet
- unos medios sensores configurados para obtener señales analógicas de audio a partir de al menos una fuente sonora objetivo;
- \bullet
- unos medios de procesamiento configurados para la realización de las siguientes etapas:
- f)
- muestrear, una señal analógica de audio producida por la fuente sonora objetivo y captada por los medios sensores;
- g)
- digitalizar la señal muestreada;
- h)
- enventanar la señal digitalizada para obtener tramas de carácter estacionario;
- i)
- extraer, para cada trama, al menos un vector de características para la detección de eventos sonoros de la fuente sonora objetivo;
- j)
- detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo, comprendiendo:
- \medcirc
- clasificar los vectores de características extraídos para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo identificando la fuente sonora a la que pertenecen dichos sonidos;
- \medcirc
- normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo;
- \medcirc
- almacenar la señal de salida normalizada;
- \medcirc
- suavizar la señal de salida normalizada almacenada para eliminar las irregularidades de la misma;
- \medcirc
- extraer y marcar temporalmente los eventos sonoros de la señal suavizada a partir de parámetros configurables por el usuario.
En una realización preferente, los medios de
procesamiento del sistema de detección e identificación de sonidos
en tiempo real están configurados para realizar una etapa de
optimización que permite obtener indicadores estadísticos en la
detección y unir eventos sonoros temporalmente próximos de acuerdo a
un parámetro configurable por el usuario.
Preferentemente, los medios de procesamiento
están configurados para caracterizar los eventos sonoros extraídos
donde dicha caracterización comprende:
- \bullet
- el instante de inicio del evento;
- \bullet
- el instante de fin del evento;
- \bullet
- indicadores estadísticos de la salida estandarizada de la etapa j), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.
De manera preferente, los medios de
procesamiento están configurados para extraer eventos sonoros en
función de un umbral y una duración definidos por el usuario.
Igualmente, de manera preferente, los medios de
procesamiento están configurados para realizar la extracción de
características mediante la obtención de trece coeficientes MFCC
(Mel Frequency Cepstra Coefficients).
Preferentemente, los medios de procesamiento
están configurados para realizar la clasificación mediante un
clasificador uniclase.
Preferentemente, los medios de procesamiento
están configurados para configurar el tamaño de ventana y el grado
de solapamiento del enventanado.
\vskip1.000000\baselineskip
A continuación, para facilitar la comprensión de
la invención, a modo ilustrativo pero no limitativo se describirá
una realización de la invención que hace referencia a una serie de
figuras.
La figura 1 muestra el sistema de detección
implementado.
La figura 2 muestra el proceso de extracción de
características mediante la obtención de trece coeficientes MFCC
(Mel Frequency Cepstra Coefficients).
La figura 3 muestra un esquema del sistema
detección e identificación de sonidos propuesto.
\vskip1.000000\baselineskip
La figura 1 muestra, en primer lugar, el sensor,
cuya salida, x(t), es convertida en una señal digital,
x[n] mediante un ADC
(Analog-to-Digital Converter). A
continuación se enventana, generándose tramas de muestras de una
longitud predefinida.
Para cada trama, se extraen las características,
generándose un vector de características (v_{m}), que entra en un
clasificador. El clasificador genera un vector de probabilidades
(p_{m}) que es reducido a una dimensión y normalizado (entre 0 y
1) para marcar la probabilidad de que el vector v_{m} corresponda
a la clase formada por la fuente sonora objetivo. De esta forma, se
genera el índice ANL, cuya evolución temporal es almacenada y
suavizada. Sobre dicha evolución temporal suavizada se realiza el
proceso de extracción de eventos producidos por el objetivo a partir
de los parámetros introducidos por el usuario. Tras el proceso de
optimización se obtendrá un listado de eventos sonoros,
caracterizados fundamentalmente por su instante de inicio y
finalización.
La figura 2 muestra el proceso de extracción de
características el cual consiste, en primer lugar, en calcular la
transformada discreta de Fourier mediante el algoritmo FFT para
cada trama de muestras, convenientemente enventanada. A
continuación, sobre los coeficientes resultantes se aplican un banco
de filtros en la escala denominada
"Mel-scale". A continuación se calcula el
logaritmo, y se realiza la transformada de coseno discreta (DCT).
La extracción de características considera únicamente los 13
coeficientes MFCC más significativos.
La figura 3 muestra los elementos principales
del sistema detección e identificación de sonidos propuesto. En
ella se observan unos medios sensores (1), a partir de los cuales
el sistema capta señales de audio analógicas procedentes de las
fuentes sonoras objetivo (2) y unos medios de procesamiento (3),
configurados para realizar la detección e identificación de
sonidos.
La presente invención se ilustra adicionalmente
mediante el siguiente ejemplo, el cual no pretende ser limitativo
de su alcance.
Para la adquisición y transducción de la señal
acústica se utilizará un micrófono:
- -
- El micrófono omnidireccional integrado en una estación de monitorado de ruido que puede ser accedido a partir de la señal AC (Alternating Current) de la misma, y que ha presentado un comportamiento eficiente.
- -
- La utilización de un micrófono directivo (p.ej. cardioide) dedicado exclusivamente a las tareas de detección permitirá optimizar la efectividad.
\vskip1.000000\baselineskip
El proceso de digitalización de la señal de
audio se realizará con una frecuencia de muestreo mínima de 11025
Hz, y una resolución mínima de 8 bits. Siendo los valores
recomendados 44100 Hz de frecuencia de muestreo y 16 bits de
resolución.
El proceso de enventanado se realiza mediante
una ventana tipo Hamming para una duración recomendada de 100 ms.
Con este tipo de ventana se obtendrán 10 valores del índice ANL por
segundo.
La extracción de características de cada trama
se realiza mediante la obtención de 13 coeficientes MFCC a partir
del proceso mostrado en la figura 2. Se considera adecuado que el
rango de frecuencias debe empezar en 0 Hz, configurando un banco de
42 filtros triangulares.
El bloque clasificador ofrece múltiples
posibilidades de implementación. Se consideran más adecuados los
basados en el enfoque de clasificación uniclase
(one-class classifiers), por su mayor flexibilidad
de cara a amoldarse a una única clase objetivo. En este ejemplo la
fuente sonora objetivo es el ruido producido por las aeronaves.
La realización del sistema preferida utiliza un
clasificador uniclase que modeliza la clase objetivo mediante un
sumatorio de 20 gausianas (mixture of gaussians
one-class classifier).
La generalización del sistema establecerá que,
por defecto, la probabilidad a priori de la clase objetivo
sea del 50%. Un estudio estadístico particularizado de la zona
donde se efectuará la detección permitirá ajustar este parámetro
para mejorar la eficacia del clasificador.
Con un criterio equiparable se establecerán
costes idénticos de reconocimiento para la clase objetivo (target)
y la clase no objetivo (outliers).
El proceso de normalización garantizará que el
índice ANL[m] varía entre 0 y 1. Este valor indicará la
probabilidad a posteriori del vector de entrada, en relación
a su pertenencia a la clase objetivo donde, para este caso
concreto, la probabilidad de que el fragmento analizado se
corresponda con un sonido de aeronave.
La evolución temporal del índice ANL debe ser
almacenada. Tras un proceso de suavizado (p.ej. media móvil) se
obtiene el índice soft ANL.
\vskip1.000000\baselineskip
La extracción de eventos sonoros se realiza a
partir de los parámetros configurados por el usuario en lo
referente a:
- -
- umbral ANL (adimensional),
- -
- duración (s).
\vskip1.000000\baselineskip
Cuando el índice soft ANL supera el umbral de
forma continuada durante, al menos, el tiempo definido por el
usuario, se extrae un evento.
Cuando el instante de inicio de un evento está
muy próximo al instante de finalización del evento anterior (por
defecto 2 s), el bloque de optimización junta ambos eventos en uno
solo.
Como criterio adicional, en el bloque de
optimización se considera adecuado imponer un criterio estadístico
al índice ANL durante el evento extraído. Por lo tanto, el usuario
también debe decidir cuál es el percentil 90 del índice ANL (ANL90)
mínimo que debe tener el evento para que éste pueda ser considerado
como producido por la clase objetivo.
\vskip1.000000\baselineskip
Además de los instantes de inicio y finalización
de cada evento extraído (correspondiente a la fuente sonora
objetivo, aeronaves en este ejemplo), cada evento tendrá asociado
los siguientes datos:
- -
- valor medio del índice ANL durante el evento,
- -
- percentiles 1, 5, 10, 50, 90, 95 y 99, del índice ANL durante el evento (ANL1, ANL5..., ANL99).
\vskip1.000000\baselineskip
Finalmente, cabe destacar que la invención puede
utilizarse junto con una estación de monitorado de ruido, tanto
integrado en esta, como de forma accesoria a la misma.
Una vez descrita de forma clara la invención, se
hace constar que las realizaciones particulares anteriormente
descritas son susceptibles de modificaciones de detalle siempre que
no alteren el principio fundamental y la esencia de la
invención.
Claims (8)
1. Procedimiento de detección e identificación
de sonidos en tiempo real producidos por fuentes sonoras
específicas, caracterizado porque comprende las siguientes
etapas:
- a)
- muestrear, una señal analógica de audio producida por una fuente sonora objetivo (2) y captada por unos medios sensores (1);
- b)
- digitalizar la señal muestreada;
- c)
- enventanar la señal digitalizada para obtener tramas de carácter estacionario;
- d)
- extraer, para cada trama, al menos un vector de características para su clasificación mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients);
- e)
- detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo (2), comprendiendo:
- \medcirc
- clasificar los vectores de características extraídos mediante un clasificador uniclase para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo (2) identificando la fuente sonora a la que pertenecen dichos sonidos;
- \medcirc
- normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo (2);
- \medcirc
- almacenar la señal de salida normalizada;
- \medcirc
- suavizar la señal de salida normalizada almacenada para eliminar las irregularidades de la misma;
- \medcirc
- extraer y marcar temporalmente los eventos sonoros de la señal suavizada a partir de parámetros configurables por el usuario.
2. Procedimiento de detección e identificación
de sonidos en tiempo real producidos por fuentes sonoras
específicas, según la reivindicación anterior, caracterizado
porque comprende una etapa de optimización que permite obtener
indicadores estadísticos en la detección y unir eventos sonoros
mediante la configuración de un parámetro por el usuario,
obteniéndose en dicha etapa de optimización:
- \bullet
- el instante de inicio del evento;
- \bullet
- el instante de fin del evento;
- \bullet
- indicadores estadísticos de la salida normalizada de la etapa e), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.
3. Procedimiento automático de detección e
identificación de sonidos en tiempo real producidos por fuentes
sonoras específicas, según cualquiera de las reivindicaciones
anteriores, caracterizado porque la extracción de eventos
sonoros se realiza en función de un umbral y una duración definidos
por el usuario.
4. Procedimiento de detección e identificación
de sonidos en tiempo real producidos por fuentes sonoras
específicas, según cualquiera de las reivindicaciones anteriores,
caracterizado porque el enventanado permite configurar el
tamaño de ventana y el grado de solapamiento.
5. Sistema de detección e identificación de
sonidos en tiempo real producidos por fuentes sonoras específicas,
caracterizado porque comprende:
- \bullet
- unos medios sensores (1) configurados para obtener señales analógicas de audio a partir de al menos una fuente sonora objetivo (2);
- \bullet
- unos medios de procesamiento (3) configurados para la realización de las siguientes etapas:
- f)
- muestrear, una señal analógica de audio producida por la fuente sonora objetivo (2) y captada por los medios sensores (1);
- g)
- digitalizar la señal muestreada;
- h)
- enventanar la señal digitalizada para obtener tramas de carácter estacionario;
- i)
- extraer, para cada trama, al menos un vector de características para la detección de eventos sonoros de la fuente sonora objetivo (2) mediante la obtención de trece coeficientes MFCC (Mel Frequency Cepstra Coefficients);
- j)
- detectar, mediante identificación por clasificación, los sonidos producidos por la fuente sonora objetivo (2), comprendiendo:
- \medcirc
- clasificar los vectores de características extraídos mediante un clasificador uniclase para obtener una salida que indica el grado de semejanza de los vectores de características con la representación vectorial del sonido producido por la fuente sonora objetivo (2) identificando la fuente sonora a la que pertenecen dichos sonidos;
- \medcirc
- normalizar la salida de la clasificación anterior para obtener la probabilidad de pertenencia de los vectores de características a la fuente sonora objetivo (2);
- \medcirc
- almacenar la señal de salida normalizada;
- \medcirc
- suavizar la señal de salida normalizada almacenada para eliminar las irregularidades de la misma;
- \medcirc
- extraer y marcar temporalmente los eventos sonoros de la señal suavizada a partir de parámetros configurables por el usuario.
6. Sistema de detección e identificación de
sonidos en tiempo real producidos por fuentes sonoras específicas,
según la reivindicación 5, caracterizado porque los medios
de procesamiento (3) están configurados para realizar una etapa de
optimización que permite obtener indicadores estadísticos en la
detección y unir eventos sonoros temporalmente próximos de acuerdo
a un parámetro configurable por el usuario, obteniéndose en dicha
etapa de optimización:
- \bullet
- el instante de inicio del evento;
- \bullet
- el instante de fin del evento;
- \bullet
- indicadores estadísticos de la salida estandarizada de la etapa j), a su vez comprendiendo el valor medio de dicha salida y una pluralidad de percentiles.
7. Sistema de detección e identificación de
sonidos en tiempo real producidos por fuentes sonoras específicas,
según cualquiera de las reivindicaciones 5-6,
caracterizado porque los medios de procesamiento (3) están
configurados para extraer eventos sonoros en función de un umbral y
una duración definidos por el usuario.
8. Sistema de detección e identificación de
sonidos en tiempo real producidos por fuentes sonoras específicas,
según cualquiera de las reivindicaciones 5-7,
caracterizado porque los medios de procesamiento (3) están
configurados para configurar el tamaño de ventana y el grado de
solapamiento del enventanado.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200930730A ES2334429B2 (es) | 2009-09-24 | 2009-09-24 | Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200930730A ES2334429B2 (es) | 2009-09-24 | 2009-09-24 | Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. |
Publications (2)
Publication Number | Publication Date |
---|---|
ES2334429A1 ES2334429A1 (es) | 2010-03-09 |
ES2334429B2 true ES2334429B2 (es) | 2011-07-15 |
Family
ID=41697738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES200930730A Active ES2334429B2 (es) | 2009-09-24 | 2009-09-24 | Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. |
Country Status (1)
Country | Link |
---|---|
ES (1) | ES2334429B2 (es) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0950239B1 (en) * | 1996-03-08 | 2003-09-24 | Motorola, Inc. | Method and recognizer for recognizing a sampled sound signal in noise |
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
-
2009
- 2009-09-24 ES ES200930730A patent/ES2334429B2/es active Active
Also Published As
Publication number | Publication date |
---|---|
ES2334429A1 (es) | 2010-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stowell et al. | Bird detection in audio: a survey and a challenge | |
Guarino et al. | Field test of algorithm for automatic cough detection in pig houses | |
Bittle et al. | A review of current marine mammal detection and classification algorithms for use in automated passive acoustic monitoring | |
Pace et al. | Subunit definition and analysis for humpback whale call classification | |
CN108668233B (zh) | 一种建筑物入口检测方法及系统 | |
WO2009090584A2 (en) | Method and system for activity recognition and its application in fall detection | |
Andreassen et al. | Semi-automatic long-term acoustic surveying: A case study with bats | |
Wang et al. | Rainfall observation using surveillance audio | |
Khan et al. | Infrastructure-less occupancy detection and semantic localization in smart environments | |
Wepulanon et al. | Temporal signatures of passive Wi-Fi data for estimating bus passenger waiting time at a single bus stop | |
Wa Maina et al. | Cost effective acoustic monitoring of biodiversity and bird populations in Kenya | |
ES2334429B2 (es) | Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas. | |
Xie et al. | Detection of anuran calling activity in long field recordings for bio-acoustic monitoring | |
Stattner et al. | Acoustic scheme to count bird songs with wireless sensor networks | |
CN103985385A (zh) | 基于波谱特征鉴定蛙类个体信息的方法 | |
CN102789780B (zh) | 基于谱时幅度分级向量辨识环境声音事件的方法 | |
Cosentino et al. | Porpoise click classifier (PorCC): A high-accuracy classifier to study harbour porpoises (Phocoena phocoena) in the wild | |
Lau et al. | The study of urban residential’s public space activeness using space-centric approach | |
CN106338722A (zh) | 一种基于多次样本的高分辨雷达一维距离像目标识别方法 | |
CN106877955B (zh) | 基于隐马尔可夫模型的调频广播信号报时特征识别方法 | |
CN104392722B (zh) | 一种基于声音的生物种群识别方法及系统 | |
CN111012306B (zh) | 基于双神经网络的睡眠呼吸声检测方法及系统 | |
Wei | The construction of piano teaching innovation model based on full-depth learning | |
KR20170087225A (ko) | 동물의 음성 분석정보를 제공하는 장치, 방법 및 기록매체 | |
KR101327664B1 (ko) | 음성 영역 검출 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EC2A | Search report published |
Date of ref document: 20100309 Kind code of ref document: A1 |
|
FG2A | Definitive protection |
Ref document number: 2334429 Country of ref document: ES Kind code of ref document: B2 Effective date: 20110715 |