FR2944903A1 - Systeme et methode pour detecter des evenements audio anormaux - Google Patents

Systeme et methode pour detecter des evenements audio anormaux Download PDF

Info

Publication number
FR2944903A1
FR2944903A1 FR0902007A FR0902007A FR2944903A1 FR 2944903 A1 FR2944903 A1 FR 2944903A1 FR 0902007 A FR0902007 A FR 0902007A FR 0902007 A FR0902007 A FR 0902007A FR 2944903 A1 FR2944903 A1 FR 2944903A1
Authority
FR
France
Prior art keywords
segment
audio
segments
classes
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0902007A
Other languages
English (en)
Other versions
FR2944903B1 (fr
Inventor
Francois Capman
Bertrand Ravera
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thales SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to FR0902007A priority Critical patent/FR2944903B1/fr
Application filed by Thales SA filed Critical Thales SA
Priority to SG2011078235A priority patent/SG175350A1/en
Priority to MYPI2011005126A priority patent/MY157136A/en
Priority to PCT/EP2010/055266 priority patent/WO2010122056A2/fr
Priority to EP10718923A priority patent/EP2422301A2/fr
Priority to BRPI1014280A priority patent/BRPI1014280A2/pt
Priority to MX2011011214A priority patent/MX2011011214A/es
Priority to US13/266,101 priority patent/US8938404B2/en
Publication of FR2944903A1 publication Critical patent/FR2944903A1/fr
Application granted granted Critical
Publication of FR2944903B1 publication Critical patent/FR2944903B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path

Abstract

Procédé pour détecter des évènements audio anormaux dans un environnement donné à surveiller, caractérisé en ce qu'il comporte au moins : • une étape d'apprentissage de la modélisation de l'environnement à surveiller au cours de laquelle une base de données (9) est élaborée par extraction de paramètres acoustiques (2.1) liés à des flux audio captés sur une période de temps fixée et une segmentation automatique (2.2) non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes (2.3) et d'une modélisation statistique des classes de segments (2.4), • une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques (3.1), une étape de segmentation automatique (3.2) dudit flux analysé sensiblement identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance (3.3) de chaque modèle statistique contenu dans la base de données est déterminée sur chacun des segments du flux audio analysé, • ladite étape de détermination des vraisemblances conduisant à une valeur λ de vraisemblance qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé.

Description

SYSTEME ET METHODE POUR DETECTER DES EVENEMENTS AUDIO ANORMAUX
L'objet de la présente invention concerne un système et un procédé permettant de détecter des évènements sonores considérés comme étant anormaux par rapport à un environnement sonore habituel. L'invention s'applique, notamment, dans des applications de surveillance de zones, d'endroits ou d'espaces.
Dans le domaine de la surveillance et de l'analyse d'environnements, les systèmes conventionnels et connus de l'art antérieur s'appuient principalement sur des technologies image et vidéo. Dans le domaine de la surveillance utilisant l'audio, les problèmes techniques posés sont notamment les suivants : 1) comment détecter des évènements sonores spécifiques et/ou anormaux ? 2) comment avoir des solutions robustes au bruit de fond et à ses variabilités, c'est-à-dire des solutions qui sont fiables et qui ne génèrent pas de signaux d'alarmes continuellement, ou de façon 20 intempestive ? 3) comment classifier les différents évènements enregistrés ? Dans le domaine de l'analyse d'évènements sonores, l'art antérieur distingue deux processus. Le premier est un processus de détection. Le second est un processus de classification des évènements 25 détectés. Les méthodes de détection classiques pour des évènements sonores, s'appuient, en général, sur l'extraction de paramètres caractéristiques des signaux que l'on cherche à détecter. Les paramètres sont en général, des paramètres temporels, fréquentiels ou mixtes. 30 Dans le cas des méthodes de classification connues de l'art antérieur, ces dernières sont en général basées sur des approches dites supervisées, où un modèle par événement à classifier est obtenu à partir de données d'apprentissage segmentées et labellisées. Ces solutions reposent, par exemple, sur des algorithmes de classification connus sous les abréviations anglo-saxonnes HMM pour Hidden Markov Model, GMM pour Gaussian Mixture Model, SVM pour Support Vector Machine ou encore NN pour Neural Network. Ces modèles sont connus de l'Homme du métier et ne seront pas détaillés. La proximité des données de test réelles et des données d'apprentissage conditionne les performances de ces systèmes de classification. Les inconvénients majeurs de l'approche supervisée proviennent de la nécessité de devoir spécifier au préalable les évènements anormaux, et de collecter une quantité suffisante et statistiquement représentative de ces évènements. La spécification des évènements n'est pas toujours possible, et la collecte d'un nombre suffisant de réalisations pour enrichir une base de données, non plus. II est aussi nécessaire, pour chaque nouvelle configuration, de procéder à un nouvel apprentissage supervisé. La tâche de supervision requiert une intervention humaine (segmentation manuelle ou semi-automatique, labellisation, etc.). La flexibilité de ces solutions est donc limitée en termes d'usage, et la prise en compte de nouveaux environnements est difficile à mettre en oeuvre. Enfin, l'apprentissage de modèles d'évènements tient compte du bruit de fond et de sa variabilité, de fait, il peut dans certains cas ne pas être robuste. Malgré tous les résultats que procurent ces systèmes, les solutions prévues dans l'art antérieur ne permettent pas de traiter correctement les évènements audio qui ne sont pas prédéfinis. La robustesse à l'environnement ainsi que sa variabilité sont limitées.
L'invention concerne un procédé pour détecter des évènements audio anormaux dans un environnement donné à surveiller, caractérisé en ce qu'il comporte au moins les étapes suivantes: • une étape d'apprentissage de la modélisation de l'environnement à surveiller au cours de laquelle une base de données est élaborée par extraction de paramètres acoustiques liés à des flux audio captés sur une période de temps fixée et une segmentation automatique non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes, et d'une modélisation statistique des classes de segments, • une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques, une étape de segmentation automatique dudit flux analysé identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance de chaque modèle statistique contenu dans la base de données est déterminée sur chacun des segments du flux audio analysé, • ladite étape de détermination des vraisemblances conduisant à une valeur de vraisemblance correspondant au modèle le plus probable, maximum des vraisemblances, qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé. L'étape de modélisation est, par exemple, une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un mélange de gaussiennes mixtes ou GMM. Selon une autre variante l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un modèle de type Markov ou HMM.
L'étape d'apprentissage consiste, par exemple, à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres en exécutant les étapes suivantes : 1. Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage, 2. Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du segment trouvé (nb_classe = 1), 3. Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente, 4. Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil. L'étape de segmentation automatique utilise, par exemple, le 10 principe du dendrogramme. L'étape de segmentation automatique peut sélectionner un niveau de segmentation en utilisant l'un des critères suivants : • appliquer un seuil Smax sur la distance entre les deux dernières classes regroupées c'est-à-dire minimiser le nombre de segments 15 possibles tout en minimisant la distance de regroupement considérée, et/ou • le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) et/ou 20 • le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) et/ou • le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation 25 normalisée entre le vecteur et le vecteur moyen du segment) et/ou • le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment). Lors de la phase d'apprentissage, ledit procédé utilise, par 30 exemple, un algorithme K-moyenne ou un algorithme de type LBG pour l'étape de regroupement des segments en classes ou encore une version dérivée de l'algorithme K-moyenne.
La taille du modèle peut être déterminée de manière automatique en appliquant un seuil Smax sur la distance entre les deux dernières classes regroupées, c'est-à-dire minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée.
Les paramètres acoustiques utilisés peuvent être choisis parmi la liste suivante : des paramètres spectraux, temporels ou spectraux-temporels associés au flux audio. L'invention concerne aussi un système de détection d'anomalies audio dans un environnement donné caractérisé en ce qu'il comporte au moins les éléments suivants : • Un ou plusieurs capteurs audio adaptés à détecter des flux audio, • Un module de prétraitement adapté à exécuter une segmentation automatique des paramètres acoustiques extraits du flux audio à analyse, • Un module adapté à élaborer une base de données représentative du modèle de l'environnement à surveiller, • Un module de calcul de vraisemblance prenant en entrée le modèle audio de la base de données et le résultat de calcul de vraisemblance exécuté sur un flux audio analysé, • Un module de comparaison de la valeur de vraisemblance obtenue et d'une valeur seuil.
Le système comporte, par exemple, un premier module de prétraitement et un premier module d'élaboration de la base de données sont mémorisés dans un premier processeur pour la phase d'apprentissage du système et en ce qu'il comporte un deuxième module de prétraitement et un deuxième module du calcul de vraisemblance, le module de calcul de vraisemblance recevant en entrée des informations sur les modèles issus de la base de données.
Le système comporte, par exemple, une station centrale ou salle de surveillance équipée de plusieurs écrans de contrôle Ei, d'un module de redirection des flux vidéo, un écran principal Ep, plusieurs ensembles Zi constitués chacun d'un ou plusieurs capteurs audio associés à des caméras vidéo Ci, Vi, lesdits modules Ci, Vi étant en liaison avec un module adapté à déterminer une valeur de vraisemblance Xi, lesdites valeurs de vraisemblance Xi étant transmises à la station centrale. Les valeurs de vraisemblance ainsi déterminées peuvent servir à ordonner les flux vidéos associés afin de fournir une aide à un opérateur (sélection automatique du flux prioritaire vers l'écran principal, ou sélection manuelle par l'opérateur à partir de l'affichage ordonné des écrans de contrôle. Les flux prioritaires sont, par exemple, ceux ayant les valeurs de vraisemblance les plus faibles.
D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture d'un exemple non limitatif de réalisation en se référant aux figures qui représentent : • La figure 1, un exemple de système de détection selon l'invention, • La figure 2, les étapes mises en oeuvre lors de la phase d'apprentissage et la phase de reconnaissance du système selon l'invention, • La figure 3, un exemple de regroupement de classes, • La figure 4, un algorithme pouvant être mis en oeuvre pour construire 20 un dictionnaire, • La figure 5, le profil des distributions de scores des événements audio anormaux et des évènements audio normaux, • La figure 6, un exemple détaillé des étapes au niveau de la phase d'utilisation de la figure 2, et 25 • La figure 7, un autre exemple de système selon l'invention.
La description qui suit va être donnée à titre illustratif et nullement limitatif pour une surveillance et une détection d'évènements audio anormaux, tels que des cris, dans un environnement sonore bruyant, par 30 exemple, un quai de métro. Le système de détection audio peut aussi être utilisé pour hiérarchiser des flux vidéo provenant de plusieurs caméras. Ce mode d'utilisation peut être particulièrement adapté à une application de surveillance en procurant une aide à l'opérateur de sécurité en charge de visionner en direct les différents flux vidéo. Dans l'exemple illustré à la figure 1, le système de détection selon l'invention va utiliser deux processeurs séparés ayant des capacités de calcul différentes. Sur la partie supérieure de la figure est représenté le système utilisé pendant la période d'apprentissage du système, alors que sur la partie inférieure, un exemple de système de capture des anomalies et de reconnaissance de ces anomalies est représenté. Dans certains cas d'utilisation, le système peut comporter un seul 10 processeur ayant des capacités de calcul et de traitement suffisantes pour exécuter l'étape d'apprentissage et l'étape de reconnaissance.
La figure 1 schématise un exemple d'architecture du système mise en oeuvre par l'invention, pour laquelle une partie concerne l'apprentissage 15 d'une base de données qui sera utilisée pour la reconnaissance des bruits et des évènements sonores anormaux sur un quai de métro. Le système comprend un capteur audio 1 de sons, de bruits sonores présents dans une zone à surveiller. Les données reçues sur ce capteur audio 1 sont transmises, tout d'abord, à un dispositif 3 contenant un filtre et un 20 convertisseur analogique-numérique connus de l'Homme du métier, puis via une entrée 4 à un processeur 5 comprenant un module 6 détaillé à la figure 2 de prétraitement des données, un module d'apprentissage 7. Les modèles ainsi générés sont transmis via une sortie 8 du processeur 3 à une base de données 9. Cette base de données 9 va contenir des modèles correspondant 25 à des classes de paramètres acoustiques représentatifs d'un environnement audio considéré comme normal. Cette base de données va être initialisée lors d'une phase d'apprentissage et pourra être mise à jour au cours du fonctionnement du système de détection selon l'invention. La base de données 9 est aussi utilisée lors de la reconnaissance de bruit ou de 30 détection d'évènements audio anormaux. Le système comprend aussi pour la reconnaissance des évènements audio anormaux, un ou plusieurs capteurs audio 10, chaque capteur 10 étant relié à un dispositif 11 comprenant un filtre et un convertisseur analogique numérique ou CAN. Les données détectées par le capteur audio et mises en forme par le filtre et le CAN sont transmises à un processeur 13, via une entrée 12. Le processeur comporte un module de prétraitement 14 détaillé à la figure 2, puis un module 15 de reconnaissance des données traitées, ledit module recevant des informations de la base de données 9 par une liaison 16 qui peut être filaire ou non. Une fois les informations traitées, le résultat évènement audio anormal ou évènements audio anormal est transmis via la sortie 17 du processeur soit vers un dispositif de type PC, 18, permettant l'affichage du résultat, soit vers un dispositif déclenchant une alarme 19 ou encore vers un système 19' de redirection du flux vidéo et de l'alarme selon par exemple le schéma figure 5. Les modules de prétraitement 6 et 14 doivent être identiques afin d'assurer la compatibilité des modèles de la base de données 8. D'autre part, les capteurs audio 2 et 10 peuvent être des capteurs présentant des caractéristiques similaires ou identiques (type, caractéristique et positionnement dans l'environnement) afin de s'affranchir des différences de mise en forme des signaux entre les phases d'apprentissage et de test.
La transmission des données entre les différents dispositifs peuvent être effectuées via des liaisons filaires, ou encore des systèmes sans fil, tels que Bluetooth, ....les réseaux locaux sans-fil ou en abrégé anglo-saxon WLAN, etc. Un exemple d'une autre architecture système sera donné, à titre illustratif et non limitatif, à la figure 5. Cette architecture permet notamment de hiérarchiser différents flux vidéo issus de différentes caméras ou dispositifs vidéo associés aux capteurs de surveillance. Le système peut aussi comporter une mémoire tampon ayant notamment pour fonction de stocker les dernières données ou évènements audio anormaux. Cette mémoire tampon peut ainsi permettre à un opérateur de surveillance d'accéder aux flux enregistrés lors de la génération d'une alarme. Cette mémoire est similaire au stockage des flux vidéo en vidéosurveillance. Dans le cas d'un système mettant en oeuvre un unique processeur, on peut envisager l'utilisation d'un ou de plusieurs capteurs audio, associés chacun à des filtres positionnés avant le processeur. La figure 2 représente un exemple pour l'enchainement des étapes mises en oeuvre au cours du procédé selon l'invention, la partie gauche de la figure correspondant à la phase d'apprentissage alors que la partie droite à la phase d'utilisation.
Une première étape correspond à l'apprentissage du système. Le système va enregistrer grâce au capteur pendant une durée TA fixée initialement les bruits et/ou le fond sonore représentatif du quai de métro. Cette phase d'apprentissage est non supervisée. Les paramètres acoustiques qui vont être utilisés sont en général des paramètres spectraux, temporels ou spectro-temporels. Il est ainsi possible d'utiliser une modélisation de l'enveloppe spectrale du bruit capté par le microphone, tels que les paramètres cepstraux ou vecteurs cepstraux. Le flux audio, dans ce cas va être modélisé par une séquence de vecteurs cepstraux. Au cours de la phase d'apprentissage, une séquence audio représentative d'un environnement sonore dans la zone de surveillance visée initialement est captée. Les paramètres acoustiques sont extraits lors d'une étape d'extraction 2.1, à partir du signal audio, de la séquence audio, en utilisant une fenêtre d'analyse glissante à court terme. Cette technique d'analyse étant connue de l'Homme du métier, elle ne sera pas explicitée.
Une manière de procéder est de considérer des trames d'analyse dont la durée est par exemple de l'ordre de 20 à 60ms, avec un recouvrement typique de 50%. Les paramètres acoustiques considérés par le procédé sont choisis en fonction des propriétés des signaux à modéliser. La durée d'une trame d'analyse tient généralement compte d'hypothèses de stationnarité du signal analysé sur l'horizon de la trame. Dans le domaine de la parole, les paramètres cepstraux qui modélisent l'enveloppe spectrale sont souvent utilisés combinés à d'autres paramètres plus spécifiques permettant de modéliser des propriétés temporelles ou spectrales. On peut citer à titre d'exemple le taux de passage par zéro (ZCR, Zero Crossing Rate) dans le domaine temporel ou dans le domaine spectral la mesure connue sous l'abréviation anglo-saxonne SFM (Spectral Flatness Measure). Ces deux mesures font partie des paramètres utilisés pour distinguer les signaux de parole voisés de signaux de bruit. De nombreux paramètres sont décrits dans la littérature permettant de modéliser une ou plusieurs caractéristiques des signaux analysés (harmonicité, stationnarité, enveloppe spectrale, enveloppe temporelle, énergie localisée en fréquence, ...). L'étape suivante 2.2 est une étape de segmentation automatique à partir des vecteurs de paramètres extraits lors de l'étape 2.1. L'objectif de cette étape de segmentation est de regrouper les vecteurs qui sont proches, par exemple, en utilisant un critère de distance prédéfinie. Le critère sera choisi en fonction du type de paramètres acoustiques qui ont été utilisés pour caractériser le fond sonore ou audio. Cette segmentation peut être effectuée de plusieurs manières, par exemple en utilisant une des techniques listées ci-après: détection de rupture de trajectoires ou de modèles, décomposition temporelle, ou dendrogramme qui correspond à une représentation graphique d'un arbre de classification hiérarchique mettant en évidence l'inclusion progressive des classes. Dans le cas de l'utilisation du dendrogramme, sur un horizon de plusieurs trames, ce qui correspond à quelques secondes, le principe de segmentation va consister à regrouper des trames dans une approche dite ascendante ou bottom-up en utilisant une distance appropriée (adaptée aux paramètres). Le dendrogramme fournit un ensemble de segmentations possibles (une segmentation par niveau du dendrogramme). Plusieurs critères peuvent être utilisés pour retenir une segmentation pour la suite du traitement : seuil sur la distance entre segments, ou sur un coefficient de corrélation intra-segment par exemple. Le procédé utilise alors une mémoire tampon implémentée au sein du système devant comprendre au moins un segment ou groupe de vecteurs. Une telle mémoire tampon étant classiquement utilisée, elle n'est pas représentée pour des raisons de simplification. L'ensemble des segments ainsi calculés vont être utilisés pour construire un dictionnaire dont le nombre de classes Nc est prédéfini, ou encore déterminé automatiquement sur un critère de distances interclasses par exemple. Ceci correspond aux étapes 2.3 et 2.4. Ainsi, lors de l'étape 2.3, les segments sont regroupés par classes en mettant en oeuvre un algorithme de type K-moyenne (K-Means), ou un algorithme LBG (Linde-Buzo-Gray) ou tout autre algorithme ayant les mêmes fonctionnalités ou des fonctionnalités similaires, utilisés par un Homme du métier. Les segments étant regroupés par classes (étape 2.3), l'étape suivante (étape 2.4) consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments, en utilisant, par exemple, un modèle de mélange de gaussiennes, plus connu sous l'abréviation anglo-saxonne GMM (Gaussian Mixture Model). L'algorithme généralement utilisé pour trouver le maximum de vraisemblance des paramètres du modèle probabiliste lorsque celui-ci dépend de variables latentes non observables est plus connu sous l'abréviation anglo-saxonne EM pour Expectation-Maximization, et sera utilisé pour la phase d'apprentissage du système. Le nombre de gaussiennes utilisées peut être prédéfini ou déterminé de manière automatique à partir d'un critère issu de la théorie d'information de type MDL abréviation anglo-saxonne de Minimum Description Length dans lequel la meilleure hypothèse pour un ensemble de données est celle qui conduit à la compression la plus large de données. A l'issue de cette étape, le système possède donc une base de données 9 correspondant à l'apprentissage du système, c'est-à-dire comprenant un modèle sonore de l'environnement à surveiller. Cette base de données, comporte, pour chaque classe déterminée, la modélisation de la distribution des paramètres audio utilisés, ce qui correspond à l'ensemble {GMMk}, k=1,....K avec K le nombre de classes, lorsque le modèle de mélange de Gaussiennes a été utilisé. Une manière d'exécuter la phase d'apprentissage non supervisée est détaillée ci-après.
Approche de segmentation automatique par dendrogramme Le corpus d'apprentissage (ensemble des signaux représentatifs de l'environnement sonore à modéliser) est analysé. L'analyse consiste à extraire des paramètres à partir de chaque trame avec un recouvrement. Typiquement, la durée de la trame d'analyse est de quelques dizaines de ms, et le recouvrement est en général de 50 %. En fonction du type d'environnement, il peut être préférable d'utiliser une trame plus ou moins longue afin de prendre en compte au mieux le degré de stationnarité des signaux. Plusieurs types d'analyses sont possibles (analyse spectrale, cepstrale, temporelle, ...). De l'analyse d'une trame résulte un vecteur de paramètres, qui est stocké dans une mémoire de type premier entré premier sorti plus connue sous l'abréviation anglo-saxonne FIFO (pour First In First Out), mémoire non représentée pour des raisons de clarté. La taille de cette mémoire (nombre de vecteurs mémorisés) est égale au nombre d'éléments (vecteurs dans le cas présent d'application) utilisés par le dendrogramme. La durée correspondante (proportionnelle à la taille de la mémoire) peut être de l'ordre de quelques centaines de ms, voire quelques secondes pour des bruits de fond fortement stationnaires. Cette durée doit être en général être choisie de manière à incorporer au minimum un événement audio considéré a priori comme élémentaire. Cependant, un compromis peut-être réalisé afin de réduire le retard introduit par le traitement lors de la phase d'utilisation du système. La minimisation du nombre de vecteurs permet d'obtenir un résultat du processus de détection plus réactif. Le dendrogramme est ici utilisé pour obtenir de manière automatique une segmentation du signal audio. Le principe consiste à regrouper dans une approche précitée bottom-up les éléments en entrée du dendrogramme. Cette méthode permet d'obtenir une segmentation pour tous les différents niveaux possibles, autrement dit pour un nombre de segments allant du nombre initial d'éléments à un segment unique. A l'initialisation, chaque élément est le représentant de sa classe. Si N est le nombre d'éléments (vecteurs) en entrée du dendrogramme, il y a donc N classes au niveau le plus bas. Ensuite, le nombre de segments est décrémenté pour passer au niveau supérieur après regroupement des deux classes les plus proches selon un critère de distance (définie en fonction des paramètres utilisés). Il existe plusieurs types de regroupements possibles selon la distance que l'on cherche à minimiser pour la sélection des classes à regrouper. Les 4 principales méthodes de regroupement sont les suivantes: - distance minimale entre les vecteurs des classes ou en anglo-saxon single linkage , - distance maximale entre les vecteurs des classes ou en anglo-saxon 15 complete linkage , - distance moyenne entre les vecteurs des classes ou en anglo-saxon ou en anglo-saxon average linkage , - distance entre les vecteurs moyens (centroïdes) ou en anglo-saxon centroid linkage . 20 Le critère d'arrêt utilisé est, par exemple, basé sur la distance minimale entre les deux dernières classes regroupées. Sur la figure 3 est représenté un exemple de regroupements selon les N classes pour une approche bottom-up, l'axe vertical correspondante aux vecteurs, l'axe horizontal schématisant la mémoire tampon du 25 dendrogramme. A l'issue de ce regroupement, le procédé permet d'obtenir 3, puis 2, puis un vecteur représenté par une seule lettre R pour le regroupement. Le procédé de segmentation automatique doit enfin sélectionner de manière automatique un niveau de segmentation qui sera considéré 30 optimal selon un critère à définir. Un premier critère consiste à appliquer un seuil Smax sur la distance entre les deux dernières classes regroupées (plus on monte dans les niveaux du dendrogramme plus la distance entre les classes à regrouper est grande). Il s'agit donc de minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée. D'autres critères peuvent être utilisés comme par exemple: 1. le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) ; 2. le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) ; 3. le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment) ;
4. le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment).
Les Notations alternatives pouvant être utilisées sont par exemple 1. MAX MAX { distance (x,ck ) } f k=1,...,Nùj xESegment k MAX jMOYENNE{ distance (x,ck) 1j k=1,...,Nù j xE Segment k MIN f MIN { corrélation (x,ck) } J k=1,...,Nù j xE Segmentk 4. MIN MOYENNE { corrélation (x,ck) } J k=1,...,Nù j xE Segment k 2. 25 3.
où j=indice de niveau = 0, ...,N-1 (Niveau 0 : N classes, Niveau N-1 : 1 classe)
où k = indice de segment (classe) pour le niveau j = 1,..., N-j où x est un vecteur du segment (classe) d'indice k où ck est le vecteur moyen (centroïde) du segment (classe) k
Dans les cas 1) et 2), le critère de distance doit être inférieur à un seuil tout en minimisant le nombre de segments. Dans les cas 3) et 4), le critère de corrélation doit être supérieur à un seuil tout en minimisant le nombre de segment.
Construction d'un dictionnaire par regroupements des segments similaires
La segmentation décrite précédemment est appliquée à l'ensemble de la base d'apprentissage. Les segments ainsi obtenus sont regroupés par classe en utilisant par exemple un algorithme d'apprentissage du type LBG (Line-Buzo-Gray) ou un algorithme de type K-moyenne. Ces algorithmes permettent d'associer chaque segment à une classe, elle-même représentée par un vecteur moyen (centroïde). Un critère simple de distance entre un segment et le centroïde consiste à calculer la distance cumulée du centroïde à chacun des vecteurs du segment considéré. Ceci peut s'exprimer de la manière suivante : Nvecteurs distance (S,ck) = distance (xn,ck) = distance entre le segment S et le n=1
centroïde d'indice k
où xä est un vecteur du segment S, n = 1,...,N vecteurs Le nombre de classes peut soit être fixé a priori, soit déterminé de manière automatique en utilisant un critère d'arrêt basé sur la distance minimale entre centroïdes (il n'est pas nécessaire d'augmenter le nombre de centroïdes si ceux-ci sont suffisamment proches selon un certain critère). La détermination du seuil utilisé pour ce critère d'arrêt peut être basée sur une distance spectrale (éventuellement calculée sur une échelle non-linéaire des fréquences du type MEL ou Bark pour introduire une contrainte liée à la perception des sons). Cette distance spectrale peut généralement être calculée à partir des paramètres utilisés en calculant les enveloppes spectrales associées. Une alternative consiste à déterminer le seuil à partir de la corrélation entre les distances utilisées avec les paramètres et les distances spectrales. Dans la mesure où certains événements normaux peuvent être sous-représentés, une version modifiée d'apprentissage consiste à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres. Un exemple d'algorithme est représenté à la figure 4: 1) Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage. 2) Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du segment trouvé (nb_classe = 1) 3) Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente. 4) Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil. Le seuil peut être lié à une distance perceptuelle pondérée spectralement. Apprentissage des GMM L'algorithme EM ( Expectation-Maximization ) est utilisé pour construire un modèle GMM par classe de segments. Un critère de type longueur minimale MDL (Minimum Description Length) peut être utilisé pour déterminer le nombre optimal de Gaussiennes par modèles, sinon un nombre de Gaussiennes par défaut est prédéfini.
La figure 5 représente un exemple de seuil positionné dans le graphe des profils de distribution des scores des évènements audio normaux et des évènements audio anormaux. Le seuil permet d'assurer un compromis entre les nombres de fausses alarmes et de faux rejets. Si les surfaces grisées (voir figure), annotés Aa, et An sont égales, la probabilité de fausses alarmes est égale à la probabilité de faux rejets. Principe du système de détection (figure 6) Le module de segmentation est, de préférence, identique à celui mis en oeuvre pour la phase d'apprentissage. Sur chaque segment détecté 4.2 on calcule la vraisemblance logarithmique ou log-vraisemblance de chaque modèle GMM 4.3. Un seuil 4.4 est alors appliqué sur la log-vraisemblance maximale obtenue (modèle GMM le plus probable) pour décider de la présence ou non d'un événement anormal. Le seuil de détection du système peut être déterminé de manière automatique à partir d'une base 4.5 prédéfinie d'évènements anormaux qui permet d'estimer la distribution de scores d'évènements anormaux et de la comparer à la distribution des scores obtenus sur les données d'apprentissage. Le seuil peut être alors choisi pour avoir un point de fonctionnement du système privilégiant soit le taux de fausses alarmes soient le taux de faux rejets. De manière pratique, les distributions des évènements normaux et des événements anormaux sont obtenues à partir des séquences d'apprentissages, et de séquences simulées respectivement. Les séquences simulées sont obtenues en superposant les évènements anormaux aux séquences d'apprentissage à différents niveaux de rapport signal sur bruit RSB (Rapport Signal à Bruit). Dans ce cas le bruit est l'environnement sonore représenté par les séquences d'apprentissage, et le signal est l'événement anormal. Le seuil optimal peut alors être déterminé selon le compromis souhaité à partir des distributions ainsi obtenues. II est possible d'utiliser d'autres modèles que les GMM : comme les HMM (Hidden Markov model).
Les modèles de type Markov ou HMM permettent de prendre en compte l'évolution temporelle de l'événement sonore sur l'horizon d'un segment. Les algorithmes d'apprentissage sont connus dans le domaine de la reconnaissance vocale notamment. La segmentation automatique peut être utilisée pour initialiser l'apprentissage des modèles HMM, ceux-ci étant utilisés par la suite pour faire la segmentation en ligne en utilisant un algorithme de Viterbi. Une topologie standard des HMM peut être utilisée : modèle de Bakis (modèle gauche-droite). Il est cependant possible de conserver la segmentation automatique et de contraindre la segmentation en amont. Le système possédant une base de données représentative du milieu dans lequel on souhaite détecter des anomalies audio de fonctionnement, la description va maintenant détailler les étapes mises en oeuvre lors du fonctionnement normal du système de détection des anomalies audio. Le système peut être en marche en continu, ce qui veut dire qu'il capte en continu les sons ou flux audio présents dans la zone à surveiller ou bien un opérateur peut commander le fonctionnement du système sur des périodes de temps fixées au préalable par un opérateur. La partie droite de la figure 2 représente les étapes pour la phase d'utilisation. Ainsi la première étape 3.1 va être d'extraire les paramètres acoustiques du flux audio analysé. La méthode décrite pour l'étape 2.1 de la phase d'apprentissage reste valable. Une même méthode de segmentation 3.1 est appliquée à la séquence de paramètres acoustiques du flux audio analysé. II en est de même pour l'étape de segmentation 3.2 qui est exécutée de la même manière que l'étape 2.2. Lors de l'étape suivante 3.3, le système dispose des segments (caractéristiques du flux audio en cours d'analyse). II applique alors une étape de vraisemblance, c'est-à-dire que la vraisemblance de chaque modèle statistique GMM obtenus lors de l'apprentissage est calculée sur chacun des segments obtenus lors de l'étape 2.2. Il est possible d'appliquer des procédures de normalisation des vraisemblances avant de prendre la décision de détection ou de non détection d'une anomalie audio. Le calcul des vraisemblances est appliqué pour chaque classe K et un score ou vraisemblance Xk est attribué à un segment. Cette valeur est comparée à une valeur seuil fixée au préalable. Une hypothèse d'évènement anormal est générée si aucun des modèles GMM ne produit de score supérieur à un seuil. Ce seuil de non détection (d'évènement normal) peut être déterminé de façon automatique à partir des données d'apprentissage. La détection d'un évènement normal peut être prise à l'horizon du segment considéré ou à l'horizon de plusieurs segments consécutifs. Les paramètres acoustiques utilisés pour la segmentation peuvent être différents de ceux utilisés pour la modélisation. Il est en effet assez pertinent d'effectuer la segmentation selon un critère spectral (paramètres cepstraux) et d'ajouter pour la modélisation des paramètres spécifiques additionnels permettant une modélisation plus fine. Les seuils de décision peuvent être prédéfinis à partir de connaissances, a priori, sur les signaux, ou appris en simulant des conditions anormales.
Différents types de modules de classification peuvent être utilisés en parallèle, pour améliorer les performances au travers d'un étage de fusion. Différents types de paramètres peuvent être utilisés pour la détection et la classification afin de maximiser le pouvoir de discrimination du 20 système entre les évènements normaux et anormaux. Les approches non supervisées et supervisées peuvent se compléter avantageusement. Le système et le procédé décrits ci-dessus peuvent être combinés avec une solution classique supervisée de classification en limitant les 25 fausses alarmes. La classification n'est alors activée que lorsqu'un évènement anormal est détecté. La détection se fait en tenant compte de l'environnement sonore et donc avec une plus grande robustesse. Dans le cadre des applications de surveillance nécessitant le déploiement d'un réseau de transmission, il est possible sans sortir du cadre 30 de l'invention d'envisager une architecture distribuée avec des traitements centralisés sur un serveur et des traitements déportés au plus près du capteur de l'audio (les traitements peuvent être : la réduction du débit de transmission, des fonctionnalités locales de réveil de capteurs complémentaires : image, vidéo....)
La figure 7 schématise un exemple d'architecture comprenant plusieurs dispositifs permettant d'enregistrer des sons tels que des capteurs audio Ci, notamment des évènements audio anormaux. Les capteurs audio sont associés à une caméra vidéo Vi. Au niveau de l'ensemble caméra vidéo et capteur audio, il est possible d'intégrer un module de prétraitement. L'ensemble ainsi formé est relié, par exemple, à un calculateur Pi comportant un module de reconnaissance des évènements anormaux, et une base de données 9 contenant les modèles utilisés pour reconnaître les évènements anormaux. Chaque calculateur Pi est relié à un central ou salle de surveillance comprenant, par exemple plusieurs écrans Ei de surveillance. Le central reçoit les flux audio et vidéo. Il comprend un module Fr permettant de hiérarchiser les flux vidéo issus des caméras en fonction de leur importance. Les liaisons permettant le transfert des données d'un dispositif à un autre sont, par exemple, des liaisons filaires, ou des liaisons sans fil, de type Bluetooth, ou encore, le système fait partie d'un réseau local sans fil ou WLAN (Wireless Local Area Network).
Le calcul des vraisemblances peut servir à ordonner les flux vidéo associés afin de fournir une aide à l'opérateur (pour réaliser une sélection automatique du flux prioritaire vers l'écran principal, ou pour faciliter une sélection manuelle par l'opérateur à partir de l'affichage ordonné des écrans de contrôle. Les flux prioritaires sont ceux ayant les vraisemblances les plus faibles (probabilité la plus élevé d'avoir un événement audio anormal).
Les modèles obtenus lors de la phase d'apprentissage peuvent être complétés par d'autres modèles obtenus lors d'une phase d'apprentissage ultérieure. Le système peut alors simplement utiliser les deux ensemble de modèles comme référence de l'environnement sonore normal, ou utilisé un ensemble de modèles résultant d'un processus de regroupement plus élaboré. Il est possible de synthétiser de nouveaux modèles en utilisant un critère de distance entre Gaussiennes (comme par exemple la distance de Battacharyya, ou la mesure de divergence Kullback-Leibler). Une autre approche consiste à appliquer le système de classification initial aux nouvelles données d'apprentissage, à ne retenir parmi les nouvelles données celles qui obtiennent un score inférieur à un seuil prédéfini pour apprendre de nouveaux modèles. Ces nouveaux modèles viennent alors s'ajouter aux précédents.
La solution de l'invention n'étant pas supervisée, le système et le procédé présentent notamment l'avantage de pouvoir être utilisés dans des environnements différents et sans a priori des évènements anormaux à détecter. La phase d'apprentissage du système est automatisée de la segmentation automatique de la parole ou de l'audio capté à l'apprentissage des modèles utilisés dans le système. Cette automatisation permet en outre d'envisager un mode de fonctionnement avec mise à jour régulière ou en continu. Un autre avantage résultant de l'automatisation de la chaîne de traitement est la réinitialisation possible du système à un nouveau scénario ou à un nouvel environnement, ainsi que sa possibilité d'évolution et d'adaptation dans le temps.

Claims (5)

  1. REVENDICATIONS1 ù Procédé pour détecter des évènements audio anormaux dans un environnement donné à surveiller, caractérisé en ce qu'il comporte au moins : • une étape d'apprentissage de la modélisation de l'environnement à surveiller au cours de laquelle une base de données (9) est élaborée par extraction de paramètres acoustiques (2.1) liés à des flux audio captés sur une période de temps fixée et une segmentation automatique (2.2) non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes (2.3), et d'une modélisation statistique des classes de segments (2.4), • une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques (3.1), une étape de segmentation automatique (3.2) dudit flux analysé identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance (3.3) de chaque modèle statistique contenu dans la base de données (9) est déterminée sur chacun des segments du flux audio analysé, • ladite étape de détermination des vraisemblances conduisant à une valeur de vraisemblance qui correspond au modèle le plus probable, max des vraisemblances qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé. 2 ù Procédé selon la revendication 1 caractérisé en ce que l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un mélange de gaussiennes mixtes ou GMM.3 - Procédé selon la revendication 1 caractérisé en ce que l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un modèle de type Markov ou HMM . 4 û Procédé selon la revendication 1 caractérisé en ce que l'étape d'apprentissage consiste à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres en exécutant les étapes suivantes : 1) Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage,
  2. 2) Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du 15 segment trouvé (nb_classe = 1),
  3. 3) Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente,
  4. 4) Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, 20 soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil.
  5. 5 Procédé selon la revendication 1 caractérisé en ce que l'étape de segmentation automatique utilise le principe du dendrogramme. 25 6 û Procédé selon la revendication 5 caractérisé en ce que l'étape de segmentation automatique sélectionne un niveau de segmentation en utilisant l'un des critères suivants : • appliquer un seuil Smax sur la distance entre les deux dernières 30 classes regroupées c'est-à-dire minimiser le nombre de segmentspossibles tout en minimisant la distance de regroupement considérée, et/ou • le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) et/ou • le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) et/ou • le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment) et/ou • le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment). 7 û Procédé selon la revendication 1 caractérisé en ce que lors de la phase d'apprentissage, ledit procédé utilise un algorithme K-Moyenne ou un algorithme LBG pour l'étape de regroupement des segments en classes ou une version dérivée de l'algorithme K-moyenne. 8 û Procédé selon la revendication 7 caractérisé en ce que la taille du modèle est déterminée de manière automatique en utilisant un critère d'arrêt basé sur la distance minimale entre les deux dernières classes regroupées. 25 9 û Procédé selon la revendication 1 caractérisé en ce que les paramètres acoustiques utilisés sont choisis parmi la liste suivante : des paramètres spectraux, temporels ou spectraux-temporels associés au flux audio. 10 û Système de détection d'anomalies audio dans un environnement donné 30 caractérisé en ce qu'il comporte au moins les éléments suivants :20• Un ou plusieurs capteurs audio (2, 10) adaptés à détecter des flux audio, • Un module de prétraitement (6) adapté à exécuter une segmentation automatique des paramètres acoustiques extraits du flux audio à analyse, • Un module (7) adapté à élaborer une base de données (9) représentative du modèle de l'environnement à surveiller, • Un module (15) de calcul de vraisemblance prenant en entrée le modèle audio de la base de données (9) et le résultat de calcul de vraisemblance exécuté sur un flux audio analysé, • Un module de comparaison de la valeur de vraisemblance obtenue et d'une valeur seuil. 11 ù Système selon la revendication 10 caractérisé en ce qu'il comporte un premier module de prétraitement (6) et un premier module (7) d'élaboration de modèles stockés dans la base de données (9) pour la phase d'apprentissage du système et en ce qu'il comporte un deuxième module de prétraitement (14) et un deuxième module (15) du calcul de la valeur de vraisemblance, ledit deuxième module (15) recevant en entrée des informations sur les modèles issus de la base de données (9). 12 ù Système selon l'une des revendications 10 ou 11 caractérisé en ce qu'il comporte une station centrale (30) ou salle de surveillance équipée de plusieurs écrans de contrôle Ei, d'un module de redirection des flux vidéo, un écran principal Ep, plusieurs ensembles Zi constitués chacun d'un ou plusieurs capteurs audio associés à des caméras vidéo Ci, Vi, lesdits modules (Ci, Vi) étant en liaison avec un module adapté à déterminer une valeur de vraisemblance 7J, lesdites valeurs de vraisemblance Xi étant transmises à la station centrale.
FR0902007A 2009-04-24 2009-04-24 Systeme et methode pour detecter des evenements audio anormaux Active FR2944903B1 (fr)

Priority Applications (8)

Application Number Priority Date Filing Date Title
FR0902007A FR2944903B1 (fr) 2009-04-24 2009-04-24 Systeme et methode pour detecter des evenements audio anormaux
MYPI2011005126A MY157136A (en) 2009-04-24 2010-04-21 System and method for detecting abnormal audio events
PCT/EP2010/055266 WO2010122056A2 (fr) 2009-04-24 2010-04-21 Systeme et methode pour detecter des evenements audio anormaux
EP10718923A EP2422301A2 (fr) 2009-04-24 2010-04-21 Systeme et methode pour detecter des evenements audio anormaux
SG2011078235A SG175350A1 (en) 2009-04-24 2010-04-21 System and method for detecting abnormal audio events
BRPI1014280A BRPI1014280A2 (pt) 2009-04-24 2010-04-21 sistema e ,método para detectar eventos de áudio anormais
MX2011011214A MX2011011214A (es) 2009-04-24 2010-04-21 Sistema y metodo para detectar eventos de audio anormales.
US13/266,101 US8938404B2 (en) 2009-04-24 2010-04-21 System and method for detecting abnormal audio events

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0902007A FR2944903B1 (fr) 2009-04-24 2009-04-24 Systeme et methode pour detecter des evenements audio anormaux

Publications (2)

Publication Number Publication Date
FR2944903A1 true FR2944903A1 (fr) 2010-10-29
FR2944903B1 FR2944903B1 (fr) 2016-08-26

Family

ID=41402413

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0902007A Active FR2944903B1 (fr) 2009-04-24 2009-04-24 Systeme et methode pour detecter des evenements audio anormaux

Country Status (8)

Country Link
US (1) US8938404B2 (fr)
EP (1) EP2422301A2 (fr)
BR (1) BRPI1014280A2 (fr)
FR (1) FR2944903B1 (fr)
MX (1) MX2011011214A (fr)
MY (1) MY157136A (fr)
SG (1) SG175350A1 (fr)
WO (1) WO2010122056A2 (fr)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201230B (zh) * 2011-06-15 2012-08-22 天津大学 一种突发事件语音检测方法
FR2981189B1 (fr) * 2011-10-10 2013-11-01 Thales Sa Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
CN103366738B (zh) * 2012-04-01 2016-08-03 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
FR2994495B1 (fr) * 2012-08-10 2015-08-21 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
US10809966B2 (en) * 2013-03-14 2020-10-20 Honeywell International Inc. System and method of audio information display on video playback timeline
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US10013476B2 (en) * 2014-04-28 2018-07-03 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US10007716B2 (en) * 2014-04-28 2018-06-26 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures coupled to a data extraction device
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US9396256B2 (en) 2013-12-13 2016-07-19 International Business Machines Corporation Pattern based audio searching method and system
US10686648B2 (en) * 2015-01-27 2020-06-16 Moogsoft Inc. System for decomposing clustering events from managed infrastructures
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US11303502B2 (en) 2015-01-27 2022-04-12 Moogsoft Inc. System with a plurality of lower tiers of information coupled to a top tier of information
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
CN106323452B (zh) * 2015-07-06 2019-03-29 中达电子零组件(吴江)有限公司 一种设备异音的检测方法及检测装置
US10142483B2 (en) * 2015-12-22 2018-11-27 Intel Corporation Technologies for dynamic audio communication adjustment
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US11484247B2 (en) 2016-07-01 2022-11-01 Bostel Technologies, Llc Phonodermoscopy, a medical device system and method for skin diagnosis
US11298072B2 (en) * 2016-07-01 2022-04-12 Bostel Technologies, Llc Dermoscopy diagnosis of cancerous lesions utilizing dual deep learning algorithms via visual and audio (sonification) outputs
EP3510495A1 (fr) * 2016-09-09 2019-07-17 Centre National de la Recherche Scientifique CNRS Procédé de reconnaissance de motif dans une pluralité de signaux
WO2018053537A1 (fr) 2016-09-19 2018-03-22 Pindrop Security, Inc. Améliorations de la reconnaissance de locuteurs dans un centre d'appels
WO2018053518A1 (fr) 2016-09-19 2018-03-22 Pindrop Security, Inc. Caractéristiques de bas niveau de compensation de canal pour la reconnaissance de locuteur
US10579877B2 (en) * 2017-01-09 2020-03-03 Allegro Artificial Intelligence Ltd System and method for selective image processing based on type of detected object
JP6485567B1 (ja) * 2018-02-27 2019-03-20 オムロン株式会社 適合性判定装置、適合性判定方法及びプログラム
JP6810097B2 (ja) * 2018-05-21 2021-01-06 ファナック株式会社 異常検出器
US10475468B1 (en) 2018-07-12 2019-11-12 Honeywell International Inc. Monitoring industrial equipment using audio
JP6614623B1 (ja) * 2018-11-02 2019-12-04 国立研究開発法人産業技術総合研究所 不明水検出装置、不明水検出方法、プログラム及び不明水検出システム
CN109599120B (zh) * 2018-12-25 2021-12-07 哈尔滨工程大学 一种基于大规模养殖场厂哺乳动物异常声音监测方法
WO2020159917A1 (fr) 2019-01-28 2020-08-06 Pindrop Security, Inc. Repérage de mots-clés et découverte de mots non supervisés pour une analyse de fraude
WO2020163624A1 (fr) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systèmes et procédés de détection de passerelle dans un réseau téléphonique
US10665251B1 (en) 2019-02-27 2020-05-26 International Business Machines Corporation Multi-modal anomaly detection
WO2020198354A1 (fr) 2019-03-25 2020-10-01 Pindrop Security, Inc. Détection d'appels provenant d'assistants vocaux
US11488622B2 (en) * 2019-12-16 2022-11-01 Cellular South, Inc. Embedded audio sensor system and methods
US11784888B2 (en) 2019-12-25 2023-10-10 Moogsoft Inc. Frequency-based sorting algorithm for feature sparse NLP datasets
DE102020200946A1 (de) * 2020-01-27 2021-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien
JP7445503B2 (ja) 2020-04-09 2024-03-07 日本放送協会 異常音検知装置及びそのプログラム
CN112349296A (zh) * 2020-11-10 2021-02-09 胡添杰 一种基于声音识别的地铁站台安全监测方法
US11450340B2 (en) 2020-12-07 2022-09-20 Honeywell International Inc. Methods and systems for human activity tracking
US11443758B2 (en) * 2021-02-09 2022-09-13 International Business Machines Corporation Anomalous sound detection with timbre separation
CN113012716B (zh) * 2021-02-26 2023-08-04 武汉星巡智能科技有限公司 婴儿哭声类别识别方法、装置及设备
US11765501B2 (en) 2021-03-10 2023-09-19 Honeywell International Inc. Video surveillance system with audio analytics adapted to a particular environment to aid in identifying abnormal events in the particular environment
US11620827B2 (en) 2021-03-22 2023-04-04 Honeywell International Inc. System and method for identifying activity in an area using a video camera and an audio sensor
CN114121050A (zh) * 2021-11-30 2022-03-01 云知声智能科技股份有限公司 音频播放方法、装置、电子设备和存储介质
US11836982B2 (en) 2021-12-15 2023-12-05 Honeywell International Inc. Security camera with video analytics and direct network communication with neighboring cameras
CN114781467B (zh) * 2022-06-22 2022-09-06 济南嘉宏科技有限责任公司 一种基于振动相似度的故障检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003247057A1 (en) * 2002-08-19 2004-03-03 Koninklijke Philips Electronics N.V. Detecting anomalies in a scanning signal

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CLAVEL C ET AL: "Events Detection for an Audio-Based Surveillance System", IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, 2005. ICME 2005. AMSTERDAM, THE NETHERLANDS, 06-08 JULY 2005, IEEE, PISCATAWAY, NJ, USA, 6 July 2005 (2005-07-06), pages 1306 - 1309, XP010843906, ISBN: 978-0-7803-9331-8 *
HARMA A ET AL: "Automatic Surveillance of the Acoustic Activity in Our Living Environment", IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, 2005. ICME 2005. AMSTERDAM, THE NETHERLANDS, 06-08 JULY 2005, IEEE, PISCATAWAY, NJ, USA, 6 July 2005 (2005-07-06), pages 634 - 637, XP010843267, ISBN: 978-0-7803-9331-8 *
JAIN A K ET AL: "Data clustering: a review", ACM COMPUTING SURVEYS, ACM, NEW YORK, NY, US, US, vol. 31, no. 3, 1 September 1999 (1999-09-01), pages 264 - 323, XP002165131, ISSN: 0360-0300 *
JEAN-LUC ROUAS, JEROME LOURADOUR, SEBASTIEN AMBELLOUIS: "Audio Events Detection in Public Transport Vehicle", PROCEEDINGS OF THE IEEE INTELLIGENT TRANSPOTATION SYSTEMS CONFERENCE 2006, 20 September 2006 (2006-09-20), Toronto, Canada, pages 733 - 738, XP002560445 *

Also Published As

Publication number Publication date
FR2944903B1 (fr) 2016-08-26
WO2010122056A2 (fr) 2010-10-28
BRPI1014280A2 (pt) 2019-04-30
MY157136A (en) 2016-05-13
US20120185418A1 (en) 2012-07-19
WO2010122056A3 (fr) 2010-12-16
EP2422301A2 (fr) 2012-02-29
US8938404B2 (en) 2015-01-20
MX2011011214A (es) 2011-11-18
SG175350A1 (en) 2011-11-28

Similar Documents

Publication Publication Date Title
FR2944903A1 (fr) Systeme et methode pour detecter des evenements audio anormaux
EP2696344B1 (fr) Procede et systeme pour detecter des evenements sonores dans un environnement donne
EP0594480B1 (fr) Procédé de détection de la parole
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
EP3155608A1 (fr) Procede de suivi d'une partition musicale et procede de modelisation associe
EP1877826B1 (fr) Détecteur séquentiel markovien
CN110852215A (zh) 一种多模态情感识别方法、系统及存储介质
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
WO2003048711A2 (fr) System de detection de parole dans un signal audio en environnement bruite
Colangelo et al. Enhancing audio surveillance with hierarchical recurrent neural networks
FR3098940A1 (fr) Procédé et dispositif de détermination d’une valeur de risque d’incident technique dans une infrastructure informatique à partir de valeurs d’indicateurs de performance
EP1792278B1 (fr) Procede de detection et de pistage de cibles ponctuelles, dans un systeme de surveillance optronique
FR2979447A1 (fr) Procede de configuration d'un dispositif de detection a capteur, programme d'ordinateur et dispositif adaptatif correspondants
EP3252563B1 (fr) Détermination d'un contexte de mobilité d'un utilisateur porteur d'un équipement muni de capteurs inertiels
EP4027269A1 (fr) Procédé de construction et d'entraînement d'un détecteur de la présence d'anomalies dans un signal temporel, dispositifs et procédé associés
CN113345466A (zh) 基于多麦克风场景的主说话人语音检测方法、装置及设备
EP2766825B1 (fr) Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
WO2005098819A1 (fr) Procede d'identification automatique de langues, en temps reel, dans un signal audio et dispositif de mise en oeuvre
Arslan A new approach to real time impulsive sound detection for surveillance applications
JP2018109739A (ja) 音声フレーム処理用の装置及び方法
US20230317102A1 (en) Sound Event Detection
CN117152668B (zh) 一种基于物联网的智慧后勤实现方法、装置及设备
Martín-Gutiérrez et al. An End-to-End Speaker Diarization Service for improving Multimedia Content Access
WO2023237498A1 (fr) Dispositif de traitement de donnees par voie d'apprentissage, procede, programme et systeme correspondant
FR3085498A1 (fr) Surveillance d’acces en memoire

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9

PLFP Fee payment

Year of fee payment: 10

PLFP Fee payment

Year of fee payment: 12

PLFP Fee payment

Year of fee payment: 13

PLFP Fee payment

Year of fee payment: 14

PLFP Fee payment

Year of fee payment: 15

PLFP Fee payment

Year of fee payment: 16