FR2944909A1 - Dispositif de detection d'evenements dans un flux audio - Google Patents
Dispositif de detection d'evenements dans un flux audio Download PDFInfo
- Publication number
- FR2944909A1 FR2944909A1 FR0902067A FR0902067A FR2944909A1 FR 2944909 A1 FR2944909 A1 FR 2944909A1 FR 0902067 A FR0902067 A FR 0902067A FR 0902067 A FR0902067 A FR 0902067A FR 2944909 A1 FR2944909 A1 FR 2944909A1
- Authority
- FR
- France
- Prior art keywords
- class
- detection
- events
- audio stream
- accents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000001020 rhythmical effect Effects 0.000 title claims abstract description 23
- 230000011664 signaling Effects 0.000 title claims abstract description 5
- 230000001256 tonic effect Effects 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 7
- 230000033764 rhythmic process Effects 0.000 description 5
- 238000000034 method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012806 monitoring device Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007781 signaling event Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/031—Spectrum envelope processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Emergency Alarm Devices (AREA)
Abstract
L'invention concerne un dispositif de détection d'événements dans un flux audio et un système de surveillance associé. Le dispositif comprend des moyens (210) pour la détection d'instants d'apparition d'accents toniques dans le flux audio et des moyens (220) pour la détection de motifs rythmiques à partir des instants d'apparition (t ,...,t ) d'accents toniques. Les moyens (220) pour la détection de motifs rythmiques comprennent : des moyens (221 ) pour le calcul d'intervalles de temps entre les instants d'apparition d'accents toniques, des moyens (222) pour regrouper les intervalles de temps en différentes classes, chaque classe regroupant des intervalles de temps ayant sensiblement la même valeur, chaque classe étant associée à une moyenne (µ) et une variance (σ), des moyens (223) pour identifier un motif rythmique à partir des moyennes (µ) et des variances (σ) associées aux classes et des moyens (224) pour signaler la détection d'événements lorsqu'un motif rythmique a été identifié.
Description
Dispositif de détection d'événements dans un flux audio L'invention concerne les systèmes de surveillance et, en particulier, la détection d'événements dans un flux audio. Dans les systèmes de surveillances actuels, la vidéo constitue la modalité la plus répandue. Cependant les traitements vidéo souffrent de plusieurs lacunes : leur champ de vision (ou couverture) est limité et leur capacité de détection se trouve réduite à néant dans l'obscurité ou en cas d'occlusion d'un événement à détecter. Par ailleurs, d'un point de vue systémique, la transmission de données vidéo nécessite une large bande passante.
Ainsi, l'audio utilisée en complément de la vidéo répond de façon directe aux défaillances de celle-ci. En effet, la couverture d'une grande zone peut être réalisée à l'aide d'un simple micro omnidirectionnel. De plus, les événements ignorés par une analyse vidéo, dans les zones d'ombres ou d'occlusion par exemple, ne seront pas les mêmes que ceux ignorés par l'analyse audio noyés dans un bruit environnant par exemple. Enfin, le flux audio est léger, ce qui permet notamment d'envisager des solutions de transmissions sans fils. Les traitements audio sont utilisés, d'une part, en tant que complément à l'information vidéo pour affiner l'analyse de la situation et, d'autre part, pour proposer des moyens rapides et automatiques de sélection et d'analyse des flux vidéo aux opérateurs de la sécurité, utilisation connue sous le terme de traitement vidéo dirigé par l'audio. On connaît déjà certains systèmes de surveillance comprenant des fonctions de détection d'événements audio. Cependant ils se limitent à l'analyse des manifestations émotionnelles au niveau de l'individu. Or, dans de nombreuses situations liées, par exemple, à la sécurité des stades ou des grands événements, les données de surveillance contiennent majoritairement des manifestations au niveau de la foule. Si le domaine du traitement vidéo a déjà commencé à s'intéresser aux manifestations de foule, les traitements audio des données de foule sont pour l'instant inexistants.
On connaît déjà par le document US 6,452,875 un système et une méthode d'analyse audio portant notamment sur la caractérisation de scènes d'intérêt par l'identification d'applaudissement, de hurlements de la foule ou de sifflements. Cependant, le système et la méthode présentés ne permettent de reconnaître des événements présentant un motif rythmique tels que des slogans.
L'invention vise à pallier les problèmes cités précédemment en proposant un premier niveau d'analyse de manifestations acoustiques d'une foule en détectant dans un flux audio des événements présentant un motif rythmique tels que des slogans. Cette détection est faite sur des données audio issues de sources ouvertes par exemple la radio ou la télévision ou de sources fermées par exemple des systèmes de surveillance des lieux publics et des grands évènements.
A cet effet, l'invention a pour objet un dispositif de détection d'événements dans un flux audio comprenant des moyens pour la détection d'instants d'apparition d'accents toniques dans le flux audio et des moyens pour la détection de motifs rythmiques à partir des instants d'apparition d'accents toniques, caractérisé en ce que les moyens pour la détection de motifs rythmiques comprennent :
- des moyens pour le calcul d'intervalles de temps entre les instants d'apparition d'accents toniques,
des moyens pour regrouper les intervalles de temps en différentes classes, chaque classe regroupant des intervalles de temps ayant sensiblement la même valeur, chaque classe étant associée à une moyenne et une variance,
des moyens pour identifier un motif rythmique à partir des moyennes et des variances associées aux classes
des moyens pour signaler la détection d'événements lorsqu'un motif 25 rythmique a été identifié.
Selon une caractéristique de l'invention, les moyens pour identifier un motif rythmique calculent un ratio FDR(i,j) pour chaque classe consécutive dans une série où les classes sont ordonnées par ordre de moyenne croissante, ledit ratio répondant à l'équation suivante : 30 FDR (i, j) = 62 2 + 6 où ; est la moyenne et a; la variance associées à la classe i et est la moyenne et cri la variance associées à la classe j,
Un motif est identifié lorsque la somme des ratios calculés est supérieure à un premier seuil prédéterminé.
Selon une caractéristique de l'invention, les moyens pour identifier un motif rythmique calculent, en outre, pour chaque classe la valeur suivante : r; = / où ; est la moyenne associée à la classe i et i est la moyenne 5 associée à la première classe dans la série où les classes sont ordonnées par ordre de moyenne croissante ; Un motif est identifié lorsque la somme des ratios calculés est supérieure au premier seuil prédéterminé et si pour chaque classe i, la différence entre le rapport r; et l'entier le plus proche round(n) est inférieure à un second seuil ~o (S2) prédéterminé. Selon une caractéristique de l'invention, les moyens pour la détection de temps d'apparition d'accents dans le flux audio, comprennent : - des moyens pour sélection d'au moins une bande de fréquence dans le flux audio, 15 - des moyens pour le calcul d'un profil d'énergie dans la bande de fréquences sélectionnée, - des moyens pour le calcul des temps d'apparitions des accents toniques à partir du profil d'énergie. Selon une caractéristique de l'invention, les moyens le calcul des 20 temps d'apparitions calculent un seuil adaptatif à partir du profil d'énergie, et en ce qu'un accent tonique apparait à chaque dépassement du seuil adaptatif par le profil d'énergie. Selon une caractéristique de l'invention, une valeur du seuil adaptatif à un instant donné est calculée en moyennant les valeurs du profil 25 d'énergie sur une fenêtre glissante d'une durée déterminée centrée sur l'instant donné. Selon une caractéristique de l'invention, le dispositif comprend en outre des moyens pour le découpage du flux audio en une pluralité de segments. 30 L'invention concerne aussi un système de surveillance comportant au moins un capteur produisant un flux audio, caractérisé en ce qu'il comporte le dispositif de détection d'événements selon l'invention. L'invention permet une analyse du flux audio pour l'extraction d'une information cruciale pour la tenue de situation : le comportement d'un 35 groupe d'individus ou d'une foule.
La solution apportée consiste à intégrer à un système d'analyse de scènes auditives le dispositif de détection de slogans afin d'obtenir une information supplémentaire pour une aide à la décision. Elle se focalise sur une information jusqu'alors peu étudiée dans le domaine du traitement audio : les comportements de foule. La détection de slogan ù information inexploitée par les modules audio existants - fournit une mesure du niveau de cohésion au sein de la foule. Ce niveau de cohésion est une information particulièrement pertinente dans le contexte de la surveillance : la cohésion pouvant dans certaines situations comme les manifestations être les prémisses d'un débordement alors que dans d'autres situations telles que les matchs de sports, une rupture dans cette cohésion peut être le signe d'une manifestation émotionnelle violente. De plus, pour les renseignements généraux, la détection de slogans fournit un élément crucial pour la lutte contre l'endoctrinement. Cette information peut également participer à l'indexation et au traçage des données de surveillance. Dans le contexte du renseignement, la détection de slogans dans les reportages et les journaux radiophoniques fournit des éléments sur l'état de crise d'un pays. Le dispositif selon l'invention appliqué à la détection de slogans présente l'avantage d'être indépendant la langue de prononciation du slogan.
L'invention sera mieux comprise et d'autres avantages apparaîtront à la lecture de la description détaillée faite à titre d'exemple non limitatif et à l'aide des figures parmi lesquelles : La figure 1 représente un exemple de slogan. La figure 2 représente un exemple de réalisation du dispositif 25 selon l'invention. La figure 3 représente un exemple d'un flux audio. La figure 4 représente un profil d'énergie et un seuil adaptatif calculés avec le dispositif selon l'invention. La figure 5 représente un ensemble d'histogrammes 30 correspondant à des intervalles de temps calculés avec le dispositif selon l'invention. La figure 6 représente un exemple de système de surveillance selon l'invention. Les slogans sont des paroles scandées se distinguant dans un 35 flux de parole par leur structure rythmique. Ce rythme se traduit par le fait que les intervalles entre des accents toniques des différentes parties du slogan (syllabe ou groupement de syllabes) sont tous multiples d'un intervalle élémentaire. La figure 1 représente un exemple de slogan Just Stand Around . Cette phrase constitue le motif élémentaire répété plusieurs fois. Around se prononçe avec l'accent tonique sur le -round . Un accent tonique est une augmentation de l'intensité de la voie accompagnant l'émission d'une syllabe dans un mot. Le motif est composé de trois accents toniques al, a2, a3. L'écart 2AT entre le dernier accent et le début du motif suivant dure le double des écarts OT entre le premier al et le deuxième a2 accent tonique et entre le deuxième a2 et le troisième a3 accent tonique. L'invention concerne un dispositif de détection d'événements dans un flux audio. La figure 2 représente un exemple de réalisation dispositif selon l'invention. Ce dispositif selon comprend des moyens 210 pour la détection d'instants d'apparition d'accents toniques t1,...,tn dans un flux audio et des moyens 220 pour l'identification de motifs rythmiques à partir des instants d'apparition des accents toniques Selon une caractéristique de l'invention, le dispositif 200 de détection comprend des moyens 201 pour le découpage du flux audio en une pluralité de segments. Ces segments sont par exemple d'une durée de 10 secondes. Les segments présentent un recouvrement R qui est par exemple de 50%. Les traitements suivant s'effectuent sur chacun des segments séparément. La figure 3 représente un exemple d'un flux audio. L'axe des abscisses représente le temps et l'axe des ordonnées l'amplitude. La figure 3 représente en outre trois segments Seg1, Seg2, Seg3.
Les moyens 210 pour la détection de temps d'apparition t1,...,tn d'accents dans le flux audio, comprennent : des moyens 211 pour sélection d'au moins une bande de fréquences dans le flux audio, des moyens 212 pour le calcul d'un profil d'énergie E dans la bande de fréquences et des moyens 214 le calcul des temps d'apparitions des accents toniques.
Les moyens 211 pour sélectionner une bande de fréquences dans le flux audio procèdent à un découpage en fréquences effectué grâce à un banc de filtres Butterworth (voir par exemple, S. Butterworth, On the Theor)/ of Filter Amplifiers , Wireless Engineer, vol. 7 (1930), pp. 536-541) du huitième ordre pour les signaux échantillonnés à moins de 16 kHz, et du quatrième ordre pour les autres. Les bandes de fréquences utilisées pour calibrer ce banc sont dérivées des bandes de Bark (voir par exemple, Zwicker E., Flottorp G., Stevens S., Critical bandwidth in loudness summation , J. Acoust. Soc. Am., vol. 29, p. 548-557, 1957). Le calibrage prend en compte le fait que l'énergie de la voix se concentre entre 100 Hz (pitch minimum, c'est-à-dire la fréquence fondamentale de la voix, celle qui caractérise la hauteur de la voix) et 6000-8000 Hz (derniers formants, c'est-à-dire les fréquences correspondant à un maximum d'énergie du spectre sonore). Au moins une des bandes de fréquences issues de ce découpage est alors sélectionnée. Selon un mode de réalisation préféré de l'invention, une bande de fréquences sensiblement égale à [1480-2320 Hz] est sélectionnée. Les moyens 212 pour le calcul d'un profil d'énergie E dans la bande de fréquences calculent une énergie dite de Kaiser-Teager pour la bande de fréquences sélectionnée. Une méthode de calcul de cette énergie est présentée dans : James F. Kaiser, "On a simple algorithm to calculate the 'energy' of a signal," in ICASSP'90. IEEE, 1990, vol. 1, pp. 381-384. Cette énergie est efficace pour la détection d'accents dans un flux sonore mono-locuteur. Elle a deux avantages par rapport à d'autres calculs d'énergie : sa rapidité de calcul, et sa bonne réaction aux variations de l'énergie, ce qui permet une localisation précise. Avantageusement, une opération de lissage est ensuite effectuée par la convolution du signal avec une fenêtre de Hanning. La formule de la fenêtre de Hanning est la suivante : ( Où L = N+1 est la longueur de la fenêtre en nombre d'échantillons, n correspond à un numéro désignant l'échantillon traité et w désigne la fenêtre elle-même. Elle est ici utilisée sur une durée de 0.02 secondes. Par exemple, pour une fréquence d'échantillonnage de 44,1 kHertz, on a 882 échantillons (44100*0.02 = 882). Pour réduire le volume de données sans perte d'information majeure, le profil est également décimé d'un facteur 100. On obtient ainsi un profil dit de Teager 401. La figure 4 comporte une représentation d'un profil de Teager 401. L'axe des abscisses représente le temps T et l'axe des ordonnées représente l'énergie en décibel. Les moyens 213 de calcul des temps d'apparition (t1,...,tn) des 35 accents toniques calculent un seuil adaptatif Sa à partir du profil d'énergie E.
Le seuil adaptatif Sa permet de repérer des variations brusques du signal. Le seuil Sa s'obtient en moyennant l'énergie sur des fenêtres glissantes d'une durée D déterminée centrées sur chaque point du profil de Teager. Cette durée est selon un mode de réalisation préféré de 4 secondes. Le seuil adaptatif Sa permet de s'affranchir d'un calibrage préalable, en prenant en compte le niveau sonore global de la scène. L'énergie calculée précédemment est comparée au seuil adaptatif Sa. Les instants d'apparition des accents toniques correspondent aux instants où l'énergie dépasse, par exemple, 95% de ce seuil. La figure 4 représente le seuil adaptatif Sa 402 et trois points 403, 404, 405 où le profil d'énergie de Teager 401 dépasse le seuil adaptatif Sa 402 correspondant aux trois instants t1, t2 ,t3 de détection d'accents toniques. Cette méthode donne de meilleurs résultats qu'un seuillage de la dérivée du profil d'énergie 401 car le lissage imparfait du profil d'énergie 401 impliquerait, si l'on considérait sa dérivée, un grand nombre de détections non pertinentes. Les moyens 220 pour la détection de motifs rythmiques comprennent : des moyens 221 pour le calcul d'intervalles de temps AT1,...4Tn_1 entre les instants d'apparition des accents toniques t1,...,tn, des moyens 222 pour regrouper les intervalles de temps AT1,...4Tn_1 en différentes classes, chacune des classes étant associée à une moyenne et une variance a et des moyens 223 pour identifier un motif rythmique à partir des moyennes et des variances a associées aux classes. Les moyens 221 pour le calcul d'intervalles de temps AT1,...,OTn_1 se basent sur les instants d'apparitions des accents toniques t1,...,tn déterminées par le module 210 précédent. Pour un nombre n d'accents toniques, on obtient un nombre n-1 d'intervalles de temps entre deux accents toniques consécutifs. Seuls sont considérés les intervalles supérieurs à 0,1 seconde. Les intervalles inférieurs à 0.1 seconde sont regroupés avec les intervalles adjacents. Ces petits intervalles, assez nombreux, proviennent essentiellement d'imperfections dans le profil énergétique lissé et ne témoignent pas d'évènements perceptibles. Les moyens 222 pour regrouper les intervalles de temps OT1,...4Tn_1 en différentes classes, utilisent une modélisation basée sur un mélange de gaussiennes. La distribution des intervalles de temps sur un segment est modélisée par un mélange de gaussiennes. Ainsi, chaque pic de la distribution correspond à un intervalle de temps fortement représenté dans le segment. Chaque classe est associée à une moyenne et une variance a. La moyenne et la variance a qui sont les paramètres de chacune de fonctions gaussiennes, correspondent respectivement à l'intervalle de temps et à la précision dans sa répétition au cours du segment. La répartition des intervalles de temps entre les accents est modélisée par un mélange de gaussiennes, dont on estime le nombre optimal par un algorithme appelé EM (pour Expectation Maximization dont on peut trouver une description dans Moon, T. K. The Expectation-Maximization algorithm ~o IEEE Signal Processing Magazine, 1996) La figure 5 représente un ensemble d'histogrammes correspondant au différents intervalles de temps calculés. Un histogramme indique un nombre d'occurrences d'un intervalle de temps. Une fonction gaussienne est associée à chaque classe d'intervalles de temps. Une classe regroupe les intervalles de temps ayant 15 sensiblement la même valeur. Les moyens 223 pour détecter un motif rythmique utilisent moyennes et des variances a associées aux classes. Deux critères sont considérés afin de déterminer la présence ou non d'une structure rythmique caractéristique de la présence de slogans. La détection repose sur un ratio 20 dit de Fisher (Fisher Discriminant Ratio) calculé sur le mélange de gaussiennes. Le ratio de Fisher mesure un degré de séparation entre les gaussiennes. Ce degré de séparation des gaussiennes caractérise le degré de régularité des intervalles. Ce ratio repose sur l'analyse discriminante de Fisher (dont on peut trouver une description dans Duda, R. O. and Hart, P. E. 25 (1973) Pattern Classification and Scene Analysis. Wiley.) Le ration de Fisher FDR entre deux gaussiennes i et j se calcule comme suit : FDR i %) = `'u` )2 62 + 62
où ; est la moyenne et a; la variance de la gaussienne i et Ili est la moyenne et ai la variance de la gaussienne j.
30 La détection d'événements comprend un premier test. Le premier test prend en compte ici est la somme (Score) des critères de Fisher entre deux gaussiennes consécutives et se calcule selon la formule suivante : Nù1 Score = 1 FDR(n, n + 1) n=1 Si la somme (Score) dépasse un premier seuil prédéterminé SI alors un événement est détecté. Selon une variante de l'invention, la détection d'événement comprend en outre un deuxième test. Le deuxième test prend en compte le rapport entre les moyennes de chaque gaussienne et celle de la première. Si le rapport entre ces deux moyennes approche un nombre entier (avec une marge d'erreur à régler comme paramètre du dispositif selon l'invention), cela signifie que les intervalles entre accents présents dans la fenêtre de décision sont multiples les uns des autres et forment un motif rythmique. Le rapport r; entre une gaussienne i et la première gaussienne suit la relation suivante : ri= ./ l où est la moyenne de la gaussienne i et 1.11 est la moyenne de la 15 première gaussienne. Le deuxième test est le suivant : Vi E [2 ;N], Ir;- round(r;)I < S2 où round(ri) est l'entier le plus proche de ru. Si pour chaque gaussienne i, la différence entre le rapport r; et 20 l'entier le plus proche round(ri) est inférieure à un second seuil S2 alors le test est vérifié. Un motif rythmique est détecté si les deux tests sont vérifiés. Les moyens 224 pour signaler une détection d'événements émettent un signal lorsqu'un motif rythmique a été identifié. Le dispositif selon l'invention peut comporter en outre un module 25 de prétraitements du flux permettant par exemple une détection d'anomalie de capteur liée à une saturation du signal enregistré par un microphone ou un module de segmentation préalable du flux audio afin d'extraire les passages contenant de la parole, (comme dans Lie LU, Hong-Jiang ZHANG, Hao JIANG, A Robust Audio Classification and Segmentation Method).
30 Les différents moyens de calculent présentés ci-dessus peuvent être réalisés de façon matérielle par des calculateur ou de façon logicielle. L'invention concerne aussi un système de surveillance. La figure 6 représente un exemple de système de surveillance selon l'invention. Un tel système comporte au moins un capteur produisant un flux audio. Le capteur est une source audio ouverte 601 par exemple la radio et/ou fermée 602 par exemple un micro d'un dispositif de surveillance. Le système comprend en outre un module de traitement audio 603 comportant le dispositif de détection d'événements selon l'invention. Le système comprend en outre un module de traitement vidéo 604 recevant un flux vidéo provenant de sources ouvertes 605, par exemple la télévision, et/ou fermées 606, par exemple des caméra d'un dispositif de surveillance. Les informations issues des traitements audio sont utilisées, pour proposer des moyens rapides et automatiques de sélection et d'analyse des flux vidéo aux opérateurs de la sécurité (traitement vidéo dirigé par l'audio) et de flux audiovisuels pour l'indexation automatique des médias (suivi de piges pour la télévision et la radio). Inversement, les traitements vidéo peuvent être utilisés pour diriger les traitements audio. Les modules de traitement audio 603 et vidéo 604 sont connectés 15 à un module de supervision établissant une image de la situation observée par les différentes sources 601,602,605,606.
Claims (8)
- REVENDICATIONS1. Dispositif de détection d'événements dans un flux audio comprenant des moyens (210) pour la détection d'instants d'apparition (t1,...,tn) d'accents toniques dans le flux audio et des moyens (220) pour la détection de motifs rythmiques à partir des instants d'apparition (t1,...,tn) d'accents toniques, caractérisé en ce que les moyens (220) pour la détection de motifs rythmiques comprennent : des moyens (221) pour le calcul d'intervalles de temps (AT1,...,OTn_1) entre les instants d'apparition (t1,...,tn) d'accents toniques, - des moyens (222) pour regrouper les intervalles de temps (AT1,...,OTn_1) ~o en différentes classes, chaque classe regroupant des intervalles de temps (AT1,...4Tn4 ayant sensiblement la même valeur, chaque classe étant associée à une moyenne ( ) et une variance (a), des moyens (223) pour identifier un motif rythmique à partir des moyennes ( ) et des variances (a) associées aux classes 15 - des moyens (224) pour signaler la détection d'événements lorsqu'un motif rythmique a été identifié.
- 2. Dispositif selon la revendication 1, caractérisé en ce que les moyens (223) pour identifier un motif rythmique calculent un ratio FDR(i,j) 20 pour chaque classe consécutive dans une série où les classes sont ordonnées par ordre de moyenne (.i) croissante, ledit ratio répondant à l'équation suivante : FDR (i, j) = où ; est la moyenne et a; la variance associées à la classe i et i 25 est la moyenne et ai la variance associées à la classe j, et en ce qu'un motif est identifié lorsque la somme des ratios calculés est supérieure à un premier seuil (SI) prédéterminé.
- 3. Dispositif selon la revendication 2, caractérisé en ce que les 30 moyens (223) pour identifier un motif rythmique calculent, en outre, pour chaque classe la valeur suivante : r; = ; / poù est la moyenne associée à la classe i et i est la moyenne associée à la première classe dans la série où les classes sont ordonnées par ordre de moyenne ( ) croissante ; et en ce qu'un motif est identifié lorsque la somme des ratios calculés est supérieure au premier seuil (SI) prédéterminé et si pour chaque classe i, la différence entre le rapport r; et l'entier le plus proche round(n) est inférieure à un second seuil (S2) prédéterminé.
- 4. Dispositif selon l'une des revendications précédentes, ~o caractérisé en ce que les moyens pour la détection de temps d'apparition (ti,...,tn) d'accents dans le flux audio, comprennent : des moyens (211) pour sélection d'au moins une bande de fréquence dans le flux audio, des moyens (212) pour le calcul d'un profil d'énergie (E) dans la bande de 15 fréquences sélectionnée, des moyens (214) pour le calcul des temps d'apparitions (t1,...,tn) des accents toniques à partir du profil d'énergie (E).
- 5. Dispositif selon la revendication 4, caractérisé en ce que les 20 moyens (214) le calcul des temps d'apparitions (t1,...,tn) calculent un seuil adaptatif (Sa) à partir du profil d'énergie (E), et en ce qu'un accent tonique apparait à chaque dépassement du seuil adaptatif (Sa) par le profil d'énergie (E).
- 6. Dispositif selon la revendication 5, caractérisé en ce que, une 25 valeur du seuil adaptatif à un instant donné est calculée (Sa) en moyennant les valeurs du profil d'énergie (E) sur une fenêtre glissante d'une durée (D) déterminée centrée sur l'instant donné.
- 7. Dispositif selon l'une des revendications précédentes, 30 caractérisé en ce qu'il comprend en outre des moyens (201) pour le découpage du flux audio en une pluralité de segments (Segi, Seg2, Seg3).
- 8. Système de surveillance comportant au moins un capteur produisant un flux audio, caractérisé en ce qu'il comporte le dispositif de 35 détection d'événements selon l'une des revendications 1 à 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0902067A FR2944909B1 (fr) | 2009-04-28 | 2009-04-28 | Dispositif de detection d'evenements dans un flux audio |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0902067A FR2944909B1 (fr) | 2009-04-28 | 2009-04-28 | Dispositif de detection d'evenements dans un flux audio |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2944909A1 true FR2944909A1 (fr) | 2010-10-29 |
FR2944909B1 FR2944909B1 (fr) | 2016-07-15 |
Family
ID=41119534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0902067A Active FR2944909B1 (fr) | 2009-04-28 | 2009-04-28 | Dispositif de detection d'evenements dans un flux audio |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2944909B1 (fr) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE1022886B1 (nl) * | 2015-04-03 | 2016-10-05 | MexWave bvba | Systeem en werkwijze voor het initiëren en het karakteriseren van massa choreografieën |
CN114758665A (zh) * | 2022-06-14 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频数据增强方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070180980A1 (en) * | 2006-02-07 | 2007-08-09 | Lg Electronics Inc. | Method and apparatus for estimating tempo based on inter-onset interval count |
-
2009
- 2009-04-28 FR FR0902067A patent/FR2944909B1/fr active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070180980A1 (en) * | 2006-02-07 | 2007-08-09 | Lg Electronics Inc. | Method and apparatus for estimating tempo based on inter-onset interval count |
Non-Patent Citations (5)
Title |
---|
DIXON S: "AUTOMATIC EXTRACTION OF TEMPO AND BEAT FROM EXPRESSIVE PERFORMANCES", JOURNAL OF NEW MUSIC RESEARCH, SWETS & ZEITLINGER, XX, vol. 30, no. 1, 1 March 2001 (2001-03-01), pages 39 - 58, XP009046635, ISSN: 0929-8215 * |
DUNN R B ET AL: "Detection of transient signals using the energy operator", PLENARY, SPECIAL, AUDIO, UNDERWATER ACOUSTICS, VLSI, NEURAL NETWORKS. MINNEAPOLIS, APR. 27 - 30, 1993; [PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)], NEW YORK, IEEE, US, vol. 3, 27 April 1993 (1993-04-27), pages 145 - 148, XP010110667, ISBN: 978-0-7803-0946-3 * |
FISHER R A: "THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS", ANNALS OF EUGENICS, no. 7, 1 January 1936 (1936-01-01), pages 179 - 188, XP001059631 * |
KAUPPINEN I ED - SKODRAS A N ET AL: "Methods for detecting impulsive noise in speech and audio signals", DIGITAL SIGNAL PROCESSING, 2002. DSP 2002. 2002 14TH INTERNATIONAL CON FERENCE ON SANTORINI, GREECE 1-3 JULY 2002, PISCATAWAY, NJ, USA,IEEE, US, vol. 2, 1 July 2002 (2002-07-01), pages 967 - 970, XP010600013, ISBN: 978-0-7803-7503-1 * |
LAROCHE J: "Estimating tempo, swing and beat locations in audio recordings", APPLICATIONIS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 2001 IEEE W ORKSHOP ON THE OCT. 21-24, 2001, PISCATAWAY, NJ, USA,IEEE, 21 October 2001 (2001-10-21), pages 135 - 138, XP010566893, ISBN: 978-0-7803-7126-2 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE1022886B1 (nl) * | 2015-04-03 | 2016-10-05 | MexWave bvba | Systeem en werkwijze voor het initiëren en het karakteriseren van massa choreografieën |
CN114758665A (zh) * | 2022-06-14 | 2022-07-15 | 深圳比特微电子科技有限公司 | 音频数据增强方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
FR2944909B1 (fr) | 2016-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0867856B1 (fr) | "Méthode et dispositif de detection d'activité vocale" | |
EP2419900B1 (fr) | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal | |
EP1468416B1 (fr) | Procede d'evaluation qualitative d'un signal audio numerique. | |
EP2293594B1 (fr) | Procédé de filtrage des bruits latéraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif téléphonique "mains libres" pour véhicule automobile | |
EP2415047B1 (fr) | Classification du bruit de fond contenu dans un signal sonore | |
WO2004006222A2 (fr) | Procede et appareil pour la classification de signaux sonores | |
FR2808917A1 (fr) | Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant | |
FR2522179A1 (fr) | Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle | |
US20130266147A1 (en) | System and method for identification of highly-variable vocalizations | |
FR2587137A1 (fr) | Systeme de reconnaissance de signal vocal | |
WO2003048711A2 (fr) | System de detection de parole dans un signal audio en environnement bruite | |
Nandwana et al. | Analysis of Critical Metadata Factors for the Calibration of Speaker Recognition Systems. | |
KR20120130371A (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
EP1473709A1 (fr) | Procédé d'identification de sons spécifiques | |
FR3088766A1 (fr) | Procede et systeme de traitement de signaux audio pour microphone de masque a oxygene d’un aeronef | |
FR2944909A1 (fr) | Dispositif de detection d'evenements dans un flux audio | |
EP1131813A1 (fr) | Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede | |
Ashhad et al. | Improved vehicle sub-type classification for acoustic traffic monitoring | |
FR2627887A1 (fr) | Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme | |
FR3143787A1 (fr) | Procédé d’identification ou d’authentification d’un occupant de véhicule automobile | |
WO2024120846A1 (fr) | Détection de respiration de passager | |
Zaw et al. | Overlapped speech detection in multi-party meetings | |
Ekpenyong et al. | Speech Quality Enhancement in Digital Forensic Voice Analysis | |
WO2019081499A1 (fr) | Procédé et équipement de reconnaissance de détonation par filtrage sélectif | |
Bartos et al. | Noise-robust speech triage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 8 |
|
PLFP | Fee payment |
Year of fee payment: 9 |
|
PLFP | Fee payment |
Year of fee payment: 10 |
|
PLFP | Fee payment |
Year of fee payment: 12 |
|
PLFP | Fee payment |
Year of fee payment: 13 |
|
PLFP | Fee payment |
Year of fee payment: 14 |
|
PLFP | Fee payment |
Year of fee payment: 15 |
|
PLFP | Fee payment |
Year of fee payment: 16 |