FR2923043A1

FR2923043A1 - Procede et systeme de creation automatisee de modeles de reconnaissance de contenu sonore

Info

Publication number: FR2923043A1
Application number: FR0707590A
Authority: FR
Inventors: Boris Defreville
Original assignee: ORELIA Sas
Current assignee: ORELIA Sas
Priority date: 2007-10-29
Filing date: 2007-10-29
Publication date: 2009-05-01

Abstract

La présente invention concerne un système et un procédé de création automatisée de modèle de reconnaissance de contenu sonore, ainsi qu'une utilisation du système. Les étapes automatisées suivantes du procédé sont décrites :- test (52) de la pertinence de descripteurs audio pour leur capacité à pouvoir discriminer des échantillons sonores répertoriés dans une base de données concernant un problème de classification déterminé ;- sélection (54) d'au moins un descripteur ;- paramétrage (55) d'un modèle de classification associé au(x) descripteur(s) sélectionné(s), pour former un extracteur ; et- validation (56) de la performance de l'extracteur.En cas d'insuffisance de la capacité de discrimination des descripteurs pour un problème de classification donné, le système réalise une décomposition (53) du problème pour le scinder en problèmes moins complexes.

Description

Procédé et système de création automatisée de modèles de reconnaissance de contenu sonore DOMAINE TECHNIQUE DE L'INVENTION La présente invention concerne le domaine des systèmes de reconnaissance de sons. L'invention concerne plus particulièrement un procédé et un système de création automatisée de modèles de reconnaissance de contenu sonore, appelés également extracteurs. ARRIERE-PLAN TECHNOLOGIQUE DE L'INVENTION II existe une demande croissante, notamment dans des domaines tels io que la domotique, la robotique, l'assistance à la vidéo surveillance et l'audio surveillance, par exemple pour la sécurité et le contrôle d'accès, pour détecter automatiquement le contenu de signaux audio, que ce soit sur des enregistrements déjà effectués (bases de données audiovisuelles, fichiers de mesure acoustique pour le contrôle des nuisances sonores, fichiers 15 multimédia...) ou bien en temps réel (contrôle de type monitoring audio pour la surveillance, la sécurité, la fusion de données multimodales...). En post-traitement, la détection peut être réalisée manuellement mais cela prend beaucoup de temps car elle nécessite l'écoute humaine des bandes audio. En situation réelle, il serait très coûteux de mettre un opérateur derrière 20 chaque système de captation audio (audio surveillance, vidéo surveillance ou un système couplé avec d'autres modalités perceptives). II y a donc un besoin pour un outil adapté à une large gamme de sons et permettant d'automatiser toutes ces tâches d'annotation ou de détection. Les méthodes existantes ne sont pas focalisées sur des applications visant à détecter les 25 sons courants. L'humain détecte, reconnaît et classe les sons qu'il entend en grande partie grâce aux caractéristiques physiques (acoustiques en l'occurrence) de ces sons. Les sons d'une classe donnée ont des caractéristiques communes entre eux, appelées traits . Classer un son revient à lui allouer une classe 30 sémantique (par exemple une voiture ou un avion), qui peut éventuellement être accompagnée d'une action (par exemple un avion en phase de décollage), dans une certaine ambiance (par exemple un avion en phase de décollage entendu dans une rue), dans un certain contexte (par exemple un avion en phase de décollage entendu dans une rue réverbérante), et enfin un support (par exemple, un avion en phase de décollage entendu dans une rue réverbérante mais diffusé par un haut-parleur). Les descripteurs audio sont des fonctions calculables sur un signal audio et qui permettent d'en extraire une caractéristique suivant une donnée chiffrée. Les caractéristiques acoustiques (ou traits ) des classes de sons peuvent donc être io physiquement représentées par des descripteurs audio. L'hypothèse ici est que chaque classe de son peut être décrite par un nombre restreint de caractéristiques communes d'un son à un autre au sein de la classe. Chacune des ces caractéristiques (ou traits) peut être assimilée à un ensemble de valeurs prises par un descripteur audio. Pour caractériser une 15 classe, il faut donc trouver quels sont les descripteurs qui lui sont propres (par un apprentissage spécifique qui fait, entre autre, l'objet de ce document). Une fois ces traits connus et stockés dans une mémoire, un modèle de classification, définissant une règle d'interprétation du résultat du calcul de ces descripteurs sur un signal à classer, permet alors de conclure 20 sur la classe à laquelle appartient un son. On parle de classification, d'identification ou de reconnaissance de sons pour définir le fait de reconnaître un son en fonction d'une classe sémantique à laquelle il appartient, c'est-à-dire le fait d'allouer une classe à un son. Le modèle de classification doit être paramétré pour qu'il définisse efficacement une règle 25 d'interprétation. L'association d'un ou de plusieurs descripteur(s) audio avec un modèle de classification paramétré représente un extracteur de contenu audio (ou modèle de reconnaissance de contenu sonore). Une telle définition d'un extracteur de contenu audio (ou modèle de reconnaissance de contenu sonore) est différente de nombreux systèmes qui utilisent des descripteurs 30 décrivant un ensemble d'informations audio prédéfinies, appelé empreinte digitale (ou fingerprint selon la terminologie anglaise), représentant un signal à identifier. Ce type de système compare l'empreinte digitale du 3 2923043 signal à identifier avec les empreintes digitales de chacun des sons d'une base de données de référence, tandis que les extracteurs de la présente invention utilisent des descripteurs décrivant des classes qui regroupent des caractéristiques audio qui ne sont pas limitées à une empreinte digitale mais 5 peuvent être plus générales et définir plusieurs signaux à identifier. Si cette technique, focalisée sur la recherche d'empreintes (qui sont résistantes à la fois à la compression audio et au bruit environnant), a l'avantage de fonctionner de manière satisfaisante pour identifier des sons de bases de données multimédia, elle n'est pas envisageable dans les cas d'identification lo de sons de l'environnement. En effet, il ne peut y avoir correspondance directe entre un son à classer et une base de données de référence que dans le cas où cette base de données contient l'ensemble des sons possibles de la classe à retrouver. Or nous savons qu'il est impossible de référencer l'ensemble des sons d'une même classe, par exemple les voitures 15 (à moins de se concentrer sur une classe extrêmement particulière mais ce n'est pas le but du système décrit ici). La philosophie du système décrit ici est, non pas de comparer directement l'empreinte d'un signal entrant avec une base de données de référence qui contient déjà ce signal, mais de trouver au préalable et grâce à une base de données étiquetées selon son 20 contenu, les traits communs existant entre l'ensemble des bruits d'une même classe pour les comparer avec un nouveau signal à classifier. Un problème qui se pose dans l'art antérieur de façon aiguë est l'évaluation (notamment avec la performance et le pouvoir discriminant) et la sélection des descripteurs. Pour permettre l'évaluation et le choix de 25 descripteurs, les méthodes utilisées sont très différentes selon les médias (audio, ou vidéo notamment). Dans le domaine du texte, du son et de la parole existent des bases de tests de référence ou des organismes qui répertorient des classes sonores. La sélection de descripteurs adaptés est en réalité un problème très 30 délicat car il existe des possibilités multiples (infinies) de description d'un signal sonore quelconque. Alors que pour la détection des signaux de voix 4 2923043 (reconnaissance de la parole, détection de locuteur), il existe un consensus sur les descripteurs à utiliser, tout reste à faire pour les autres types de sons. II est donc très difficile de résoudre des problèmes de reconnaissance de sons car il pourrait y avoir autant de solutions que de problèmes posés. Il 5 existe donc un besoin pour des méthodes plus performantes permettant de trouver des descripteurs adaptés à la complexité de la problématique posée et associés à des modèles de classification appropriés pour former des extracteurs performants. Pour le moment, la création d'un extracteur fiable servant dans des applications de reconnaissance de certains sons to spécifiques ne peut être réalisée qu'au prix de fastidieuses recherches. Le bruit d'un cyclomoteur dans l'exemple susmentionné exigerait de nombreuses manipulations à la main car la combinaison de descripteurs à retenir doit non seulement être sélective pour la classe recherchée mais également discriminante vis-à-vis des autres classes (ces autres classes 15 pouvant être déclinées à l'infini). Finalement, le présent demandeur a constaté l'existence de trois problèmes principaux lorsqu'il s'agit de s'attaquer efficacement à la détection d'évènements réels. Pour résumer, trois difficultés majeures sont ainsi rencontrées : 20 1. La variabilité inter-classe (il existe pleins de sortes d'oiseaux pour la même classe oiseaux, il existe une multitude de bruits de motos...) 2. Les différents bruits de fond (un oiseau peut chanter dans la rue, ou dans un parc, ou dans un marché...) 25 3. Le nombre important de classes pouvant être confondues avec la classe visée (un miaulement de chat peut être confondu avec un cri de bébé...). Pour faire face à cette triple problématique, il est particulièrement intéressant de pouvoir trouver des descripteurs (sachant qu'il en existe une 30 infinité) capables d'être non seulement sélectifs pour la classe recherchée (dans des bruits de fond différents) mais également discriminants vis-à-vis des autres classes (ces autres classes pouvant être déclinées à l'infini).

Le document EP 1 542 206 décrit une méthode de classification automatique de signaux audio à l'aide de modèles de reconnaissance de contenu sonore. Les modèles de reconnaissance prévus dans cette méthode sont de type GMM (Gaussian Mixture Models) et permettent seulement de discriminer le discours, la musique et la voix chantée. Or il existe un potentiel considérable d'applications de reconnaissance s'appuyant sur une discrimination fine d'événements sonores et requérant de nombreux modèles de reconnaissance fiables, par exemple dans le domaine de la sécurité et de la domotique, mesure du bruit en situation de multi-sources (plusieurs io sources de bruit). II est connu es méthodes reposant sur l'implémentation de descripteurs dans un modèle de classification mais décrivant seulement quelques descripteurs qui seraient censés suffire pour décrire l'ensemble des caractéristiques des signaux sonores. Cependant, ce type de solution 15 présente l'inconvénient de restreindre le nombre de problèmes qui peuvent être effectivement résolus par l'invention. Par exemple, le document EP 1 473 709 décrit une méthode d'élaboration de descripteurs pour l'identification de sons spécifiques et permettre une détection en temps réel. La méthode prévoit d'enregistrer en continu l'ambiance sonore, de former une image 20 spectrale du son enregistré dans un système de coordonnées temps/fréquence, puis d'analyser des fenêtres glissantes temporellement de l'image spectrale. Une famille de filtres dont chacun définit une bande de fréquences et une bande d'énergie est sélectionnée et ensuite, on applique chacun des filtres à chacune des fenêtres glissantes, et on identifie des 25 composantes connexes ou formants, qui sont des fragments de fenêtre constitués de points voisins de fréquences et d'énergies proches. Un calcul du résultat des descripteurs de chaque formant peut alors être réalisé ainsi qu'un calcul d'une distance entre deux formants en comparant les descripteurs du premier formant à ceux du second formant. Dans cette 30 méthode, les descripteurs sont limités aux formants et ne permettent donc pas de résoudre n'importe quel type de problème de reconnaissance.

Ce type de méthode peut être efficace à condition de pouvoir facilement déterminer les descripteurs adaptés. Or il arrive fréquemment que la capacité de discrimination soit insuffisante pour n'importe lequel des descripteurs disponibles. Ce type de méthode utilise une seule famille de descripteurs qui ne peuvent suffire à décrire l'ensemble des traits caractéristiques de l'ensemble des classes de sons existants. Le document US 2004/181401 décrit un appareil pour produire automatiquement une fonction générale d'extraction calculable sur un signal d'entrée, par exemple un signal audio, dont il faut extraire une valeur io caractéristique globale prédéterminée de son contenu (par exemple un descripteur). Ce type d'appareil ne convient pas pour extraire de façon fiable des sons d'une source de bruit déterminée notamment dans des cas où la classe recherchée est trop générale. Par exemple, il n'existe pas de descripteur commun à tous les bruits pouvant être regroupés dans la classe 15 oiseaux. Lorsque l'on veut extraire des sons d'oiseaux, il serait judicieux de pouvoir discriminer ces sons quel que soit le type d'oiseaux (et ne pas dépendre de la variabilité des sons pour la source oiseaux ). DESCRIPTION GENERALE DE L'INVENTION 20 La présente invention a donc pour but de pallier un ou plusieurs des inconvénients de l'art antérieur en proposant un procédé permettant une création automatisée et rapide d'un modèle efficace de reconnaissance de contenu sonore. Ce but est atteint par un procédé de création automatisée d'un modèle 25 de reconnaissance de contenu sonore, dit extracteur, comportant au moins une fonction d'extraction de contenu sonore, dite descripteur audio, associé à au moins un modèle de classification paramétré, le procédé étant mis en oeuvre par un système de création automatisée d'extracteur comportant des moyens de traitement et au moins une mémoire stockant au moins une 30 bibliothèque de descripteurs audio et une pluralité de fichiers audio étiquetés par des labels indiquant les contenus sonores de ces fichiers selon un étiquetage sémantique relatif à des classes sonores, caractérisé en ce que la mémoire stocke une classification répertoriant une pluralité d'étiquettes correspondant à des classes sonores organisées hiérarchiquement et en ce que le procédé comporte les étapes suivantes mises en oeuvre par un module de création automatisée exécuté sur les moyens de traitement du système : définition d'au moins un problème d'identification sonore que l'extracteur doit être capable de résoudre, ce problème consistant à identifier sémantiquement un échantillon sonore et étant défini par sélection, dans la classification, d'au moins une classe sonore, lo dite cible, correspondant au type de son à identifier et d'au moins une classe sonore différente, dite antagoniste, élaboration automatisée d'une base de données d'échantillons, extraits à partir de fichiers sons appartenant à la classe cible et de fichiers sons appartenant à au moins une classe antagoniste, 15 - extraction automatisée d'une liste de descripteurs audio parmi ceux stockés dans la mémoire et calcul automatisé du résultat des descripteurs audio sur les échantillons de fichiers sons formant la base de données d'échantillons, test automatisé de pertinence des descripteurs audio par calcul 20 d'une capacité de discrimination de chacun des descripteurs sur les échantillons de fichiers sons formant la base de données, grâce à une comparaison des résultats des descripteurs audio sur les fichiers sons de la classe cible par rapport à ceux d'au moins une classe antagoniste, au sein de la base de données, les 25 descripteurs audio étant retenus lorsque leur capacité de discrimination est supérieure à un seuil de discrimination, - décomposition du problème en au moins deux problèmes lorsque aucun des descripteurs audio n'atteint le seuil de discrimination, la décomposition consistant en une définition d'une nouvelle classe 30 cible et/ou d'une nouvelle classe antagoniste, par décomposition d'au moins une des classes cible et antagoniste, en sous-ensembles définis dans la classification comme appartenant au moins à cette classe, puis en une élaboration d'au moins deux nouvelles bases de données à partir de ces nouvelles classes cible et/ou antagoniste, suivie d'une itération des étapes précédentes avec les nouvelles bases de données jusqu'à ce qu'au moins un des descripteurs audio atteigne le seuil pour le problème correspondant à chacune de ces bases de données. Ainsi, le procédé permet avantageusement de scinder des problèmes complexes ne permettant pas de trouver les bons descripteurs, en des problèmes moins larges (en glissant vers des sous-classes), susceptibles de io bien discriminer les descripteurs intéressants parmi l'ensemble des descripteurs audio disponibles. On comprend que les relations de dépendances entre les différents ensembles ou classe de descripteurs peuvent être répertoriées dans un arbre de classification formant une véritable taxonomie. A titre d'exemple, une problématique relative à certains 15 sons de l'ensemble sources non-mécaniques peut être simplifiée en prenant une problématique prise à un degré de détail supérieur, par exemple dans les sous-ensembles sons naturels , musique , sons impulsionnels , sons d'avertissement ... Le mode de discrimination de type bi-classes (Stratégie un contre un ) permet de poser des problèmes 20 moins complexes qu'avec une stratégie 1 contre tous et réduit ainsi la quantité de données à traiter. Selon une autre particularité, le procédé comporte une étape préalable d'étiquetage sémantique, par un utilisateur, de chacun des fichiers sons avec des labels indiquant l'appartenance de certaines périodes 25 temporelles du fichier son à des classes sonores et/ou à au moins un des sous-ensembles de classification appartenant à ces classes. De façon nullement limitative, les classes sonores cible et antagoniste comprennent par exemple : - l'ensemble regroupant les sources mécaniques d'une part ; et 30 - l'ensemble regroupant les sources non-mécaniques d'autre part. Naturellement, les classes sonores cible et antagoniste peuvent être choisies différemment, par exemple l'ensemble des sources d'origine 9 2923043 animale et l'ensemble des sources d'origine non-animale, l'ensemble des sources motorisées et l'ensemble des sources non-motorisées, etc. On peut d'ailleurs citer à titre d'illustration non limitative cinq types de description : 5 - Source sonores (ça sonne comme telle source...) ; Action (roule, arrêt, décollage, atterrissage, etc.) ; Contexte (type de revêtement, type d'artère, pluie, en intérieur, en extérieur...) ; Ambiance (rue circulée, parc marché, campagne, aéroport, io restaurant...) ; - Support (jeu vidéo, enregistrement in situ, effet sonore synthétisé, film, musique, imitation orale...) ; Selon une autre particularité, le procédé comporte une étape de sélection automatisée des descripteurs audio retenus comme ayant une 15 capacité de discrimination suffisante lors de l'étape de test automatisé, cette sélection consistant à éliminer les descripteurs redondants. Selon une autre particularité, l'étape de sélection automatisée des descripteurs comporte, d'une part, une étape de calcul d'information mutuelle de couples de descripteurs, l'information mutuelle étant calculée sur les 20 résultats de deux descripteurs audio sur les échantillons de fichiers sons et, d'autre part, une étape de comparaison de l'information mutuelle avec un seuil de redondance. Selon une autre particularité, l'étape de sélection automatisée des descripteurs comporte également une étape de calcul de la rapidité avec 25 laquelle les résultats de chacun des descripteurs est obtenu, la sélection prenant cette rapidité en compte pour éliminer les descripteurs les plus lents ou nécessitant le plus de ressources de calcul. Selon une autre particularité, le procédé comporte une étape de sélection des descripteurs audio utilisés, consistant soit en une sélection de 30 l'intégralité de la bibliothèque des descripteurs audio stockée dans la mémoire, soit en une sélection, par l'utilisateur sur une interface utilisateur du système, d'une pluralité de descripteurs audio, soit en une sélection i0 2923043 hiérarchique et automatisée d'une pluralité de descripteurs audio classés par priorité dans la bibliothèque. Selon une autre particularité, le procédé comporte une étape de sélection d'un modèle de classification stocké dans la mémoire puis une 5 étape de paramétrage du modèle utilisant les descripteurs audio sélectionnés de façon à obtenir au moins un extracteur. Selon une autre particularité, l'étape de paramétrage du modèle consiste en un entraînement du modèle avec les résultats des descripteurs audio sélectionnés.

Selon une autre particularité, le procédé comporte une étape de validation de l'extracteur paramétré par comparaison du pourcentage de choix correct de l'extracteur dans un test de d'identification de contenu sonore sur des échantillons sonores avec un seuil de performance, l'extracteur étant validé lorsque le pourcentage de choix correct de l'extracteur au cours du test est supérieur au seuil de performance et, dans le cas contraire, l'extracteur est rejeté et une hausse du seuil de redondance permet de réitérer l'étape de sélection automatisée de façon à obtenir plus de descripteurs audio et réitérer les étapes suivantes avec ces descripteurs jusqu'à ce que le pourcentage de choix correct d'au moins un extracteur atteigne le seuil de performance. Selon une autre particularité, l'étape d'élaboration est mise en oeuvre également lors de l'étape de validation de l'extracteur pour élaborer une autre base de données, de façon à valider le modèle avec des résultats des descripteurs audio obtenus sur des échantillons sonores différents de, mais de même durée que, et en nombre identique à, ceux de la base de données utilisée pour le test de pertinence. Selon une autre particularité, l'étape d'élaboration est mise en oeuvre également lors de l'étape de paramétrage du modèle de classification pour élaborer une autre base de données, de façon à entraîner le modèle avec des résultats des descripteurs audio obtenus sur des échantillons sonores différents de, mais de même durée que, et en nombre identique à, ceux de la base de données utilisée pour le test de pertinence.

Selon une autre particularité, l'étape d'élaboration de la base de données est mise en oeuvre une seule fois avec un nombre d'échantillons déterminé puis cette base de données est séparée en trois pour obtenir une base de données pour le test de pertinence, une base de données pour l'étape de paramétrage du modèle et une base de données pour l'étape de validation de l'extracteur, les trois bases comportant un nombre identique d'échantillons extraits à partir de fichiers sons appartenant aux mêmes classes cible et antagoniste. Selon une autre particularité, l'étape d'élaboration de la base de données est mise en oeuvre de façon automatisée par tirage aléatoire ou pseudo-aléatoire, suite à une étape de saisie, par un utilisateur sur une interface utilisateur du système, d'un nombre d'échantillons sonores et/ou d'une durée d'échantillons sonores à utiliser parmi les fichiers sons pour la mise en oeuvre du procédé.

Selon une autre particularité, l'étape de sélection d'au moins un modèle de classification est mise en oeuvre soit par sélection d'un modèle unique stocké dans la mémoire, soit par une sélection aléatoire d'un modèle parmi une pluralité stockée dans la mémoire, soit par une sélection hiérarchique d'un modèle parmi une liste de priorité de modèles triés hiérarchiquement. Un objet supplémentaire de l'invention est de proposer un système permettant d'obtenir rapidement un modèle relativement fiable de reconnaissance de contenu sonore. A cet effet, il est proposé un système de création automatisée de modèle de reconnaissance de contenu sonore, dit extracteur, comportant au moins une fonction d'extraction de contenu sonore, dite descripteur, associé à au moins un modèle de classification paramétré, le système de création automatisée d'extracteur comportant des moyens de traitement et au moins une mémoire stockant au moins une bibliothèque de descripteurs audio et une pluralité de fichiers audio étiquetés par des labels indiquant les contenus sonores de ces fichiers selon un étiquetage sémantique relatif à des classes sonores, caractérisé en ce que la mémoire stocke une classification 12 2923043 répertoriant une pluralité d'étiquettes correspondant à des classes sonores organisées hiérarchiquement (et en ce que moyens de traitement du système exécutent un module de création automatisée agencé pour la mise en oeuvre des étapes du procédé selon l'invention. 5 Selon une autre particularité, le module de création automatisée contrôle un module de calcul agencé pour effectuer des calculs et/ou des comparaisons lors de la mise en oeuvre des étapes du procédé selon l'invention. Selon une autre particularité, le module de création automatisée lo contrôle un module de sélection agencé pour extraire des échantillons à partir des fichiers sons et/ou sélectionner des descripteurs audio et/ou sélectionner au moins un modèle de classification et/ou décomposer le problème lors de la mise en oeuvre des étapes du procédé selon l'invention. Selon une autre particularité, le module de création automatisée 15 contrôle un module de paramétrage agencé pour entraîner au moins un modèle de classification lors de la mise en oeuvre de l'étape de paramétrage du procédé selon l'invention. Un objet supplémentaire de l'invention est de proposer une utilisation du système pour permettre d'obtenir des modèles d'extraction sonore 20 efficaces dans le domaine de la surveillance et de la sécurité et, par exemple, aptes à finement détecter des sons typiques d'infractions ou d'effractions. A cet effet, il est proposé une utilisation du système selon l'invention, caractérisée en ce que le système utilise la classification et des fichiers sons 25 pour générer au moins un extracteur adapté pour une surveillance d'au moins un évènement sonore dans au moins un lieu et/ou pour un contrôle d'au moins un dispositif dans au moins un lieu. Ainsi, cette utilisation permet d'identifier tout évènement anormal par rapport à une situation donnée, l'extraction correspondant à un problème 30 saisi dans le système par un utilisateur. Selon une autre particularité, l'extracteur généré est adapté pour détecter un évènement sonore parmi les groupes de sons suivants : appels à l'aide d'une personne ou évènements anormaux ; bruits d'impact sur une voiture ; bruits de verre brisé ; alarmes, notamment d'automobile ; crissement de pneus sur un revêtement de parking souterrain ; bruits de bombe de peinture ; bruits d'explosion sourde ; bruits de moteur, de choc, de pas ou de présence humaine. Selon une autre particularité, la création automatisée d'extracteurs est mise en oeuvre sur demande d'un utilisateur accédant à une interface utilisateur du système pour consulter la classification et définir un problème d'identification en saisissant sur l'interface (4) des classes cible et antagoniste. D'autres particularités et avantages de la présente invention 15 apparaîtront plus clairement à la lecture de la description ci-après, faite en référence aux dessins annexés, dans lesquels : - la figure 1 représente schématiquement un exemple de déroulement du procédé selon un mode de réalisation l'invention ; - la figure 2 représente une taxonomie pouvant être utilisée suivant le 20 procédé de l'invention ; - la figure 3 représente schématiquement un système de classification de sons selon un mode de réalisation l'invention. DESCRIPTION DES MODES DE REALISATION PREFERES DE L'INVENTION 25 La présente invention concerne un système et un procédé de création automatisée d'un modèle de reconnaissance de contenu sonore, dit extracteur, comportant au moins une fonction d'extraction de contenu sonore, dite descripteur audio, associé à au moins un modèle de classification paramétré. Le procédé est mis en oeuvre par au moins un 30 module (3) de création automatisée exécuté sur les moyens de traitement du système (1).

On comprendra aisément à la lecture de la présente demande que les composants de la présente invention, comme généralement décrits et illustrés dans les figures, peuvent être arrangés et conçus selon une grande variété de configurations différentes. Ainsi, la description de la présente invention et les figures afférentes ne sont pas prévues pour limiter la portée de l'invention mais représentent simplement des modes de réalisation choisis. Plusieurs unités fonctionnelles décrites dans la présente description ont été nommées modules , afin de souligner leur indépendance d'exécution. Par exemple, un module peut être mis en oeuvre par circuit électronique, tel qu'un circuit intégré par exemple ou par d'autre types d'arrangement de composants, tels que par exemple des semi-conducteurs, des portes logiques, des transistors ou d'autres composants discrets. De tels modules peuvent également être mis en oeuvre par une ou plusieurs application(s) logicielle(s) ou portion(s) de code exécutable(s) au sein d'au moins un environnement logiciel, pour l'exécution par de divers types de processeurs et ce, quel que soit le langage utilisé. Un module identifié peut, par exemple, comporter un ou plusieurs blocs physiques ou logiques d'instructions machine qui peuvent, par exemple, être organisés en objet, procédé, ou fonction. De plus, les routines et instructions d'un module identifié n'ont pas besoin d'être physiquement localisés ensemble, mais peuvent comporter des instructions disparates stockées dans différents endroits qui, une fois réunis fonctionnellement et logiquement ensemble, forment le module et réalisent le but indiqué pour le module. Ainsi, la présente description utilisera le terme de module pour définir fonctionnellement divers moyens de l'invention. En effet, un module peut être une instruction simple de code exécutable, ou une pluralité d'instructions, et peut même être distribué parmi plusieurs différents segments de code ou parmi différents programmes et stocké dans plusieurs blocs de mémoires. De même, des données opérationnelles peuvent être identifiées et illustrées dans des modules, et peuvent être incorporées sous n'importe quelle forme appropriée et être organisées dans n'importe quel type approprié de structure de données. Les données opérationnelles peuvent être rassemblées ou peuvent être réparties sur différents endroits incluant différents dispositifs de stockage finis, et peuvent exister, au moins partiellement, simplement en tant que signaux électroniques sur un système ou un réseau. De plus, par le terme système, on entend ici tout type de terminal ou dispositif agencé pour effectuer les fonctions, par exemple décrites en référence aux modules. Le système comporte des moyens de traitemept de données permettant de réaliser ces fonctions décrites et pourra donc comporter des circuits spécifiques réalisant ces fonctions ou comporter, d'une manière générale, des ressources informatiques permettant d'exécuter les instructions décrites précédemment. Les références dans la présente description à une implémentation, un mode ou une variante de réalisation signifie qu'un dispositif, un module, une structure, ou une caractéristique particulière décrite est inclus dans au moins un mode de réalisation de la présente invention et que les différents exemples ne se rapportent pas forcément au même mode de réalisation. En outre, les dispositifs, les structures, ou les caractéristiques décrites peuvent être combinés de n'importe quelle façon appropriée dans un ou plusieurs mode(s) de réalisation, à moins qu'ils ne soient incompatibles entre eux. Dans la présente description, de nombreux détails spécifiques sont fournis à titre illustratif et nullement limitatif, de façon à détailler précisément l'invention. L'homme de métier comprendra cependant que l'invention peut être réalisée en l'absence d'un ou plusieurs de ces détails spécifiques ou avec des variantes. A d'autres occasions, certains aspects ne sont pas détaillés de façon à éviter d'obscurcir et alourdir la présente description et l'homme de métier comprendra que des moyens divers et variés pourront être utilisés et que l'invention n'est pas limitée aux seuls exemples décrits. La figure 3 illustre un système (1) de classification de sons permettant une création automatisée d'extracteurs de contenu sonore. L'extracteur obtenu doit être capable de reconnaître avec un taux élevé de réussite l'appartenance de sources ou événements sonores à une classe sémantique (par exemple : bruits de chantier ). En référence à la figure 3, le système (1) est par exemple doté d'un module (3) de création automatisée d'extracteurs. Ce module pourra naturellement consister en une application logicielle (3) exécutée sur des moyens de traitement du système qui pourra comporter, par exemple, un système informatique. Le système pourra comporter également une interface homme-machine (4). Par exemple, cette interface (4) pourra comporter au moins des moyens de saisie (par exemple un clavier et/ou une souris) et des moyens d'affichage (par exemple un écran) de façon à présenter les informations à l'utilisateur du système et lui permettre de saisir des choix (les moyens de saisie et d'affichage pouvant naturellement être combinés dans un seul dispositif tel qu'un écran tactile par exemple). Dans certains modes de réalisation, cette interface pourra également comporter un module d'interface permettant la coopération des différents modules du système avec les moyens de saisie et d'affichage, pour permettre de générer et traiter des menus de sélection ou d'autre types de formulaires permettant à l'utilisateur d'effectuer des actions en relation avec les fonctions du système. Dans d'autres modes de réalisation, chacun des modules générera lui-même les données nécessaires à la présentation et la saisie d'informations sur l'interface (4) utilisateur. Selon divers modes de réalisation, comme détaillé plus loin, ce module (3) de création d'extracteur pourra comporter au moins un module parmi un module de calcul (11), un module de sélection (12) et un module de paramétrage (13). Comme indiqué précédemment, ces différents modules pourront être seuls ou combinés ensemble selon divers modes de réalisation de l'invention et ils pourront être séparés ou être regroupés dans une application logicielle. Dans certains modes de réalisation, l'invention comportera uniquement le module (3) mais celui-ci pourra regrouper l'ensemble des fonctions de chacun de ces modules de calcul (11), de sélection (12) et de paramétrage (13). De plus, ils pourront être, le cas échéant, complémentés par d'autres modules réalisant d'autres fonctions, comme mentionné dans certains exemples ci-après.

Le système (1) de création automatisée d'extracteur comporte des moyens de traitement et au moins une mémoire (M1, M2) stockant au moins une bibliothèque de descripteurs audio (Dl, Di, Dj, Dn) et une pluralité de fichiers audio (2) étiquetés par des labels indiquant les contenus sonores de ces fichiers (2) selon un étiquetage sémantique relatif à des classes sonores. La bibliothèque de descripteurs audio (Dl, Di, Dj, Dn) et les fichiers sons (2) étiquetés sont stockés dans des moyens de mémorisation (M1, M2) du système (1) de classification de sons. Ces moyens de mémorisation pourront naturellement comporter au moins une mémoire (MI, M2) de n'importe quel type. La bibliothèque de descripteurs audio (Dl, Di, Dj, Dn) peut comporter des descripteurs dits MPEG-7 et des descripteurs dits non MPEG-7. L'invention permet d'utiliser éventuellement des descripteurs cités dans le lo standard MPEG-7, mais également d'autres types de descripteurs. L'invention n'est donc nullement limitée aux méthodes ou langages de description des contenus audio. Plusieurs échantillons (E) distincts sont répertoriés par le système (1) à partir de chacun des fichiers sons (2) étiquetés. Les échantillons (E) 15 peuvent être stockés dans une base de données (B1) du système (1). Dans certains modes de réalisation, ces échantillons (E) sont élaborés par le système pour tester les descripteurs audio (Dl, Di, Dj, Dn). Dans d'autres modes de réalisation, ils seront stockés à l'avance dans au moins une base (B1) de données du système (1). Dans les deux cas, ces échantillons (E) 20 sont extraits à partir des fichiers sons (2) pour répondre à un problème de classification ou d'identification sonore, comme détaillé plus loin. Pour cela, la mémoire (M1, M2) du système (1) stocke une classification (T) répertoriant une pluralité d'étiquettes correspondant à des classes (A, B) sonores organisées hiérarchiquement. Les classes (A, B, el, e2, e3) de la 25 classification (T) sont organisées selon une taxonomie ou un réseau sémantique, c'est-à-dire que les différentes classes (A, B) et sous-classes (el, e2, e3) sont identifiées sémantiquement et en fonction des relations sémantiques qui existent entre elles. Les fichiers (2) sons sont étiquetés par des labels indiquant leur appartenance à ces classes de la classification (T). 30 Ainsi, les descripteurs audio seront testés grâce à des échantillons (E) extraits à partir de fichiers sons (2) choisi d'après la classification (T) et en fonction du problème posé. On parle d'étiquetage des fichiers (2) sons car, dans le domaine de la présente invention, une étiquette correspond en général à une classe (ou sous-classe) sémantique et sont les éléments d'une taxonomie qui permettent de d'identifier un son. Ainsi, dans un fichier son, une étiquette placée dans son contexte, c'est-à-dire contenue dans un fichier d'étiquetage propre à un fichier audio, est un label permettant d'indiquer qu'à un moment donné du fichier audio se trouve un son identifié comme appartenant à une classe donnée. Chaque label est donc unique (à priori) puisqu'il réfère à une étiquette mais désigne une période temporelle unique d'un fichier audio. En pratique, les fichiers (2) sons peuvent être associés à un fichier texte (par exemple) contenant l'ensemble des labels trouvés dans le fichier (2) son et désignant des périodes temporelles où le contenu du fichier son est identifiable comme appartenant à des classes (correspondant à des étiquettes de la taxonomie). Ainsi, il est possible d'élaborer des bases de données contenant des échantillons (E) dont les labels appartiennent à une même classe (étiquette), extraits à partir de fichiers (2) sons étiquetés. Dans certains modes de réalisation, le procédé pourra comporter une étape préalable d'étiquetage sémantique, par un utilisateur, de chacun des fichiers sons (2) avec des labels indiquant l'appartenance de certaines périodes temporelles du fichier (2) son à des classes sonores (A, B) et/ou à au moins un des sous-ensembles de classification (et e2, e3) appartenant à ces classes. Cet étiquetage sera réalisé par une écoute méthodique, par un opérateur humain, des fichiers sons et par attribution de labels retrouvés dans la classification (T) à diverses périodes temporelles de ces fichiers (2) sons. Dans certains modes de réalisations, le système pourra stocker un grand nombre de fichiers (2) sons étiquetés grâce à cette étape mise en oeuvre sur le système lui-même grâce à l'interface (4) utilisateur (qui comportera également des moyens de diffusion audio pour l'écoute des fichiers) ou grâce au fait que les fichiers sons sont fournis déjà étiquetés à partir d'autres bases de données. Ainsi, par exemple, un fichier texte est associé à chacun des fichiers sons (2) et permet l'étiquetage par des labels indiquant la nature du son pour des sous-parties du fichier son. Comme détaillé plus loin, les échantillons (E) correspondant à des sous-parties seront extraits grâce au label correspondant. Les fichiers (2) sons seront numérisés et un fichier texte associé comportera au moins un label indiquant qu'à une position définie un son d'une nature définie est présent. Par exemple entre la durée 3 s et 3 s et 100 millièmes d'un fichier, il peut être indiqué le chant d'un oiseau. La classification (T) (ou taxonomie ) permet de hiérarchiser des classes sonores. Ainsi, pour des sons répartis par exemple entre deux ensembles (A, B), la taxonomie (T) prévoit pour chacun des ensembles (A, B) de classification une subdivision en plusieurs sous-ensembles (el, e2, e3) de classification complémentaires. La taxonomie (T) permet avantageusement de considérer les fichiers sons (2) selon différents niveaux de perception (du plus large au plus spécifique). Autrement dit, la taxonomie peut répertorier les échantillons de fichiers sons (2) selon plusieurs degrés de précision : l'arborescence du réseau de classification permet donc de distribuer les fichiers sons (2) à la fois dans des ensembles principaux (A, B), des sous-ensembles (el) plus descriptifs, des sous-ensembles (e2) encore plus descriptifs et des sous-ensembles (e3) détaillant encore mieux la nature du son, comme illustré à la figure 2. On comprend que le système (1), afin d'élaborer un modèle de reconnaissance de contenu sonore efficace, doit disposer des données 20 suivantes : liste de descripteurs audio (Dl, Di, Dj, Dn) ; - une classification ou taxonomie (T) définissant les noms des ensembles ou classes sonores particulières ainsi que les dépendances entre ces ensembles (A, B, el, e2, e3) 25 les fichiers sons (2) de type numérique étiquetés par leur contenu ; et - un modèle de classification (ce modèle devant encore être spécialisé et paramétré pour répondre au problème posé). Le modèle de classification choisi peut être relativement générique et implémenté à l'aide d'une application logicielle (3) stockée par le système 30 (1). De façon connue en soi, les modèles de classification peuvent être, de manière non limitative, SVM (Support Vector Machines), GMM (Gaussian Mixture Model), KNN (K Nearest Neighbor), Arbre de décision, régressions, réseaux de neurones, modèles hiérarchiques, HMM (Hidden Markov Models). Ces modèles existants ne seront pas détaillés ici car le procédé de l'invention ne porte pas spécifiquement sur ces modèles mais plutôt sur une sélection adaptée de descripteurs audio pour obtenir des fonctions d'extraction et des paramétrages optimisés pour répondre à un problème donné de reconnaissance de sons. Un problème d'identification sonore (ou de classification) pourra être résolu par un extracteur capable de discriminer un son appartenant à une classe donnée d'un son appartenant à une autre classe. En effet, un io extracteur doit être capable de résoudre (au moins partiellement) un problème de classification, en étant capable de reconnaître un son, c'est-à-dire identifier une classe sémantique à laquelle un son appartient. On peut désigner ce problème à résoudre comme un problème de classification, ou un problème d'identification sonore ou encore un problème de 15 reconnaissance sonore. D'une manière générale, un extracteur doit être capable de résoudre (au moins partiellement) le problème d'attribuer une classe correcte à un son. Le problème peut donc être défini par l'opposition entre une classe donnée et n'importe quelle autre classe de la classification (T) taxonomique. Ainsi, le procédé selon l'invention comporte une étape de 20 définition d'au moins un problème d'identification sonore. Ce problème d'identification de classe sémantique (ou classification ou reconnaissance) que l'extracteur doit être capable de résoudre (au moins partiellement), consiste à identifier sémantiquement un échantillon sonore (donc reconnaître un type de son en allouant une classe à un échantillon sonore, ce qui revient 25 à classer des sons dans des classes). Cette étape de définition du problème comporte au moins une étape de sélection, dans la classification (T), d'au moins une classe (A, B, el, e2, e3) sonore, dite cible, correspondant au type de son à identifier et d'au moins une classe sonore différente, dite antagoniste. Dans certains modes de réalisation, cette sélection pourra être 30 réalisée par un utilisateur sur une interface (4) utilisateur du système. Par exemple, l'utilisateur accédera à un menu de sélection lui permettant de choisir une classe cible au sein de la classification. Ensuite, un ensemble de classes antagonistes possibles pourra lui être proposé automatiquement (simplement par suppression de la classe cible choisie dans la classification ou par sélection automatique intelligente de classes voisines dans la classification). Dans d'autres modes de réalisation, le problème pourra être défini automatiquement par le système qui élaborera automatiquement une liste de tous les problèmes possibles à partir de la classification (T), en sélectionnant automatiquement une classe cible et une classe antagoniste. Ainsi, à partir d'une classification donnée, le système sera capable de rechercher automatiquement un extracteur correspondant à chacun des problèmes de classification possibles à partir des classes de la classification (T). Dans certains modes de réalisation, cette définition du problème par sélection des classes (suite au choix d'un utilisateur ou automatiquement par le système) pourra être mise en oeuvre par un module (12) de sélection.

Comme mentionné précédemment, le module (3) de création automatisée pourra comporter ce module (12) de sélection ou pourra en intégrer les fonctions. Les modules de calcul (11), de sélection (12) et de paramétrage (13) sont donc donnés ici pour illustrer diverses fonctions qui sont réalisées au sein du système. On attribuera dans la présente description les diverses fonctions à chacun des divers modules pour faciliter les explications, mais on comprendra que le module (3) pourra réaliser ces fonctions lui-même. Une fois le problème défini par sélection des classes cible et antagoniste, il faut extraire, parmi les fichiers sons (2), des échantillons (E) qui sont étiquetés par des labels indiquant qu'ils appartiennent à ces classes. Le module (12) de sélection pourra alors mettre en oeuvre une étape d'élaboration (50) automatisée d'au moins une base de données (B1) comportant des échantillons (E) extraits à partir de fichiers (2) sons appartenant à la classe cible et de fichiers (2) sons appartenant à au moins une classe antagoniste. Dans certains modes de réalisation, le nombre de fichiers sons (2) à extraire pour cette élaboration (50) pourra être déterminé manuellement ou automatiquement, par exemple grâce à une valeur saisie par un utilisateur et/ou une valeur stockée au préalable dans la mémoire (Ml, M2). Dans d'autres modes de réalisation, c'est la durée des échantillons à utiliser pour cette élaboration qui pourra être déterminée, également manuellement ou automatiquement. Dans d'autres modes, l'élaboration (50) nécessitera de définir à la fois le nombre et la durée des échantillons à utiliser. En variante, ni le nombre, ni la durée n'auront à être déterminés. Le procédé pourra donc requérir l'intervention de l'utilisateur qui saisira, via l'interface (4) utilisateur, un nombre de fichiers (2) sons à utiliser. L'utilisateur pourra éventuellement définir également la durée que doivent avoir les échantillons. Ainsi, l'étape d'élaboration (50) de la base (BI, BI', B1") de données est mise en oeuvre io de façon automatisée par tirage aléatoire ou pseudo-aléatoire, éventuellement suite à une étape de saisie, par un utilisateur sur une interface (4) utilisateur du système (1), d'un nombre d'échantillons (E) sonores et/ou d'une durée d'échantillons (E) sonores à utiliser parmi les fichiers (2) sons pour la mise en oeuvre du procédé. 15 En variante, le module (12) de sélection pourra définir lui-même automatiquement un nombre et/ou une durée d'échantillons, à partir par exemple de données stockées au préalable dans la mémoire (MI, M2), permettant de définir le nombre et/ou la durée minimum à utiliser pour obtenir des résultats significatifs. Ces données pourront définir par exemple le 20 nombre et/ou la durée à utiliser en fonction du nombre de fichiers (2) sons stockés dans la mémoire ou en fonction du nombre de fichiers (2) sons correspondant aux classes sélectionnées comme cible et antagoniste. De préférence, le nombre et/ou la durée des échantillons extraits des fichiers sons de la classe et de la classe antagoniste devront être sensiblement 25 égaux mais il est possible d'utiliser un nombre différent et/ou une durée différente. De même, on utilisera de préférence une seule classe antagoniste mais le problème étant défini essentiellement par l'identification d'une classe cible, on pourra choisir d'utiliser plusieurs classes non cibles pour sélectionner des fichiers (2) sons dans lesquels les échantillons (E) 30 correspondants à la classe antagoniste seront extraits. A ce stade, le système dispose d'une pluralité d'échantillons (E) extraits de fichiers (2) sons correspondants à la classe cible et à la classe antagoniste. Ainsi, le système pourra tester si un descripteur est capable de discriminer ces échantillons. Dans certains modes de réalisation, l'élaboration (50) de la base (B1) de données par sélection des échantillons pourra être mise en oeuvre par le module de sélection qui effectue un tirage aléatoire au sein des fichiers (2) sons correspondant aux classes cible et antagoniste. Dans d'autres modes de réalisation, ce tirage est pseudo-aléatoire. Par exemple, le module (12) de sélection pourra être agencé pour tenir compte du fait que les différentes classes ne sont souvent pas représentées de façon parfaitement équitable dans les fichiers (2) sons. Ainsi, un algorithme de tirage pseudo-aléatoire io permettra au module (12) de sélection de compenser ce biais de représentation statistique des classes. De plus, l'invention prévoit également un module de filtrage de superposition pour sélectionner uniquement des sons purs, c'est-à-dire qui ne sont pas superposés avec des sons provenant d'une autre source. 15 Le système (1) de la figure 3 doit rechercher les fonctions de caractérisation les plus adaptées pour identifier des échantillons de la base de données de fichiers sons (2) comme appartenant à une classe sémantique. Les descripteurs audio ont chacun diverses fonctions de caractérisation qui ne seront pas détaillées ici car elles sont connues et ne 20 sont pas l'objet spécifique de la présente invention. Une méthode (aléatoire ou intelligente) de génération automatique de descripteurs peut également être mise en oeuvre dans la présente invention. Ainsi, l'invention pourra utiliser également des descripteurs générés automatiquement et tester ces nouveaux descripteurs, par exemple dans le cas où aucun des descripteurs 25 stockés et testés n'a été sélectionné par le procédé comme étant suffisamment efficace. Des opérateurs mathématiques peuvent être utilisés pour obtenir des descripteurs plus performants relativement à la problématique posée. Les opérations réalisées pour définir les descripteurs peuvent être réalisées manuellement lors d'un prétraitement. Parmi ces 30 opérateurs mathématiques, on peut citer : Valeur Maximum, Rang, Variance, Moyenne, Valeur Minimum, Platitude, Dérivé, Dérivée seconde... (voir en début de l'annexe 1 pour l'utilisation des ces opérateurs). Des dispositifs de prétraitement de type fenêtrages temporels et filtrages fréquentiels sont également disponibles. Ils permettent d'effectuer le calcul des descripteurs de manière plus ciblée d'un point de vue de la résolution temporelle et de la résolution fréquentielle.

Le module de sélection (12) peut sélectionner une liste de descripteurs potentiels pour la résolution d'un problème donné d'extraction de contenu sonore. Au moins une dizaine de descripteurs audio (Dl, Di, Dj, Dn) peuvent être ainsi listés. Pour répondre à des problèmes complexes, il est préférable de sélectionner une liste de descripteurs audio étendue et ne ~o pas se contenter de trois descripteurs par exemple. La saisie du problème de classification audio et la sélection correspondante d'une classe sonore déterminée permettent de lancer le calcul sur les descripteurs disponibles. Le nombre d'échantillons (E) à utiliser et/ou leur durée peuv(en)t être configuré(e)(s) ou non par l'utilisateur avant de lancer ce calcul. 15 Le procédé se poursuit par une étape d'extraction automatisée d'une liste de descripteurs audio (Dl, Di, Dj, Dn) parmi ceux stockés dans la mémoire (M1, M2). Dans certains modes de réalisation, le procédé comporte une étape de sélection des descripteurs audio (Dl, Di, Dj, Dn) utilisés, consistant soit en une sélection de l'intégralité de la bibliothèque des 20 descripteurs audio (Dl, Di, Dj, Dn) stockée dans la mémoire (M1, M2), soit en une sélection, par l'utilisateur sur une interface (4) utilisateur du système (1), d'une pluralité de descripteurs audio (Dl, Di, Dj, Dn), soit en une sélection hiérarchique et automatisée d'une pluralité de descripteurs audio (Dl, Di, Dj, Dn) classés par priorité dans la bibliothèque. Une présélection de 25 descripteurs audio peut être optionnellement réalisée à l'aide de l'interface (4) homme machine pour obtenir une liste de dimension réduite de descripteurs. Pour créer de façon automatique un modèle de reconnaissance de contenu sonore, le système (1) est apte à extraire et tester les descripteurs 30 audio (Dl, Di, Dj, Dn). Pour permettre de générer un modèle de reconnaissance de contenu sonore sur la base d'un problème de classification audio déterminé relatif au contenu sonore à reconnaître, le 25 2923043 module de sélection (12) du système (1) sélectionne dans la bibliothèque au moins deux descripteurs audio (Di, Dj) à utiliser pour la suite du procédé. Une fois qu'une pluralité de descripteurs audio (D1, Di, Dj, Dn) à utiliser a été extraite, le procédé se poursuit par l'évaluation de ces descripteurs audio 5 (Dl, Di, Dj, Dn). Pour cela, un module (11) de calcul met en oeuvre une étape de calcul (51) automatisé du résultat des descripteurs audio (Dl, Di, Dj, Dn) sur les échantillons (E) de fichiers sons (2) formant la base (B1) de données d'échantillons. En effet, les descripteurs sont des fonctions d'extraction dont le résultat sur un échantillon donné doit être calculé. On lo obtient ainsi, par exemple, des vecteurs de données qui correspondent aux données extraites du fichier son par le descripteur. Cette étape de calcul (51) par le module (11) de calcul, ou par le module (3) de création, est utile pour la suite du procédé et, comme détaillé plus loin, pourra être mise en oeuvre plusieurs fois sur différentes bases de données d'échantillons différents. Les 15 valeurs données par les descripteurs sur les échantillons permettent de retenir ceux qui semblent être les meilleurs descripteurs. La sélection des descripteurs qui semblent être les meilleurs est réalisée par un test de performance (ou pertinence). Un descripteur est pertinent lorsqu'il est capable de discriminer les fichiers sons provenant de 20 classes différentes et donc qu'il arrive à identifier les sons, à les classifier. Le module (11) de calcul est agencé pour permettre notamment de réaliser un test de pertinence des descripteurs audio permettant de sélectionner uniquement les descripteurs les plus pertinents pour le problème posé. Par exemple, le module (11) de calcul pourra réaliser un test de Fisher lors d'une 25 étape (52, figure 1) d'évaluation du pouvoir discriminant (ou pertinence) des descripteurs audio (Dl, Di, Dj, Dn). La sélection des descripteurs audio (Dl, Di, Dj, Dn) lors de ce test (52) de pertinence est effectuée en fonction d'une capacité de discrimination des échantillons (E) de fichiers sons (2) étiquetés dont l'étiquetage sémantique indique qu'ils correspondent au contenu sonore 30 à reconnaître. Ainsi, le module de calcul (11) met en oeuvre une étape de test (52) automatisé de pertinence des descripteurs audio (Dl, Di, Dj, Dn) par calcul d'une capacité de discrimination de chacun des descripteurs sur 26 2923043 les échantillons (E) de fichiers sons (2) formant la base (B1) de données. Ce test (52) comporte une comparaison des résultats des descripteurs audio (D1, Di, Dj, Dn) sur les fichiers (2) sons de la classe cible par rapport à ceux d'au moins une classe antagoniste, au sein de la base (B1) de données, les 5 descripteurs audio (D1, Di, Dj, Dn) étant retenus lorsque leur capacité de discrimination est supérieure à un seuil de discrimination. Ce seuil pourra naturellement être fixé au préalable et enregistré, par exemple dans la mémoire (M1, M2) mais il pourra également être modulable par l'utilisateur (via l'interface). Au cours du test de pertinence par le module de calcul (11), io par exemple un test de Fisher, pour évaluer la pertinence des descripteurs audio (D1, Di, Dj, Dn) listés, on estime la capacité des descripteurs à résoudre le problème posé. Le système (1) pose simplement un problème de classification à deux classes (booléen), qui correspond par exemple à la problématique saisie via l'interface homme machine (4). Typiquement, un 15 attribut Ai va prendre une valeur booléenne Ai(E) pour chacun des échantillons (E) sonores utilisés lors du procédé. Par exemple, si l'attribut Ai correspond à une voiture et si un échantillon E1 est étiqueté comme définissant un son de voiture, alors on obtient voiture(Echantillonl) = vrai. Le module de calcul (11) du système (1) peut par exemple former la 20 base de données (B1) avec le même nombre d'échantillons pour les deux classes du problème de classification ainsi posé au départ, comme mentionné précédemment (ou avec des échantillons de même durée ou avec une durée totale des échantillons identiques, selon diverses variantes possibles de l'invention). Dans certains modes de réalisation de l'invention, la 25 liste de descripteurs audio (D1, Di, Dj, Dn) potentiels sera utilisée en calculant le résultat des descripteurs sur seulement un tiers des données de cette base de données (BI), comme expliqué plus loin. Alternativement le calcul peut être effectué sur une partie plus importante ou la totalité des échantillons de la base de données (BI). 30 En référence aux figures 1 et 3, un seuil de Fisher est paramétré par exemple à l'aide de l'interface (4). Ce seuil prédéfini est utilisé lors de la réalisation de l'étape (52) de test de la pertinence des descripteurs. Le pouvoir discriminant est représenté par l'outil statistique suivant : Fisher (fonctionf ) = 2 * (P A P B )2 îA2+632 où p;= Moyenne{f}c.i o;= Variance{f},; Le module de calcul (Il) du système (1) de classification peut estimer ainsi la capacité de discrimination par comparaison avec une classe sonore antagoniste choisie parmi au moins deux classes ou ensembles (A, B) de classification de sources sonores. Les descripteurs choisis doivent être peu sensibles à la variabilité au sein de la classe sonore étudiée et, en même temps, fortement discriminants pour la classe antagoniste. La taxonomie (T) est de préférence réalisée par une arborescence qui permet de diviser une branche principale de l'arbre en au moins deux classes. Le problème de reconnaissance est un problème unique à deux classes (par exemple cyclomoteur contre non-cyclomoteur ). La taxonomie peut permettre de diviser ce problème unique en plusieurs problèmes exprimés à des niveaux de classification inférieurs. Ainsi, dans certains modes de réalisation de l'invention, si le test (52) de pertinence ne révèle aucun descripteur ayant une capacité de discrimination supérieure au

seuil, le procédé permet de décomposer le problème en problèmes moins complexe. Si aucun des descripteurs audio (Dl, Di, Dj, Dn) de la liste ou de la bibliothèque n'a atteint un seuil suffisant de capacité de discrimination sur la base de l'estimation par rapport à la classe sonore antagoniste, le problème est considéré comme complexe par le système (1). Le procédé selon certains modes de réalisation de l'invention est particulièrement adapté pour abaisser la complexité rencontrée. Pour cela, le module (12) de sélection du système (1) dispose, dans ces modes de réalisation, de moyens de descendre par niveaux dans la taxonomie (T) de façon à scinder le problème complexe de départ en des problèmes plus restreints. Le procédé comporte alors une étape de décomposition (53) du problème en au moins deux problèmes moins complexes lorsque aucun des descripteurs audio (Dl, Di, Dj, Dn) n'atteint le seuil de discrimination. La décomposition consiste en une définition d'une nouvelle classe cible et/ou d'une nouvelle classe antagoniste, par décomposition d'au moins une des classes cible et antagoniste, en sous-ensembles (el, e2, e3) définis dans la classification (T) comme appartenant au moins à cette classe. De préférence, ce sera la classe de plus haut niveau dans la classification (T) qui sera divisée en sous-ensembles, mais l'invention permet naturellement diverses variantes, comme io par exemple une décomposition des deux classes cible et antagoniste. Ainsi, la décomposition donne lieu à une nouvelle itération de l'étape d'élaboration (50) de la base de données. Dans ce cas, cette étape consiste en une élaboration (50) d'au moins deux nouvelles bases (B2, B3, B4) de données à partir de ces nouvelles classes cible et/ou antagoniste. Ainsi, les étapes 15 précédentes du procédé peuvent être réitérées avec les nouvelles bases (B2, B3, B4) de données jusqu'à ce qu'au moins un des descripteurs audio (Dl, Di, Dj, Dn) atteigne le seuil pour le problème correspondant à chacune de ces bases (B2, B3, B4) de données. Dans certains modes de réalisation, lorsque aucun des descripteurs audio (Dl, Di, Dj, Dn) n'atteint le seuil pour 20 un problème spécifique et que ce problème ne peut pas ou ne peut plus être décomposé, le procédé concernant ce problème spécifique s'arrête et, par exemple, un message est affiché sur l'interface (4) pour informer l'utilisateur qu'aucun descripteur pertinent n'a pu être trouvé pour ce problème. Les descripteurs les plus pertinents (les plus discriminants) pour ce problème 25 pourront néanmoins être conservés en mémoire et utilisés ou non pour la suite du procédé. De plus, le procédé pourra continuer pour les autres problèmes définis en amont. Dans d'autres modes de réalisation, le procédé ne s'arrête pas mais continue avec l'ensemble des descripteurs et, dans une variante possible, un message est affiché sur l'interface (4) pour informer 30 l'utilisateur qu'aucun descripteur n'avait atteint le seuil pour ce problème particulier. En effet, le fait que les descripteurs ne semblent pas pertinents peut venir par exemple d'un seuil trop élevé ou du fait qu'il n'existait pas assez de classes dans la taxonomie pour décomposer le problème. Ainsi, le procédé pourra se poursuivre quand même, éventuellement en informant l'utilisateur qu'il existait un problème à ce niveau. Dans certaines variantes de réalisation, la décomposition peut ne pas être mise en oeuvre et les descripteurs pourront être utilisés pour la suite du procédé quelle que soit leur valeur atteinte lors du test (52). Dans ce cas, certains modes de réalisation prévoient un classement des descripteurs pour permettre l'élimination des descripteurs les moins pertinents grâce à une étape de sélection (54) comme expliqué ci-après. io Cette décomposition (53) revient à casser, selon la classification (T) taxonomique, le mode de répartition des échantillons (E) de la base de données (B1). En partant ainsi du plus général au plus particulier, on peut obtenir dans un premier temps deux problèmes à deux classes. Des moyens de gestion de base de données associés au module (12) de sélection 15 permettent de répartir équitablement le nombre d'échantillons (E) disponibles dans chaque classe, dans certains modes de réalisation. En prenant l'exemple du problème de d'extraction de contenus de la classe "cyclomoteur" par rapport à la classe antagoniste "non-cyclomoteur", le système (1) permet ainsi de définir deux problèmes d'un niveau inférieur, 20 relativement à la taxonomie (T) utilisée : problème 1 : "cyclomoteur" par rapport à la classe de sources non-mécaniques ; et problème 2 : "cyclomoteur" par rapport à la classe de sources mécaniques autres que cyclomoteur . 25 Autrement dit, la classe antagoniste initialement retenue ("non-cyclomoteur" dans cet exemple) est scindée en deux classes antagonistes en descendant dans la taxonomie (sources non-mécaniques et mécaniques autres que cyclomoteur ). De plus, grâce à l'utilisation de la taxonomie lors de la décomposition, on peut exclure également les 30 échantillons qui appartiennent à des classes de niveau supérieur direct (ascendants directs), de façon à éviter des problèmes du à un étiquetage approximatif des fichiers sons. Ainsi, lorsque le problème est décomposé, on décompose une classe et on exclut les classes dont elle descend directement. Dans le présent exemple, la classe antagoniste mécaniques autres que cyclomoteur exclut également les classes 2 roues , véhicule et sources mécaniques dont elle descend directement mais on n'exclut pas des classes 4 roues , moto ou aéronefs , etc. D'une façon générale, lorsque l'on sélectionne une classe antagoniste par rapport à une classe cible dans la taxonomie, on peut en fait entendre sélectionner cette classe antagoniste en excluant la classe cible et ses ascendants directs. Plus généralement, on comprend qu'au moins un des sous-ensembles (el, e2, e3) de classification peut être utilisé par le système (1) de classification lorsqu'un problème complexe est rencontré. Un descripteur audio (Di) peut alors être sélectionné sur la base d'une estimation de la capacité de discrimination qui est effectuée par rapport à des échantillons (E) étiquetés comme appartenant ou non à un tel sous- ensemble (el) de 15 classification antagoniste. Si le problème demeure complexe à ce niveau de sous-ensembles (el), on passe à un niveau de particularisation plus fin et donc à des sous-ensembles (e2) plus restreints de la taxonomie (T). La figure 2 illustre un exemple d'une telle classification ou taxonomie (T). Le processus s'arrête à 20 un problème déterminé dès qu'au moins un bon descripteur audio (Di) est trouvé. Dans l'exemple susmentionné, si le système parvient à trouver un descripteur audio convenable pour le problème 1 mais ne parvient toujours pas à déterminer un descripteur audio convenable pour le problème 2, le système (1) s'arrête pour le problème 1 et retient les descripteurs 25 convenables, et définit plusieurs problèmes pour le problème 2 d'un niveau inférieur (sous-problèmes), en suivant la taxonomie (T) : sous-problème 1 : "cyclomoteur" par rapport à la classe aéronefs ; - sous-problème 2 : "cyclomoteur" par rapport à la classe bruits industriels ; 30 -sous-problème 3 : "cyclomoteur" par rapport à la classe bruits de chantier ; - sous-problème 4 : "cyclomoteur" par rapport à la classe trains ; et - sous-problème 5 : "cyclomoteur" par rapport à la classe véhicules autres que cyclomoteur . Et on peut continuer ainsi de suite jusqu'à ce qu'on ait au moins un descripteur par sous-problème. Ainsi, après avoir sélectionné le descripteur audio (Di) répondant de façon adéquate à l'un des problèmes/sousproblèmes, le procédé se poursuit par la recherche d'un descripteur audio répondant à un autre des problèmes/sous-problèmes, et cela jusqu'à ce que soit trouvé un descripteur audio avec une capacité de discrimination suffisante (typiquement un discriminant de Fisher au moins atteignant le seuil) pour chaque problème/sous-problème. Dans certains modes de réalisation, on ne conservera que les descripteurs pour lequel le test (52) est supérieur au seuil, mais dans d'autres modes de réalisation, on conservera tous les descripteurs. En variante, on conservera les descripteurs dont le score est supérieur à un autre seuil, par exemple plus bas que celui décrit précédemment. Ainsi, on définira des descripteurs audio (Dl, Di, Dj, Dn) retenus comme ayant une capacité de discrimination suffisante soit parce qu'ils ont atteint le seuil lors du test (52) de pertinence, soit parce que le système sera configuré pour les retenir malgré le fait qu'ils n'ont pas atteint le seuil. Les différentes variantes de réalisation des étapes de test (52) et en particulier, l'algorithme définissant les règles selon lesquelles un descripteur est retenu ou non pourront correspondre à des configurations du système, éventuellement suite à des choix de l'utilisateur sur l'interface (4) homme-machine (éventuellement lors de l'affichage du message indiquant qu'aucun descripteur n'a atteint le seuil). Dans certains modes de réalisation, les descripteurs sont alors classés en fonction de leur score obtenu dans le test (52) de pertinence de façon à procéder à une étape de sélection (54) des descripteurs. Par exemple, on réunit tous les descripteurs retenus pour chaque problème et une étape de sélection (54) est entreprise par un calcul d'Information Mutuelle sur le problème correspondant (ici Cyclomoteur contre Non-cyclomoteur par exemple). On comprend que les étapes de calcul (51) du résultat des descripteurs et de test (52) de pertinence peuvent être itérées pour chacun des problèmes définis en relation avec les bases (B1, B2, B3, B4) de données. Ainsi, pour chacun des problème/sous-problème, les descripteurs audio (Dl, Di, Dj, Dn) retenus comme ayant une capacité de discrimination suffisante lors de l'étape de test (52) automatisé pourront être, selon divers modes de réalisation (éventuellement selon la configuration en cours d'exécution), des descripteurs qui ont atteint le seuil ou non, classés ou non selon leur valeur atteinte lors de ce test Les classes sonores principales (A, B) complémentaires comprennent dans l'exemple non limitatif de la figure 2 l'ensemble regroupant les sources mécaniques d'une part, et l'ensemble regroupant les sources non- mécaniques d'autre part. Le procédé peut encore continuer à déterminer des problèmes plus étroits si besoin. La figure 1 illustre la possibilité de décomposer (53) la base de données initialement disponible (BI) en différentes bases de données (B2, B3, B4) rassemblant respectivement les diverses classes antagonistes d'échantillons. On comprend que l'étiquetage 15 sémantique est réalisé notamment par des moyens d'indication, pour chacun des fichiers sons (2) étiquetés, de l'appartenance du fichier son à un des ensembles de classification (A, B) et à au moins un des sous-ensembles de classification (el, e2, e3) plus étroits. Typiquement, les fichiers sons (2) stockés peuvent être étiquetés à l'aide de méta-données permettant une 20 classification de chacun des échantillons (E), issus des fichiers sons (2) étiquetés, à la fois dans un ensemble déterminé des ensembles (A, B) de classification complémentaires et dans au moins un sous-ensemble (el, e2, e3) de cet ensemble déterminé. Lorsque des descripteurs audio pertinents ont été trouvés, le procédé 25 se poursuit par une étape de sélection (54) automatisée des descripteurs audio (Dl, Di, Dj, Dn) retenus comme ayant une capacité de discrimination suffisante lors de l'étape de test (52) automatisé. Cette sélection (54) consiste à éliminer les descripteurs redondants (en terme de quantité d'information portée, c'est-à-dire qu'on élimine les descripteurs 30 reconnaissant les mêmes informations). Une liste de descripteurs est rentrée au début et tous les descripteurs de cette liste sont calculés lors d'une phase de calcul. A la fin du calcul de chaque descripteur, on calcul un critère de Fisher. C'est une phase d'évaluation de la pertinence d'un descripteur. En référence aux figures 1 et 3, on peut vérifier que le seuil de Fisher prédéfini est atteint ou non par chacun des descripteurs étudiés. Ensuite, une première sélection se fait en fonction du seuil de Fisher atteint, en comparaison avec un seuil (par exemple grâce à une saisie faite par l'utilisateur), puis, pour les descripteurs déjà sélectionnés par le test (52) de pertinence, une deuxième sélection de descripteurs est effectuée. Cette deuxième sélection permet de garder les descripteurs qui ne sont pas redondants. Lorsque l'on trouve des descripteurs pertinents, on peut passer io directement à l'étape de sélection (54) et aux étapes suivantes, comme illustré à la figure 1. Une fois la décomposition terminée, le système (1) sélectionne les descripteurs audio (Dj) non redondants en prenant en compte l'information mutuelle apportée par rapport au premier descripteur audio (Di). Plusieurs méthodes d'introduction de descripteur peuvent être envisagées. 15 La plus simple étant d'introduire graduellement un par un les descripteurs par ordre décroissant de la valeur de leur critère de Fisher associé, sans tenir compte du problème (ou sous-problème...) sur lequel le critère de Fisher a été évalué. Une seconde méthode consiste à introduire un par un les descripteurs mais en prenant en premier lieu les meilleurs descripteurs par 20 problème évalué. Pour rappel dans la théorie de probabilités et la théorie de l'information, l'information mutuelle de deux variables est une quantité mesurant la dépendance statistique de ces variables. L'information mutuelle est nulle si et seulement si les variables sont indépendantes, et croît lorsque la dépendance augmente. Si l'on prend (X, Y) un couple de variables 25 aléatoires de densité de probabilité jointe données par P(x,y) et si l'on note les distributions marginales P(x) et P(y), alors l'information mutuelle est dans le cas discret : I (X , Y)) = E P(x, y) x log P(x, .v) X,v P(x)P(y)' Dans certains modes de réalisation, l'étape de sélection (54) 30 automatisée des descripteurs comporte, d'une part, une étape de calcul d'information mutuelle de couples de descripteurs, l'information mutuelle étant calculée sur les résultats de deux descripteurs audio (Dl, Di, Dj, Dn) sur les échantillons (E) de fichiers (2) sons et, d'autre part, une étape de comparaison de l'information mutuelle avec un seuil de redondance (IMmin).

Dans certains modes de réalisation, l'étape de test (52) de pertinence permet de classer les descripteurs d'après leur capacité de discrimination. Ensuite, comme mentionné précédemment, on sélectionne les descripteurs à comparer en terme d'information mutuelle en fonction de leur classement (Le 1' et le 2°) et/ou du problème auquel ils correspondent. io Dans certains modes de réalisation, l'étape de sélection (54) automatisée des descripteurs comporte également une étape de calcul de la rapidité avec laquelle le résultat de chacun des descripteurs est obtenu. En effet, lors de l'étape (51) de calcul des résultats des descripteurs les échantillons (E) correspondant au problème considéré, le module (11) de 15 calcul pourra mesurer la vitesse à laquelle les résultats sont obtenus. Ainsi, la sélection (54) pourra prendre cette rapidité en compte pour éliminer les descripteurs les plus lents ou nécessitant le plus de ressources de calcul. Une fois que le système a permis de sélectionner des descripteurs pertinents et éliminer les redondances, ces descripteurs retenus peuvent être 20 associés à un modèle de classification pour former un extracteur. Le procédé comporte alors une étape de sélection d'un modèle de classification stocké dans la mémoire (M1, M2) puis une étape de paramétrage (55) du modèle utilisant les descripteurs audio (Dl, Di, Dj, Dn) sélectionnés de façon à obtenir au moins un extracteur. Ainsi, un module (13) de paramétrage pourra 25 sélectionner un modèle de classification à utiliser et paramétrer (entraîner) ce modèle pour qu'il permettre d'identifier efficacement des contenus sonores. L'étape de sélection d'au moins un modèle de classification pourra, par exemple, être mise en oeuvre soit par sélection d'un modèle unique stocké dans la mémoire (Ml, M2), soit par une sélection aléatoire d'un modèle 30 parmi une pluralité stockée dans la mémoire (M1, M2), soit par une sélection hiérarchique d'un modèle parmi une liste de priorité de modèles triés hiérarchiquement. L'extracteur comporte alors des descripteurs performants 35 2923043 et un modèle de classification qui va être entraîné (paramétré) par les résultats des descripteurs. L'étape de paramétrage (55) du modèle consiste en un entraînement du modèle avec les résultats des descripteurs audio (D1, Di, Dj, Dn) sélectionnés. II est connu, notamment par le brevet s US6920424B2, qu'un modèle de classification soit entraîné grâce aux résultats de descripteurs et aucun détail supplémentaire ne sera donné ici sur cet entraînement qui pourra être réalisé de diverses manières connues, non spécifiques en elles-mêmes de l'invention. Dans certains modes de réalisation, le paramétrage (55) du modèle sera réalisé grâce aux résultats io obtenus par les descripteurs sur des échantillons (E) différents de ceux ayant servis à sélectionner les descripteurs. Ainsi, on s'assure que le paramétrage est efficace. L'étape de calcul (51) du résultat des descripteurs sera donc mise en oeuvre sur une base de données différente de la base (B1) de données utilisées pour les sélections des descripteurs, mais comportant des 15 échantillons (E) correspondant au même problème (donc aux mêmes classes cible et antagoniste). L'étape d'élaboration (50) pourra donc, dans certains modes de réalisation, être mise en oeuvre également lors de l'étape de paramétrage (55) du modèle de classification pour élaborer une autre base (B1') de données, de façon à entraîner le modèle avec des résultats 20 des descripteurs audio obtenus sur des échantillons (E) sonores différents de, mais de même durée que, et en nombre identique à, ceux de la base (B1) de données utilisée pour le test (52) de pertinence. Ensuite, le calcul (51) du résultat des descripteurs sur cette base de données dédiée permet de paramétrer le modèle. 25 Cette étape (55) de paramétrage permet de réaliser un apprentissage pour le modèle de classification. Ce modèle fournit alors un extracteur dont il reste à tester la performance. Il est prévu pour cela une étape (56) de vérification de performance de la classification permise par ce modèle paramétré. Un seuil de pourcentage de choix correct peut être paramétré par 30 l'utilisateur. Pour valider le modèle, le résultat des descripteurs est à nouveau utilisé. Ainsi, l'étape d'élaboration (50) pourra, dans certains modes de réalisation, être mise en oeuvre également lors de l'étape de validation 36 2923043 (56) de l'extracteur pour élaborer une autre base (BI") de données, de façon à valider le modèle avec des résultats des descripteurs audio obtenus sur des échantillons (E) sonores différents de ceux de la base (BI) de données utilisée pour le test (52) de pertinence (on pourra, comme mentionné s précédemment, utiliser pour cette base de données des échantillons de même durée que ceux de la première base de données et/ou en nombre identique). Le procédé pourra donc comporter encore une étape de calcul (51) du résultat des descripteurs, par exemple sur ces échantillons (E) différents de ceux de la base (BI) de données utilisée pour les sélections lo (52, 54) des descripteurs. Le procédé comporte donc une étape de validation (56) de l'extracteur paramétré par comparaison du pourcentage de choix correct de l'extracteur dans un test de d'identification de contenu sonore sur des échantillons (E) sonores avec un seuil de performance. L'extracteur est validé lorsque le pourcentage de choix correct de l'extracteur au cours du 15 test est supérieur au seuil de performance (par exemple fixé par l'utilisateur ou enregistré au préalable dans le système). Dans le cas contraire, l'extracteur est rejeté et une hausse du seuil de redondance (IMmin) permet de réitérer l'étape de sélection (54) automatisée de façon à obtenir plus de descripteurs audio et réitérer les étapes suivantes avec ces descripteurs 20 jusqu'à ce que le pourcentage de choix correct d'au moins un extracteur atteigne le seuil de performance. L'étape de validation (56) reporte les deux types d'erreurs pouvant se produire : extraction fausse et extraction manquée. Le test retenu pour la vérification et validation du modèle de classification optimisé par le 25 paramétrage peut, dans certains modes de réalisation, être simplement le pourcentage de réussite : Test(%) = nombre extractions correctes / nombre extractions (fausses + manquées + correctes). Dans d'autres modes de réalisation, la validation sera mise en oeuvre grâce à une mesure de précision, dite F-mesure , (mesurant la précision ou accuracy selon la 30 terminologie anglaise) qui combine un critère P de précision et un critère S de sensibilité.

Le critère P de précision correspond au nombre d'évènements correctement détectés, divisé par la somme du nombre d'évènements correctement détectés + le nombre d'évènements détectés à tord (faux-positifs). Le critère S de sensibilité correspond au nombre d'évènements correctement détectés divisé par le nombre total d'évènements à détecter (évènements cibles).

Dans ce mode de réalisation, la validation sera mise en oeuvre par cette mesure de précision ( F-mesure ), par exemple selon l'équation suivante : Fmesure = 2 PS (P + S) i0

Le module (3) de création automatisée du système (1) peut alors permettre de collecter les descripteurs trouvés (le meilleur pour chaque problème), de les sélectionner (Information Mutuelle) et de les associer avec le modèle de classification. Ce modèle est paramétré lors de l'étape (55) de

15 paramétrage avec notamment des ajustements de la distribution de probabilité ou des règles du modèle. Dans l'exemple non limitatif de la figure 1, ceci est réalisé sur la base d'un apprentissage réalisée avec des échantillons rassemblés dans une base de données (B1') dédiée. Ensuite l'étape (56) de vérification permet de valider l'extracteur de contenu sonore

20 ainsi fabriqué par le système (1). Dans l'exemple de la figure 1, une base de données (BI") dédiée d'échantillons (E) est utilisée pour le calcul (56) du pourcentage de réussite de l'extracteur. Dans certains modes de réalisation, ces deux bases (BI', B1") dédiées sont élaborées par une itération de l'étape d'élaboration (50) de base de données pour collecter des échantillons

25 correspondant au problème posé. On notera que ces échantillons pourront donc correspondre au même problème que celui de la base (BI) utilisée initialement, mais pourront également correspondre au problème correspondant à une des bases (B2, B3, B4) générée lors de la décomposition (53) du problème, le cas échéant. Toutes ces bases de

30 données pourront être élaborées en déterminant à l'avance un nombre d'échantillons à utiliser et/ou une durée à utiliser pour chacun des échantillons et/ou une durée totale de tous les échantillons. En variante, ces bases seront élaborées sans que le nombre ni les durées des échantillons de la classe cible ne soit identique à ceux de la classe antagoniste. L'invention s prévoit donc éventuellement que les échantillons soient extraits aléatoirement et que leur nombre et/ou leurs durées ne soient pas déterminés par l'utilisateur, mais simplement par la représentation des fichiers sons correspondant aux classes sélectionnées. Dans d'autres modes de réalisation, on choisira une façon plus simple de sélectionner (52, 54), de io paramétrer (55) et de valider (56) avec des échantillons différents. Cette solution plus simple est obtenue par le fait que l'étape d'élaboration (50) de la base (B1) de données est mise en oeuvre une seule fois avec un nombre d'échantillons (E) (déterminé ou non) puis cette base (BI) de données est séparée en trois pour obtenir une base (B1) de données pour le test (52) de 15 pertinence, une base (B1') de données pour l'étape de paramétrage (55) du modèle et une base (B1") de données pour l'étape de validation (56) de l'extracteur. Les trois bases (BI, B1', B1") pourront naturellement comporter un nombre identique ou non d'échantillons (E) (et/ou de durées identiques ou non) extraits à partir de fichiers (2) sons appartenant aux mêmes classes 20 cible et antagoniste. Ainsi, dans un mode de réalisation préféré de l'invention, le système (1) utilise respectivement, un premier ensemble d'échantillons lors de l'étape (52) de test de pertinence, un deuxième ensemble d'échantillons lors de l'étape (55) de paramétrage, et un troisième ensemble d'échantillons lors de l'étape (56) de validation. Ces différents 25 échantillons correspondent par exemple à un tiers des échantillons (E) : un premier ensemble de données (non représenté) est ainsi extrait de la totalité des échantillons (E) de la base de données (BI) du système (1) afin de mettre en oeuvre la détermination de la liste de descripteurs potentiels (devant subir le test d'évaluation). D'autres ensembles complémentaires 30 d'échantillons sont formés et stockés dans des bases de données (BI', B1") pour être utilisés lors des étapes ultérieures de paramétrage (55) et de vérification (56). 39 2923043 Pour l'étape de validation, le seuil de pourcentage de réussite peut être paramétré à une valeur de l'ordre de 70%. Si le seuil n'est pas atteint lors de l'étape (56) de vérification, le système peut augmenter le niveau du seuil d'information mutuelle (IMmin). II s'agit d'un seuil minimum pour l'information mutuelle IM, comme illustré à la figure 1. Le temps de calcul peut par ailleurs être optimisé par un choix approprié de paramètres servant à la sélection du descripteur audio. Il peut y avoir par exemple une valeur de pondération (entrée manuellement par l'utilisateur) de la valeur du critère d'information mutuelle vis-à-vis du temps de calcul du descripteur. io Dans certains mode de réalisation, afin de s'assurer que l'extracteur performant validé à la suite de la mise en oeuvre du procédé est véritablement efficace quelques soient les échantillons sur lesquels il sera utilisés à l'avenir, le procédé peut comporter une étape supplémentaire de paramétrage du modèle validé. Ainsi, une base de données correspondant 15 au même(s) problème(s) et comportant par exemple un nombre d'échantillons (E) plus important que les bases (B1, B2, B3, B4, B1', B1") utilisée précédemment, pourra être élaborée à la fin du procédé. Ensuite, le résultat des descripteurs sur cette nouvelle base de données sera calculé pour permettre d'entraîner le modèle validé. Ainsi, le modèle sera paramétré 20 avec un large ensemble d'échantillon et son efficacité sera alors encore plus garantie. On comprendra à la lecture de la présente description que le procédé permet de répondre de manière efficace à un problème complexe. La taxonomie (T) permet de faire face à ce type de problème sans pour autant 25 requérir la création d'une infinité de classes pour les sons audibles d'un environnement. La dépendance entre chaque ensemble et sous-ensemble permet de tenir compte des caractéristiques propres à chaque classe sans pour autant définir un trop grand nombre de sous-ensembles. Le procédé tire partie de la taxonomie pour trouver des bons descripteurs audio et permet 30 avantageusement d'automatiser les calculs. Le gain en temps est considérable et il devient beaucoup plus aisé de fabriquer des extracteurs de contenu sonore puisque le système selon l'invention permet de fabriquer à la 40 2923043 demande de tels extracteurs, sans recherche empirique fastidieuse. De même, le système (1) de création automatisée selon l'invention comporte au moins un module (3) de création automatisé agencé pour permettre la mise en oeuvre de ce procédé. Ce système permet avantageusement de créer s des extracteurs performants sans requérir de ressources informatiques, ni de capacité de stockage trop importantes, grâce aux gains de temps et aux nombres de classes limités. Comme expliqué précédemment, le système (1) selon l'invention pourra comporter seulement un module (3) de création réalisant toutes les io fonctions nécessaires au procédé décrit précédemment ou pourra comporter au moins un module parmi les modules de calcul (11), de sélection (12) et de paramétrage (13) décrits en référence aux différentes du procédé. Ainsi, selon divers modes de réalisation, le module (3) de création automatisée pourra contrôler un module (11) de calcul agencé pour effectuer des calculs 15 et/ou des comparaisons et/ou contrôler un module (12) de sélection agencé pour extraire des échantillons (E) à partir des fichiers (2) sons et/ou sélectionner des descripteurs audio (Dl, Di, Dj, Dn) et/ou sélectionner au moins un modèle de classification et/ou décomposer le problème et/ou contrôler un module (13) de paramétrage agencé pour entraîner au moins un 20 modèle de classification lors de la mise en oeuvre de l'étape de paramétrage (55) du modèle. Un des avantages du procédé selon l'invention est la possibilité d'obtention d'extracteurs performants capables de reconnaître un contenu sonore avec un risque minimal d'erreur. La reconnaissance automatique de 25 certains sons peut avantageusement être utilisée dans le domaine de la sécurité, par exemple dans des systèmes de détection de bruits liés spécifiquement à des effractions. Il peut s'agir de manière non limitative de bruits de verre brisé, d'alarme automobile, crissement de pneus (application pour les parkings souterrains), ou encore sons typiques d'une bombe de 30 peinture (application pour les dépôts de trains et véhicules de transport public). Le procédé peut aussi être utilisé dans des machines intelligentes activant des commandes en fonction d'un type de son spécifiquement reconnu. Des systèmes (par exemple moteurs de recherche multimédia) pouvant répondre à une requête concernant le contenu informationnel d'un signal sonore peuvent également être conçus avec le procédé de l'invention. Ainsi, l'invention concerne également une utilisation du procédé et/ou du système décrits ici. En effet, dans cette application de l'invention, le système (1) utilise la classification (T) et des fichiers (2) sons pour générer au moins un extracteur adapté pour une surveillance d'au moins un évènement sonore dans au moins un lieu et/ou pour un contrôle d'au moins un dispositif dans au moins un lieu. Par exemple, l'extracteur généré pourra être adapté pour détecter un évènement sonore parmi les groupes de sons suivants : appels à l'aide d'une personne ; bruits d'impact sur une voiture ; bruits de verre brisé ; alarmes, notamment d'automobile ; crissement de pneus sur un revêtement de parking souterrain ; bruits de bombe de peinture ; bruits d'explosion sourde ; évènements anormaux ; bruits de moteur, de chocs, de pas ou de présence humaine. Les détections possibles grâce à ce type d'extracteur permettent de surveiller divers lieux. A titre d'exemple non limitatif, on peut citer la surveillance de chantiers ou de rues, notamment pour une protection contre des infractions. De plus, les détections permettent de contrôler un dispositif tel que, par exemple, un dispositif de contrôle de l'accès à un lieu surveillé. Par exemple, une détection de bruit de moteur peut servir à contrôler l'ouverture d'une porte d'accès à un garage, de façon à remplacer les dispositifs de détection actuels qui sont parfois défaillants. La création automatisée d'extracteurs pourra être mise en oeuvre sur demande d'un utilisateur accédant à une interface (4) utilisateur du système (1) pour consulter la classification (T) et définir un problème d'identification en saisissant sur l'interface (4) des classes cible et antagoniste. Ainsi, un 42 2923043 utilisateur responsable de la surveillance ou du contrôle d'un lieu ayant déterminé un problème de classification permettant une surveillance ou un contrôle efficace, pourra accéder au système, par exemple à distance, via un réseau de communication en relation avec des moyens de communication du 5 système (1), pour consulter la classification (T) et définir via l'interface (4) le problème à résoudre par un extracteur. II doit être évident, pour les personnes versées dans l'art, que la présente invention permet des modes de réalisation sous de nombreuses autres formes spécifiques sans l'éloigner du domaine d'application de io l'invention comme revendiqué. En particulier, la description sémantique des classes audio peut également prendre en compte des informations telles que les actions des sources sonores, les contextes, les ambiances et les supports. Ces descriptions peuvent être intégrées à la taxonomie. Pour des raisons de clarté nous ne décrivons pas d'exemple les utilisant et restons au 15 niveau de la description des sources sonores.

ANNEXE Liste des descripteurs Des exemples de descripteurs sont mentionnés ci-après. Les descripteurs correspondent à des indicateurs d'une caractéristique du signal (Signal en entrée, scalaire, vecteur ou matrice de nombres en sortie). Chaque descripteur peut être calculé sur des fenêtres temporelles de longueur différentes et dans des domaines fréquentiels variables (découpages en bandes de Mel ou bande de Bark par exemple), fournissant ainsi une dimension vectorielle ou matricielle du descripteur. Il est alors lo possible d'agréger l'ensemble des informations en utilisant des opérations mathématiques comme la valeur moyenne, la valeur minimale, la variance... Il est également possible de suivre leur évolution en calculant la dérivée par rapport au temps.

15 • Descripteurs Mpeg-7 Group Description Abbréviation Basic AudioWaveform AW AudioPower AP BasicSpectral AudioSpectrumEnvelope ASE AudioSpectrumCentroid ASC AudioSpectrumSpread ASS AudioSpectrumFlatness ASF SpectralBasis AudioSpectrumBasis ASB AudioSpectrumProjection ASP SignalParameters AudioHarmonicity AH AudioFundamentalFrequency AFF TimbralTemporal LogAttackTime LAT TemporalCentroid TC TimbraiSpectral SpectralCentroid SC HarmonicSpectralCentroid HSC HarmonicSpectralDeviation HSD HarmonicSpectralSpread HSS HarmonicSpectralVariation HSV 44

Claims

REVENDICATIONS

, 1. Procédé de création automatisée d'un modèle de reconnaissance de contenu sonore, dit extracteur, comportant au moins une fonction d'extraction de contenu sonore, dite descripteur audio, associé à au moins un modèle de classification paramétré, le procédé étant mis en oeuvre par un système (1) de création automatisée d'extracteur comportant des moyens de traitement et au moins une mémoire (M1, M2) stockant au moins une bibliothèque de descripteurs audio (D1, Di, Dj, Dn) et une pluralité de fichiers audio (2) étiquetés par des labels indiquant les contenus sonores de ces io fichiers (2) selon un étiquetage sémantique relatif à des classes sonores, caractérisé en ce que la mémoire (M1, M2) stocke une classification (T) répertoriant une pluralité d'étiquettes correspondant à des classes (A, B) sonores organisées hiérarchiquement et en ce que le procédé comporte les étapes suivantes mises en oeuvre par un module (3) de création automatisée 15 exécuté sur les moyens de traitement du système (1) : définition d'au moins un problème d'identification sonore que l'extracteur doit être capable de résoudre, ce problème consistant à identifier sémantiquement un échantillon sonore et étant défini par sélection, dans la classification (T), d'au moins une classe (A, 20 B, el, e2, e3) sonore, dite cible, correspondant au type de son à identifier et d'au moins une classe sonore différente, dite antagoniste, élaboration (50) automatisée d'au moins une base de données (BI) d'échantillons (E), extraits à partir de fichiers (2) sons 25 appartenant à la classe cible et de fichiers (2) sons appartenant à au moins une classe antagoniste, extraction automatisée d'une liste de descripteurs audio (D1, Di, Dj, Dn) parmi ceux stockés dans la mémoire (MI, M2) et calcul (51) automatisé du résultat des descripteurs audio (D1, Di, Dj, Dn) 30 sur les échantillons (E) de fichiers sons (2) formant la base (BI) de données d'échantillons,test (52) automatisé de pertinence des descripteurs audio (Dl, Di, Dj, Dn) par calcul d'une capacité de discrimination de chacun des descripteurs sur les échantillons (E) de fichiers sons (2) formant la base (B1) de données, grâce à une comparaison des résultats des descripteurs audio (D1, Di, Dj, Dn) sur les fichiers(2) sons de la classe cible par rapport à ceux d'au moins une classe antagoniste, au sein de la base (B1) de données, les descripteurs audio (Dl, Di, Dj, Dn) étant retenus lorsque leur capacité de discrimination est supérieure à un seuil de discrimination, io - décomposition (53) du problème en au moins deux problèmes lorsque aucun des descripteurs audio (D1, Di, Dj, Dn) n'atteint le seuil de discrimination, la décomposition consistant en une définition d'une nouvelle classe cible et/ou d'une nouvelle classe antagoniste, par décomposition d'au moins une des classes cible 15 et antagoniste en sous-ensembles (el, e2, e3) définis dans la classification (T) comme appartenant au moins à cette classe, puis en une élaboration (50) d'au moins deux nouvelles bases (B2, B3, B4) de données à partir de ces nouvelles classes cible et/ou antagoniste, suivie d'une itération des étapes précédentes avec les 20 nouvelles bases (B2, B3, B4) de données jusqu'à ce qu'au moins un des descripteurs audio (Dl, Di, Dj, Dn) atteigne le seuil pour le problème correspondant à chacune de ces bases (B2, B3, B4) de données.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte 25 une étape de sélection (54) automatisée des descripteurs audio (D1, Di, Dj, Dn) retenus comme ayant une capacité de discrimination suffisante lors de l'étape de test (52) automatisé, cette sélection (54) consistant à éliminer les descripteurs redondants.
3. Procédé selon la revendication 2, caractérisé en ce que l'étape de 30 sélection (54) automatisée des descripteurs comporte, d'une part, une étape de calcul d'information mutuelle de couples de descripteurs, l'information mutuelle étant calculée sur les résultats de deux descripteurs audio (Dl, Di,Dj, Dn) sur les échantillons (E) de fichiers (2) sons et, d'autre part, une étape de comparaison de l'information mutuelle avec un seuil de redondance (IMmin).
4. Procédé selon une des revendications 2 et 3, caractérisé en ce que l'étape de sélection (54) automatisée des descripteurs comporte également une étape de calcul de la rapidité avec laquelle les résultats de chacun des descripteurs est obtenu, la sélection prenant cette rapidité en compte pour éliminer les descripteurs les plus lents ou nécessitant le plus de ressources de calcul. io
5. Procédé selon une des revendications 1 à 4, caractérisé en ce qu'il comporte une étape préalable d'étiquetage sémantique, par un utilisateur, de chacun des fichiers sons (2) avec des labels indiquant l'appartenance de certaines périodes temporelles du fichier (2) son à des classes sonores (A, B) et/ou à au moins un des sous-ensembles de classification (el, e2, e3) 15 appartenant à ces classes.
6. Procédé selon une des revendications 1 à 5, caractérisé en ce qu'il comporte une étape de sélection des descripteurs audio (Dl, Di, Dj, Dn) utilisés, consistant soit en une sélection de l'intégralité de la bibliothèque des descripteurs audio (Dl, Di, Dj, Dn) stockée dans la mémoire (M1, M2), soit 20 en une sélection, par l'utilisateur sur une interface (4) utilisateur du système (1), d'une pluralité de descripteurs audio (Dl, Di, Dj, Dn), soit en une sélection hiérarchique et automatisée d'une pluralité de descripteurs audio (Dl, Di, Dj, Dn) classés par priorité dans la bibliothèque.
7. Procédé selon une des revendications 1 à 6, caractérisé en ce qu'il 25 comporte une étape de sélection d'un modèle de classification stocké dans la mémoire (M1, M2) puis une étape de paramétrage (55) du modèle utilisant les descripteurs audio (Dl, Di, Dj, Dn) sélectionnés de façon à obtenir au moins un extracteur.
8. Procédé selon la revendication 7, caractérisé en ce que l'étape de 30 paramétrage (55) du modèle consiste en un entraînement du modèle avec les résultats des descripteurs audio (D1, Di, Dj, Dn) sélectionnés.
9. Procédé selon une des revendications 7 et 8, caractérisé en ce qu'il comporte une étape de validation (56) de l'extracteur paramétré par comparaison du pourcentage de choix correct de l'extracteur dans un test d'identification de contenu sonore sur des échantillons (E) sonores avec un seuil de performance, l'extracteur étant validé lorsque le pourcentage de choix correct de l'extracteur au cours du test est supérieur au seuil de performance et, dans le cas contraire, l'extracteur est rejeté et une hausse du seuil de redondance (IMmin) permet de réitérer l'étape de sélection (54) automatisée de façon à obtenir plus de descripteurs audio et réitérer les io étapes suivantes avec ces descripteurs jusqu'à ce que le pourcentage de choix correct d'au moins un extracteur atteigne le seuil de performance.
10. Procédé selon la revendication 9, caractérisé en ce que l'étape d'élaboration (50) est mise en oeuvre également lors de l'étape de validation (56) de l'extracteur pour élaborer une autre base (BI") de données, de façon 15 à valider le modèle avec des résultats des descripteurs audio obtenus sur des échantillons (E) sonores différents de ceux de la base (B1) de données utilisée pour le test (52) de pertinence.
11. Procédé selon une des revendications 7 à 10, caractérisé en ce que l'étape d'élaboration (50) est mise en oeuvre également lors de l'étape de 20 paramétrage (55) du modèle de classification pour élaborer une autre base (B1') de données, de façon à entraîner le modèle avec des résultats des descripteurs audio obtenus sur des échantillons (E) sonores différents de, mais de même durée que, et en nombre identique à, ceux de la base (BI) de données utilisée pour le test (52) de pertinence. 25
12. Procédé selon la revendication 9, caractérisé en ce que l'étape d'élaboration (50) de la base (BI) de données est mise en oeuvre une seule fois avec un nombre d'échantillons (E) déterminé puis cette base (BI) de données est séparée en trois pour obtenir une base (BI) de données pour le test (52) de pertinence, une base (B1') de données pour l'étape de 30 paramétrage (55) du modèle et une base (BI") de données pour l'étape de validation (56) de l'extracteur, les trois bases (B1, B1', BI") comportant unnombre identique d'échantillons (E) extraits à partir de fichiers (2) sons appartenant aux mêmes classes cible et antagoniste.
13. Procédé selon une des revendications 1 à 12, caractérisé en ce que l'étape d'élaboration (50) d'une base (BI, B1', BI") de données est mise en oeuvre de façon automatisée par tirage aléatoire ou pseudo-aléatoire, suite à une étape de saisie, par un utilisateur sur une interface (4) utilisateur du système (1), d'un nombre d'échantillons (E) sonores et/ou d'une durée d'échantillons (E) sonores à utiliser parmi les fichiers (2) sons pour la mise en oeuvre du procédé. l0
14. Procédé selon une des revendications 7 à 13, caractérisé en ce que l'étape de sélection d'au moins un modèle de classification est mise en oeuvre soit par sélection d'un modèle unique stocké dans la mémoire (MI, M2), soit par une sélection aléatoire d'un modèle parmi une pluralité stockée dans la mémoire (M1, M2), soit par une sélection hiérarchique d'un modèle 15 parmi une liste de priorité de modèles triés hiérarchiquement.
15. Système (1) de création automatisée de modèle de reconnaissance de contenu sonore, dit extracteur, comportant au moins une fonction d'extraction de contenu sonore, dite descripteur, associé à au moins un modèle de classification paramétré, le système (1) de création automatisée 20 d'extracteur comportant des moyens de traitement et au moins une mémoire (M1, M2) stockant au moins une bibliothèque de descripteurs audio (Dl, Di, Dj, Dn) et une pluralité de fichiers audio (2) étiquetés par des labels indiquant les contenus sonores de ces fichiers (2) selon un étiquetage sémantique relatif à des classes sonores, caractérisé en ce que la mémoire (M1, M2) 25 stocke une classification (T) répertoriant une pluralité d'étiquettes correspondant à des classes (A, B, el, e2, e3) sonores organisées hiérarchiquement, et en ce que les moyens de traitement du système (1) exécutent un module (3) de création automatisée agencé pour la mise en oeuvre des étapes du procédé selon au moins une des revendications 30 précédentes.
16. Système (1) selon la revendication 15, caractérisé en ce que le module (3) de création automatisée contrôle un module (11) de calculagencé pour effectuer des calculs et/ou des comparaisons lors de la mise en oeuvre des étapes du procédé selon au moins une des revendications 1 à 14.
17. Système (1) selon une des revendications 15 et 16, caractérisé en ce que le module (3) de création automatisée contrôle un module (12) de sélection agencé pour extraire des échantillons (E) à partir des fichiers (2) sons et/ou sélectionner des descripteurs audio (Dl, Di, Dj, Dn) et/ou sélectionner au moins un modèle de classification et/ou décomposer le problème lors de la mise en oeuvre des étapes du procédé selon au moins une des revendications 1 à 14. io
18. Système (1) selon une des revendications 15 à 17, caractérisé en ce que le module (3) de création automatisée contrôle un module (13) de paramétrage agencé pour entraîner au moins un modèle de classification lors de la mise en oeuvre de l'étape de paramétrage (55) du procédé selon une des revendications 7 et 8. 15
19. Utilisation du système selon une des revendications 15 à 18, caractérisée en ce que le système (1) utilise la classification (T) et des fichiers (2) sons pour générer au moins un extracteur adapté pour une surveillance d'au moins un évènement sonore dans au moins un lieu et/ou pour un contrôle d'au moins un dispositif dans au moins un lieu. 20
20. Utilisation selon la revendication 19, caractérisée en ce que l'extracteur généré est adapté pour détecter un évènement sonore parmi les groupes de sons suivants : - appels à l'aide d'une personne ; - bruits d'impact sur un véhicule ; 25 bruits de verre brisé ; alarmes d'automobile ; - crissement de pneus sur un revêtement de parking souterrain ; - bruits de bombe de peinture ; - bruits d'explosion sourde ; 30 bruits de moteur alarmes évènements anormaux- bruits de choc bruits de pas - bruits de présence humaine
21. Utilisation selon une des revendications 19 et 20, caractérisée en ce que la création automatisée d'extracteurs est mise en oeuvre sur demande d'un utilisateur accédant une interface (4) utilisateur du système (1) pour consulter la classification (T) et définir un problème d'identification en saisissant sur l'interface (4) des classes cible et antagoniste.