EP3799047A1

EP3799047A1 - Device, system and method for identifying a scene from an ordered sequence of sounds captured in an environment

Info

Publication number: EP3799047A1
Application number: EP20193073.2A
Authority: EP
Inventors: Danielle Le Razavet; Katell PERON; Dominique PRIGENT
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2019-09-27
Filing date: 2020-08-27
Publication date: 2021-03-31
Also published as: FR3101472A1; US11521626B2; US20210098005A1

Abstract

L'invention concerne un dispositif d'identification, un procédé d'identification et un système d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son (C1, C2, C3). Le dispositif d'identification (INTRP) est configuré pour identifier ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.The invention relates to an identification device, an identification method and a system for identifying a scene in an environment, said environment comprising at least one sound pickup means (C1, C2, C3). The identification device (INTRP) is configured to identify said scene from at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified by taking account of the chronological order in which said at least two sounds were picked up.

Description

1. Field of the invention

L'invention concerne un système d'identification d'une scène à partir de sons captés dans un environnement.The invention relates to a system for identifying a scene from sounds picked up in an environment.

2. Prior Art

Des systèmes d'identifications de situations ou de cas d'usages peuvent être particulièrement intéressants pour un usage domestique ou professionnel, notamment dans le cas de situations détectées qui nécessitent des actions urgentes à opérer.
Par exemple, dans le cas d'une personne âgée maintenue à domicile, un système de surveillance pourrait identifier des situations nécessitant une intervention.
De tels systèmes peuvent aussi présenter un intérêt dans le cas de scènes sans caractère d'urgence, qui nécessitent de manière systématique un ensemble d'actions répétitives pour lesquelles l'automatisation de ces actions répétitives serait profitable à l'utilisateur (par exemple : verrouillage de la porte suite au départ d'un dernier occupant, mise en état de veille des radiateurs, ...).
De tels systèmes peuvent avoir un intérêt également pour des personnes avec handicap pour lesquelles le système peut être une aide.
De tels systèmes d'identification de situations, peuvent également avoir un intérêt dans un domaine domestique ou professionnel, par exemple dans le cas de systèmes de surveillance d'une entreprise ou d'un domicile lors de l'absence des personnes occupant l'entreprise ou le domicile, par exemple afin de prévenir une effraction, un incendie, un dégât des eaux, etc..., ou également dans le cas de systèmes proposant divers services aux usagers.
Aujourd'hui, il n'existe pas de solution industrielle de reconnaissance/ identification de situation, d'événement ou de cas d'usages dont le fonctionnement repose sur l'identification de plusieurs sons.
Les systèmes existants basés sur une reconnaissance de sons, comme celui de la compagnie « Audio Analytics», ne ciblent que l'identification d'un seul son parmi des sons ambiants captés. Un tel système n'identifie pas une situation associée au son identifié. L'interprétation du son est laissée à la responsabilité d'un tiers, libre de déterminer par exemple si un bris de glace identifié par l'équipement est dû à une intrusion ou à un accident domestique.
Les systèmes actuels d'identification de sons utilisent des bases de données de sons qui sont actuellement insuffisamment fournies et variées, à la fois en nombre de classes, mais aussi en nombre d'échantillons par classe. Ce nombre insuffisant d'échantillons ne rend pas compte de la variabilité des sons de la vie quotidienne et peut conduire à des identifications erronées.
Les techniques actuelles d'identification des sons et de leurs émetteurs se basent sur des comparaisons avec des modèles de classes de sons. Ces modèles sont construits à partir de bases de données souvent mal qualifiées. Ils sont alors susceptibles de générer des résultats approximatifs, voire des erreurs ou des contresens.
Les Bases de Données de Sons disponibles et accessibles, gratuitement ou non (comme la base de données collaborative Freesound ou la base de données de la société Google « Google Audio Set ») sont très hétérogènes en termes de quantité et de qualité d'échantillons sonores.
De plus, elles sont dépourvues de systèmes performants de recherche ou de sélection, car les échantillons audio sont insuffisamment documentés et qualifiés. Lors de la recherche d'un échantillon, c'est après une série de tests auditifs manuels d'un grand nombre d'échantillons sonores repérés sur la base d'un ou 2 critères simples : émetteur, état (chat, chien, cafetière...) que la sélection d'un son ad-hoc peut être envisagé.Systems for identifying situations or cases of use can be particularly advantageous for domestic or professional use, in particular in the case of detected situations which require urgent actions to be taken.
For example, in the case of an elderly person kept at home, a surveillance system could identify situations requiring intervention.
Such systems can also be of interest in the case of scenes without an emergency character, which systematically require a set of repetitive actions for which the automation of these repetitive actions would be beneficial to the user (for example: locking door following the departure of a last occupant, putting the radiators on standby, etc.).
Such systems can also be of interest to people with disabilities for whom the system can be of help.
Such systems for identifying situations can also be of interest in a domestic or professional field, for example in the case of surveillance systems for a business or a home during the absence of people occupying the business. or the home, for example in order to prevent a break-in, fire, water damage, etc., or also in the case of systems offering various services to users.
Today, there is no industrial solution for recognizing / identifying situations, events or use cases whose operation is based on the identification of several sounds.
Existing systems based on sound recognition, such as that of the company “Audio Analytics”, target only the identification of a single sound among the ambient sounds picked up. Such a system does not identify a situation associated with sound identified. The interpretation of the sound is left to the responsibility of a third party, free to determine, for example, if a broken glass identified by the equipment is due to an intrusion or a domestic accident.
Current sound identification systems use sound databases which are currently insufficiently supplied and varied, both in number of classes, but also in number of samples per class. This insufficient number of samples does not account for the variability of sounds in everyday life and can lead to erroneous identifications.
Current techniques for identifying sounds and their emitters are based on comparisons with models of sound classes. These models are built from often poorly qualified databases. They are then likely to generate approximate results, or even errors or misinterpretations.
The Sound Databases available and accessible, free of charge or not (such as the Freesound collaborative database or the database of the Google company "Google Audio Set") are very heterogeneous in terms of quantity and quality of sound samples. .
In addition, they lack efficient search or selection systems because the audio samples are insufficiently documented and qualified. When searching for a sample, it is after a series of manual hearing tests of a large number of sound samples identified on the basis of one or 2 simple criteria: transmitter, state (cat, dog, coffee maker. ..) that the selection of an ad-hoc sound can be considered.

Toutes ces difficultés entrainent des incertitudes sur les classes de sons reconnues et diminuent sensiblement la performance d'un système d'identification d'une situation qui serait basé sur l'identification d'un son capté. Un tel système d'intelligence ambiante peut en être rendu inopérant, non adéquat (comme prévenir les gendarmes alors qu'on a simplement cassé un verre), voire dangereux.All these difficulties lead to uncertainties about the recognized sound classes and significantly reduce the performance of a system for identifying a situation which would be based on the identification of a picked up sound. Such an ambient intelligence system can be rendered inoperative, unsuitable (such as warning the gendarmes when a glass has simply been broken), or even dangerous.

Les systèmes d'analyse computationnelle des scènes sonores relatives à des activités (comme faire la cuisine), sont encore à l'état de recherche. Ils reposent sur l'analyse d'un corpus de sources non identifiées de sons récurrents, qui ne permettra donc pas à terme de mieux qualifier les classes de sons de référence pour entraîner les modèles. Aujourd'hui, grâce à des techniques d'apprentissage machine (ou machine-learning en anglais), ces procédés permettent de catégoriser des contextes habituels et répétitifs, mais ils sont mal adaptés à l'analyse d'événements sonores exceptionnels.Computational analysis systems for sound scenes relating to activities (such as cooking) are still being researched. They are based on the analysis of a corpus of unidentified sources of recurrent sounds, which will therefore not allow us to better qualify the reference sound classes to train the models. Today, thanks to machine learning techniques (or machine-learning in English), these procedures make it possible to categorize usual and repetitive contexts, but they are ill-suited to the analysis of exceptional sound events.

3. Disclosure of the invention

L'invention vient améliorer l'état de la technique. Elle concerne à cet effet un dispositif d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de sons. Le dispositif d'identification est configuré pour identifier ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
L'invention propose ainsi un dispositif d'identification de scène à partir de sons captés dans un environnement. Avantageusement, un tel dispositif est basé sur une succession chronologique des sons captés et classés de sorte à discriminer des scènes lorsqu'un même son capté peut correspondre à plusieurs scènes possibles.
En effet, un système d'identification de scène qui serait basé sur l'identification d'un unique son capté dans l'environnement serait peu fiable car dans certains cas, un son capté peut correspondre à plusieurs interprétations possibles, donc plusieurs situations ou scènes identifiées possibles. En effet, lorsqu'une scène n'est caractérisée que par un unique son, plusieurs scènes différentes peuvent correspondre à une même empreinte acoustique. Par exemple, un son de verre brisé peut être associé à une scène d'intrusion ou à un accident domestique, ces deux scènes correspondent à deux situations distinctes qui sont de nature à générer des réponses appropriées différentes. De plus, le dispositif d'identification selon l'invention permet de réduire l'incertitude sur l'identification de la source du son. En effet, certains sons peuvent avoir des empreintes acoustiques voisines qui sont difficiles à distinguer : par exemple un son d'aspirateur et un son de ventilateur, or ces sons ne sont respectivement pas révélateurs de la même situation. La prise en compte de plusieurs sons et de l'ordre chronologique dans lequel ces sons sont captés permet de fiabiliser les résultats du dispositif d'identification de scène. En effet, l'interprétation d'une scène est améliorée par la prise en compte de plusieurs sons captés lorsque cette scène se produit, ainsi que de l'ordre chronologique dans lequel ces sons se produisent.The invention improves the state of the art. For this purpose, it relates to a device for identifying a scene in an environment, said environment comprising at least one means for capturing sounds. The identification device is configured to identify said scene from at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified taking into account the 'chronological order in which said at least two sounds were picked up.
The invention thus proposes a scene identification device from sounds picked up in an environment. Advantageously, such a device is based on a chronological succession of the sounds picked up and classified so as to discriminate between scenes when the same sound picked up can correspond to several possible scenes.
Indeed, a scene identification system based on the identification of a single sound picked up in the environment would be unreliable because in some cases, a sound picked up can correspond to several possible interpretations, therefore several situations or scenes. identified possible. Indeed, when a scene is characterized only by a single sound, several different scenes can correspond to the same acoustic imprint. For example, the sound of broken glass may be associated with a scene of intrusion or a domestic accident; these two scenes correspond to two distinct situations which are likely to generate different appropriate responses. In addition, the identification device according to the invention makes it possible to reduce the uncertainty on the identification of the source of the sound. Indeed, certain sounds can have neighboring acoustic imprints which are difficult to distinguish: for example a vacuum cleaner sound and a fan sound, but these sounds are not respectively indicative of the same situation. Taking into account several sounds and the chronological order in which these sounds are picked up makes it possible to make the results of the scene identification device more reliable. Indeed, the interpretation of a scene is improved by taking into account several sounds picked up when this scene occurs, as well as the chronological order in which these sounds occur.

Selon un mode particulier de réalisation de l'invention, la scène est identifiée parmi un groupe de scènes prédéfinies, chaque scène prédéfinie étant associée à un nombre prédéterminé de sons marqueurs, lesdits sons marqueurs d'une scène prédéfinie étant ordonnés de manière chronologique.According to a particular embodiment of the invention, the scene is identified from among a group of predefined scenes, each predefined scene being associated with a predetermined number of marker sounds, said marker sounds of a predefined scene being ordered chronologically.

Selon un autre mode particulier de réalisation de l'invention, le dispositif est outre configuré pour recevoir au moins une donnée complémentaire fournie par un objet connecté dudit environnement et associer un label à une classe de sons d'un son capté ou à ladite scène identifiée. Selon ce mode particulier de l'invention, des objets connectés placés dans l'environnement dans lequel les sons sont captés transmettent au dispositif d'identification des données complémentaires.
De telles données complémentaires peuvent par exemple être une information de localisation du son capté, une information temporelle (heure, jour/nuit), une température, une information de type service : par exemple une information domotique indiquant qu'une lumière est allumée, une fenêtre est ouverte, une information météo fournis par un serveur....
Selon ce mode particulier de l'invention, des labels sont prédéfinis en fonction du type et de la valeur des données complémentaires susceptibles d'être reçues. Par exemple, des labels de type : jour/nuit sont définis pour des données complémentaires correspondant un horaire, des labels de type : chaud/froid/tempéré sont définis pour des données complémentaires correspondant à des valeurs de températures, des labels représentatifs de la localisation peuvent être définis pour des données complémentaires correspondant à la localisation du son capté. Dans certains cas, les données complémentaires peuvent également correspondre directement à un label, par exemple un objet connecté peut transmettre un label de localisation qui lui a été préalablement renseigné...
Par la suite, un label peut également être appelé qualificatif.
Selon ce mode particulier de réalisation de l'invention, les données complémentaires permettent de qualifier (i.e. décrire sémantiquement) une classe de sons ou une scène identifiée. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier la classe de son à l'aide d'un label associé à la localisation (par exemple : douche, cuisine, etc...).According to another particular embodiment of the invention, the device is further configured to receive at least one additional piece of data supplied by a connected object of said environment and to associate a label with a class of sounds of a sound picked up or with said identified scene. . According to this particular embodiment of the invention, connected objects placed in the environment in which the sounds are picked up transmit additional data to the identification device.
Such additional data can for example be information on the location of the sound picked up, time information (time, day / night), temperature, service type information: for example home automation information indicating that a light is on, a window is open, weather information provided by a server ....
According to this particular embodiment of the invention, labels are predefined as a function of the type and value of the additional data likely to be received. For example, labels of the type: day / night are defined for additional data corresponding to a schedule, labels of the type: hot / cold / temperate are defined for additional data corresponding to temperature values, labels representative of the location can be defined for additional data corresponding to the location of the sound picked up. In certain cases, the additional data can also correspond directly to a label, for example a connected object can transmit a location label which has been previously informed to it ...
Subsequently, a label can also be called a qualifier.
According to this particular embodiment of the invention, the additional data make it possible to qualify (ie to describe semantically) a class of sounds or an identified scene. For example, for a captured sound corresponding to flowing water, information on the location of the captured sound will make it possible to qualify the sound class using a label associated with the location (for example: shower, kitchen, etc ...).

Selon un autre mode particulier de réalisation de l'invention, le dispositif est outre configuré pour, lorsqu'un son capté est associé à plusieurs classes de sons possibles, déterminer une classe de sons dudit son capté à l'aide de ladite au moins une donnée complémentaire reçue. Selon ce mode particulier de réalisation de l'invention, les données complémentaires permettent de discriminer des sons ayant des empreintes acoustiques proches. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de discriminer si le son doit être associé à une classe de son de type douche ou à une classe de son de type pluie.
En variante, les données complémentaires peuvent être utilisées pour affiner une classe de sons en créant de nouvelles classes de sons plus précises à partir de la classe de sons initiale. Par exemple, pour un son capté qui a été associé à une classe de sons correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier le son capté à l'aide d'un label associé à la localisation (par exemple : douche, cuisine, etc...). Une nouvelle classe de sons de type eau qui coule dans une pièce de type douche/cuisine peut être créée. Cette nouvelle classe de sons sera alors plus précise que la classe de sons initiale « eau qui coule ». Elle permettra une analyse plus fine lors des prochaines identifications de scène.According to another particular embodiment of the invention, the device is further configured for, when a picked up sound is associated with several possible sound classes, determining a class of sounds of said picked up sound using said at least one additional data received. According to this particular embodiment of the invention, the complementary data make it possible to discriminate sounds having similar acoustic imprints. For example, for a picked up sound corresponding to flowing water, information on the location of the picked up sound will make it possible to discriminate whether the sound must be associated with a sound class of shower type or with a sound class of rain type.
Alternatively, the complementary data can be used to refine a class of sounds by creating new, more precise classes of sounds from the initial class of sounds. For example, for a picked up sound that has been associated with a class of sounds corresponding to flowing water, information on the location of the picked up sound will make it possible to qualify the picked up sound using a label associated with the location. (for example: shower, kitchen, etc ...). A new class of flowing water-like sounds in a shower / kitchen-like room can be created. This new class of sounds will then be more precise than the initial “flowing water” class of sounds. It will allow a more detailed analysis during the next scene identifications.

Selon un autre mode particulier de réalisation de l'invention, le dispositif est configuré en outre pour déclencher au moins une action à exécuter suite à l'identification de ladite scène.According to another particular embodiment of the invention, the device is further configured to trigger at least one action to be performed following the identification of said scene.

Selon un autre mode particulier de réalisation de l'invention, le dispositif est configuré en outre pour transmettre à un dispositif d'enrichissement au moins une partie des données suivantes :

une information indiquant la scène identifiée, et au moins deux classes de sons et un ordre chronologique associés à la scène identifiée,
au moins une partie des fichiers audio correspondant aux sons captés associés respectivement à une classe de sons,
le cas échéant au moins une classe de sons associée à un label.

According to another particular embodiment of the invention, the device is further configured to transmit to an enrichment device at least part of the following data:

information indicating the identified scene, and at least two classes of sounds and a chronological order associated with the identified scene,
at least part of the audio files corresponding to the sounds picked up associated respectively with a class of sounds,
where appropriate at least one class of sounds associated with a label.

L'invention concerne également un système d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit système comprend :

un dispositif de classification configuré pour :
- ∘ recevoir des sons captés dans ledit environnement,
- ∘ déterminer pour chaque son reçu, au moins une classe de sons,
un dispositif d'identification selon l'un quelconque des modes particuliers de réalisation décrits ci-dessus.

Selon un mode particulier de réalisation de l'invention, le système d'identification comprenant en outre un dispositif d'enrichissement configuré pour mettre à jour au moins une base de données avec au moins une partie des données transmises par le dispositif d'identification. Selon ce mode particulier de l'invention, le système selon l'invention permet d'enrichir des bases de données existantes, ainsi que les relations liant des éléments de ces bases de données entre eux, par exemple :

une base de données de sons à l'aide d'au moins une partie des fichiers audio correspondant aux sons captés,
une base de données de qualificatifs à l'aide des labels obtenus par les données complémentaires par exemple.
les relations entre des fichiers audio, des classes de sons et des labels (qualificatifs) complémentaires provenant de données de capteurs ou de services.

The invention also relates to a system for identifying a scene in an environment, said environment comprising at least one means for capturing sound, said system comprising:

a classification device configured to:
- ∘ receive sounds picked up in said environment,
- ∘ determine for each sound received, at least one class of sounds,
an identification device according to any one of the particular embodiments described above.

According to a particular embodiment of the invention, the identification system further comprising an enrichment device configured to update at least one database with at least part of the data transmitted by the identification device. According to this particular embodiment of the invention, the system according to the invention makes it possible to enrich existing databases, as well as the relationships linking elements of these databases to each other, for example:

a sound database using at least part of the audio files corresponding to the sounds picked up,
a database of qualifiers using the labels obtained by the complementary data, for example.
the relationships between audio files, sound classes and additional labels (qualifiers) coming from data from sensors or services.

L'invention concerne également un procédé d'identification d'une scène dans un environnement, ledit environnement comprenant au moins un moyen de captation de son, ledit procédé d'identification comprend l'identification de ladite scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés.
Selon un mode particulier de réalisation de l'invention, le procédé d'identification comprend en outre la mise à jour, d'au moins une base de données, à l'aide d'au moins une partie des données suivantes :

The invention also relates to a method of identifying a scene in an environment, said environment comprising at least one sound pickup means, said identification method comprises identifying said scene from at least two sounds. picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified taking into account the chronological order in which said at least two sounds were picked up.
According to a particular embodiment of the invention, the identification method further comprises updating at least one database, using at least part of the following data:

L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé ci-dessus selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Le procédé peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle.
Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-avant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.The invention also relates to a computer program comprising instructions for implementing the above method according to any one of the particular embodiments described above, when said program is executed by a processor. The method can be implemented in various ways, in particular in wired form or in software form.
This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other. desirable shape.
The invention also relates to a recording medium or information medium readable by a computer, and comprising instructions of a computer program as mentioned above. The aforementioned recording media can be any entity or device capable of storing the program. For example, the medium may comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or else a magnetic recording means, for example a hard disk. On the other hand, the recording media can correspond to a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means. The programs according to the invention can in particular be downloaded from an Internet type network.
Alternatively, the recording media can correspond to an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.

4. List of figures

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :

[Fig 1] La figure 1 illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation de l'invention,
[Fig 2] La figure 2 illustre des étapes du procédé d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention,
[Fig 3] La figure 3 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention,
[Fig 4] La figure 4 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention,
[Fig 5] La figure 5 illustre schématiquement un dispositif d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention.

Other characteristics and advantages of the invention will emerge more clearly on reading the following description of particular embodiments, given by way of simple illustrative and non-limiting examples, and from the appended drawings, among which:

[ Fig 1 ] The figure 1 illustrates an example of an environment for implementing the invention according to a particular embodiment of the invention,
[ Fig 2 ] The figure 2 illustrates steps of the method of identifying a scene in an environment, according to a particular embodiment of the invention,
[ Fig 3 ] The figure 3 schematically illustrates a device for identifying a scene in an environment, according to a particular embodiment of the invention,
[ Fig 4 ] The figure 4 schematically illustrates a device for identifying a scene in an environment, according to another particular embodiment of the invention,
[ Fig 5 ] The figure 5 schematically illustrates a device for identifying a scene in an environment, according to another particular embodiment of the invention.

5. Description of an embodiment of the invention

L'invention propose par l'identification successive de sons captés dans un environnement la détermination d'un cas d'usage qui leur est associé.
Par cas d'usage, on entend ici un ensemble constitué d'un contexte et d'un événement. Le contexte est défini par des éléments de l'environnement, comme la localisation, les acteurs en jeu, le moment présent (jour/nuit), etc....
L'événement est singulier, occasionnel et fugace. L'événement marque une transition ou une rupture dans une situation vécue. Par exemple, dans une situation où une personne s'active dans une cuisine et réalise des tâches de préparation de repas, un événement peut correspondre au moment où cette personne s'entaille la main avec un couteau. Selon cet exemple, un cas d'usage est alors défini par le contexte comprenant la personne présente, la cuisine, et par l'événement d'accident de coupe.
Un autre exemple de cas d'usage est par exemple une scène de départ du domicile par son occupant. Selon cet exemple, le contexte comprend l'occupant du domicile, la localisation (entrée du domicile), des éléments avec lesquels l'occupant est susceptible d'interagir lors de ce cas d'usage (placard, clés, chaussures, vêtements, ..), et l'événement est le départ du domicile.
L'invention vient identifier de tels cas d'usages définis par un contexte et un événement qui se déroulent dans un environnement. De tels cas d'usages sont caractérisés par une suite chronologique de sons générés par le mouvement et les interactions entre les éléments/personnes de l'environnement lorsque le cas d'usage se produit. Il peut s'agir de sons spécifiques au contexte ou à l'événement du cas d'usage. C'est l'identification successive de ces sons et selon l'ordre chronologique dans lequel ils sont captés que le cas d'usage pourra être déterminé.
Par la suite, on utilisera indifféremment les termes de situation, cas d'usage ou scène.The invention proposes by successive identification of sounds picked up in an environment the determination of a use case associated with them.
By use case is meant here a set made up of a context and an event. The context is defined by elements of the environment, such as the location, the actors in play, the present moment (day / night), etc.
The event is singular, occasional and fleeting. The event marks a transition or a break in a lived situation. For example, in a situation where a person is busy in a kitchen and performing meal preparation tasks, an event may be the moment when that person cuts their hand with a knife. According to this example, a use case is then defined by the context comprising the person present, the kitchen, and by the cutting accident event.
Another example of a use case is for example a scene of departure from the home by its occupant. According to this example, the context includes the occupant of the home, the location (entrance to the home), elements with which the occupant is likely to interact during this use case (cupboard, keys, shoes, clothing, etc. .), and the event is departure from home.
The invention identifies such use cases defined by a context and an event which take place in an environment. Such use cases are characterized by a chronological sequence of sounds generated by movement and interactions between elements / people in the environment when the use case occurs. These can be sounds specific to the context or the event of the use case. It is the successive identification of these sounds and according to the chronological order in which they are captured that the use case can be determined.
Subsequently, the terms of situation, use case or scene will be used interchangeably.

On décrit ci-après la figure 1 qui illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation de l'invention, en relation avec la figure 2 illustrant le procédé d'identification d'une scène.
L'environnement illustré en figure 1 comprend notamment un système SYS de collecte et d'analyse de sons captés dans l'environnement via un ensemble de moyens de captations de sons.
Un réseau de moyens de captation de sons est localisé dans l'environnement. De tels moyens de captation de sons (C1, C2, C3) sont par exemple des microphones intégrés dans différents équipements situés dans l'environnement. Par exemple, dans le cas où l'environnement correspond à un domicile, il peut s'agir de microphones intégrés dans des terminaux mobiles lorsque l'utilisateur propriétaire du terminal est au domicile, de microphones intégrés dans des terminaux de type ordinateur, tablettes, etc... et de microphones intégrés dans tout type d'objets connectés tels que radio connectée, télévision connectée, assistant personnel, des terminaux intégrant des systèmes microphoniques dédiés à la reconnaissance de sons, etc...
On décrit ici le procédé selon l'invention à l'aide de trois microphones. Toutefois, le procédé selon l'invention peut également être mis en œuvre avec un seul microphone. De manière générale, le réseau des moyens de captation de sons peut comprendre tous types de microphones intégrés dans des équipements informatiques ou multimédia déjà placés dans l'environnement ou spécialement placés pour la reconnaissance sonore. Le système selon l'invention peut utiliser des microphones déjà localisés dans l'environnement pour d'autres usages. Il n'est ainsi pas toujours nécessaire de placer spécifiquement dans l'environnement des microphones.
Dans le mode particulier de réalisation décrit ici, l'environnement comprend également des objets connectés IOT, par exemple un assistant personnel, une TV connectée, ou une tablette, équipement domotique, ...The following describes the figure 1 which illustrates an example of an environment for implementing the invention according to a particular embodiment of the invention, in relation to the figure 2 illustrating the process of identifying a scene.
The environment illustrated in figure 1 comprises in particular a SYS system for collecting and analyzing sounds picked up in the environment via a set of sound pickup means.
A network of sound capture means is located in the environment. Such sound pick-up means (C1, C2, C3) are, for example, microphones integrated into different equipment located in the environment. For example, in the case where the environment corresponds to a home, it may be microphones integrated into mobile terminals when the user owning the terminal is at home, microphones integrated into terminals such as computers, tablets, etc. etc ... and microphones integrated in all types of connected objects such as connected radio, connected television, personal assistant, terminals integrating microphone systems dedicated to the recognition of sounds, etc ...
The method according to the invention is described here using three microphones. However, the method according to the invention can also be implemented with a single microphone. In general, the network of sound capture means can include all types of microphones integrated into computer or multimedia equipment already placed in the environment or specially placed for sound recognition. The system according to the invention can use microphones already located in the environment for other uses. It is thus not always necessary to place microphones specifically in the environment.
In the particular embodiment described here, the environment also includes IOT connected objects, for example a personal assistant, a connected TV, or a tablet, home automation equipment, etc.

Le système SYS de collecte et d'analyse de sons communique avec les moyens de captations et éventuellement les objets connectés IOT via un réseau local RES, par exemple un réseau WiFi d'une passerelle domestique (non représentée).
L'invention n'est pas limitée à ce type de modes de communication. D'autres modes de communications sont également possibles. Par exemple, le système SYS de collecte et d'analyse de sons peut communiquer avec les moyens de captations et/ou les objets connectés IOT en Bluetooth ou via un réseau filaire.
Selon une variante, le réseau local RES est connecté à un réseau de données plus large INT, par exemple l'Internet via la passerelle domestique.
Selon l'invention, le système SYS de collecte et d'analyse de sons identifie à partir des sons captés dans l'environnement une scène ou un cas d'usage.
Dans le mode particulier de réalisation décrit ici, le système SYS de collecte et d'analyse de sons comprend notamment :

un module de classification CLASS,
un module d'interprétation INTRP,
une base de données de fichiers audio BSND_loc,
une base de données de classes de sons BCLSND_loc,
une base de données de labels BLBL_loc,
une base de données de cas d'usage BSC_loc.

Le module de classification CLASS reçoit (étape E20) des flux audio en provenance des moyens de captations. Pour cela, une application spécifique peut être installée dans les équipements de l'environnement intégrant des microphones pour que ces équipements transmettent le flux audio du son qu'ils captent. Une telle transmission peut être réalisée en continu, ou à intervalle réguliers, ou sur détection d'un son ayant une certaine amplitude.
Suite à la réception d'un flux audio, le module de classification CLASS analyse le flux audio reçu pour déterminer (étape E21) la ou les classes de sons correspondant au son reçu via un ou plusieurs modèles de prédiction issus d'apprentissage automatique. Les sons de la base de données de sons sont mis en correspondance avec des classes de sons mémorisées dans la base de données de classes de sons BCLSND_loc. Le module de classification détermine la ou les classes de sons correspondant au son reçu en sélectionnant la ou les classes de sons associées à un son de la base de données de sons proche du son reçu. Le module de classification fournit ainsi en sortie au moins une classe CL_i de sons associée au son reçu avec un taux de probabilité P_i.
Les classes de sons retenues pour un son analysé correspondent à un seuil de probabilité acceptable préalablement déterminé. Autrement dit, on ne retient que les classes de sons pour lesquelles le taux de probabilité que le son reçu corresponde à un son associé à la classe de son est supérieur à un seuil prédéterminé.
Les classes de sons et leur probabilité associée sont ensuite transmises au module d'interprétation INTRP pour qu'il identifie la scène en train de se dérouler. Pour cela, le module d'interprétation s'appuie sur un ensemble de cas d'usage stockés dans la base de données de cas d'usage BSC_loc.
Un cas d'usage est défini sous la forme de N sons marqueurs, avec N un entier positif supérieur ou égal à 2.
Les cas d'usage ont été définis au préalable de manière expérimentale et montés à l'aide d'une succession de sons caractérisant chaque étape de la scène. Par exemple, dans le cas d'une scène de départ du domicile, la succession de sons suivante a été montée : son du placard qui s'ouvre, son d'enfilage de manteau, son de placard qui se ferme, son de pas, son de porte qui s'ouvre, son de porte qui se ferme, son de fermeture à clé. Chaque montage de scène a été soumis à des personnes malvoyantes pour déterminer la pertinence des sons-étapes choisies et déterminer des sons marqueurs permettant d'identifier la scène.
L'expérimentation a permis d'identifier qu'un nombre de 3 sons marqueurs est suffisant pour identifier une scène et d'identifier, pour chaque scène, les sons marqueurs qui la caractérise, parmi les sons de la succession de sons montée lors de l' expérimentation.
Dans le mode particulier de réalisation de l'invention décrit ici, on considère donc N =3. D'autres valeurs sont toutefois possibles. Le nombre de sons marqueurs peut dépendre de la complexité de la scène à identifier. Dans d'autres variantes, seuls 2 sons marqueurs peuvent être utilisés, ou bien des sons marqueurs supplémentaires (N> 3) peuvent être ajoutés afin de préciser une scène ou distinguer des scènes trop proches acoustiquement. Le nombre de sons marqueurs utilisé pour identifier une scène peut également varier en fonction de la scène à identifier. Par exemple, certaines scènes pourront être définies par 2 sons marqueurs, d'autres scènes par 3 sons marqueurs, etc... Dans cette variante, le nombre de sons marqueurs n'est pas fixe.The SYS sound collection and analysis system communicates with the capture means and possibly the IOT connected objects via a local network RES, for example a WiFi network of a home gateway (not shown).
The invention is not limited to this type of communication mode. Other modes of communication are also possible. For example, the SYS sound collection and analysis system can communicate with the capture means and / or IOT connected objects via Bluetooth or via a wired network.
According to one variant, the local network RES is connected to a larger data network INT, for example the Internet via the home gateway.
According to the invention, the SYS system for collecting and analyzing sounds identifies from the sounds picked up in the environment a scene or a use case.
In the particular embodiment described here, the SYS system for collecting and analyzing sounds comprises in particular:

a CLASS classification module,
an INTRP interpretation module,
_{a BSND loc} audio file database,
_{a BCLSND loc} sound class database,
a BLBL _loc label database,
a BSC _loc .

The CLASS classification module receives (step E20) audio streams originating from the capture means. To do this, a specific application can be installed in the environmental equipment integrating microphones so that these equipments transmit the audio stream of the sound they pick up. Such a transmission can be carried out continuously, or at regular intervals, or on detection of a sound having a certain amplitude.
Following the reception of an audio stream, the CLASS classification module analyzes the received audio stream to determine (step E21) the class or classes of sounds corresponding to the sound received via one or more prediction models resulting from automatic learning. Sounds in the sound database are matched with sound classes stored in the BCLSND _loc sound class database. The classification module determines the class or classes of sounds corresponding to the sound received by selecting the class or classes of sounds associated with a sound from the sound database close to the sound received. The classification module thus outputs at least one class CL _i of sounds associated with the sound received with a probability rate P _i .
The sound classes retained for an analyzed sound correspond to an acceptable probability threshold determined beforehand. In other words, only the sound classes are retained for which the probability rate that the sound received corresponds to a sound associated with the sound class is greater than a predetermined threshold.
The sound classes and their associated probability are then transmitted to the INTRP interpretation module so that it identifies the scene in progress. For this, the interpretation module is based on a set of use cases stored in the BSC _loc use case database.
A use case is defined in the form of N marker sounds, with N a positive integer greater than or equal to 2.
The use cases have been defined beforehand in an experimental way and assembled using a succession of sounds characterizing each stage of the scene. For example, in the case of a scene leaving the home, the following succession of sounds has been set up: sound of the closet opening, the sound of a coat being put on, the sound of the closet closing, the sound of footsteps, sound of door opening, sound of door closing, sound of key lock. Each scene set-up was submitted to visually impaired people to determine the relevance of the sound-stages chosen and to determine the marker sounds making it possible to identify the scene.
The experiment made it possible to identify that a number of 3 marker sounds is sufficient to identify a scene and to identify, for each scene, the marker sounds which characterize it, among the sounds of the succession of sounds mounted during the stage. ' experimentation.
In the particular embodiment of the invention described here, N = 3 is therefore considered. However, other values are possible. The number of marker sounds may depend on the complexity of the scene to be identified. In other variants, only 2 marker sounds can be used, or additional marker sounds (N> 3) can be added in order to specify a scene or distinguish scenes that are too close acoustically. The number of marker sounds used to identify a scene may also vary depending on the scene to be identified. For example, certain scenes could be defined by 2 marker sounds, other scenes by 3 marker sounds, etc. In this variant, the number of marker sounds is not fixed.

La base de données de cas d'usage BSC_loc a ensuite été peuplée avec les scènes définies, chaque scène étant caractérisée par 3 sons marqueurs selon un ordre chronologique.
Selon un mode particulier de réalisation de l'invention, les scènes définies dans la base de données de cas d'usage BSC_loc peuvent provenir d'une base de données de cas d'usage plus large BSC, par exemple préalablement définie par un fournisseur de service selon l'expérimentation décrite ci-dessus ou tout autre méthode. Les scènes mémorisées dans la base de données de cas d'usage BSC_loc peuvent avoir été préalablement sélectionnés par l'utilisateur, par exemple lors d'une phase d'initialisation. Cette variante permet d'adapter les cas d'usage possibles à identifier pour un utilisateur en fonction de ses habitudes ou de son environnement.
Afin d'identifier une scène en cours, le module d'interprétation INTRP s'appuie donc sur une succession de sons reçus et analysés par le module de classification CLASS. Pour chaque son reçu par le module de classification CLASS, celui-ci transmet au module d'interprétation INTRP au moins une classe associée au son reçu et une probabilité associée.
Le module d'interprétation compare (étape E22) la succession de classes de sons reconnues par le module de classification, dans l'ordre chronologique de captation des sons correspondants, avec les sons-marqueurs caractérisant chaque scène de la base de données de cas d'usage BSC_loc.
Selon un mode particulier de réalisation de l'invention, le module d'interprétation INTRP prend aussi en compte des données complémentaires transmises (étape E23) au module d'interprétation INTRP par des objets connectés (IOT) placés dans l'environnement. De telles données complémentaires peuvent par exemple être une information de localisation du son capté, une information temporelle (heure, jour/nuit), une température, une information de type service : par exemple une information domotique indiquant qu'une lumière est allumée, une fenêtre est ouverte, une information météo fournis par un serveur....
Selon le mode particulier de l'invention décrit ici, des labels ou qualificatifs sont prédéfinis et stockés dans la base de données de labels BLBL_loc. Ces labels dépendent du type et de la valeur des données complémentaires susceptibles d'être reçues. Par exemple, des labels de type : jour/nuit sont définis pour des données complémentaires correspondant un horaire, des labels de type : chaud/froid/tempéré sont définis pour des données complémentaires correspondant à des valeurs de températures, des labels représentatifs de la localisation peuvent être définis pour des données complémentaires correspondant à la localisation du son capté.
Dans certains cas, les données complémentaires peuvent également correspondre directement à un label, par exemple, lorsque le son reçu par le module de classification a été transmis par un objet connecté, l'objet connecté peut transmettre avec le flux audio, un label de localisation correspondant à son emplacement...
Les données complémentaires permettent de qualifier (i.e. décrire sémantiquement) une classe de sons ou une scène identifiée. Par exemple, pour un son capté correspondant à de l'eau qui coule, une information de localisation du son capté permettra de qualifier la classe de son à l'aide d'un label associé à la localisation (par exemple: douche, cuisine, etc...). Selon cet exemple, le module d'interprétation INTRP peut alors qualifier la classe de sons associée à un son reçu.
Selon un autre exemple, pour un son capté associé à deux classes de sons qui sont proches acoustiquement, donc avec des taux de probabilités assez proches, une information de localisation du son capté permettra d'affiner la classe de sons la plus probable. Par exemple, un label associé à la localisation permettra de distinguer un son d'une classe de sons correspondant à de l'eau qui coule d'un robinet d'une classe de sons correspondant à de la pluie.
En sortie, le module d'interprétation fournit la scène identifiée et un taux de probabilité associé. En effet, comme pour l'identification d'une classe de sons correspondant à un son capté, l'identification d'une scène est faite par comparaison des sons captés avec des sons-marqueurs caractérisant un cas d'usage. Les sons captés ne sont pas identiques aux sons-marqueurs, car les sons marqueurs peuvent avoir été générés par d'autres éléments que ceux de l'environnement. De plus, le bruit ambiant de l'environnement peut également impacter l'analyse des sons.
Le module d'interprétation fournit également en sortie pour chaque classe de sons identifiées par le module de classification, des données complémentaires comme la scène identifiée, les données fournies par les objets connectés, les fichiers des sons captés.
Selon un mode particulier de réalisation de l'invention, lorsqu'une scène a été identifiée, le module d'interprétation INTRP transmet (étape 24) l'identification de la scène à un système d'actionneurs ACT connecté au système SYS via le réseau local RES ou bien via le réseau de données INT lorsque le système d'actionneurs n'est pas localisé dans l'environnement. Le système d'actionneurs permet d'agir en conséquence en fonction de la scène identifiée, en exécutant les actions associées à la scène. Par exemple, il peut s'agir de déclencher une alarme lors de l'identification d'une effraction, ou bien de prévenir un service d'urgence lors de l'identification d'un accident, ou bien tout simplement de brancher l'alarme lors de l'identification d'un départ du domicile....
Selon un mode particulier de réalisation de l'invention, le système SYS de collecte et d'analyse de sons comprend également un module d'enrichissement ENRCH. Le module d'enrichissement ENRCH met à jour (étape 25) les bases de données de sons BSND_loc, de classes de sons BCLSND_loc, de cas d'usage BSC_loc et de labels BLBL_loc à l'aide des informations fournies en sortie par le module d'interprétation (INTRP). L'enrichisseur permet ainsi d'enrichir les bases de données à l'aide des fichiers sons des sons captés, permettant d'améliorer les analyses de sons ultérieures réalisées par le module de classification et d'améliorer l'identification d'une scène, en augmentant le nombre de sons associés à une classe de sons. L'enrichisseur permet également d'enrichir les bases de données à l'aides des labels obtenus, par exemple en associant un son capté mémorisé dans la base de données de sons BSND_loc le label obtenu pour ce son et mémorisé dans la base de données de label.
Le module d'enrichissement permet d'enrichir de manière dynamique les données nécessaires à l'apprentissage du système SYS pour améliorer la performance de ce système. _{The BSC loc} use case database was then populated with the defined scenes, each scene being characterized by 3 marker sounds in chronological order.
According to a particular embodiment of the invention, the scenes defined in the BSC _loc use case database can come from a larger BSC use case database, for example previously defined by a supplier. service according to the experiment described above or any other method. The scenes stored in the BSC _loc use case database may have been previously selected by the user, for example during an initialization phase. This variant makes it possible to adapt the possible use cases to be identified for a user according to his habits or his environment.
In order to identify a scene in progress, the INTRP interpretation module therefore relies on a succession of sounds received and analyzed by the CLASS classification module. For each sound received by the CLASS classification module, the latter transmits to the interpretation module INTRP at least one class associated with the sound received and an associated probability.
The interpretation module compares (step E22) the succession of classes of sounds recognized by the classification module, in the chronological order of capture of the corresponding sounds, with the marker sounds characterizing each scene of the case database d 'usage BSC _loc .
According to a particular embodiment of the invention, the interpretation module INTRP also takes into account additional data transmitted (step E23) to the interpretation module INTRP by connected objects (IOT) placed in the environment. Such additional data can for example be information on the location of the sound picked up, time information (time, day / night), temperature, service type information: for example home automation information indicating that a light is on, a window is open, weather information provided by a server ....
According to the particular mode of the invention described here, labels or qualifiers are predefined and stored in the label database BLBL _loc . These labels depend on the type and value of the additional data likely to be received. For example, labels of the type: day / night are defined for additional data corresponding to a schedule, labels of the type: hot / cold / tempered are defined for additional data corresponding to temperature values, labels representative of the location can be defined for additional data corresponding to the location of the sound picked up.
In some cases, the additional data can also correspond directly to a label, for example, when the sound received by the classification module has been transmitted by a connected object, the connected object can transmit with the audio stream, a location label corresponding to its location ...
The complementary data make it possible to qualify (ie to describe semantically) a class of sounds or an identified scene. For example, for a captured sound corresponding to flowing water, information on the location of the captured sound will make it possible to qualify the sound class using a label associated with the location (for example: shower, kitchen, etc ...). According to this example, the interpretation module INTRP can then qualify the class of sounds associated with a received sound.
According to another example, for a picked up sound associated with two classes of sounds which are acoustically close, therefore with fairly close probability rates, information on the location of the picked up sound will make it possible to refine the most probable class of sounds. For example, a label associated with localization will make it possible to distinguish a sound from a class of sounds corresponding to water flowing from a tap from a class of sounds corresponding to rain.
As an output, the interpretation module provides the identified scene and an associated probability rate. Indeed, as for the identification of a class of sounds corresponding to a picked up sound, the identification of a scene is made by comparison of the picked up sounds with sound markers characterizing a use case. The sounds picked up are not identical to the marker sounds, because the marker sounds may have been generated by elements other than those of the environment. In addition, ambient noise from the environment can also impact sound analysis.
The interpretation module also provides as output, for each class of sounds identified by the classification module, additional data such as the identified scene, the data supplied by the connected objects, the files of the sounds picked up.
According to a particular embodiment of the invention, when a scene has been identified, the interpretation module INTRP transmits (step 24) the identification of the scene to an ACT actuator system connected to the SYS system via the RES local network or via the INT data network when the actuator system is not located in the environment. The actuator system makes it possible to act accordingly according to the identified scene, by performing the actions associated with the scene. For example, it may be to trigger an alarm when a break-in is identified, or to warn an emergency service when an accident is identified, or simply to connect the alarm. when identifying a departure from home ....
According to a particular embodiment of the invention, the system SYS for collecting and analyzing sounds also includes an ENRCH enrichment module. The ENRCH enrichment module updates (step 25) the databases of BSND _loc sounds, BCLSND _loc sound classes, BSC _loc use cases and BLBL _loc labels using the information provided at the output. by the interpretation module (INTRP). The enhancer thus makes it possible to enrich the databases using the sound files of the sounds picked up, making it possible to improve the subsequent sound analyzes carried out by the classification module and to improve the identification of a scene, by increasing the number of sounds associated with a class of sounds. The enricher also makes it possible to enrich the databases using the labels obtained, for example by associating a picked up sound stored in the BSND sound database _loc the label obtained for this sound and stored in the database of label.
The enrichment module makes it possible to dynamically enrich the data necessary for learning the SYS system in order to improve the performance of this system.

Dans l'exemple décrit ici, les bases de données de sons BSND_loc, de classes de sons BCLSND_loc, de cas d'usage BSC_loc et de labels BLBL_loc sont locales. Elles sont par exemple stockées en mémoire du module de classification ou du module d'interprétation, ou dans une mémoire connectée à ces modules.
Dans d'autres modes particuliers de réalisation de l'invention, les bases de données de sons BSND_loc, de classes de sons BCLSNDioc, de cas d'usage BSC_loc et de labels BLBL_loc peuvent être distantes. Le système SYS de collecte et d'analyse des sons accède à ces bases de données, par exemple via le réseau de données INT.In the example described here, the databases of BSND _loc sounds, BCLSND _loc sound classes, BSC _loc use cases and BLBL _loc labels are local. They are for example stored in the memory of the classification module or of the interpretation module, or in a memory connected to these modules.
In other particular embodiments of the invention, the databases of BSND _loc sounds, BCLSNDioc sound classes, BSC _loc use cases and BLBL _loc labels can be remote. The SYS sound collection and analysis system accesses these databases, for example via the INT data network.

Les bases de données de sons BSND_loc, de classes de sons BCLSND_loc, de cas d'usage BSC_loc et de labels BLBL_loc peuvent comprendre tout ou partie de bases de données distantes plus larges BSND, BCLSND, BSC et BLBL, par exemple des bases de données existantes ou fournies par un fournisseur de service.
Ces bases de de données distantes peuvent servir à initialiser les bases de données locales du système SYS et être mises à jour à l'aide des informations collectées par le système SYS lors de l'identification d'une scène. Ainsi, le système SYS de collecte et d'analyse des sons permet d'enrichir les bases de données de sons, de classes de sons, de cas d'usages et de labels pour d'autres utilisateurs.Sounds BSND _loc databases, classes of sounds BCLSND _loc, use case BSC _loc and _loc BLBL labels may include all or part of larger remote databases BSND, BCLSND, BSC and BLBL example existing databases or databases provided by a service provider.
These remote databases can be used to initialize the local SYS system databases and be updated using information collected by the SYS system when identifying a scene. Thus, the SYS system for collecting and analyzing sounds makes it possible to enrich the databases of sounds, sound classes, use cases and labels for other users.

Selon le mode particulier de réalisation décrit ci-dessus, les modules de classification, d'interprétation et d'enrichissement ont été décrits comme des entités séparées. Toutefois, tout ou partie de ces modules peut être intégrées dans un ou plusieurs dispositifs comme on le verra ci-dessous en relation avec les figures 3, 4 et 5.According to the particular embodiment described above, the classification, interpretation and enrichment modules have been described as separate entities. However, all or part of these modules can be integrated into one or more devices as will be seen below in relation to the figures 3 , 4 and 5 .

La figure 3 illustre schématiquement un dispositif DISP d'identification d'une scène dans un environnement, selon un mode particulier de réalisation de l'invention. Selon un mode particulier de réalisation de l'invention, le dispositif DISP a l'architecture classique d'un ordinateur, et comprend notamment une mémoire MEM, une unité de traitement UT, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PG stocké en mémoire MEM. Le programme d'ordinateur PG comprend des instructions pour mettre en œuvre les étapes du procédé d'identification d'une scène tel que décrit précédemment, lorsque le programme est exécuté par le processeur PROC.
A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UT met notamment en œuvre les étapes du procédé d'identification d'une scène selon l'un quelconque de modes particuliers de réalisation décrits en relation avec la figure 2, selon les instructions du programme d'ordinateur PG.
Le dispositif DISP est configuré pour identifier une scène à partir d'au moins deux sons captés dans ledit environnement, chacun desdits au moins deux sons étant respectivement associé à au moins une classe de sons, ladite scène étant identifiée en tenant compte de l'ordre chronologique dans lequel lesdits au moins deux sons ont été captés. Par exemple, le dispositif DIP correspond au module d'interprétation décrit en relation avec la figure 1.
Selon un mode particulier de réalisation de l'invention, le dispositif DISP comprend une mémoire BDDLOC comprenant une base de données de sons, une base de données de classes de sons, une base de données de cas d'usage et une base de données de labels.
Le dispositif DISP est configuré pour communiquer avec un module de classification configuré pour analyser des sons reçus et transmettre une ou des classes de sons associées à un son reçu, et éventuellement avec un module d'enrichissement configuré pour enrichir des bases de données telle que base de données de sons, base de données de classes de sons, base de données de cas d'usage et base de données de labels. Selon un mode particulier de réalisation de l'invention, le dispositif DISP est également configuré pour recevoir au moins une donnée complémentaire fournie par un objet connecté de l'environnement et associer un label à une classe de sons d'un son capté ou à ladite scène identifiée.The figure 3 schematically illustrates a DISP device for identifying a scene in an environment, according to a particular embodiment of the invention. According to a particular embodiment of the invention, the DISP device has the conventional architecture of a computer, and comprises in particular a memory MEM, a processing unit UT, equipped for example with a processor PROC, and controlled by the PG computer program stored in MEM memory. The computer program PG comprises instructions for implementing the steps of the method for identifying a scene as described above, when the program is executed by the processor PROC.
On initialization, the code instructions of the computer program PG are for example loaded into a memory before being executed by the processor PROC. The processor PROC of the processing unit UT notably implements the steps of the method for identifying a scene according to any one of the particular embodiments described in relation to the process. figure 2 , according to the instructions of the computer program PG.
The DISP device is configured to identify a scene from at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified by taking into account the chronological order in which said at least two sounds were picked up. For example, the DIP device corresponds to the interpretation module described in relation to the figure 1 .
According to a particular embodiment of the invention, the DISP device comprises a BDDLOC memory comprising a sound database, a sound class database, a use case database and a sound database. labels.
The DISP device is configured to communicate with a classification module configured to analyze received sounds and transmit one or more classes of sounds associated with a received sound, and possibly with an enrichment module configured to enrich databases such as a database. sound database, sound class database, use case database and label database. According to a particular embodiment of the invention, the DISP device is also configured to receive at least one additional piece of data provided by a connected object of the environment and to associate a label with a class of sounds of a picked up sound or with said sound. identified scene.

La figure 4 illustre schématiquement un dispositif d'identification DISP d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention. Selon cet autre mode particulier de réalisation de l'invention, le dispositif DISP comprend les mêmes éléments que le dispositif décrit en relation avec la figure 3. Le dispositif DISP comprend en outre un module de classification CLASS configuré pour analyser des sons reçus et transmettre une ou des classes de sons associées à un son reçu et un module de communication COM2 adapté pour recevoir des sons captés par des moyens de captation de l'environnement.The figure 4 schematically illustrates a DISP identification device of a scene in an environment, according to another particular embodiment of the invention. According to this other particular embodiment of the invention, the DISP device comprises the same elements as the device described in relation to the figure 3 . The DISP device further comprises a CLASS classification module configured to analyze received sounds and transmit one or more classes of sounds associated with a received sound and a communication module COM2 suitable for receiving sounds picked up by the pickup means of the. environment.

La figure 5 illustre schématiquement un dispositif DISP d'identification d'une scène dans un environnement, selon un autre mode particulier de réalisation de l'invention. Selon cet autre mode particulier de réalisation de l'invention, le dispositif DISP comprend les mêmes éléments que le dispositif décrit en relation avec la figure 4. Le dispositif DISP comprend en outre un module d'enrichissement ENRCH configuré pour enrichir des bases de données telle que base de données de sons, base de données de classes de sons, base de données de cas d'usage et base de données de labels.The figure 5 schematically illustrates a DISP device for identifying a scene in an environment, according to another particular embodiment of the invention. According to this other particular embodiment of the invention, the DISP device comprises the same elements as the device described in relation to the figure 4 . The DISP device further comprises an ENRCH enrichment module configured to enrich databases such as a sound database, a sound class database, a use case database and a label database.

Claims

Device for identifying a scene in an environment, said environment comprising at least one sound pickup means (C1, C2, C3), said identification device (DISP) is configured to identify said scene from at least at least two sounds picked up in said environment, each of said at least two sounds being respectively associated with at least one class of sounds, said scene being identified taking into account the chronological order in which said at least two sounds were picked up.

A scene identification device according to claim 1, wherein said scene is identified from among a group of predefined scenes, each predefined scene being associated with a predetermined number of marker sounds, said marker sounds of a predefined scene being ordered by chronologically.

Device for identifying a scene according to any one of claims 1 or 2, further configured to receive at least one additional piece of data supplied by a connected object of said environment and to associate a label with a class of sounds of a picked up sound. or to said identified scene.

A scene identification device according to claim 3, further configured for, when a picked up sound is associated with several possible sound classes, determining a sound class of said picked up sound using said at least one data. complementary received.

Device for identifying a scene according to any one of claims 1 to 4, further configured to trigger at least one action to be performed following the identification of said scene.

Device for identifying a scene according to any one of claims 1 to 5, further configured to transmit to an enrichment device at least part of the following data: - information indicating the identified scene, and at least two classes of sounds and a chronological order associated with the identified scene,

- at least part of the audio files corresponding to the sounds picked up associated respectively with a class of sounds,

- at least one class of sounds associated with a label.

System for identifying a scene in an environment, said environment comprising at least one sound pickup means, said system comprises: a classification device configured to receive sounds picked up in said environment, and to determine for each sound received, at least one class of sounds,

- an identification device according to any one of claims 1 to 5.

A scene identification system according to claim 7, wherein the identification device is according to claim 6, the identification system further comprising an enrichment device configured to update at least one database with at least part of the data transmitted by the identification device.

A method of identifying a scene in an environment, said environment comprising at least one sound pickup means, said identification method comprises identifying said scene from at least two sounds picked up in said environment, each said at least two sounds being respectively associated with at least one class of sounds, said scene being identified taking into account the chronological order in which said at least two sounds were picked up.

Method for identifying a scene according to claim 9, further comprising updating at least one database using at least part of the following data: - information indicating the identified scene, and at least two classes of sounds and a chronological order associated with the identified scene,

- at least one class of sounds associated with a label.

Computer program comprising instructions for implementing the identification method according to any one of claims 9 or 10, when the program is executed by a processor.