FR3122508A1

FR3122508A1 - Caractérisation d’un utilisateur par association d’un son à un élément interactif

Info

Publication number: FR3122508A1
Application number: FR2104517A
Authority: FR
Inventors: Nicolas Pellen; Katell Peron; Christian Gregoire
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-11-04
Also published as: WO2022229563A1; EP4330838A1

Abstract

L’invention porte sur un procédé de caractérisation d’un utilisateur et sur un programme informatique, un support d’enregistrement et un dispositif de traitement correspondants. Le procédé comprend une comparaison (S6) entre au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par l’utilisateur un utilisateur de l’interface homme-machine. La comparaison déclenche, si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, une caractérisation de l’utilisateur comme étant un utilisateur approprié. Figure de l’abrégé : Figure 3

Description

Caractérisation d’un utilisateur par association d’un son à un élément interactif

La présente divulgation relève du domaine de la sécurité informatique.

Plus particulièrement, la présente divulgation porte sur un procédé pour une différenciation entre un humain et une machine et sur un programme informatique et un support d’enregistrement correspondants.

Un CAPTCHA (« Completely Automated Public Turing-test to tell Computers and Humans Apart », en français « Test public de Turing complètement automatisé pour différencier les humains des ordinateurs ») est un test destiné à différencier un utilisateur d’un programme informatique. Il est employé notamment sur des formulaires pour se prémunir du spam, c’est-à-dire des communications électroniques non sollicitées.

Il existe différents types de CAPTCHA, les plus nombreux sont les CAPTCHAs visuels où on demande à l’utilisateur de saisir une série de lettres déformées affichées à l’écran.

Une déformation accentuée est essentielle en termes de sécurité informatique. En effet, la reconnaissance d’image étant très répandue il est de plus en plus aisé à un robot informatique de détourner ce genre de briques de sécurité.

En contrepartie d’une telle déformation accentuée, les CAPTCHAs posent souvent des difficultés même pour les utilisateurs les plus aguerris. En effet il est souvent nécessaire d’effectuer plusieurs tentatives avant de répondre correctement à un CAPTCHA.

Pour certains utilisateurs, la présence d’un CAPTCHA est tout simplement rédhibitoire. Par exemple, un utilisateur non-voyant ne peut pas renseigner un CAPTCHA visuel. Ces systèmes de vérification échouent à reconnaître certains utilisateurs handicapés comme humains et rendent donc impossible, pour ces utilisateurs, de créer des comptes, d’écrire des commentaires ou d’effectuer des achats sur certains sites.

Certains sites proposent, comme alternative pour les utilisateurs qui le souhaitent, un CAPTCHA audio dans lequel une voix récite une suite de chiffres à retranscrire dans la langue supposée de l’utilisateur.

Néanmoins, l’audio-description est conditionnée à la langue de l’utilisateur et à son niveau de compréhension de la langue utilisée, même native dans des cas d’illettrisme. Ainsi, l’audio-description reste une barrière à l’accessibilité pour un certain nombre d’utilisateurs.

Il existe donc un besoin pour une nouvelle modalité de différenciation homme-machine s’affranchissant des barrières du langage, aux fins d’une accessibilité accrue.

Résumé

La présente divulgation vient améliorer la situation.

Il est proposé un procédé de caractérisation d’un utilisateur, le procédé étant mis en œuvre par un dispositif de traitement, le procédé comprenant :
- une comparaison entre au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par un utilisateur de l’interface homme-machine, la comparaison déclenchant, si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, une caractérisation de l’utilisateur comme étant un utilisateur approprié.

On entend par « dispositif de traitement » tout dispositif apte à effectuer un traitement informatique selon le procédé proposé. Il peut s’agir, par exemple, d’un terminal à l’usage d’un utilisateur tel qu’un téléviseur, un ordinateur ou un téléphone multifonctions, ou d’un équipement réseau, notamment une passerelle domestique, un boîtier décodeur, ou toute forme de dispositif de fourniture de services numériques et/ou de contenus numériques, accessible par exemple via un réseau local et/ou un réseau étendu.

On peut définir par exemple plusieurs premiers sons, tels qu’un roulement de tambour, un sifflement de bouilloire, le tonnerre, etc… et associer, à chacun de ces premiers sons, un ou plusieurs premiers identifiants. Ainsi, on obtient, pour chacun de ces premiers sons, un premier sous-ensemble correspondant, composé d’un ou de plusieurs premiers identifiants. Le premier son correspondant à un roulement de tambour peut ainsi être associé à divers identifiants tels que par exemple un mot « tambour », une expression « roulement de tambour », différentes images de tambours, éventuellement animées, etc.

On considère que le deuxième son, entendu par l’utilisateur, correspond à l’un des premiers sons. Par exemple, le deuxième son peut comprendre un roulement de tambour identique ou similaire à celui constituant l’un des exemples de premiers sons définis ci-avant. L’utilisateur interagit alors avec l’interface homme-machine de manière à associer au moins un deuxième identifiant au deuxième son.

Le procédé permet ainsi, grâce à la comparaison entre au moins un deuxième identifiant et un sous-ensemble de premiers identifiants, de déterminer si l’identification par l’utilisateur du deuxième son entendu est conforme à l’identification attendue. Ceci permet d’attester, en cas de succès, que l’utilisateur est apte à identifier correctement le deuxième son et de conclure en caractérisant l’utilisateur comme étant un utilisateur approprié. A l’inverse, ceci permet aussi de caractériser un utilisateur n’ayant pas réussi à identifier correctement le deuxième son comme étant un utilisateur inapproprié, ou a minima de ne pas le caractériser comme étant un utilisateur approprié.

L’expression « utilisateur approprié » peut désigner par exemple un humain capable d’identifier correctement le deuxième son par opposition à une machine dénuée d’une telle capacité. Alternativement, l’expression « utilisateur approprié » peut désigner un utilisateur équipé d’un matériel spécifique, tel qu’une sortie audio pouvant diffuser le deuxième son pour en permettre l’audition par l’utilisateur, ou tel qu’une entrée audio pouvant capturer le deuxième son lors de son audition par l’utilisateur, par opposition à un utilisateur non équipé d’un tel matériel.

Il est proposé un premier exemple de déclinaison du procédé ci-avant. Dans ce premier exemple de déclinaison, le procédé comprend :
- une commande de diffusion d’un extrait sonore,
- une commande d’affichage d’un ensemble de vignettes, l’ensemble de vignettes affiché comprenant un premier sous-ensemble formé d’au moins une vignette, le premier sous-ensemble étant associé à l’extrait sonore diffusé,
- une réception d’au moins un signal de sélection issu d’une interface homme-machine, un signal étant indicatif d’une sélection d’une vignette de l’ensemble de vignettes affiché,
- sur la base de l’au moins un signal de sélection reçu, une identification d’un deuxième sous-ensemble formé de chaque vignette sélectionnée,
- un test de comparaison entre le premier sous-ensemble et le deuxième sous-ensemble, et
- sur la base du résultat du test, une identification d’un utilisateur comme étant un humain ou comme étant une machine.

Il est également proposé un deuxième exemple de déclinaison du procédé ci-avant , dans lequel le procédé comprend :
- une commande d’affichage d’un ensemble de boutons de lecture, un bouton étant respectivement associé à un extrait sonore,
- pour chaque bouton affiché, sur réception d’un signal d’interaction, issu d’une interface homme-machine, indicatif d’une interaction avec ledit bouton, une commande de diffusion de l’extrait sonore associé audit bouton,
- après diffusion, pour chaque bouton, de l’extrait sonore associé audit bouton :
-- une commande d’affichage d’une entité visuelle descriptive d’un sous-ensemble d’extraits sonores formé d’au moins un extrait sonore parmi les extraits sonores diffusés,
-- une commande d’affichage d’un ensemble de vignettes, une vignette venant respectivement se superposer à un bouton de lecture, l’ensemble de vignettes affiché comprenant un premier sous-ensemble de vignettes formé d’au moins une vignette, le premier sous-ensemble de vignettes étant superposé à un sous-ensemble de boutons associé audit sous-ensemble d’extraits sonores,
-- une réception d’au moins un signal de sélection issu d’une interface homme-machine, un signal étant indicatif d’une sélection d’une vignette de l’ensemble de vignettes affiché,
-- sur la base de l’au moins un signal reçu, une identification d’un deuxième sous-ensemble formé de chaque vignette sélectionnée,
-- un test de comparaison entre le premier sous-ensemble et le deuxième sous-ensemble, et
-- sur la base du résultat du test, une identification d’un utilisateur comme étant un humain ou comme étant une machine.

Ainsi, l’utilisateur effectue, dans le premier exemple de déclinaison du procédé, une association entre un son, c’est-à-dire l’extrait sonore diffusé, et au moins une image, c’est-à-dire au moins l’une des vignettes affichées, par interaction avec cette vignette ou ces vignettes.

Dans le deuxième exemple de déclinaison du procédé, le principe général est le même. L’utilisateur effectue une association entre une image, celle affichée, et au moins un son, c’est-à-dire au moins l’un des extraits sonores diffusés, par interaction avec l’une au moins des vignettes affichées.

Dans les deux exemples de déclinaison du procédé, le test de comparaison permet de vérifier si l’association réalisée par l’utilisateur correspond à une association effectivement attendue, caractéristique d’une association qu’un humain réaliserait. Si tel est le cas, alors l’utilisateur peut être identifié comme étant un humain, sinon l’utilisateur est identifié comme étant une machine.

Dans la mesure où, par la nature du ou des extraits sonores diffusés, tels que des bruits ou bruitages, et de l’image ou des vignettes affichées, une telle association son-image n’est pas rattachée à un langage particulier, et n’impose pas de connaissances culturelles particulières, les deux déclinaisons ci-avant du procédé proposé permettent toutes deux de différencier un humain d’une machine en s’affranchissant des barrières du langage et de la culture, permettant ainsi une meilleure accessibilité que les procédés de différenciation humain-machine connus.

Par ailleurs, les algorithmes de reconnaissance de sons étant actuellement moins avancés que ceux de reconnaissance d’images, ce procédé de différenciation humain-machine est également plus difficile à contourner par un acteur malveillant. La sécurité informatique est donc accrue.

La nature des premiers et deuxièmes identifiants n’est toutefois pas restreinte à une image ou une vignette.

Chaque premier identifiant et chaque deuxième identifiant peut par exemple avoir un type d’identifiant parmi les suivants :
- au moins un mot, c’est-à-dire un mot, une expression, une définition, un texte court, etc.,
- au moins une image, c’est-à-dire une photographie, un dessin, une image animée, une vidéo, etc.,
- une étiquette associé à un objet ; telle qu’un code-barre, un QR code, un tag FNC, etc. permettant à l’utilisateur de sélectionner le deuxième identifiant dans un environnement réel ou virtuel,
- une vignette.

Ainsi, l’utilisateur effectue, de manière générale, une association entre le deuxième son et un deuxième identifiant de tout type (image, texte, ou étiquette notamment) via une interface homme-machine. Ce deuxième identifiant est ensuite comparé avec un sous-ensemble de premiers identifiants aux fins de caractériser l’utilisateur comme étant approprié ou non.

Il est également proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.

Il est également proposé un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré le programme ci-avant.

Un tel support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit micro-électronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, un tel support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens, de sorte que le programme d’ordinateur qu’il contient est exécutable à distance. Le programme selon l'invention peut être en particulier téléchargé sur un réseau par exemple le réseau Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de gestion précité.

Il est également proposé un dispositif de traitement apte à mettre en œuvre un traitement de caractérisation d’un utilisateur sur commande d’une interface homme-machine, dans lequel le dispositif de traitement comporte :
- un comparateur apte à comparer au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par l’utilisateur de l’interface homme-machine, le comparateur déclenchant, si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, un caractériseur apte à caractériser l’utilisateur comme étant un utilisateur approprié.

Le procédé ci-avant peut comprendre optionnellement certaines fonctions supplémentaires telles que définies ci-après.

Par exemple, le procédé peut comprendre une réception d’au moins un signal provenant d’une interface homme-machine, le signal comportant le deuxième identifiant du deuxième son entendu.

Le signal peut être un enregistrement vocal de l’utilisateur lisant, ou nommant, un deuxième identifiant sous la forme d’un texte.

Le signal peut résulter d’une interaction tactile de l’utilisateur avec un bouton sur un écran, ce bouton représentant le deuxième identifiant sous la forme d’un texte ou d’une image.

Le signal peut être le résultat d’une analyse d’une image acquise affichant le deuxième identifiant sous la forme d’une étiquette associée à un objet, cette étiquette pouvant être réelle, par exemple un QR code, ou virtuelle, telle qu’une info-bulle en réalité augmentée.

Par exemple, le procédé peut comprendre une commande de reproduction d’un extrait sonore comportant un premier son associé à un des premiers sous-ensembles de premiers identifiants de premiers sons, le deuxième son entendu comportant le premier son reproduit.

Dans cet exemple, la comparaison entre le premier sous-ensemble de premiers identifiants du premier son et le deuxième identifiant reçu de l’interface homme-machine a pour but d’évaluer si un utilisateur a entendu et correctement identifié le premier son, déjà connu.

Par exemple, le procédé peut comprendre une commande de capture du deuxième son entendu, la capture déclenchant une comparaison du deuxième son entendu avec au moins un premier son associé à un premier sous-ensemble d’identifiants.

Dans cet exemple, la comparaison entre le premier sous-ensemble de premiers identifiants du premier son et le deuxième identifiant reçu de l’interface homme-machine a pour but d’évaluer si le deuxième son, potentiellement inconnu, trouve une correspondance avec un premier son, connu, au sein d’une base de données de premiers sons.

Par exemple, le procédé peut comprendre une commande d’affichage d’un ensemble de vignettes, l’ensemble de vignettes affiché comprenant au moins un identifiant d’un premier sous-ensemble associé au deuxième son entendu. C’est le cas notamment dans la première déclinaison ci-avant.

Par exemple, le procédé peut comprendre :
- sur la base d’au moins un signal de sélection reçu comportant au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par l’utilisateur de l’interface homme-machine, une génération d’un deuxième sous-ensemble comportant les deuxièmes identifiants,
- la comparaison étant effectuée entre au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant du deuxième sous-ensemble, la comparaison déclenchant, si au moins un deuxième identifiant ou tous les deuxième identifiants du deuxième sous-ensemble reçu appartiennent au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, la caractérisation de l’utilisateur comme étant un utilisateur approprié.

Par exemple, l’utilisateur peut ainsi fournir un faisceau d’informations identifiant le deuxième son entendu, ce faisceau étant comparé à un faisceau d’informations de référence identifiant un premier son connu similaire au deuxième son entendu.

La comparaison peut comprendre une détermination d’une métrique de ressemblance, par exemple 100% de ressemblance si les deuxièmes identifiants du deuxième sous-ensemble sont strictement identiques aux premiers identifiants du premier sous-ensemble et 0% de ressemblance si aucun des deuxièmes identifiants du deuxième sous-ensemble ne se retrouve également dans le premier sous-ensemble et réciproquement. Cette métrique de ressemblance peut par exemple être comparée à un seuil au-delà duquel l’utilisateur est caractérisé comme étant un utilisateur approprié. Ceci permet de laisser à l’utilisateur une certaine marge de manœuvre vis-à-vis de la détermination des deuxièmes identifiants, au lieu de simplement considérer l’utilisateur comme étant non approprié si l’identification du deuxième son par l’utilisateur diffère légèrement de l’identification attendue.

Par exemple, le procédé peut comprendre une sélection dudit au moins un premier sous-ensemble de premiers identifiants dans une base de premiers identifiants sur la base d’une table de correspondance associant, à chaque premier identifiant de la base, une classe respective.

Il peut être par exemple prévu que chaque sous-ensemble de premiers identifiants appartienne à une classe différente. Ainsi, plusieurs sous-ensembles de premiers identifiants peuvent être sélectionnés, chacun étant associé à un premier son correspondant, les premiers sons en question étant de type différent (tintement, vrombissement, sifflement, etc.), ou étant associé à une thématique différente (véhicule, objet du quotidien, animal, bruit d’ambiance, etc.). La notion de classes de sons est également décrite plus loin au moyen de divers exemples, une classe de premiers identifiants pouvant être associée à une telle classe de sons.

Par exemple, il peut être prévu que la sélection dudit au moins un premier sous-ensemble de premiers identifiants dans la base de premiers identifiants soit sur la base en outre de la classe associée à l’extrait sonore sélectionné comme deuxième son.

Ceci permet par exemple de faire en sorte que l’au moins un deuxième identifiant dont il est attendu qu’il soit associé au deuxième son ne ressemble qu’à un seul des sous-ensembles de premiers identifiants sélectionnés. La robustesse de la détermination de l’utilisateur comme étant ou non un utilisateur approprié s’en trouve renforcée.

Par exemple, il peut être prévu que, le deuxième son étant un son produit par un élément donné, chaque premier identifiant du premier sous-ensemble de premiers identifiants associé au premier son correspondant au deuxième son représente l’élément donné.

De nombreux types d’éléments donnés sont envisageables en tant que sources possibles du deuxième son.

Ainsi, le deuxième son peut être par exemple un cri d’animal, ou un bruit de fonctionnement d’un dispositif, ou encore un bruit résultant d’un événement météorologique.

De tels extraits sonores présentent l’avantage commun d’avoir une source facilement représentable, de manière non ambiguë pour un être humain, sous forme visuelle.

Ainsi, par exemple, on peut prévoir que le deuxième son étant un cri d’animal, chaque identifiant d’un premier sous-ensemble de premiers identifiants soit associé à l’animal correspondant.

Alternativement, on peut prévoir que, le deuxième son étant un bruit de fonctionnement d’un dispositif, chaque identifiant d’un premier sous-ensemble de premiers identifiants soit associé au dispositif correspondant.

Alternativement, on peut prévoir que, le deuxième son étant un bruit résultant d’un événement météorologique, chaque identifiant d’un premier sous-ensemble de premiers identifiants soit associé à l’événement météorologique correspondant.

Par exemple, le procédé peut comprendre une sélection du deuxième son dans une base d’extraits sonores sur la base d’une table de correspondance associant, à chaque extrait sonore de la base, une classe respective.

Des classes de sons peuvent être définies par exemple par regroupement de sons ayant une source d’un même type, par exemple le bruit de la pluie et le bruit du vent peuvent être regroupés en tant que bruits issus de la nature, tandis qu’un miaulement et un aboiement peuvent être regroupés en tant que cris d’animaux domestiques. La formation de telles classes de sons, ou de bruits ou bruitages, est connue de l’homme du métier.

Alternativement, des classes de sons peuvent être définies par regroupement de sons présentant des similitudes par exemple en termes de spectre de fréquence.

Par exemple, la première déclinaison du procédé ci-avant peut comprendre une sélection de l’ensemble de vignettes dans une base de vignettes sur la base d’une table de correspondance associant, à chaque vignette de la base, une classe respective.

En transposant ce principe à la deuxième déclinaison du procédé, celui-ci peut de manière analogue comprendre une sélection de l’image dans une base d’images sur la base d’une table de correspondance associant, à chaque image de la base, une classe respective.

Des classes d’images ou de vignettes peuvent être définies de sorte qu’une classe correspond à une même entité représentée, ou une entité de même type. Par exemple une classe d’images peut être formée d’images représentant un animal, et une sous-classe de cette classe d’images peut être formée uniquement d’images représentant un cheval. La formation de telles classes d’images ou de vignettes est connue de l’homme du métier.

La sélection de l’ensemble de vignettes dans une base de vignettes, ou de l’image dans une base d’images, peut en outre être effectuée sur la base de la classe associée à au moins un extrait sonore sélectionné.

En se référant par exemple à la première déclinaison du procédé, il est possible de sélectionner un extrait sonore appartenant à une classe donnée, par exemple un bruit d’aspirateur appartenant une classe de bruits issus d’appareils électroménagers. Sur cette base, on peut sélectionner une, ou plusieurs, vignettes représentant un aspirateur et prévoir que les autres vignettes de l’ensemble de vignettes soient impérativement sélectionnées parmi des classes de vignettes autres que celle représentant des appareils électroménagers.

Ceci permet de former l’ensemble de vignettes par sélection à partir de classes de vignettes différentes et ainsi de garantir qu’aucune vignette ne représente une entité similaire à celle à identifier.

De cette manière, on évite les ambiguïtés risquant d’occasionner pour un humain une association d’une vignette à un extrait sonore diffusé qui, bien qu’objectivement légitime, s’avère différente de l’association attendue. La pertinence du procédé pour différencier un humain d’une machine en est renforcée.

Par exemple, dans la première déclinaison du procédé, l’ensemble de vignettes peut comprendre en outre un troisième sous-ensemble formé d’au moins une vignette, et ledit procédé peut comprendre :
- un test de comparaison entre le troisième sous-ensemble et le deuxième sous-ensemble, et
- sur la base de ce test, une mise à jour, dans la table de correspondance associant, à chaque extrait sonore de la base d’extraits sonores, une classe respective, de la classe associée à l’extrait sonore sélectionné, ou
une mise à jour, dans la table de correspondance associant, à chaque vignette de la base de vignettes, une classe respective, de la classe associée à au moins une vignette du troisième sous-ensemble.

Le troisième sous-ensemble peut être par exemple formé d’une ou plusieurs vignettes de la même classe que celle du premier sous-ensemble. De manière générale, le troisième sous-ensemble peut représenter une entité susceptible d’émettre un bruit voisin de celui émis par l’entité représentée par la ou les vignettes du premier sous-ensemble.

Par exemple, le premier sous-ensemble peut représenter une bouilloire, le troisième sous-ensemble peut représenter une fenêtre de toit sous la pluie. Le sifflement de la bouilloire et les impacts de la pluie sur la fenêtre de toit présentent des similitudes. De cette manière, en diffusant un extrait sonore dont il n’est pas certain s’il correspond à un sifflement de bouilloire ou aux impacts de la pluie sur la fenêtre de toit, il est possible de s’appuyer sur l’association réalisée par l’utilisateur entre cet extrait sonore et les vignettes présentées pour pouvoir caractériser cet extrait sonore.

Ce principe peut être appliqué de manière analogue dans la deuxième déclinaison du procédé, en affichant une image et en sélectionnant différents extraits sonores sur la base de cette image, de manière à disposer d’un premier groupe et d’un deuxième groupe d’extraits sonores disjoints, chacun ayant une probabilité raisonnable de correspondre à des bruits émis par l’entité représentée sur l’image, ainsi que d’un troisième groupe d’extraits sonores clairement sans rapport avec l’entité représentée sur l’image. Ainsi, l’utilisateur peut associer le premier groupe ou le deuxième groupe d’extraits sonores à l’image affichée et être ainsi identifié comme étant un humain tout en offrant en parallèle la possibilité de caractériser le groupe d’extraits sonores associé à l’image affichée.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

illustre un exemple d’interface graphique dans le cadre de la mise en œuvre d’un procédé pour une différenciation entre un humain et une machine.

Fig. 2

illustre dans un exemple de réalisation, une variante de l’interface graphique de la .

Fig. 3

illustre, dans un exemple de réalisation, un algorithme général d’un programme informatique pour la mise en œuvre d’un procédé pour une différenciation entre un humain et une machine.

Fig. 4

illustre, dans un exemple de réalisation, une autre variante de l’interface graphique de la .

Fig. 5

illustre, dans un exemple de réalisation, une variante de l’algorithme de la .

Fig. 6

illustre, dans un exemple de réalisation, un système pour la mise en œuvre d’un procédé pour une différenciation entre un humain et une machine.

Fig. 7

Les dessins et la description ci-après contiennent, pour l’essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente divulgation, mais aussi contribuer à sa définition, le cas échéant.

Le principe général de l'invention repose sur l’identification, par un utilisateur, d’un son entendu. Cette identification effectuée par l’utilisateur est ensuite comparée à un résultat attendu.

Spécifiquement,
- le résultat attendu prend la forme d’un premier sous-ensemble de premiers identifiants d’un « premier son » correspondant au son entendu, le son entendu étant désigné ci-après comme un « deuxième son », et
- l’identification effectuée par l’utilisateur lors de l’audition du deuxième son prend la forme d’au moins un deuxième identifiant reçu d’une interface homme-machine.

Sur la base de la comparaison entre le premier sous-ensemble de premiers identifiants et le deuxième identifiant, l’utilisateur est caractérisé comme étant un utilisateur approprié seulement si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble. Dans le cas contraire, l’utilisateur est caractérisé comme étant un utilisateur inapproprié.

L’invention trouve de nombreuses applications en particulier dans le domaine du contrôle d’accès à des services numériques et de la prévention du spam.

Par exemple, l’invention peut être employée, lors de la réception d’un message à publier, pour caractériser l’auteur du message comme étant un humain ou une machine. Ainsi, la publication du message reçu peut n’être déclenchée, par exemple, que si l’auteur du message est caractérisé comme étant un humain.

Par exemple, l’invention peut être mise en œuvre, lors du contrôle d’accès à un contenu numérique ayant une composante audio, pour déterminer si un utilisateur à l’origine d’une requête d’accès au contenu numérique est doté d’un équipement spécifique, en l’espèce un dispositif de restitution audio tel qu’un casque ou des écouteurs. Ainsi, l’accès au contenu numérique peut n’être déclenché, par exemple, que si l’utilisateur à l’origine de la requête est effectivement en mesure d’en écouter la composante audio.

Dans la suite de la description, on s’attache à décrire en détails différents exemples de mise en œuvre de l’invention.

On se réfère à présent à la , qui illustre un exemple d’interface graphique. Une interface graphique est une interface homme-machine, c’est-à-dire un dispositif de dialogue homme-machine, dans lequel les objets à manipuler sont dessinés sous forme de pictogrammes sur un écran, avec lesquels l’utilisateur peut interagir au moyen par exemple d’un dispositif de pointage tel qu’une souris ou par pression digitale dans le cas d’un écran tactile.

Dans l’exemple présenté ici, différentes sections sont représentées.

Une section supérieure comporte des instructions, sous forme textuelle, à destination de l’utilisateur, ainsi qu’un bouton de lecture (11) d’un extrait sonore comprenant un deuxième son tel que défini ci-avant, et un bouton de réglage de volume (12).

Par « extrait sonore » on entend :
- soit un extrait d’un enregistrement sonore, éventuellement soumis à un traitement informatique, comprenant un contenu audio inintelligible,
- soit un son synthétique comprenant un tel contenu audio.

Différents exemples de sons sont présentés sur https://research.google.com/audioset/ontology/index.html, sous la forme de plusieurs classes de sons, en l’espèce des sons :
- en lien avec le fonctionnement du corps humain (voix, respiration, applaudissement, sifflement, battement cardiaque), ou
- émis par des animaux (domestiques, de ferme, sauvages), ou
- émis par des objets (véhicule, moteur, sonnette, alarme, outil, explosion, cassure de bois ou verre, écoulement contrôlé de liquide), ou
- musicaux (d’un instrument ou d’un genre musical spécifique), ou
- issus de la nature (vent, tempête, feu, pluie, cascade), ou
- d’ambiance (bruit, environnement acoustique), ou
- considérés comme ambigus car n’entrant pas formellement dans une unique classe parmi celles évoquées ci-dessus (onomatopées, impacts, frottements).

Les extraits sonores auxquels il est fait référence dans le contexte de l’invention sont susceptibles d’appartenir à n’importe quelle classe de sons évoquée ci-avant, et à n’importe quelle sous-classe au sein de ces classes, en excluant toutefois, spécifiquement, la voix humaine intelligible et les sons rattachés à un genre musical, dans la mesure où il est souhaité de s’affranchir des barrières linguistiques et culturelles.

En l’occurrence, une première instruction est d’écouter l’extrait sonore en interagissant avec le bouton de lecture (11). Le bouton de réglage de volume (12) est prévu pour optimiser le confort d’écoute de l’utilisateur. Optionnellement, un bouton supplémentaire peut être prévu en fin de lecture pour permettre de réécouter l’extrait sonore.

Une section médiane affiche un ensemble (2) d’éléments interactifs, en l’occurrence ici un ensemble de vignettes (21-29).

Dans l’exemple présenté ici, les vignettes représentent chacune soit un animal ayant un cri généralement reconnaissable soit un dispositif ayant un bruit de fonctionnement caractéristique.

Une deuxième instruction est d’interagir avec la vignette évoquant le deuxième son.

Par exemple si le deuxième son est un hennissement, alors il est attendu que l’utilisateur interagisse, uniquement, avec l’élément interactif associé à un tel deuxième son, ici la vignette représentant un cheval (28).

Si en revanche, le deuxième son est un vrombissement de moteur, alors il peut être attendu par exemple que l’utilisateur interagisse avec l’élément interactif associé à un tel deuxième son, ici la vignette représentant une voiture (29). Optionnellement, d’autres interactions peuvent être également acceptées. Par exemple, il est concevable, dans cet exemple, qu’un humain interagisse alternativement avec la vignette représentant une voiture de police (26), ou encore avec celle représentant un avion (21).

Dans l’exemple présenté ici, les vignettes sont au nombre de neuf, réparties dans une grille de trois par trois.

Une telle répartition permet aux vignettes d’être affichées facilement sur différentes formes d’écrans, par de nombreux dispositifs exploités par différentes plateformes.

Le nombre de neuf est un compromis entre :
- d’une part, minimiser la probabilité qu’une machine interagissant avec une vignette choisie au hasard ne soit incorrectement identifiée comme humain, et
- d’autre part, éviter d’évaluer, outre la reconnaissance de sons, la performance d’un humain en mémoire à court terme.

Il est par ailleurs souhaitable, toujours pour éviter de mesurer la performance de la mémoire à court terme d’un humain, que les vignettes restent affichées avant, pendant et après l’écoute du deuxième son.

Sur le plan de la psychologie cognitive, l’empan mnésique, quantifiant le nombre de chiffres que l’on peut restituer immédiatement après les avoir entendus, varie habituellement entre 5 et 9 selon les individus. Comparativement à un tel test de restitution, un utilisateur fait moins appel à sa mémoire lorsqu’il s’agit de sélectionner, suite à l’écoute d’un extrait sonore, un élément interactif sur la base de son contenu cognitif. Ainsi, dans le contexte présent, afficher neuf vignettes est acceptable.

Une section inférieure propose de réinitialiser l’interface graphique au moyen d’un bouton de réinitialisation (31), afin de permettre, si l’utilisateur le désire, d’écouter un nouveau deuxième son puis d’identifier un élément interactif correspondant à ce nouveau deuxième son.

On se réfère à présent à la qui est une variante de la , dans laquelle les éléments interactifs se trouvent également être des vignettes et dans laquelle, après avoir écouté un deuxième son, il est demandé à l’utilisateur de sélectionner non plus l’élément interactif correspondant à ce deuxième son, mais tous les éléments interactifs, ici toutes les vignettes correspondant à ce deuxième son parmi un ensemble (4) d’éléments interactifs, ici de vignettes (41-49).

Par exemple, le deuxième son peut être un extrait d’un enregistrement sonore d’une bouilloire chauffant de l’eau, ou un bruitage synthétique reproduisant un tel extrait sonore.

Ainsi, on peut définir au sein de l’ensemble (2) de vignettes affichées, un premier sous-ensemble de vignettes, formé des vignettes (43, 44) représentant chacune une bouilloire, avec chacune desquelles une interaction de la part de l’utilisateur est attendue. Ces vignettes peuvent ainsi être préalablement associées, au sein d’une table de correspondance, à l’extrait sonore indicatif de la bouilloire en fonctionnement. Plus généralement, on peut définir au sein de l’ensemble (2) d’éléments interactifs un premier sous-ensemble d’éléments interactifs respectivement associés à un premier identifiant, formant ainsi un premier sous-ensemble d’identifiants associés à un premier son.

On peut également définir un deuxième sous-ensemble de vignettes, formé des vignettes avec lesquelles l’utilisateur aura réellement effectué une interaction. Plus généralement, on peut définir au sein de l’ensemble (2) d’éléments interactifs un deuxième sous-ensemble d’éléments interactifs respectivement associés à un deuxième identifiant, formant ainsi un deuxième sous-ensemble d’identifiants associés, par l’utilisateur lors de l’audition d’un deuxième son, à ce deuxième son.

Si le deuxième sous-ensemble de vignettes comprend toutes les vignettes du premier sous-ensemble, alors cela signifie que l’utilisateur a bien interagi avec toutes les vignettes associées à l’extrait sonore indicatif de la bouilloire en fonctionnement.

Parmi les vignettes affichées ne faisant pas partie du premier sous-ensemble, il est possible que certaines soient préalablement associées, au sein d’une table de correspondance, à un extrait sonore différent de celui indicatif de la bouilloire en fonctionnement. Par exemple, la vignette (49) en bas à droite de l’ensemble de vignettes représenté sur la peut être associée à un extrait sonore indicatif du tonnerre.

Il est également possible que d’autres vignettes, formant un troisième sous-ensemble de vignettes, ne soient préalablement associées, au sein d’une table de correspondance, à aucun extrait sonore.

Par exemple, un objectif secondaire à la caractérisation d’un utilisateur comme étant approprié ou non, par exemple à la différenciation entre un humain et une machine, peut être de qualifier un extrait sonore donné.

Notamment, le bruit de la pluie sur une fenêtre de toit présente une ressemblance avec le bruit d’une bouilloire en fonctionnement. Pour lever le doute sur la nature d’un deuxième son donné pouvant a priori correspondre à l’une ou l’autre de ces deux possibilités, on peut présenter à un utilisateur à la fois :
- deux éléments interactifs, par exemple deux vignettes (43, 44), en tant que premier sous-ensemble de vignettes, représentant chacune une bouilloire, et
- un élément interactif, par exemple une vignette (42), en tant que troisième sous-ensemble de vignettes, représentant une fenêtre de toit sous la pluie.

Par comparaison entre le deuxième sous-ensemble formé du ou des éléments interactifs avec lesquelles l’utilisateur aura interagi et, respectivement, le premier et le troisième sous-ensemble, il est possible :
- d’une part, d’identifier l’utilisateur comme étant un humain, par suite un utilisateur approprié, si le deuxième sous-ensemble est identique au premier ou au troisième sous-ensemble, ou comme étant une machine, par suite un utilisateur non approprié, si le deuxième sous-ensemble n’est identique ni au premier ni au troisième sous-ensemble, et
- d’autre part, de qualifier l’extrait sonore comme se rapportant soit au bruit de la pluie sur la fenêtre de toit, soit au fonctionnement de la bouilloire, conformément à l’interprétation de l’utilisateur. Une table de correspondance entre extraits sonores et vignettes peut ainsi être mise à jour pour rendre compte de cette interprétation.

On se réfère à présent à la qui illustre un algorithme général d’un programme informatique, en lien par exemple avec l’une ou l’autre des interfaces graphiques des figures 1 et 2, pour la mise en œuvre d’un procédé pour une différenciation entre un humain et une machine.

En considérant une architecture client-serveur, ce programme informatique peut être exécuté, par exemple, par un ou plusieurs circuits de traitement côté serveur, tandis que l’interaction avec l’utilisateur s’effectue côté client.

En d’autres termes, l’affichage de l’interface graphique s’effectue au niveau d’un terminal côté client, ce terminal pouvant être par exemple un téléphone multifonction ou « smartphone », un ordinateur portable ou de bureau, ou un boîtier décodeur raccordé à un téléviseur, ou encore un équipement réseau pour la fourniture de services et/ou de contenus numériques. De même, l’utilisateur peut interagir, toujours côté client, avec l’interface graphique au moyen par exemple d’une interface tactile, d’une télécommande, d’un dispositif de pointage. En revanche, le programme informatique décrit ci-après peut être mis en œuvre exclusivement côté serveur, dans le but de prévenir des tentatives de contournement de la différenciation homme-machine.

Un extrait sonore, tel que défini précédemment, est sélectionné (S1) dans une base d’extraits sonores.

De même, plusieurs éléments interactifs, ici plusieurs vignettes, sont sélectionnés (S2) dans une base d’éléments interactifs, ici de vignettes, formant ainsi un ensemble d’éléments interactifs, ici de vignettes. Par exemple, 4, 6, 8, 9, 12, 15 ou 16 vignettes initiales peuvent être sélectionnées en vue d’être affichées simultanément sur une grille 2x2, 2x3, 2x4, 3x3, 3x4, 3x5 ou 4x4, respectivement.

Une ou plusieurs vignettes supplémentaires peuvent également être sélectionnées en vue d’être affichées ultérieurement, en remplacement d’une vignette initiale ayant fait l’objet d’une interaction via une interface homme-machine.

La sélection de l’extrait sonore et celle des éléments interactifs s’effectuent sans ordre particulier. Il convient seulement de s’assurer :
- qu’un ou plusieurs des éléments interactifs sélectionnés représentent ou sont associés à une entité pouvant être associée par un humain, de manière univoque, à l’extrait sonore sélectionné, et
- qu’un ou plusieurs des éléments interactifs restants représentent une entité pouvant être considérée par un humain, de manière univoque, comme sans rapport avec l’extrait sonore sélectionné.

Cet objectif peut être atteint par exemple au moyen d’un apprentissage statistique. Typiquement, un même deuxième son peut être diffusé à un grand nombre d’utilisateurs humains tandis qu’un même ensemble de vignettes leur est simultanément présenté. Il peut être alors demandé aux utilisateurs humains d’indiquer une ou plusieurs vignettes correspondant à l’extrait sonore diffusé.

Sur la base des indications reçues, il est possible par exemple d’associer un ou plusieurs éléments interactifs majoritairement sélectionnés, ucu une ou plusieurs vignettes majoritairement sélectionnées, ou sélectionnées par un pourcentage d’utilisateurs appropriés dépassant un certain seuil, au deuxième son diffusé. Cette association peut être opérée au moyen d’une table de correspondance entre, d’une part, les extraits sonores de la base d’extraits sonores et, d’autre part, les éléments interactifs de la base d’éléments interactifs.

Ainsi, il est possible par exemple de sélectionner un premier son donné, ainsi qu’un ou plusieurs éléments interactifs associés à ce premier son et formant le premier sous-ensemble d’éléments interactifs associés à un premier ensemble d’identifiants, et un ou plusieurs éléments interactifs n’étant pas associés à ce premier son.

En complément, il est également possible, par exemple dans la table de correspondance définie ci-avant, de prévoir d’associer un ou plusieurs éléments interactifs minoritairement sélectionnés, ou sélectionnés par un pourcentage d’utilisateurs appropriés inférieur à un certain seuil, à une indication selon laquelle cet élément interactif, ou ces éléments interactifs, sont sans rapport avec ce premier son.

Ainsi, il est possible par exemple de sélectionner un premier son donné, de même qu’un ou plusieurs éléments interactifs associés à ce premier son et formant le premier sous-ensemble d’éléments interactifs, ainsi que :
- un ou plusieurs éléments interactifs associés à une indication selon laquelle ce, ou ces, éléments interactifs sont sans rapport avec ce premier son, et/ou
- un ou plusieurs élément interactif n’étant ni associés à ce premier son ni associés à une telle indication.

Le premier sous-ensemble d’éléments interactifs est alors déterminé (S3). Le premier sous-ensemble d’éléments interactifs est défini comme étant formé du ou des éléments interactifs de l’ensemble d’éléments interactifs pour lesquels une interaction est attendue de la part d’un utilisateur lors de l’audition d’un deuxième son correspondant audit premier son.

En poursuivant l’exemple précédent impliquant des bases de données et une table de correspondance, le premier sous-ensemble d’éléments interactifs désigne, dans cet exemple, les éléments interactifs de l’ensemble d’éléments interactifs sélectionné qui sont associés au premier son sélectionné.

Une commande est émise afin de déclencher l’affichage d’une interface graphique telle que, par exemple, celle de la ou celle de la .

Ainsi, la commande déclenche l’affichage de l’ensemble d’éléments interactifs, ici de l’ensemble de vignettes sélectionné (S4) sur un dispositif d’affichage tel qu’un écran, et peut en outre déclencher l’affichage d’un bouton de lecture pour permettre de démarrer la lecture de l’extrait sonore sélectionné.

Le bouton de lecture est optionnel, alternativement tout autre mécanisme déclenchant la lecture de l’extrait sonore sélectionné comprenant le deuxième son peut être employé.

Par exemple, la lecture de l’extrait sonore et l’affichage de l’ensemble de vignettes peuvent être déclenchées, automatiquement, en même temps. Alternativement, la lecture de l’extrait sonore peut être déclenchée automatiquement après expiration d’un délai prédéfini. Ceci permet à l’utilisateur de se mettre en condition, en prenant connaissance des vignettes ainsi que du fait qu’un extrait sonore va être diffusé.

Il est proposé à l’utilisateur de sélectionner, parmi l’ensemble de vignettes affiché, une vignette, ou alternativement plusieurs vignettes, correspondant à l’extrait sonore sélectionné.

Une fois l’extrait sonore sélectionné lu, ou pendant la lecture de l’extrait sonore sélectionné, les vignettes affichées peuvent devenir interactives, de sorte que l’utilisateur puisse interagir, au moyen d’une interface homme-machine telle que décrite précédemment, avec une ou plusieurs de ces vignettes.

Alternativement, on peut prévoir que les vignettes affichées soient interactives même avant la lecture de l’extrait sonore sélectionné, et que toute interaction avec une vignette affichée survenant avant la lecture de l’extrait sonore sélectionné entraîne l’émission d’un message d’erreur, ou soit interprété comme un indice en faveur d’une identification de l’utilisateur comme étant une machine.

On considère que l’utilisateur interagit, comme il lui est proposé, avec au moins une vignette de l’ensemble de vignettes.

En conséquence, un signal de sélection, ou plusieurs signaux de sélection, indiquant une interaction de l’utilisateur au moyen d’une interface homme-machine avec une ou plusieurs vignettes de l’ensemble de vignettes est reçu (S5). Par exemple, un tel signal de sélection peut être transmis côté serveur pour y être interprété. Ce deuxième signal de sélection comprend un ou plusieurs deuxièmes identifiants.

Sur la base du signal de sélection reçu, ou des signaux de sélection reçus, un deuxième sous-ensemble de vignettes est déterminé (S51). Ce deuxième sous-ensemble de vignettes est formé de la vignette avec laquelle l’utilisateur a effectivement interagi, ou des vignettes avec lesquelles l’utilisateur a effectivement interagi.

On dispose donc à ce stade :
- d’un premier sous-ensemble de vignettes, formé exclusivement de la ou des vignettes avec lesquelles il était attendu qu’un utilisateur humain interagisse car ces vignettes sont associées à l’extrait sonore sélectionné, et
- d’un deuxième sous-ensemble de vignettes, formé exclusivement de la ou des vignettes avec lesquelles l’utilisateur a effectivement interagi pendant ou après la diffusion de l’extrait sonore sélectionné.

Cela se traduit par :
- un premier sous-ensemble de premiers identifiants d’un premier son, et
- au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par un utilisateur de l’interface homme-machine.

Ce premier sous-ensemble de premiers identifiants et ce ou ces deuxièmes identifiants sont alors comparés (S6) en vue d’identifier (S7) l’utilisateur comme étant approprié ou comme étant non approprié, en fonction de règles prédéfinies.

La comparaison peut renvoyer plusieurs types de résultats.

Par exemple, le résultat de la comparaison peut indiquer que le premier et le deuxième sous-ensemble de vignettes sont identiques. Cela signifie que l’utilisateur a correctement identifié toutes les vignettes qu’il lui était demandé d’associer à l’extrait sonore sélectionné. Un exemple de règle prédéfinie peut prévoir que lorsque la comparaison renvoie un tel résultat, alors l’utilisateur est identifié comme étant un humain.

Par exemple, le résultat de la comparaison peut indiquer que le premier et le deuxième sous-ensemble de vignettes n’ont aucun élément en commun. Cela signifie que l’utilisateur a certes interagi avec une ou plusieurs vignettes, mais n’a correctement identifié aucune des vignettes qu’il lui était demandé d’associer à l’extrait sonore sélectionné. Un exemple de règle prédéfinie peut prévoir que lorsque la comparaison renvoie un tel résultat, alors l’utilisateur est identifié comme étant une machine.

Outre ces exemples binaires, d’autres cas sont possibles. Un exemple possible de règle prédéfinie est d’identifier l’utilisateur comme une machine dès lors que le premier et le deuxième sous-ensemble de vignettes ne sont pas rigoureusement identiques.

Alternativement, des règles supplémentaires peuvent être prédéfinies pour tenir compte de certains cas où le premier et le deuxième sous-ensemble de vignettes se superposent en partie.

Par exemple, le résultat de la comparaison peut indiquer que le premier sous-ensemble de vignettes comprend toutes les vignettes du deuxième sous-ensemble de vignettes, ainsi qu’une ou plusieurs vignettes supplémentaires. L’utilisateur a donc correctement sélectionné uniquement une partie des vignettes dont il était attendu qu’il les associe à l’extrait sonore sélectionné, et n’a sélectionné aucune autre vignette.

Dans une telle situation, une règle prédéfinie peut par exemple imposer de conclure directement la différenciation humain-machine en identifiant l’utilisateur comme étant un humain, ceci afin de poursuivre un objectif général d’ergonomie.

Alternativement, si l’objectif principal visé est d’empêcher autant que faire se peut une machine d’être incorrectement identifiée comme étant un humain, une règle prédéfinie peut par exemple prévoir :
- de déclencher une nouvelle itération de l’algorithme en sélectionnant un nouvel extrait sonore et un nouvel ensemble de vignettes, ou encore
- de mettre en œuvre, en complément, une autre forme de test de Turing pour définitivement identifier l’utilisateur comme étant un humain ou comme étant une machine.

L’algorithme décrit ci-avant peut permettre, optionnellement, non seulement d’identifier un utilisateur comme étant un humain ou comme étant une machine, mais également d’enrichir une base de données associant des extraits sonores à des vignettes représentant chacune une entité source d’un tel extrait sonore. Une telle base de données peut par exemple être exploitée en aval pour effectuer une reconnaissance sonore à partir d’enregistrements.

Par exemple, si l’utilisateur est identifié comme étant un humain, alors il est possible de déclencher une nouvelle itération de l’algorithme en sélectionnant un nouvel extrait sonore et un nouvel ensemble de vignettes.

Dans cette nouvelle itération, il convient toujours de s’assurer :
- qu’une ou plusieurs des vignettes sélectionnées représentent une entité pouvant être associée par un humain, de manière univoque, à l’extrait sonore sélectionné, et
- qu’une ou plusieurs des vignettes restantes représentent une entité pouvant être considérée par un humain, de manière univoque, comme sans rapport avec l’extrait sonore sélectionné.

Par ailleurs, dans cette nouvelle itération, on prévoit également, parmi les vignettes sélectionnées, une ou plusieurs vignettes représentant une entité dont le rapport avec l’extrait sonore sélectionné est indéfini, potentiellement équivoque pour un humain.

On considère par exemple un extrait sonore sélectionné, issu d’une base de données d’extraits sonores et correspondant au bruit d’un moteur de tondeuse.

Cet extrait sonore sélectionné peut être associé, dans une table de correspondance, à un premier groupe de vignettes issues d’une base de données de vignettes et représentant des tondeuses.

On peut également définir, dans cette base de données de vignettes, un deuxième groupe de vignettes représentant des animaux, des instruments de musique, ou d’autres entités n’étant pas susceptibles d’émettre un son ressemblant au bruit d’un moteur de tondeuse. Les vignettes de ce deuxième groupe de vignettes peuvent être associées, dans la table de correspondance, à une indication selon laquelle elles sont sans rapport avec l’extrait sonore sélectionné.

Enfin, on peut également définir, dans cette base de données de vignettes, un troisième groupe de vignettes représentant un autre dispositif équipé d’un moteur, par exemple un cyclomoteur, et susceptible à ce titre d’émettre un son analogue à celui d’un moteur de tondeuse.

La sélection de l’ensemble de vignettes peut ainsi prévoir, dans cette nouvelle itération, de sélectionner une ou plusieurs vignettes de chacun des trois groupes de vignettes définis ci-avant.

L’ensemble de vignettes comprend ainsi :
- un premier sous-ensemble de vignettes formé des vignettes sélectionnées au sein du premier groupe de vignettes (ici des vignettes représentant une tondeuse),
- un autre sous-ensemble de vignettes formé des vignettes sélectionnées au sein du deuxième groupe de vignettes (ici des vignettes représentant des entités diverses, par exemple des animaux ou des instruments de musique), et
- un troisième sous-ensemble de vignettes formé des vignettes sélectionnées au sein du troisième groupe de vignettes (ici des vignettes représentant des cyclomoteurs).

Ce troisième sous-ensemble de vignettes est déterminé (S31) comme désignant un sous-ensemble de vignettes dont le rapport avec l’extrait sonore sélectionné est indéfini au moment de leur sélection.

L’interaction avec l’utilisateur est la même qu’au cours de l’itération précédente de l’algorithme.

L’ensemble de vignettes sélectionné est affiché, l’extrait sonore sélectionné est lu, puis au moins un signal de sélection est reçu.

Ce signal est issu d’une interface homme-machine et indicatif d’une sélection d’une ou plusieurs vignettes de l’ensemble de vignettes affiché.

Après identification, sur la base de ce signal de sélection reçu, d’un deuxième sous-ensemble formé de chaque vignette sélectionnée, il est possible de procéder à une comparaison (S61) entre le troisième sous-ensemble de vignettes et le deuxième sous-ensemble de vignettes. Dans cet exemple, on détermine donc si les vignettes sélectionnées par l’utilisateur représentent ou non des cyclomoteurs.

Pour chaque vignette (ici représentant un cyclomoteur) dont le rapport avec l’extrait sonore sélectionné est initialement incertain, ceci permet de déterminer si l’utilisateur, identifié comme étant un humain, considère que cette vignette représente, ou non, une entité susceptible d’émettre un bruit correspondant à un tel extrait sonore.

Si le résultat d’une telle comparaison (S61) indique que le deuxième sous-ensemble de vignettes (celles sélectionnées) comprend toutes les vignettes du troisième sous-ensemble de vignettes (celles représentant un cyclomoteur), alors on peut prévoir d’associer (S71) l’extrait sonore sélectionné aux vignettes du troisième sous-ensemble. Il est également possible, en complément, de procéder à une comparaison (S6) entre le premier sous-ensemble de vignettes (ici celles représentant une tondeuse) et le deuxième sous-ensemble de vignettes. Si le résultat d’une telle comparaison (S6) indique que le deuxième sous-ensemble de vignettes ne comprend aucune vignette du premier sous-ensemble de vignettes (dans cet exemple, représentant une tondeuse), alors cela signifie que l’extrait sonore sélectionné était incorrectement associé aux vignettes du premier sous-ensemble de vignettes. Donc, il peut être prévu, en pareil cas, de mettre à jour une table de correspondance préexistante entre extraits sonores et vignettes. Une telle mise à jour se résume, par exemple, à associer l’extrait sonore sélectionné non plus au premier sous-ensemble de vignettes (ici celles représentant une tondeuse), mais à la place au troisième sous-ensemble de vignettes (ici celles représentant un cyclomoteur).

On se réfère à présent à la qui présente un exemple de variante des interfaces graphiques des figures 1 et 2.

Dans cet exemple, une pluralité de boutons de lecture (11) sont affichés, ici neuf boutons de lecture répartis sous la forme d’une grille 3x3.

Lorsqu’un utilisateur interagit avec l’un de ces boutons de lecture, un extrait sonore qui lui est associé est diffusé. Simultanément, le bouton de lecture avec lequel l’interaction est couramment effectuée peut s’animer, par exemple sous la forme d’une emphase.

Une fois que l’utilisateur a interagi avec tous les boutons de lecture, il peut interagir avec un bouton « Suivant » (14) pour déclencher une animation de l’interface graphique.

Un ensemble (2) de vignettes vient alors se superposer aux boutons de lecture (11). En d’autres termes, chaque bouton de lecture est remplacé par une vignette correspondante.

Simultanément, une image (13) représentant une entité susceptible d’avoir généré l’un des extraits sonores ayant été diffusé à l’utilisateur est affichée. Cette image (13) est associée à l’extrait sonore en question.

Il est alors demandé à l’utilisateur d’indiquer l’extrait sonore, parmi ceux ayant été diffusés, susceptible d’avoir été émis par l’entité représentée sur l’image (13). Pour cela, il est attendu que l’utilisateur interagisse avec la vignette qui se situe au même endroit que le bouton de lecture ayant déclenché l’extrait sonore en question, puis, optionnellement, valide son choix en interagissant avec un bouton de validation (15).

On se réfère à présent à la qui illustre un exemple de variante de l’algorithme illustré sur la , cette variante étant en lien par exemple avec l’interface graphique représentée sur la .

L’algorithme illustré sur la reprend tous les éléments essentiels de celui illustré sur la , qui sont décrits à nouveau ci-après, et peut également intégrer l’un quelconque des éléments optionnels représentés sur la .

Plusieurs extraits sonores sont sélectionnés (S1), par exemple dans une base de données d’extraits sonores.

Une image associée à l’un des extraits sonores sélectionnés et représentant une entité susceptible d’avoir émis, ou apte à émettre, cet extrait sonore sélectionné, est également sélectionnée (S2), par exemple dans une base de données d’images.

Un sous-ensemble d’extraits sonores est déterminé (S3), il est défini comme désignant l’extrait sonore associé à l’image sélectionnée.

Plusieurs boutons de lecture sont affichés simultanément (S41). Ces boutons sont interactifs et respectivement associés à l’un des extraits sonores sélectionnés. Un utilisateur peut donc agir successivement avec chaque bouton de lecture et ainsi écouter successivement chacun des extraits sonores sélectionnés.

Concrètement, suite à l’interaction de l’utilisateur avec un bouton de lecture, un signal indiquant cette interaction est reçu (S42) et déclenche (S43) la diffusion de l’extrait sonore associé à ce bouton de lecture.

Une fois que tous les extraits sonores sélectionnés ont été diffusés, il est possible de déclencher une routine d’animation de l’interface graphique, afin d’afficher (S4) un ensemble de vignettes venant se superposer aux boutons de lecture, ainsi que l’image sélectionnée.

Parmi les vignettes de l’ensemble de vignettes, on peut définir un premier sous-ensemble de vignettes comme formé de la vignette superposée au bouton de lecture ayant déclenché l’extrait sonore associé à l’image sélectionnée.

Par exemple, si l’image sélectionnée représente un chat et si l’interaction avec le bouton de lecture situé en haut à gauche d’une grille de boutons de lecture 3x3 a déclenché l’émission d’un extrait sonore, associé à l’image sélectionnée et correspondant à un miaulement, alors le premier sous-ensemble de vignettes est formé de la vignette située en haut à gauche d’une grille de vignettes 3x3.

L’utilisateur est alors invité à indiquer l’extrait sonore parmi ceux diffusés susceptible d’être émis par l’entité représentée sur l’image sélectionnée.

Pour cela, l’utilisateur est invité à interagir, spécifiquement, avec la vignette ayant la même position que le bouton de lecture ayant déclenché l’extrait sonore associé à l’image sélectionnée.

Suite à l’interaction de l’utilisateur avec une vignette, un signal indiquant cette interaction est reçu (S5) et sur la base de ce signal, un deuxième sous-ensemble de vignettes est déterminé (S51). Le deuxième sous-ensemble de vignettes est formé de la vignette avec laquelle l’utilisateur a effectivement interagi.

Ensuite, on peut conduire (S6) un test de comparaison entre d’une part le premier sous-ensemble de vignettes et d’autre part le deuxième sous-ensemble de vignettes et, sur la base du résultat de ce test, identifier (S7) l’utilisateur soit comme étant un humain, soit comme étant une machine.

Bien entendu, l’algorithme représenté sur la peut alternativement, à titre de variante supplémentaire, requérir :
- d’identifier plusieurs extraits sonores associés à une même image sélectionnée, ou
- d’identifier tous les extraits sonores associés à l’une quelconque des images d’une liste d’images sélectionnées, ou encore
- d’identifier un ou plusieurs extraits sonores n’étant pas associés à une image sélectionnée.

On se réfère à présente à la , qui représente un exemple de système apte à mettre en œuvre l’un quelconque des algorithmes décrits ci-avant.

Le système comprend un premier circuit de traitement (100) et un deuxième circuit de traitement (200) connectés à travers un réseau (300), par exemple le réseau Internet ou un réseau local.

Le premier circuit de traitement comprend au moins un processeur (101) raccordé à une mémoire (102) et à une interface de communication réseau (103)

Le premier circuit de traitement (100) peut par exemple être intégré à un ordinateur du bureau ou portable, à une passerelle réseau, à un serveur informatique ou, plus généralement, à tout équipement informatique ou réseau.

Le deuxième circuit de traitement (200) comprend également au moins un processeur (201) raccordé à une mémoire (202) et à au moins une interface de communication (203), notamment une interface de communication réseau, permettant ainsi une communication avec le premier circuit de traitement (100) par l’entremise du réseau (300).

Le deuxième circuit de traitement (200) désigne un équipement réseau tel qu’un boîtier décodeur ou un terminal tel qu’un téléphone multifonctions et est destiné à être utilisé pour fournir un service à un ou plusieurs utilisateurs.

Le deuxième circuit de traitement (200) est par ailleurs raccordé à un périphérique de restitution visuelle (204) tel qu’un écran ou un vidéoprojecteur pour afficher une interface graphique, un périphérique de restitution sonore tel qu’un haut-parleur qui peut éventuellement être intégré au périphérique de restitution visuelle, et une interface homme-machine (205), par exemple vocale ou tactile, via laquelle un utilisateur peut interagir avec l’interface graphique affichée.

On se réfère à présent à la , qui illustre encore un autre exemple de variante des interfaces graphiques représentées sur les figures 1, 2 et 4.

Comme sur les figures 1, 2, et 4, l’interface graphique de la comporte un bouton (11) de commande de lecture d’un deuxième son, une série (2) d’éléments interactifs lors de l’audition du deuxième son, et un bouton de réinitialisation (31).

La série (2) d’éléments interactifs de la se distingue de celle des figures 1 et 2 en ce qu’elle est dénuée de vignettes mais affiche une sélection de mots.

Ainsi, lors de l’audition d’un deuxième son par l’utilisateur, celui-ci interagit avec l’interface graphique au moyen d’une interface homme-machine en sélectionnant l’un des mots affichés, générant ainsi un deuxième identifiant.

L’interface graphique représentée sur la répond au besoin de déterminer si un utilisateur est doté ou non d’un certain type d’équipement particulier.

Il peut être prévu par exemple que l’utilisateur soit considéré comme étant un utilisateur approprié dès lors qu’il est équipé d’un dispositif de restitution sonore permettant de reproduire le deuxième son.

Ainsi, il suffit de permettre à l’utilisateur de :
- commander la lecture du deuxième son, par exemple au moyen du bouton (11) de commande afférent, puis
- caractériser ce deuxième son par une interaction avec un ou plusieurs éléments interactifs de la série (2) d’éléments interactifs.

Dans cette optique, la nature de la série (2) d’éléments interactifs n’a pas d’importance dès lors :
que ces éléments sont respectivement associés à un premier identifiant associé à un premier son et
qu’interagir avec l’un de ces éléments interactifs génère un deuxième identifiant.

Il n’est donc aucunement nécessaire que les éléments interactifs soient, en particulier, des vignettes.

Alternativement, il peut être prévu par exemple que l’utilisateur soit considéré comme étant un utilisateur approprié dès lors qu’il est équipé d’un capteur sonore permettant de capter le deuxième son.

Ainsi, il suffit de permettre à l’utilisateur, lors de l’audition du deuxième son, de :
- déclencher la capture de ce deuxième son, par exemple au moyen d’un bouton de commande, et
- caractériser ce deuxième son par une interaction avec un ou plusieurs éléments interactifs de la série (2) d’éléments interactifs.

Ces deux étapes ne nécessitent pas d’être mises en œuvre dans un ordre particulier.

Le deuxième son peut alors être comparé à une base de données de premiers sons de manière à y identifier un premier son présentant une ressemblance avec le deuxième son.

Au moins un deuxième identifiant, résultant de l’interaction de l’utilisateur pour caractériser ce deuxième son, peut alors être comparé à un premier sous-ensemble de premiers identifiants associé au premier son ainsi identifié, pour caractériser, en fonction d’une règle prédéfinie, l’utilisateur comme étant ou non un utilisateur approprié.

Par exemple, le résultat de cette dernière comparaison peut permettre d’identifier l’utilisateur comme étant équipé d’un capteur sonore, et de déterminer par conséquent que l’utilisateur est un utilisateur approprié.

Claims

Procédé de caractérisation d’un utilisateur, le procédé étant mis en œuvre par un dispositif de traitement, le procédé comprenant :
- une (S6) comparaison entre au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par un utilisateur de l’interface homme-machine, la comparaison déclenchant, si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, une caractérisation de l’utilisateur comme étant un utilisateur approprié.
Procédé selon la revendication 1, dans lequel le procédé comprend :
- une réception (S5) d’au moins un signal provenant d’une interface homme-machine, le signal comportant le deuxième identifiant du deuxième son entendu.
Procédé selon l’une quelconque des revendications 1 ou 2, dans lequel le procédé comprend une parmi les étapes suivantes:
- une commande de reproduction d’un extrait sonore comportant un premier son associé à un des premiers sous-ensembles de premiers identifiants de premiers sons, le deuxième son entendu comportant le premier son reproduit ;
- une commande de capture du deuxième son entendu, la capture déclenchant une comparaison du deuxième son entendu avec au moins un premier son associé à un premier sous-ensemble d’identifiants.
Procédé selon l’une quelconque des revendications 1 à 3, dans lequel le procédé comprend :
- une commande (S4) d’affichage d’un ensemble de vignettes, l’ensemble de vignettes affiché comprenant au moins un identifiant d’un premier sous-ensemble associé au deuxième son entendu,
Procédé selon l’une quelconque des revendications 1 à 4, dans lequel le procédé comprend :
- sur la base d’au moins un signal de sélection reçu comportant au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par l’utilisateur de l’interface homme-machine, une génération (S51) d’un deuxième sous-ensemble comportant les deuxièmes identifiants,
- la (S6) comparaison étant effectuée entre au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant du deuxième sous-ensemble, la comparaison déclenchant, si au moins un deuxième identifiant ou tous les deuxième identifiants du deuxième sous-ensemble reçu appartiennent au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, la caractérisation de l’utilisateur comme étant un utilisateur approprié.
Procédé selon l’une quelconque des revendications 1 à 5, dans lequel le premier identifiant et le deuxième identifiant ont un type d’identifiant parmi les suivants :
- au moins un mot,
- au moins une image,
- une étiquette associé à un objet ;
- une vignette.
Procédé selon l’une quelconque des revendications 1 à 6, dans lequel :
- le deuxième son étant un son produit par un élément donné, chaque premier identifiant du premier sous-ensemble de premiers identifiants associé au premier son correspondant au deuxième son représente l’élément donné.
Procédé selon l’une quelconque des revendications 1 à 7, comprenant une sélection (S1) du deuxième son dans une base d’extraits sonores sur la base d’une table de correspondance associant, à chaque extrait sonore de la base, une classe respective.
Procédé selon l’une quelconque des revendications 1 à 8, comprenant une sélection (S2) dudit au moins un premier sous-ensemble de premiers identifiants dans une base de premiers identifiants sur la base d’une table de correspondance associant, à chaque premier identifiant de la base, une classe respective.
Procédé selon la revendication 9 lorsqu’elle dépend de la revendication 8, dans lequel la sélection (S2) dudit au moins un premier sous-ensemble de premiers identifiants dans la base de premiers identifiants est sur la base en outre de la classe associée à l’extrait sonore sélectionné comme deuxième son.
Procédé selon l’une quelconque des revendications 8 à 10, l’ensemble de vignettes comprenant en outre un troisième sous-ensemble formé d’au moins une vignette, le procédé comprenant :
- un test de comparaison (S61) entre le troisième sous-ensemble et le deuxième sous-ensemble, et
- sur la base de ce test, une mise à jour (S71), dans la table de correspondance associant, à chaque extrait sonore de la base d’extraits sonores, une classe respective, de la classe associée à l’extrait sonore sélectionné.
Procédé selon l’une quelconque des revendications 8 à 10, l’ensemble de vignettes comprenant en outre un troisième sous-ensemble formé d’au moins une vignette, le procédé comprenant :
- un test de comparaison (S61) entre le troisième sous-ensemble et le deuxième sous-ensemble, et
- sur la base de ce test, une mise à jour (S71), dans la table de correspondance associant, à chaque vignette de la base de vignettes, une classe respective, de la classe associée à au moins une vignette du troisième sous-ensemble.
Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 12 lorsque ce programme est exécuté par un processeur.
Support (102) d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une quelconque des revendications 1 à 12 lorsque ce programme est exécuté par un processeur.
Dispositif de traitement apte à mettre en œuvre un traitement de caractérisation d’un utilisateur sur commande d’une interface homme-machine, dans lequel le dispositif de traitement comporte :
- un comparateur apte à comparer au moins un premier sous-ensemble de premiers identifiants d’un premier son et au moins un deuxième identifiant reçu d’une interface homme-machine, lors de l’audition d’un deuxième son par l’utilisateur de l’interface homme-machine, le comparateur déclenchant, si l’au moins un deuxième identifiant reçu appartient au premier sous-ensemble associé à un premier son correspondant au deuxième son entendu, un caractériseur apte à caractériser l’utilisateur comme étant un utilisateur approprié.