FR3064795A1 - Modelisation de comportement humain - Google Patents

Modelisation de comportement humain Download PDF

Info

Publication number
FR3064795A1
FR3064795A1 FR1752641A FR1752641A FR3064795A1 FR 3064795 A1 FR3064795 A1 FR 3064795A1 FR 1752641 A FR1752641 A FR 1752641A FR 1752641 A FR1752641 A FR 1752641A FR 3064795 A1 FR3064795 A1 FR 3064795A1
Authority
FR
France
Prior art keywords
user
message
time range
data
ranges
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1752641A
Other languages
English (en)
Other versions
FR3064795B1 (fr
Inventor
Gregoire Lefebvre
Alaeddine Mihoub
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR1752641A priority Critical patent/FR3064795B1/fr
Publication of FR3064795A1 publication Critical patent/FR3064795A1/fr
Application granted granted Critical
Publication of FR3064795B1 publication Critical patent/FR3064795B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Un procédé mis en œuvre par ordinateur comprenant : - collecter des signaux représentatifs d'un comportement de l'utilisateur, - décomposer les signaux collectés en plages temporelles, - générer un jeu de données quantitatives, - classifier les données quantitatives d'au moins une plage temporelle selon un modèle de classification prédéfini, et générer au moins une donnée qualitative sur la base des types de données quantitatives classifiées, - associer, pour au moins une plage temporelle, des données qualitatives de différents types les unes avec les autres, - pour au moins une plage temporelle, sélectionner un message à adresser à l'utilisateur en appliquant aux données qualitatives correspondantes un modèle prédéfini basé sur un réseau Bayésien dynamique, - déterminer si le message doit être transmis ou non à l'utilisateur en fonction de données contextuelles relatives à la plage temporelle, et - transmettre le message à l'utilisateur seulement si la détermination est positive.

Description

® RÉPUBLIQUE FRANÇAISE
INSTITUT NATIONAL DE LA PROPRIÉTÉ INDUSTRIELLE © N° de publication : 3 064 795 (à n’utiliser que pour les commandes de reproduction)
©) N° d’enregistrement national : 17 52641
COURBEVOIE
©) Int Cl8 : G 08 B 7/00 (2017.01), G 06 F 17/40, G 06 N 7/00
DEMANDE DE BREVET D'INVENTION A1
©) Date de dépôt : 29.03.17. ©) Demandeur(s) : ORANGE Société anonyme — FR.
©) Priorité :
©) Inventeur(s) : LEFEBVRE GREGOIRE et MIHOUB
ALAEDDINE.
(43) Date de mise à la disposition du public de la
demande : 05.10.18 Bulletin 18/40.
©) Liste des documents cités dans le rapport de
recherche préliminaire : Se reporter à la fin du
présent fascicule
@) Références à d’autres documents nationaux ©) Titulaire(s) : ORANGE Société anonyme.
apparentés :
©) Demande(s) d’extension : @) Mandataire(s) : CABINET PLASSERAUD.
L’V MODELISATION DE COMPORTEMENT HUMAIN.
FR 3 064 795 - A1
Un procédé mis en oeuvre par ordinateur comprenant:
- collecter des signaux représentatifs d'un comportement de l'utilisateur,
- décomposer les signaux collectés en plages temporelles,
- générer un jeu de données quantitatives,
- classifier les données quantitatives d'au moins une plage temporelle selon un modèle de classification prédéfini, et générer au moins une donnée qualitative sur la base des types de données quantitatives classifiées,
- associer, pour au moins une plage temporelle, des données qualitatives de différents types les unes avec les autres,
- pour au moins une plage temporelle, sélectionner un message à adresser à l'utilisateur en appliquant aux données qualitatives correspondantes un modèle prédéfini basé sur un réseau Bayésien dynamique,
- déterminer si le message doit être transmis ou non à l'utilisateur en fonction de données contextuelles relatives à la plage temporelle, et
- transmettre le message à l'utilisateur seulement si la détermination est positive.
Figure FR3064795A1_D0001
Figure FR3064795A1_D0002
Modélisation de comportement humain
L’invention relève du domaine de l’acquisition artificielle de comportements humains et de leur modélisation.
Il est connu de modéliser des comportements humains par acquisition de signaux au cours de la réalisation de diverses tâches effectuées par un utilisateur. De tels signaux peuvent par exemple être de nature acoustique (parole et bruits captés par un microphone), de nature visuelle (expression du visage et regard porté captés par une caméra), de nature gestuelle (mouvements captés par exemple par un capteur de type accéléromètre ou souris reliée à un équipement informatique).
De telles modélisations sont par exemple mises en œuvre dans le domaine de la robotique pour adapter le comportement de machines à celui des humains, dans le domaine du cinéma d’animation et des jeux vidéo pour conférer à des objets virtuels des comportements semblables à ceux des humains. Les modélisations de comportements humains peuvent en outre servir à mieux comprendre les interactions, habitudes et usages des utilisateurs d’outils numériques.
Les modélisations de comportements humains permettent en outre d’enrichir les capacités d’interaction sociale, notamment entre humains. Des systèmes se basent sur des modélisations de comportements humains pour assister les humains dans leurs interactions, par exemple par l’analyse du comportement d’un orateur humain.
La parole constitue un canal de communication privilégié dans les interactions sociales. Il est admis que la qualité de la transmission d’information réside non seulement dans le contenu du discours mais aussi en partie dans un ensemble de comportements non verbaux, ou comportement co-verbal. La qualité ressentie d’un discours est par exemple améliorée par une voix audible, énergique, claire et fluide, une utilisation suffisante et appropriée de gestes manuels, une exploitation de l’espace physique et un regard pertinent et équitablement distribué envers les auditeurs.
Il existe des systèmes permettant d’enregistrer certains au moins des comportements co-verbaux et de les analyser de manière automatisée, par exemple au moyens d’un ensemble de caméras fixes orientées vers l’orateur et de caméras portées par certains des auditeurs, par exemple sous forme de lunettes-caméra. Après la présentation, le système fournit des informations relatives au comportement de l’orateur pendant la présentation, par exemple sous forme de mesures, graphiques, histogrammes, etc. Ainsi, l’orateur peut identifier ses défauts pour s’efforcer de les corriger lors de futures présentations. Il peut suivre sa propre évolution de présentation en présentation. Néanmoins, de tels systèmes sont encombrants, complexes à installer, et nécessitent d’équiper certains des auditeurs d’appareillages. Enfin, de tels systèmes sont inutiles à l’orateur pendant sa présentation.
Il existe en outre des recherches visant à équiper l’orateur de lunette dites « connectées » et qui permettraient d’afficher en temps réel, à la vue du porteur, des indicateurs parmi lesquels le débit de la parole, l’énergie corporelle et « l’ouverture d’esprit ». D’autres systèmes permettent de mesurer le volume et le débit de la parole. De telles informations sont présentées simultanément sous forme de textes ou d’un jeu d’icônes. D’autres systèmes proposent de présenter certaines informations à l’orateur par retour haptique au moyen d’un objet tenu dans la main. De telles recherches visent essentiellement à améliorer la forme de la présentation de chacune des informations pour en améliorer la perceptibilité par l’orateur alors même que son attention est en grande partie portée sur son propre discours.
Indépendamment de la forme de la présentation des informations à l’utilisateur, l’obtention des informations elles-mêmes, leur pertinence, leur cohérence et la chronologie de leur transmission à l’utilisateur sont perfectibles.
L’invention vient améliorer la situation.
La demanderesse propose un procédé mis en œuvre par ordinateur de génération de messages à un utilisateur en fonction de comportements de l’utilisateur, comprenant :
- collecter des signaux issus de capteurs associés à l’utilisateur, lesdits signaux étant représentatifs d’un comportement de l’utilisateur,
- décomposer les signaux collectés en plages temporelles, la définition des plages temporelles étant commune à l’ensemble des signaux décomposés,
- générer un jeu de données quantitatives de différents types prédéfinis par traitement des signaux décomposés en fonction du capteur dont ils sont respectivement issus,
- classifier les données quantitatives d’au moins une plage temporelle selon un modèle de classification prédéfini, et générer au moins une donnée qualitative par type de données quantitatives et plage temporelle sur la base des types de données quantitatives classifiées,
- associer, pour l’au moins une plage temporelle, des données qualitatives de différents types les unes avec les autres,
- pour l’au moins une plage temporelle, sélectionner un message à adresser à l’utilisateur parmi plusieurs messages prédéfinis en appliquant aux données qualitatives correspondantes un modèle prédéfini basé sur un réseau Bayésien dynamique,
- déterminer si le message doit être transmis ou non à l’utilisateur en fonction de données contextuelles relatives à l’au moins une plage temporelle, et
- transmettre le message à l’utilisateur seulement si la détermination est positive.
Un tel procédé permet à l’utilisateur de disposer de conseils adaptés en temps réel à sa prestation et d’améliorer la qualité de cette même prestation. Chaque conseil est fourni à un instant auquel l’utilisateur est le mieux à même de le percevoir et de le mettre en pratique de manière efficace. Les conseils sont données un par un ce qui limite à chaque instant les informations à percevoir par l’utilisateur. Les conseils donnés sont en cohérence les uns avec les autres. En réduisant l’attention requise par t’utilisateur pour percevoir, interpréter, comprendre et mettre en œuvre les conseils, la prestation de l’utilisateur reste naturelle pour les auditeurs. Un tel système peut être mis en œuvre avec des équipements peu encombrants, par exemple uniquement au moyen d’appareils portés par l’utilisateur lui-même.
Selon un autre aspect, la demanderesse propose un dispositif incluant une unité de traitement de données pour générer des messages à un utilisateur en fonction de comportements de l’utilisateur. L’unité de traitement de données comprend un processeur couplé de manière opérationnelle avec une mémoire pour mettre en œuvre le procédé défini dans les présentes.
Selon un autre aspect, la demanderesse propose un kit comprenant :
- au moins un dispositif tel que défini ci-avant, et
- au moins un équipement comprenant un capteur et agencé pour transmettre à l’unité de traitement de données du dispositif un signal issu du capteur.
Selon un autre aspect, la demanderesse propose un programme d’ordinateur apte à être mis en œuvre en un procédé de génération de messages tel que décrit ci-avant. Selon encore un autre aspect, la demanderesse propose un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme comprenant des instructions pour la mise en œuvre du procédé proposé dans les présentes.
Les caractéristiques suivantes peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres :
- L’association comprend en outre associer un indicateur d’un état cognitif de l’utilisateur auxdites données qualitatives pour l’au moins une plage temporelle.
- Dans le procédé, on associe des données qualitatives de différents types les unes avec les autres et on sélectionne un message à adresser à l’utilisateur pour chacune des plages d’une pluralité de plages temporelles successives. Dans le modèle prédéfini basé sur le réseau Bayésien dynamique :
- les messages correspondant respectivement aux plages temporelles parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives respectivement correspondantes, et
- le message d’une plage temporelle courante parmi la pluralité de plages temporelles successives est conditionné par le message d’une plage temporelle précédant la plage temporelle courante.
- Dans le procédé :
- l’association comprend en outre : associer un indicateur d’un état cognitif de rutilisateur auxdites données qualitatives pour l’au moins une plage temporelle, et
- on associe des données qualitatives de différents types les unes avec les autres et on sélectionne un message à adresser à rutilisateur pour chacune des plages d’une pluralité de plages temporelles successives, et dans le modèle prédéfini basé sur le réseau Bayésien dynamique :
- les messages correspondant respectivement aux plages temporelles parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives respectivement correspondantes,
- les données qualitatives correspondant aux plages temporelles sont respectivement conditionnées par les indicateurs associés aux plages temporelles,
- l’indicateur d’une plage temporelle courante parmi la pluralité de plages temporelles successives est conditionné par l’indicateur d’une plage temporelle précédant la plage temporelle courante,
- le message de la plage temporelle courante est conditionné par le message de la plage temporelle précédant la plage temporelle courante.
- La transmission du message est réalisée sous forme de texte, d’image, de son et/ou de vibration. La transmission d’image peut être adaptée à volonté en fonction des types d’équipements disponibles. L’utilisateur peut notamment adapter des équipements existants sans qu’il soit nécessaire d’acquérir des équipements spécifiques ou dédiés.
- Les signaux collectés sont issus de capteurs portés par l’utilisateur. La sélection du message est indépendante de signaux issus de capteurs autres que ceux portés par l’utilisateur. Un tel système peut ainsi être mis en œuvre avec des équipements entièrement portés par l’orateur. Le procédé peut ainsi être mis en œuvre indépendamment de la configuration des lieux et les équipements peuvent être transportés à volonté.
- Les signaux représentatifs d’un comportement de l’utilisateur sont issus de capteurs agencés de manière à mesurer :
- le volume de la voix ;
- l’intonation de la voix ;
- le débit de la voix ;
- le regard porté de l’utilisateur ;
- la gestuelle de l’utilisateur ; et
- les déplacements de l’utilisateur.
De tels paramètres sont à la fois identifiables et mesurables par des machines sans intervention d’un humain tout en étant pertinents pour juger de la qualité ressentie par des humains d’une présentation orale faite par un humain.
- Le modèle prédéfini basé sur un réseau Bayésien dynamique est préalablement construit par apprentissage machine sur un panel d’utilisateurs, ledit apprentissage incluant une supervision préalable par au moins un opérateur attribuant un message à chacune des séquences parmi une pluralité de séquences de présentations orales. Ceci permet de conférer à la sélection des messages par une machine une composante proche d’un jugement humain.
- Le modèle prédéfini basé sur le réseau Bayésien dynamique est préalablement construit par apprentissage machine sur un panel d’utilisateurs. L’apprentissage inclut une supervision préalable par au moins un opérateur attribuant un message à chacune des séquences parmi une pluralité de séquences de présentations orales.
- Le processeur est agencé pour associer un indicateur d’un état cognitif de Γutilisateur aux données qualitatives pour au moins une plage temporelle.
- Le processeur est agencé pour associer des données qualitatives de différents types les unes avec les autres et sélectionner un message à adresser à l’utilisateur pour chacune des plages d’une pluralité de plages temporelles successives. Dans le modèle prédéfini basé sur un réseau Bayésien dynamique :
- les messages correspondant respectivement aux plages temporelles parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives respectivement correspondantes, et
- le message d’une plage temporelle courante parmi la pluralité de plages temporelles successives est conditionné par le message d’une plage temporelle précédant la plage temporelle courante.
- Le dispositif est agencé, en outre, pour construire par apprentissage machine sur un panel d’utilisateurs le modèle prédéfini basé sur le réseau Bayésien dynamique. L’apprentissage inclut une supervision préalable par au moins un opérateur attribuant un message à chacune des séquences parmi une pluralité de séquences de présentations orales.
Les caractéristiques optionnelles précitées peuvent être transposées, indépendamment les unes des autres ou en combinaison les unes avec les autres, au dispositif et/ou au kit et/ou au programme d’ordinateur et/ou au support d’enregistrement non transitoire lisible par un ordinateur.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
- la figure 1 montre un kit d’équipements pour mettre en œuvre le procédé proposé selon un ou plusieurs modes de réalisation,
- la figure 2 montre un diagramme illustrant le procédé proposé selon un ou plusieurs modes de réalisation,
- la figure 3 montre un exemple non limitatif d’un modèle mis en œuvre par le procédé proposé selon un ou plusieurs modes de réalisation, et
- la figure 4 montre un exemple non limitatif d’un dispositif proposé selon un ou plusieurs modes de réalisation.
Dans la description détaillée ci-après de modes de réalisation, de nombreux détails spécifiques sont présentés pour apporter une compréhension plus complète. Néanmoins, l’homme du métier peut se rendre compte que des modes de réalisation peuvent être mis en pratique sans ces détails spécifiques. Dans d’autres cas, des caractéristiques bien connues ne sont pas décrites en détail pour éviter de compliquer inutilement la description.
La figure 1 représente la situation d’un utilisateur 1 effectuant une présentation orale devant une pluralité d’auditeurs 8. L’utilisateur 1 porte sur lui un jeu d’équipements comprenant ici un microphone 2, des lunettes 3, un téléphone intelligent 4 (ou « smartphone ») porté à la main ou rangé dans une poche de l’utilisateur 1, et une montre 5. Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, les équipements 2, 3, 4, 5 portés par l’utilisateur 1 sont suffisant à la mise en œuvre du procédé. De tels équipements appartiennent à la « technologie des objets portables », ou plus communément la catégorie des « wearables ». La présence d’autres équipements lourds ou fixes dans la salle sont inutiles. Le système est dépourvu d’équipements autres que ceux portés par l’utilisateur 1. Le système présente donc une grande mobilité et une grande adaptabilité. La configuration de la salle est sensiblement sans effet sur le fonctionnement du système et du procédé décrit ci-après.
Certains au moins des équipements peuvent être utilisés à la fois comme capteurs et comme interface pour transmettre des informations et/ou des messages à l’utilisateur 1. Par exemple, les lunettes 3 sont équipées à la fois d’au moins une caméra et de dispositifs propres à afficher des informations visibles par l’utilisateur 1, par exemple en superposition de l’environnement réel visible au travers de lunettes 3. Dans l’exemple non limitatif décrit ici, le microphone 2 et les lunettes 3 sont deux appareils distincts. En variante, les lunettes 3 peuvent inclure un microphone. Le jeu d’équipements peut en outre comprendre, par exemple, une oreillette apte à transmettre des informations sous forme sonore à l’utilisateur 1.
Dans l’exemple non limitatif décrit ici, on souhaite mesurer et améliorer les éléments coverbaux suivants :
- le volume de la voix ;
- l’intonation de la voix ;
- le débit de la voix ;
- le regard porté de l’utilisateur 1 ;
- la gestuelle de l’utilisateur 1 (les gestes des bras et mains notamment) ; et
- les déplacements de l’utilisateur 1 (la marche sur une scène notamment).
En variante, d’autres éléments co-verbaux peuvent être mesurés, par exemple des mouvements de la tête, le rythme cardiaque et le battement des cils.
La voix est captée par le microphone 2. Dans un autre mode de réalisation, la voix pourrait être captée par un microphone non porté par l’utilisateur 1, mais placé à proximité de celui-ci. Le regard porté de Γ utilisateur 1 est capté ici par les lunettes 3 comprenant au moins une caméra. Ici, les lunettes 3 comprennent une caméra frontale orientée selon le regard de l’utilisateur 1 de manière à ce que le cadrage corresponde sensiblement à la scène faisant face à l’utilisateur 1. Les lunettes 3 comprennent en outre une caméra orientée vers les yeux de l’utilisateur 1 et apte à détecter la position oculaire (l’orientation du regard) de l’utilisateur 1. En combinant les informations issues des deux caméras, il est ainsi possible d’identifier les éléments fixés du regard par Γutilisateur 1. Cela permet notamment d’identifier isolément les auditeurs 8 les uns des autres parmi l’auditoire. La gestuelle et les déplacements de l’utilisateur sont captés par le téléphone intelligent 4 et/ou la montre 5. Le téléphone intelligent 4 et la montre 5 comprennent chacun un accéléromètre et un gyroscope (ou gyromètre). Dans des variantes, d’autres éléments de la présentation orale peuvent être captés. D’autres jeux d’équipements peuvent être prévus. Par exemple, le procédé peut être adapté en fonction des équipements disponibles, de sorte que Γutilisateur 1 est dispensé de l’acquisition de nouveaux équipements.
Les équipements 2, 3, 4, 5 sont connectés, directement ou non, avec ou sans fil, à un dispositif de traitement 6 incluant une unité de traitement de données (CPU) ou un autre processeur matériel, agencé pour mettre en œuvre le procédé décrit ci-après. Dans l’exemple non limitatif décrit ici, le dispositif de traitement 6 incluant l’unité CPU ou le processeur est le téléphone intelligent 4. Ainsi, le microphone 2, les lunettes 3 et la montre 5 sont reliés au téléphone intelligent 4. En variante, le dispositif traitement 6 peut être distinct des équipements portés par l’utilisateur 1, par exemple inclus dans un ordinateur disposé à proximité et relié aux équipements 2, 3, 4, 5 par une connexion de type Bluetooth® ou Wifi, ou être distant et relié aux équipements 2, 3, 4, 5 notamment via le réseau Internet.
Le téléphone intelligent 4, respectivement la montre 5, incluent plusieurs modules et composants, parmi lesquels un ou plusieurs processeurs qui commandent les opérations du téléphone intelligent 4, respectivement de la montre 5, comme une unité de traitement de données de traitement de données (CPU) ou un autre processeur matériel, et une mémoire associée (par exemple, une mémoire vive (RAM), une mémoire morte (ROM), une mémoire cache et/ou une mémoire flash, ou tout autre medium de stockage apte au stockage de code logiciel sous forme d’instructions exécutables par un processeur ou de structures de données accessibles par un processeur). La mémoire est couplée de manière opérationnelle au(x) processeur(s). Le téléphone intelligent 4, respectivement la montre 5, comprend une interface graphique incluant un écran apte à afficher des informations.
Le téléphone intelligent 4, respectivement la montre 5, inclut un système d’exploitation et des programmes, composants, modules, applications sous forme de logiciels exécutés par le(s) processeur(s), qui peuvent être, dans un ou plusieurs modes de réalisation, stockés dans une mémoire non-volatile.
Dans les modes de réalisation comprenant un dispositif de traitement 6 distinct du téléphone intelligent 4 et de la montre 5, le dispositif de traitement 6 inclut, lui aussi, plusieurs modules et composants, parmi lesquels un ou plusieurs processeurs 61 qui commandent les opérations du dispositif de traitement 6 comme une unité de traitement de données (CPU) ou un autre processeur matériel, et une mémoire 63 associée (par exemple, une mémoire vive (RAM), une mémoire morte (ROM), une mémoire cache et/ou une mémoire flash, ou tout autre medium de stockage apte au stockage de code logiciel sous forme d’instructions exécutables par un processeur ou de structures de données accessibles par un processeur). La mémoire 63 est couplée de manière opérationnelle au(x) processeur(s) 61. Le dispositif de traitement 6 peut comprendre une interface graphique incluant un écran apte à afficher des informations.
Dans un ou plusieurs modes de réalisation, le dispositif de traitement 6 peut inclure un système d’exploitation et des programmes, composants, modules, applications sous forme de logiciels exécutés par le(s) processeur/s) 61, qui peuvent être, dans un ou plusieurs modes de réalisation, stockés dans une mémoire non-volatile.
L’homme du métier peut se rendre compte que, bien que le procédé proposé soit décrit dans différents modes de réalisation comme mis en œuvre par un dispositif de traitement 6 tel qu’illustré sur la figure 1, différents modes de réalisation du procédé proposé peuvent être mis en œuvre en utilisant différents types d’appareils tels que des ordinateurs, des tablettes ou des ressources informatiques déportées. Le procédé est mis en œuvre par des moyens informatiques configurés pour traiter des données issues des équipements 2, 3, 4, 5 et transmettre des informations à l’utilisateur 1 via l’un au moins des équipements 2, 3, 4, 5.
Dans un ou plusieurs modes de réalisation, le procédé proposé est mis en œuvre par l’intermédiaire d’une application préalablement installée sur le téléphone intelligent 4. Ainsi, le téléphone intelligent 4 peut être rendu conforme au système par une modification logicielle (« software ») sans qu’il soit nécessaire d’intervenir matériellement sur l’appareil (« hardware »). En outre, des améliorations peuvent être apportées par des mises à jour du logiciel.
En référence à la figure 2, le procédé proposé peut, dans un ou plusieurs modes de réalisation, comprendre de manière préliminaire un appairage 10 des équipements 2, 3, 4, 5 et de l’unité de traitement de données. Lors de cette opération, les connexions entre chaque équipement 2, 3, 4, 5 et l’unité de traitement de données sont initialisées. De telles connexions peuvent être indirectes. Par exemple, la montre 5 peut communiquer avec le téléphone intelligent 4, le téléphone intelligent 4 communiquant avec une unité de traitement de données déportée et faisant alors office de relais pour la montre 5. L’opération préliminaire d’appairage 10 peut être réalisée une première fois puis être omise lors de mises en œuvre ultérieure du procédé. Par exemple, l’opération préliminaire d’appairage 10 peut être mise en œuvre en partie au moins de manière automatisée lors de l’installation des modules applicatifs sur les équipements concernés préexistants. L’opération préliminaire d’appairage 10 peut être réalisée en usine, notamment lorsque un ensemble de plusieurs équipements sont fournis, par exemple sous la forme d’un kit.
Dans un ou plusieurs modes de réalisation, un kit peut comprendre un dispositif 6 de traitement de données et au moins un équipement 2, 3, 4, 5 comprenant au moins un capteur. L’au moins un équipement 2, 3, 4, 5 est agencé pour transmettre à l’unité de traitement de données du dispositif 6 un signal issu du au moins un capteur. Ainsi, le dispositif 6 peut être combiné de manière opérationnelle avec l’au moins un équipement pour mettre en œuvre un procédé tel que décrit dans les présentes. Dans un exemple non limitatif, il est fourni un kit incluant un dispositif 6 tel qu’un téléphone intelligent et des lunettes 3 comprenant elles-mêmes un microphone et un écran. Le dispositif 6 et les lunettes peuvent, par exemple, fonctionner indépendamment l’un de l’autre tout en étant compatibles l’un avec l’autre pour mettre en œuvre le procédé. Optionnellement, le kit peut être fourni avec un dispositif de traitement incluant un système d’exploitation et des programmes, composants, modules et/ou applications sous forme de logiciels exécutés par le(s) processeur(s) 61, qui peuvent être stockés dans une mémoire non-volatile. Dans un exemple non limitatif, des opérations d’appairage des éléments du kit peuvent être au moins en partie automatisées. Ainsi, un utilisateur se procurant un kit peut mettre en œuvre le procédé de manière simple, par exemple après mise sous tension des éléments constituant le kit. L’ensemble des éléments incluant le dispositif 6 de traitement de données et au moins un équipement 2, 3, 4, 5 comprenant au moins un capteur peut aussi être considéré comme un système apte à la mise en œuvre du procédé défini dans les présentes.
Dans un ou plusieurs modes de réalisation, le procédé proposé peut comprendre une collecte 20 de signaux issus de capteurs associés à l’utilisateur 1, par exemple des capteurs portés par l’utilisateur 1. Les capteurs comprennent ici le microphone 2, les caméras portées par les lunettes 3, les accéléromètres et gyroscopes du téléphone intelligent 4 et de la montre 5. Les signaux collectés sont, ici, bruts et de bas niveau. Autrement, dit leur interprétation en l’état par un humain est difficile. Les signaux sont représentatifs d’un comportement co-verbal de l’utilisateur 1 comme indiqué ci-avant (comportement vocal, oculaire, gestuel et corporel).
À l’issue de la collecte 20, l’unité de traitement de données dispose de l’ensemble des signaux d’intérêt, soit dans l’exemple non limitatif présenté ici :
- le flux audio issu du microphone 2,
- le(s) flux vidéo issu(s) des lunettes 3, et
- les flux de données de positions et d’orientations issus des accéléromètres et gyroscopes.
Dans un ou plusieurs modes de réalisation, le procédé proposé comprend une décomposition 30 de certains au moins (ou, dans un mode de réalisation, de chacun) des signaux collectés en plages temporelles (ou fenêtre temporelle). La définition des plages temporelles sera de préférence choisie commune à l’ensemble des signaux auxquels la décomposition est appliquée. Par exemple, les signaux pourront être découpés en plages temporelles de durées égales et successives. Dans ce cas, le pas de décomposition peut être sélectionné d’une durée de quelques secondes à quelques minutes. Dans la suite, on se place dans le cadre d’un exemple de mise en œuvre non limitatif dans lequel le pas de temps est fixé à 10 secondes. Ainsi, pour chaque période de 10 secondes, le dispositif de traitement 6 dispose d’un ensemble de signaux, ici un signal audio, deux signaux vidéo et des signaux comprenant des données de position et d’orientation.
Le procédé proposé comprend le traitement 40 des signaux obtenus par décomposition en fonction du capteur dont ils sont respectivement issus de manière à en tirer un jeu de données quantitatives de différents types respectivement correspondants et prédéfinis. Autrement dit, le traitement est adapté en fonction du type de signal (audio, vidéo, position ou orientation).
Le traitement peut en outre comprendre la combinaison de plusieurs types de signaux. Par exemple, la combinaison des signaux de position et d’orientation permet de déduire des mouvements. Par mouvement, on entend ici d’une part le déplacement général de l’utilisateur dans l’espace (par la marche) déduit des signaux en provenance du téléphone intelligent 4 lorsque celui-ci est placé dans une poche de l’utilisateur 1 et d’autres part les gestes des bras et mains déduits des signaux en provenance du téléphone intelligent 4 lorsque celui-ci est placé dans une main de l’utilisateur 1 et/ou de la montre 5 portée au poignet.
Par exemple, le flux audio, ici vocal, est traité pour donner des informations relatives :
- au volume sonore, par exemple en décibels,
- à l’intonation, ou fréquence fondamentale de la voix («pitch» en anglais), par exemple en hertz, et
- au débit, par exemple en reconnaissance puis comptage de syllabes.
Par exemple, les flux vidéo sont traités pour donner des informations relatives aux éléments fixés du regard par l’utilisateur (auditeurs, scène, support visuel du type diaporama projeté à destination de l’auditoire ou notes personnelles de l’utilisateur 1). Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, la combinaison des deux flux vidéo et d’outils de reconnaissance d’image permet d’identifier avec précision les éléments fixés du regard. En variante, un unique flux vidéo, par exemple issu d’une caméra frontale orientée dans la même direction que les yeux de l’utilisateur 1 suffit à identifier au moins approximativement les éléments faisant face au visage de l’utilisateur 1. En variante, un flux peut être issu d’un gyroscope fixé à la tête de l’utilisateur 1, par exemple un gyroscope inclut dans les lunettes 3. Dans un tel cas, un tel flux traité seul ou en combinaison avec le(s) flux vidéo permet aussi de déduire l’orientation du regard de l’utilisateur 1. À partir de l’identification des éléments fixés, ou cibles, des données quantitatives sur le regard peuvent être tirées pour chaque plage de temps, par exemple sous forme de :
- nombre d’auditeurs 8 différents fixés,
- nombres de changements de cible du regard,
- temps moyen passé à fixer chacune des cibles,
- durée cumulée passée à fixer chacune des cibles,
- durée cumulée passée à fixer chaque type de cible (auditeurs 8, supports graphiques, etc.). En variante, d’aubes types de données quantitatives peuvent être déduites du baitement des signaux.
Par exemple, les flux issus des accéléromètres peuvent subir notamment un filtrage passe-bas pour éliminer du bruit, un lissage et/ou une normalisation pour unifier les valeurs dans un référentiel commun afin d’en tirer des données quantifiant une énergie gestuelle (mouvements des bras et mains de l’utilisateur 1, par exemple tirées des signaux en provenance de la montre 5) et des données quantifiant une énergie corporelle (mouvements de l’ensemble du corps de Γutilisateur 1, par exemple tirées des signaux en provenance du téléphone intelligent 4). L’unité de comptage de l’énergie peut être basée sur une unité usuelle, par exemple les « m.s 2 », ou les « g », ou être artificielle. Ici, l’énergie obtenue est une estimation. Le but du système étant l’amélioration au fil du temps, la valeur réelle de l’énergie et la précision de son estimation sont peu importantes. L’énergie obtenue pour une plage temporelle présente ici une valeur relative en ce qu’elle est utilisée essentiellement par comparaison avec des valeurs estimées dans les mêmes conditions, par exemple sur d’autres plages temporelles.
Les traitements appliqués aux signaux sont adaptés aux équipements 2, 3, 4, 5 et à la manière dont ils sont portés par l’utilisateur 1. Par exemple, l’utilisateur 1 peut porter un gant et/ou une bague incluant un accéléromètre et/ou un gyroscope. Dans ce cas, le niveau de précision du système peut être augmenté en tirant des données quantitatives des mouvements de doigts de Γ utilisateur 1.
Le procédé proposé comprend la classification 50 de chaque type de données quantitatives de chaque plage temporelle selon un modèle de classification prédéfini de manière à en tirer au moins une donnée qualitative par type de données quantitatives et plage temporelle. Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, les données quantitatives (en décibels, hertz, nombre de syllabes, nombre d’auditeurs 8 fixés, « g », etc.) sont comparées à des valeurs de référence.
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, le modèle de classification comprend six types de données qualitatives (ou modalités) réparties chacune en trois classes (ou niveaux).
Le modèle de classification est établi, ici, de la manière suivante :
- Le volume de la voix est classé en trois catégories selon la valeur moyenne en décibels sur chaque plage temporelle. Par exemple, le volume est classifié comme « faible » lorsqu’inférieur à 50 dB, « fort » lorsque supérieur à 60 dB, et « intermédiaire » lorsque compris entre les deux valeurs de références précédentes.
- L’intonation de la voix est classée en trois catégories selon la valeur moyenne par plage temporelle du quotient de variation de l’intonation, indice connu sous le sigle PVQ pour « Pitch Variation Quotient » en anglais. Dans un exemple non limitatif, l’intonation est classifiée comme « monotone » lorsque le PVQ est inférieur à 0,10, « vivante » lorsque supérieur à 0,23, et « moyen » lorsque compris entre les deux valeurs de références précédentes.
- Le débit de la parole est classé en trois catégories selon le nombre moyen de syllabes par seconde, pour chaque plage temporelle. Dans un exemple non limitatif, le débit est classifié comme « lent » lorsque le nombre est inférieur à 5,8 syllabes par seconde, « rapide » lorsque supérieur à 10 syllabes par seconde, et « bon » lorsque compris entre les deux valeurs de références précédentes.
- Le regard porté informe sur la disposition de l’utilisateur 1 à regarder son audience et la répartition de son regard sur différents éléments structurants de son contexte. Ici, le regard porté est classé en trois catégories selon la proportion de temps cumulé où le regard de l’utilisateur 1 est porté sur l’un au moins des auditeurs 8 sur l’ensemble d’une plage temporelle. Dans un exemple non limitatif, le regard porté est classifié comme « mauvais » lorsque la proportion est inférieure à 30%, comme « bon » lorsque supérieure à 60%, et comme « moyen » lorsque compris entre les deux valeurs de références précédentes.
- Les mouvements gestuels (les mains et bras) et corporels (les déplacements dans la pièce et l’occupation de l’espace) sont classés en trois catégories selon l’énergie estimée par plage temporelle. Dans un exemple non limitatif, les mouvements gestuels sont par exemple classifiés comme « faibles » lorsque l’énergie estimée est inférieure à un premier seuil (par exemple de l’ordre de 1,8 g), comme « excessifs » lorsque supérieure à un deuxième seuil (par exemple de l’ordre de 5 g), et comme « moyens » lorsque compris entre les deux valeurs de références précédentes (premier et deuxième seuils). Les mouvements corporels sont classifiés comme « faibles » lorsque l’énergie estimée est inférieure à un troisième seuil (par exemple de l’ordre de 0,6 g), comme « excessifs » lorsque supérieure à un quatrième seuil (par exemple de l’ordre de 3 g), et comme « moyens » lorsque compris entre les deux valeurs de références précédentes (troisième et quatrième seuils).
Le modèle de classification est adapté en fonction des types de données disponibles. Les valeurs de référence choisies peuvent être fixées par défaut. Les valeurs de référence peuvent aussi être adaptées en fonction de la langue d’expression, de paramètres culturels ou encore du type de présentation orale prévue (commerciale, scientifique, politique, etc.).
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, le procédé proposé peut comprendre, pour chaque plage temporelle, l’association 60 des données qualitatives de différents types les unes avec les autres. L’association 60 peut prendre la forme d’un vecteur fonction de la plage temporelle considérée, par exemple la plage temporelle courante. Les données qualitatives de différents types sont par exemple concaténées. Dans un exemple non limitatif, les vecteurs sont choisis de dimension 6. Un vecteur « (1, 1, 1, 2, 3, 3) » peut ainsi être par exemple interprété comme signifiant « volume faible, intonation faible, débit faible, regard moyen, énergie gestuelle élevée, énergie corporelle élevée ».
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation particuliers, le procédé proposé peut comprendre, pour au moins une plage temporelle, l’ajout 70 d’un indicateur CS d’un état cognitif de l’utilisateur 1 au vecteur obtenu par l’association 60.
Dans l’exemple non limitatif de modèle utilisé ici, l’indicateur CS définissant l’état cognitif de l’utilisateur 1 est ajouté aux données qualitatives déduites des signaux issus des capteurs. Selon la tâche à produire par l’utilisateur 1, il est considéré que l’utilisateur 1 réalise des sous-tâches reflétant plusieurs états cognitifs. Les états cognitifs influencent les caractéristiques de sa voix, de son regard et de ses mouvements corporels et gestuels. Par exemple, différents états émotionnels peuvent induire des variations comportementales dans la réalisation d’une même action par un même utilisateur 1. Par exemple la joie, le stress et la colère définissent au moins en partie l’état cognitif de l’utilisateur 1. Ici, des techniques de regroupement de données (ou « data clustering » en anglais) sont mises en œuvre pour déterminer empiriquement 27 états (ou « clusters ») à partir d’une base d’apprentissage. En fonction des données d’entrées et de leur classification de premier niveau dans l’association 60, l’indicateur CS de l’état cognitif prend la valeur de l’état le plus proche (par exemple 2, si le vecteur caractéristique obtenu par l’association 60 est proche au sens Euclidien de l’état d’apprentissage labélisé 2).
Dans un ou plusieurs modes de réalisation, le procédé proposé peut comprendre, pour au moins une plage temporelle, la sélection 80 d’un message F à adresser à l’utilisateur 1 parmi plusieurs messages prédéfinis. La sélection 80 peut comprendre l’application aux données qualitatives, et à l’indicateur CS dans les modes de réalisation pour lesquels l’indicateur CS est mis en œuvre, d’un modèle prédéfini basé sur un réseau Bayésien dynamique (ou DBN pour « Dynamic Bayesian network »). Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation particuliers, la sélection 80 du message F est réalisée à la volée. Autrement dit, la sélection 80 pour une plage temporelle donnée est mise en œuvre dès lors que les données qualitatives sont disponibles, c’est-à-dire dès que la plage temporelle se termine, aux délais de transmission et de traitement informatique près.
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation particuliers, les messages prédéfinis sont au nombre de neuf. Ils prennent la forme d’informations, ou conseils, sémantiques :
- « très bien, continue » ;
- « parle plus fort » ;
- « parle plus rapidement » ;
- « parle moins fort »
- « parle plus lentement » ;
- « regarde plus ton audience » ;
- « accentue ton discours avec les mains » ;
- « déplace-toi sur la scène pour occuper l’espace » ; et
- «» (message vide signifiant qu’aucun message n’est à produire vers l’utilisateur 1).
Pour chaque plage temporelle, la sélection du message F est réalisée à partir des données qualitatives (ici six informations co-verbales) représentatives du comportement de l’utilisateur 1. Le message F sélectionné parmi les huit possibles peut être interprété comme un retour à rutilisateur (ou « feedback »).
Un exemple non limitatif de modèle sous la forme d’un DBN est représenté en figure 3. Les DBN sont des modèles graphiques probabilistes représentant les dépendances conditionnelles entre des variables considérées comme aléatoires (ici les 6 types de données qualitatives, ou modalités). En figure 3, le volume est référencé V, l’intonation I, le débit S, le regard G, le corps B et la gestuelle H. Leurs influences directes ou causales sur d’autres variables (ici, le message référencé F en figure 3) sont conditionnées par les six types de données qualitatives décrits ci-avant. Les DBN sont temporels : les variables d’une plage temporelle donnée (référencée t+1 en figure 3) sont influencées par les valeurs de la plage temporelle précédente (référencée t en figure 3).
Dans un exemple non limitatif correspondant à un ou plusieurs modes de réalisation, 27 états cognitifs ont été prédéfinis. La variable CS influence directement les variables V, I, S, G, B, H et F durant la plage temporelle t. Les variables CS et F durant la plage temporelle t+1 dépendent respectivement des variables CS et F durant la plage temporelle t.
Dans le réseau Bayésien dynamique :
- le message F d’une plage temporelle t est conditionné par les données qualitatives V, I, S, G, B et H de ladite plage temporelle t,
- les données qualitatives V, I, S, G, B et H d’une plage temporelle t sont conditionnées par l’indicateur CS de ladite plage temporelle t,
- l’indicateur CS d’une plage temporelle t+1 est conditionné par l’indicateur CS de la plage temporelle précédente t,
- le message F d’une plage temporelle t+1 est conditionné par le message F de la plage temporelle précédente t.
Le modèle prédéfini basé sur un DBN est stocké sur une mémoire 85 à laquelle accède l’unité de traitement de données du dispositif de traitement 6. L’unité de traitement de données interroge le modèle stocké sur la mémoire 85, locale ou distante, avec les données qualitatives V, I, S, G, B, H et l’indicateur CS et reçoit en réponse un message F.
Le modèle prédéfini pourra typiquement être obtenu par un apprentissage préalable sur un panel d’utilisateurs représentatifs, par exemple ayant réalisé des tâches comportementales similaires. Le modèle résultant de l’apprentissage permet de fournir une réponse en fonction des données qualitatives V, I, S, G, B, H propres à un utilisateur 1 et de son état cognitif CS. L’apprentissage a pour objectif de créer un modèle utilisant en entrée les six types de données qualitatives et les états cognitifs CS au cours du temps pour les associer à un message F pertinent. Le message F peut dans un ou plusieurs modes de réalisation tenir compte de l’historique de messages F précédemment produits (sur des plages temporelles précédentes).
Dans un ou plusieurs modes de réalisation, en fonction des données qualitatives V, I, S, G, B, H les messages F possibles sont hiérarchisés en fonction de priorités. Par exemple, le modèle peut résulter d’un apprentissage pour ne pas proposer plusieurs fois de suite le même message F (par exemple au plus 3 fois de suite). Autre exemple, le modèle peut résulter d’un apprentissage pour favoriser un message relatif à la voix, puis au regard, et enfin aux mouvements gestuels et corporels.
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation du procédé proposé, l’apprentissage peut être supervisé. En fonction du mode de réalisation, la supervision peut comprendre la fourniture d’une vérité « humaine et subjective » par des exemples. Un opérateur attribue un label de message prédéfini à générer en fonction des données d’entrée, c’est-à-dire ici de séquences de présentations orales. On parle aussi d’opérations de labélisation. Ici, l’opérateur sélectionnera probablement en priorité un message prédéfini portant sur la voix, plutôt que sur le regard ou le mouvement, même si les trois aspects sont à corriger. Néanmoins, une telle règle n’est pas absolue et l’opérateur peut y déroger. Il n’y a pas de règle informatique stricte en ce sens. Une fois les analyses humaines et subjectives recueillis, l’apprentissage informatique automatique sélectionne un message parmi les messages prédéfinis par comparaison avec les modèles enregistrés et supervisés/labélisés par un opérateur. Il en résulte une sélection vraisemblable du message en fonction des données d’entrée. La supervision et l’établissement des modèles peuvent être assurés par des individus différents. Par conséquent, plusieurs opérateurs, aussi appelés « annotateurs », peuvent sélectionner des messages différents pour des données d’entrée identiques. L’apprentissage par machine permet néanmoins de sélectionner le message le plus vraisemblable.
En pratique, il n’est pas toujours souhaitable de diffuser un message F à l’instant courant. Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, le procédé proposé peut comprendre la détermination 90 de la pertinence de la transmission du message F sélectionné. Par exemple, on détermine si le message F doit être transmis ou non à l’utilisateur 1 en fonction de données contextuelles relatives à la plage temporelle de l’instant courant.
Dans un ou plusieurs modes de réalisation, les données contextuelles sont stockées sur une mémoire 95 à laquelle accède l’unité de traitement de données. Les mémoires 85 et 95 peuvent être communes ou distinctes. Les données contextuelles peuvent comprendre, par exemple, la tâche courante de l’utilisateur 1, des données de profil propres à l’utilisateur 1, des données de préférences de l’utilisateur 1 et/ou de l’assistance, ou encore des messages précédemment émis.
Lorsque l’une au moins des mémoires 85, 95 est distante, l’interrogation par l’unité de traitement de données des bases de données qui y sont stockées peut être mise en œuvre via un réseau de transmission de données par paquets, tel que le réseau Internet, les téléphones intelligents 4 étant aptes à s’y connecter.
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, la détermination 90 peut comprendre le calcul d’un indice de pertinence du message F en fonction des données contextuelles. En variante, la détermination 90 peut comprendre en outre le calcul d’un indice pour chaque forme de transmission du message F (affichage visible au moyen des lunettes 3, affichage sur le téléphone intelligent 4, affichage sur la montre 5, diffusion sonore du message F par des écouteurs, séquence de vibrations du téléphone intelligent 4 et/ou de la montre 5, etc.).
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, le procédé proposé peut comprendre la comparaison de l’indice de pertinence du message F avec une valeur seuil. Si l’indice de pertinence atteint ou dépasse la valeur seuil, alors le message peut être transmis (110). Sinon, le procédé est réitéré (10) pour la plage temporelle suivante t+1 sans que le message F ne soit transmis à t’utilisateur 1.
Dans l’exemple non limitatif décrit ici, correspondant à un ou plusieurs modes de réalisation, le procédé proposé peut comprendre, si le seuil est atteint à l’instance précédente 90, la transmission 110 du message F à l’utilisateur 1. En variante, lorsque plusieurs moyens de transmission du message F à l’utilisateur 1 sont possibles, la transmission 110 peut comprendre en outre l’utilisation du moyen ayant obtenu l’indice de pertinence le plus élevé.
Dans le cas d’une transmission d’un message F sous forme d’une séquence de vibration, le message est particulièrement discret et peu perceptible pour les auditeurs 8. F’utilisateur 1 doit néanmoins préalablement apprendre à décoder les séquences de vibration pour comprendre le contenu du message F.
Fa demanderesse a évalué les procédés proposés selon les exemples non limitatifs de mode de réalisation décrits dans les présentes, en réalisant une validation croisée avec 22 séquences de données recueillies avec des lunettes 3, une montre 5 et un téléphone intelligent 4 connectés. Onze modèles de comportement ont été créés à partir de vingt séquences et testés sur les deux séquences restantes.
L’évaluation est mesurée par la moyenne de onze scores par la technique dite de la « Fmeasure » du domaine de la classification automatique. Pour rappel, le score est calculé de la manière suivante :
Score (F) = 2 X-, où
P est la précision, définie comme le nombre de documents pertinents trouvés rapporté au nombre de documents total proposés par le moteur de recherche pour une requête donnée ; et R est le rappel, défini comme le nombre de documents pertinents retrouvés au regard du nombre de documents pertinents que possède la base de données.
Dans l’exemple non limitatif présenté ici, correspondant à un ou plusieurs modes de réalisation, le document pertinent correspond au bon message F émis au bon instant (par comparaison avec la vérité définie par les opérateurs ayant effectué les labélisations). Dans un exemple non limitatif, le procédé proposé permet d’obtenir un score moyen sur les onze séquences de 67.17%.
Dans l’exemple non limitatif décrit jusqu’ici, correspondant à un ou plusieurs modes de réalisation, le procédé est mis en œuvre dans le contexte d’une présentation orale devant une assistance, à l’image d’une conférence ou d’un cours magistrale. L’homme du métier comprendra que le procédé peut trouver des applications dans des contextes différents, par exemple pour former et améliorer les performances d’orateurs de personnes susceptibles de s’exprimer en public, notamment dans les domaines du commerce et de la communication.
En outre, les modèles construits dans le cadre du procédé peuvent être utilisés pour améliorer la compréhension des comportements humains dans différents contextes d’usage et d’adapter des interfaces et des services en fonction des comportements humains.
Dans un ou plusieurs modes de réalisation, les opérations du procédé décrites ci-avant peuvent être mises en œuvre répétitivement et de manière sensiblement continue au cours d’une présentation orale. Ainsi, les messages F peuvent être transmis à l’utilisateur 1 pendant la présentation orale. Le système peut en outre être agencé pour effectuer des opérations d’historisation, de sorte que la prestation de l’utilisateur 1 et les messages transmis puissent être analysés a posteriori.
En fonction du mode de réalisation choisi, certains actes, actions, évènements ou fonctions de chacune des méthodes et procédés décrits dans le présent document peuvent être effectués ou se produire selon un ordre différent de celui dans lequel ils ont été décrits, ou peuvent être ajoutés, fusionnés ou bien ne pas être effectués ou ne pas se produire, selon le cas. En outre, dans certains modes de réalisation, certains actes, actions ou évènements sont effectués ou se produisent concurremment et non pas successivement.
Bien que décrits à travers un certain nombre d’exemples de réalisation détaillés, le procédé de génération de messages proposé et le système pour la mise en œuvre du procédé comprennent différentes variantes, modifications et perfectionnements qui apparaîtront de façon évidente à l’homme de l’art, étant entendu que ces différentes variantes, modifications et perfectionnements font partie de la portée de l’invention, telle que définie par la protection recherchée. De plus, différents aspects et caractéristiques décrits ci-dessus peuvent être mis en œuvre ensemble, ou séparément, ou bien substitués les uns aux autres, et l’ensemble des différentes combinaisons et sous combinaisons des aspects et caractéristiques font partie de la portée de l’invention. En outre, il se peut que certains systèmes et équipements décrits ci-dessus n’incorporent pas la totalité des modules et fonctions décrits pour les modes de réalisation préférés.
L’invention ne se limite pas aux exemples de systèmes, procédés, dispositifs de traitement, unités de traitement de données, supports d’enregistrement et programmes décrits ci-avant, seulement à titre d’exemple, mais elle englobe toutes les variantes que pourra envisager l’homme de l’art dans le cadre de la protection recherchée.

Claims (15)

  1. Revendications
    1. Procédé mis en œuvre par ordinateur de génération de messages à un utilisateur (1) en fonction de comportements de l’utilisateur (1), comprenant :
    - collecter (20) des signaux issus de capteurs associés à l’utilisateur (1), lesdits signaux étant représentatifs d’un comportement de l’utilisateur (1),
    - décomposer (30) les signaux collectés en plages temporelles (t, t+1), la définition des plages temporelles (t, t+1) étant commune à l’ensemble des signaux décomposés,
    - générer un jeu de données quantitatives de différents types prédéfinis par traitement (40) des signaux décomposés en fonction du capteur dont ils sont respectivement issus,
    - classifier (50) les données quantitatives d’au moins une plage temporelle (t, t+1) selon un modèle de classification prédéfini, et générer au moins une donnée qualitative (V, I, S, G, H, B) par type de données quantitatives et plage temporelle (t, t+1) sur la base des types de données quantitatives classifiées,
    - associer (60), pour l’au moins une plage temporelle, des données qualitatives de différents types les unes avec les autres,
    - pour l’au moins une plage temporelle, sélectionner (80) un message (F) à adresser à l’utilisateur (1) parmi plusieurs messages prédéfinis en appliquant aux données qualitatives (V,
    1. S, G, H, B) correspondantes un modèle prédéfini basé sur un réseau Bayésien dynamique,
    - déterminer (90, 100) si le message (F) doit être transmis ou non à l’utilisateur (1) en fonction de données contextuelles relatives à l’au moins une plage temporelle (t ; t+1), et
    - transmettre (110) le message (F) à l’utilisateur (1) seulement si la détermination est positive.
  2. 2. Procédé selon la revendication 1, dans lequel l’association (60) comprend en outre associer (70) un indicateur (CS) d’un état cognitif de l’utilisateur (1) auxdites données qualitatives pour l’au moins une plage temporelle.
  3. 3. Procédé selon l’une des revendications précédentes, dans lequel on associe des données qualitatives de différents types les unes avec les autres et on sélectionne un message (F) à adresser à l’utilisateur (1) pour chacune des plages d’une pluralité de plages temporelles (t ; t+1) successives, et dans lequel, dans le modèle prédéfini basé sur le réseau Bayésien dynamique :
    - les messages (F) correspondant respectivement aux plages temporelles (t ; t+1) parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives (V, I, S, G, H, B) respectivement correspondantes, et
    - le message (F) d’une plage temporelle courante (t+1) parmi la pluralité de plages temporelles successives est conditionné par le message (F) d’une plage temporelle précédant (t) la plage temporelle courante.
  4. 4. Procédé selon l’une des revendications précédentes, dans lequel :
    - l’association (60) comprend en outre : associer (70) un indicateur (CS) d’un état cognitif de Putilisateur (1) auxdites données qualitatives pour l’au moins une plage temporelle, et
    - on associe des données qualitatives de différents types les unes avec les autres et on sélectionne un message (F) à adresser à l’utilisateur (1) pour chacune des plages d’une pluralité de plages temporelles (t ; t+1) successives, et dans le modèle prédéfini basé sur le réseau Bayésien dynamique :
    - les messages (F) correspondant respectivement aux plages temporelles (t ; t+1) parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives (V, I, S, G, H, B) respectivement correspondantes,
    - les données qualitatives (V, I, S, G, H, B) correspondant aux plages temporelles (t ; t+1) sont respectivement conditionnées par les indicateurs (CS) associés aux plages temporelles (t ; t+1),
    - l’indicateur (CS) d’une plage temporelle courante (t+1) parmi la pluralité de plages temporelles successives est conditionné par l’indicateur (CS) d’une plage temporelle précédant (t) la plage temporelle courante,
    - le message (F) de la plage temporelle courante (t+1) est conditionné par le message (F) de la plage temporelle précédant (t) la plage temporelle courante.
  5. 5. Procédé selon l’une des revendications précédentes, dans lequel la transmission du message (F) est réalisée sous forme de texte, d’image, de son et/ou de vibration.
  6. 6. Procédé selon l’une des revendications précédentes, dans lequel les signaux collectés sont issus de capteurs portés par l’utilisateur (1), et la sélection du message (F) est indépendante de signaux issus de capteurs autres que ceux portés par l’utilisateur (1).
  7. 7. Procédé selon l’une des revendications précédentes, dans lequel les signaux représentatifs d’un comportement de l’utilisateur (1) sont issus de capteurs agencés de manière à mesurer :
    - le volume de la voix ;
    - l’intonation de la voix ;
    - le débit de la voix ;
    - le regard porté de l’utilisateur (1) ;
    - la gestuelle de l’utilisateur (1) ; et
    - les déplacements de l’utilisateur (1).
  8. 8. Procédé selon l’une des revendications précédentes, dans lequel le modèle prédéfini basé sur le réseau Bayésien dynamique est préalablement construit par apprentissage machine sur un panel d’utilisateurs, ledit apprentissage incluant une supervision préalable par au moins un opérateur attribuant un message à chacune des séquences parmi une pluralité de séquences de présentations orales.
  9. 9. Dispositif (6) incluant une unité de traitement de données pour générer des messages à un utilisateur (1) en fonction de comportements de l’utilisateur (1), l’unité de traitement de données comprenant un processeur (61) couplé de manière opérationnelle avec une mémoire (63) pour mettre en œuvre le procédé selon l’un des revendications 1 à 8.
  10. 10. Dispositif (6) selon la revendication 9, dans lequel le processeur est agencé pour associer (70) un indicateur (CS) d’un état cognitif de l’utilisateur (1) aux données qualitatives pour au moins une plage temporelle.
  11. 11. Dispositif (6) selon l’une des revendications 9 et 10, dans lequel le processeur est agencé pour associer des données qualitatives de différents types les unes avec les autres et sélectionner un message (F) à adresser à l’utilisateur (1) pour chacune des plages d’une pluralité de plages temporelles (t ; t+1) successives, et dans le modèle prédéfini basé sur un réseau Bayésien dynamique :
    - les messages (F) correspondant respectivement aux plages temporelles (t ; t+1) parmi la pluralité de plages temporelles successives sont conditionnés par les données qualitatives (V, I, S, G, H, B) respectivement correspondantes, et
    - le message (F) d’une plage temporelle courante (t+1) parmi la pluralité de plages temporelles successives est conditionné par le message (F) d’une plage temporelle précédant (t) la plage temporelle courante.
  12. 12. Dispositif (6) selon l’une des revendications 9 à 11, agencé en outre pour construire par apprentissage machine sur un panel d’utilisateurs le modèle prédéfini basé sur le réseau Bayésien dynamique, ledit apprentissage incluant une supervision préalable par au moins un opérateur attribuant un message à chacune des séquences parmi une pluralité de séquences de présentations orales.
  13. 13. Kit comprenant :
    5 - au moins un dispositif (6) selon l’une des revendications 9 à 12, et
    - au moins un équipement (2, 3, 4, 5) comprenant un capteur et agencé pour transmettre à l’unité de traitement de données du dispositif (6) un signal issu du capteur.
  14. 14. Support d’enregistrement (63) non transitoire lisible par un ordinateur sur lequel est
    10 enregistré un programme comprenant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 8.
  15. 15. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 8, lorsque ce programme est exécuté par un processeur.
FR1752641A 2017-03-29 2017-03-29 Modelisation de comportement humain Active FR3064795B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1752641A FR3064795B1 (fr) 2017-03-29 2017-03-29 Modelisation de comportement humain

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1752641 2017-03-29
FR1752641A FR3064795B1 (fr) 2017-03-29 2017-03-29 Modelisation de comportement humain

Publications (2)

Publication Number Publication Date
FR3064795A1 true FR3064795A1 (fr) 2018-10-05
FR3064795B1 FR3064795B1 (fr) 2019-05-03

Family

ID=58779197

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1752641A Active FR3064795B1 (fr) 2017-03-29 2017-03-29 Modelisation de comportement humain

Country Status (1)

Country Link
FR (1) FR3064795B1 (fr)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
IFTEKHAR TANVEER M ET AL: "Rhema", INTELLIGENT USER INTERFACES, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 18 March 2015 (2015-03-18), pages 286 - 295, XP058067973, ISBN: 978-1-4503-3306-1, DOI: 10.1145/2678025.2701386 *
JI Q ET AL: "Active Affective State Detection and User Assistance With Dynamic Bayesian Networks", IEEE TRANSACTIONS ON SYSTEMS, MAN AND CYBERNETICS. PART A:SYSTEMS AND HUMANS, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 35, no. 1, 1 January 2005 (2005-01-01), pages 93 - 105, XP011123555, ISSN: 1083-4427, DOI: 10.1109/TSMCA.2004.838454 *
KEITH CURTIS ET AL: "Effects of Good Speaking Techniques on Audience Engagement", INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 9 November 2015 (2015-11-09), pages 35 - 42, XP058077340, ISBN: 978-1-4503-3912-4, DOI: 10.1145/2818346.2820766 *
M.A. DE JONGH, 8 December 2005 (2005-12-08), Delft TU, NL, XP055430335, Retrieved from the Internet <URL:https://homes.di.unimi.it/~boccignone/GiuseppeBoccignone_webpage/CompAff2015_files/AffectiveStateDetectionwithDBNs.pdf> [retrieved on 20171129] *
SCHNEIDER JAN ET AL: "Can You Help Me with My Pitch? Studying a Tool for Real-Time Automated Feedback", IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES, IEEE, USA, vol. 9, no. 4, 1 October 2016 (2016-10-01), pages 318 - 327, XP011636865, ISSN: 1939-1382, [retrieved on 20161214], DOI: 10.1109/TLT.2016.2627043 *
TORSTEN WÖRTWEIN ET AL: "Multimodal Public Speaking Performance Assessment", INTERNATIONAL CONFERENCE ON MULTIMODAL INTERACTION, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 9 November 2015 (2015-11-09), pages 43 - 50, XP058077336, ISBN: 978-1-4503-3912-4, DOI: 10.1145/2818346.2820762 *

Also Published As

Publication number Publication date
FR3064795B1 (fr) 2019-05-03

Similar Documents

Publication Publication Date Title
JP6751806B2 (ja) エンティティに関連する欠落情報を補足するために複数のデータストリームを使用するエンティティ認識
US10834456B2 (en) Intelligent masking of non-verbal cues during a video communication
US11016640B2 (en) Contextual user profile photo selection
JP2022525272A (ja) 選択的な動きの描画を伴う画像表示
EP2960815A1 (fr) Système et procédé de génération dynamique de contenu numérique contextualisé et personnalisé
CN106462832B (zh) 响应于共同存在确定的调用动作
EP3267333A1 (fr) Traitement local de données biométriques pour un système de sélection de contenu
US20190139447A1 (en) Cognitive real-time feedback speaking coach on a mobile device
US11443554B2 (en) Determining and presenting user emotion
US20200135039A1 (en) Content pre-personalization using biometric data
US11115409B2 (en) User authentication by emotional response
US10770072B2 (en) Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
Scherr et al. Acceptance testing of mobile applications: Automated emotion tracking for large user groups
US10547582B1 (en) Methods and systems for enhancing viewer engagement with content portions
US11164341B2 (en) Identifying objects of interest in augmented reality
US20180232643A1 (en) Identifying user engagement based upon emotional state
US11086928B2 (en) Composable templates for managing disturbing image and sounds
CN112306238A (zh) 交互方式的确定方法、装置、电子设备及存储介质
US10296723B2 (en) Managing companionship data
WO2019227633A1 (fr) Procédés et appareils pour établir un profil d&#39;utilisateur et établir un modèle d&#39;analyse d&#39;informations d&#39;état
FR3064795A1 (fr) Modelisation de comportement humain
US20180101579A1 (en) Adapting an application based on mood and biometrics
US11481460B2 (en) Selecting items of interest
US11036925B2 (en) Managing the distinctiveness of multimedia
Zhang et al. Pattern Recognition and Information Forensics

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20181005

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8