FR3094856A1 - Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme - Google Patents

Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme Download PDF

Info

Publication number
FR3094856A1
FR3094856A1 FR1903530A FR1903530A FR3094856A1 FR 3094856 A1 FR3094856 A1 FR 3094856A1 FR 1903530 A FR1903530 A FR 1903530A FR 1903530 A FR1903530 A FR 1903530A FR 3094856 A1 FR3094856 A1 FR 3094856A1
Authority
FR
France
Prior art keywords
media
medium
user
generated
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1903530A
Other languages
English (en)
Other versions
FR3094856B1 (fr
Inventor
Stanislas Coppin
Barthélémy Kiss
Christian Navelot
Yann Mangematin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unique Entertainment Experience
Original Assignee
Unique Entertainment Experience
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unique Entertainment Experience filed Critical Unique Entertainment Experience
Priority to FR1903530A priority Critical patent/FR3094856B1/fr
Priority to PCT/EP2020/058857 priority patent/WO2020201158A1/fr
Priority to US17/600,911 priority patent/US11995738B2/en
Publication of FR3094856A1 publication Critical patent/FR3094856A1/fr
Application granted granted Critical
Publication of FR3094856B1 publication Critical patent/FR3094856B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Processing (AREA)

Abstract

PROCEDE DE G ÉNÉ RATION D’UN ELEMENT MULTIMEDIA AU COURS DE LA LECTURE D’UN MEDIA, TERMINAL, SYSTEME Procédé de génération d’un premier élément multimédia (EM1ji) caractérisé en ce qu’il comporte : Lecture (LEC) d’un premier média (M1) * ; Acquisition (ACQ) d’au moins une image d’au moins un visage d’un utilisateur (U1) ; Détection (EXT) d’une pluralité de points caractéristiques du visage de l’utilisateur (U1); Génération (GEN1) d’au moins un paramètre physiologique (pi) à partir d’au moins un traitement d’au moins un point caractéristique détecté ; Génération (GEN2) d’un premier élément multimédia (EM1 ji) en superposition du premier média (M1) en cours de lecture sur l’afficheur (AF1), ledit premier élément multimédia (EM1 ji) étant déterminé en fonction d’au moins la valeur du paramètre physiologique (pi) ; Émission (EM) simultanément à l’étape de génération d’une donnée numérique (DATA1) déduite de la valeur du paramètre physiologique (pi), ladite donnée numérique (DATA1) comportant en outre un marqueur temporel (ti) dudit premier média (M1). Figure pour l’abrégé : Fig.1

Description

PROCEDE DE GÉNÉRATION D’UN ELEMENT MULTIMEDIA AU COURS DE LA LECTURE D’UN MEDIA, TERMINAL, SYSTEME
Le domaine de l’invention concerne le domaine des méthodes visant à produire des éléments graphiques de manière interactive. Plus particulièrement, le domaine de l’invention se rapporte aux méthodes et dispositifs visant à générer des données numériques et des éléments graphiques prenant en compte des paramètres physiologiques d’un utilisateur.
Il existe actuellement différentes techniques pour générer des éléments multimédias en fonction d’une action d’un utilisateur. Une action utilisateur est généralement une action manuelle réalisée sur une interface de type clavier ou une interface tactile. D’autres moyens peuvent être utilisés pour engager une interaction, par exemple une souris ou une commande à partir de la voix.
Toutefois, il peut être utile de générer une action à partir d’une action de l’utilisateur ne nécessitant pas une interaction manuelle avec une interface de type clavier. Il peut s’agir, par exemple, d’une interaction avec le visage de l’utilisateur. Cela est notamment rendu possible grâce à la présence de caméras sur la plupart des terminaux ou des ordinateurs et au moyen d’algorithmes de reconnaissance de visage.
Toutefois, ces interactions sont ponctuelles, impliquent un unique utilisateur et sont ciblées selon un service donné. A titre d’exemple, on trouve le déverrouillage d’un téléphone intelligent par la reconnaissance de points caractéristiques du visage, le suivi du regard par une reconnaissance de l’Iris notamment pour les applications de viseurs tête haute dans l’aéronautique ou encore des applications de transformations du visage ludiques, dites de « morphing », pour superposer des éléments graphiques à un visage d’un utilisateur ou pour y appliquer des déformations ou des croisements entre différents individus. Il existe d’autres types d’applications dédiés utilisant des points caractéristiques du visage. Toutefois, aucune des solutions actuelles n’offre une exploitation des capacités d’analyse du visage à partir de points caractéristiques pour générer des interactions enrichies.
Il existe donc un besoin de définir une solution qui puisse répondre à cette problématique.
La présente invention vise à résoudre les inconvénients précités.
Selon un premier aspect, l’invention concerne un procédé de génération d’un premier élément multimédia comportant :
  • Lecture d’un premier média sur un afficheur d’un terminal numérique ;
  • Acquisition d’au moins une image d’au moins un visage d’un utilisateur à partir d’une optique dudit terminal numérique, ladite acquisition étant réalisée en temps réel lors de la lecture du premier média ;
  • Détection d’une pluralité de points caractéristiques du visage de l’utilisateur d’au moins une image acquise ;
  • Génération d’au moins un paramètre physiologique à partir d’au moins un traitement d’au moins un point caractéristique détecté ;
  • Génération d’un premier élément multimédia en superposition du premier média en cours de lecture sur l’afficheur, ledit premier élément multimédia étant déterminé en fonction d’au moins la valeur du paramètre physiologique ;
  • Émission d’une donnée numérique déduite de la valeur du paramètre physiologique, ladite donnée numérique comportant en outre un marqueur temporel dudit premier média, ladite émission étant réalisée au moyen d’une interface de communication à destination d’un serveur collectant ladite donnée numérique.
Un avantage de ce mode de réalisation est d’envoyer la donnée numérique avec un décalage de temps vis-à-vis de la génération de l’élément multimédia. Ce décalage peut être utilisé pour réaliser des opérations de prétraitements sur les données acquises de l’utilisateur ou encore pour réaliser des étapes de filtrage. Un intérêt et d’émettre vers le serveur des données restituant un état fidèle des interactions souhaitées et produites par un utilisateur. Selon un mode de réalisation, ce dernier est invité à valider l’envoi de la donnée numérique, par exemple par l’intermédiaire d’un bouton d’action. Selon un exemple, un utilisateur peut rejouer le média une seconde fois et valider chaque élément multimédia qui a été généré suite à une première lecture.
Selon un autre aspect, l’invention concerne un procédé de génération d’un premier élément multimédia comportant :
  • Lecture d’un premier média sur un afficheur d’un terminal numérique ;
  • Acquisition d’au moins une image d’au moins un visage d’un utilisateur à partir d’une optique dudit terminal numérique, ladite acquisition étant réalisée en temps réel lors de la lecture du premier média ;
  • Détection d’une pluralité de points caractéristiques du visage de l’utilisateur d’au moins une image acquise ;
  • Génération d’au moins un paramètre physiologique à partir d’au moins un traitement d’au moins un point caractéristique détecté ;
  • Génération d’un premier élément multimédia en superposition du premier média en cours de lecture sur l’afficheur, ledit premier élément multimédia étant déterminé en fonction d’au moins la valeur du paramètre physiologique ;
  • Émission simultanément à l’étape de génération d’une donnée numérique déduite de la valeur du paramètre physiologique, ladite donnée numérique comportant en outre un marqueur temporel dudit premier média, ladite émission étant réalisée au moyen d’une interface de communication à destination d’un serveur collectant ladite donnée numérique.
Un avantage de ce mode de réalisation est de permettre à un utilisateur de restituer en temps réel au sein d’une communauté d’utilisateurs ses émotions ou ses attitudes qui s’affichent sur le contenu multimédia qui est joué sur son terminal. Par ailleurs, un autre avantage est de réaliser simultanément une émission vers un serveur distant pour partager le paramètre physiologique avec une communauté d’utilisateurs pendant leur future lecture du média. L’intérêt de ce mode de réalisation est de produire un contenu pouvant être diffusé sur une courte échelle de temps au sein d’une communauté en privilégiant la spontanéité des interactions produites.
Selon un mode de réalisation, le procédé comporte préalablement à l’étape de lecture, une sélection d’un premier média parmi une liste prédéfinie de médias.
Selon un mode de réalisation, le procédé comporte préalablement à l’étape de lecture, une génération d’une liste de médias, lesdits médias étant associés à un profil média dont la corrélation avec le profil utilisateur du premier utilisateur définit une valeur supérieure à un seuil. Un avantage est de générer une liste qui soit pertinente pour un utilisateur donné.
Selon un mode de réalisation, l’étape de détection comporte :
  • un premier traitement comportant une évaluation des positions des points caractéristiques ;
  • un second traitement comportant une évaluation du mouvement des points caractéristiques, dont au moins un vecteur vitesse,
  • un troisième traitement comportant une évaluation de la similarité de valeurs obtenues de mêmes traitements d’une pluralité de points caractéristiques.
Un avantage est de définir une très grande variété d’expressions, d’émotions ou d’attitudes d’un large panel d’individus.
Selon un mode de réalisation, la génération d’un paramètre physiologique comporte :
  • détermination d’un ensemble donné de traitements d’un ensemble de points caractéristiques détectés et ;
  • comparaison de la valeur obtenue de chaque traitement avec un seuil prédéfini ;
  • génération d’un paramètre physiologique en fonction du résultat de l’étape de comparaison.
Un avantage est de permettre une définition d’un large éventail de paramètres physiologiques notamment grâce à la possibilité de réaliser des combinaisons très diverses de différents traitements.
Selon un mode de réalisation, chaque paramètre physiologique généré est associé à une donnée de quantification de ce dernier qui est calculée selon une échelle prédéfinie. Un premier avantage est de permettre de prendre en compte différentes échelles d’émotion ou d’attitude pour générer une plus large gamme d’éléments graphiques résultants de la quantification d’un paramètre physiologique, tels qu’un grand sourire ou un léger sourire. Un second avantage est d’améliorer une possible normalisation des paramètres physiologiques à chaque utilisateur en fonction d’un profil utilisateur.
Selon un mode de réalisation, chaque quantification d’un paramètre physiologique est normalisée en fonction d’un profil utilisateur. Un avantage est de générer une même interaction produite au sein d’une communauté de manière homogène entre différents individus.
Selon un mode de réalisation, une étape de calibration est préalablement réalisée dans laquelle au moins une gamme de valeurs d’une quantification d’un paramètre physiologique donné est ajustée selon au moins un coefficient de pondération, ledit coefficient de pondération prenant en compte au moins un élément parmi lesquels :
  • Une forme générale de visage d’un utilisateur ;
  • Des positions relatives d’un sous-ensemble de points caractéristiques, lesdites positions définissant des positions de calibration ;
  • Un mouvement d’un sous-ensemble de points caractéristiques pendant un laps de temps, lesdits mouvements définissant des mouvements de calibration,
  • Un historique de valeurs de paramètres physiologiques déjà générés pour un utilisateur donné.
Un avantage est de produire une interaction fidèle à l’intention de son auteur et ce quel que soit les particularités culturelles, ethnologiques, de genre ou relatives à tout autre facteur pouvant modifier l’interprétation d’une émotion ou d’une attitude vis-à-vis d’une moyenne ou d’une référence fixée.
Selon un mode de réalisation, la génération d’un premier élément multimédia donné est une fonction d’un paramètre physiologique généré donné, ledit élément multimédia étant sélectionné parmi une liste de premiers éléments multimédias enregistrés dans une mémoire et associés à un élément physiologique donné. Un avantage est de disposer et d’enrichir une large gamme d’éléments multimédias reflétant autant d’expressions, d’attitudes ou d’émotions d’utilisateurs.
Selon un mode de réalisation, la position dans le média, les dimensions, la vitesse d’animation ou la couleur d’un premier élément multimédia généré est une fonction de la quantification du paramètre physiologique généré. Un avantage est d’enrichir le contenu diffusé en prenant en compte un degré de réaction d’au moins un utilisateur.
Selon un mode de réalisation, la durée et/ou la position et/ou la trajectoire d’un élément multimédia sont définies selon la quantification du paramètre physiologique généré. Un avantage est de produire des interactions liées à un niveau de réaction d’un utilisateur.
Selon un mode de réalisation, un élément multimédia est généré pendant une durée prédéfinie à une position prédéfinie sur l’afficheur et réalise une trajectoire donnée. Un avantage est d’utiliser la surface d’affichage de la vidéo pour produire un contenu enrichi. Les animations produites participent à l’expérience de lecture du média et incitent les utilisateurs à exprimer leurs émotions ou leurs réactions en cours de lecture du média.
Selon un mode de réalisation, un élément multimédia peut être une combinaison des éléments multimédias parmi lesquels :
  • Un texte intégré ou non dans un élément graphique ;
  • Une image prédéfinie ;
  • Une image animée,
  • Un son prédéfini.
Un avantage est de produire des contenus multimédias variés pouvant intégrer un grand nombre d’interactions d’utilisateurs afin d’enrichir la restitution d’une communauté d’utilisateurs sous différentes formes.
Selon un mode de réalisation, un élément multimédia est un émoji, c’est-à-dire une image représentant une émotion ou une humeur déduite d’au moins un paramètre physiologique généré. Un avantage est de produire un élément graphique représentant une indication miroir de l’utilisateur, c’est-à-dire fidèle à l’émotion produite par le visage d’un utilisateur.
Selon un mode de réalisation, lorsqu’un élément physiologique donné est généré, le procédé de l’invention active la lecture d’un second média. Un avantage est de générer un contenu multimédia comportant différents médias, possiblement de natures différentes, telles que des sons, des films ou encore des animations. Un avantage est de produire un contenu déclenché sur une interaction de l’utilisateur ne nécessitant pas d’action manuelle. Un avantage est de produire un contenu en fonction d’une interaction donnée d’un utilisateur.
Selon un mode de réalisation, le premier média est joué pendant une durée prédéfinie jusqu’à un instant prédéfini du média, le procédé générant une boucle de lecture dudit premier média pendant un laps de temps donné. Un avantage est de créer une attente dynamique dans le média. Le média est joué sur une courte boucle d’animation, par exemple 1 à 5s, voire plusieurs secondes jusqu’à quelques minutes. Ainsi, dans le cadre d’un jeu, l’utilisateur a le temps de comprendre qu’il est attendu de sa part qu’il produise une interaction donnée. Selon d’autres contextes, cela permet de valider des étapes de lecture, par exemple lorsqu’il s’agit d’une formation interactive.
Selon un mode de réalisation, le procédé comprend la génération d’une pluralité de seconds éléments multimédia en superposition du premier média affiché sur l’afficheur du premier utilisateur, lesdits seconds éléments multimédias étant générés à des instants donnés et correspondant à des valeurs de paramètres physiologiques précédemment générés d’une pluralité d’utilisateurs ayant visionné le même média. Un avantage est de générer des contenus interactifs prenant en compte de nombreux retours d’une communauté au moment de la lecture du média par un utilisateur donné. Ce dernier peut vivre l’expérience proposée en considérant des réactions ayant déjà été émises par d’autres utilisateurs.
Selon un mode de réalisation, le procédé comprend la génération d’un premier compteur de paramètres physiologiques précédemment générés d’une pluralité d’utilisateurs, chaque paramètre physiologique étant comptabilisé à un moment donné du premier média selon le marqueur temporel lui étant associé. Un avantage est de marquer le média de moments forts pendant lesquels de nombreuses interactions ont été générées. L’utilisateur visionnant un média donné peut à son tour émettre des réactions en générant de nouveaux éléments multimédias qui seront ensuite intégrés à tous les autres déjà agrégés. Un intérêt est donc de faire participer des utilisateurs pour enrichir les données affichées pendant la lecture d’un média et qui lui sont associées.
Selon un mode de réalisation, une étape de collecte des données numériques par un serveur distant comprend, en outre, l’agrégation des données d’une pluralité d’utilisateurs ayant visionné un même premier média, ladite agrégation de données générant au moins une étiquette associée au média. Un avantage est de permettre une nouvelle catégorisation de contenus multimédias. Cette classification a l’avantage d’être plus spontanée qu’une classification conventionnelle. En effet, la classification repose sur des données spontanément émises d’une pluralité d’utilisateurs. Elle offre donc une possibilité de prendre en compte des données émotionnelles d’utilisateurs plus fines qu’une catégorisation classique. Par ailleurs, la classification peut se faire en prenant en compte des émotions tout au long du média. Il y a donc une granularité temporelle qui n’est pas prise en compte dans les systèmes de classification actuels.
Selon un mode de réalisation, l’étiquette d’un média est générée lorsqu’un seuil de nombre donné de paramètres physiologiques donnés générés est atteint dans des fenêtres temporelles prédéfinies vis-à-vis d’un marqueur temporel associé au premier média. Un avantage est de labelliser un média uniquement lorsqu’un nombre suffisant d’interactions d’un même type a été généré. Cette solution évite de prendre en compte des interactions non significatives ou des interactions générées sans réelle relation causale avec le contenu à un instant donné. En outre, cela évite de prendre en considération les éléments multimédias générés avec erreur.
Selon un autre aspect, l’invention concerne un produit programme d’ordinateur comportant au moins une mémoire et un calculateur, ledit programme comprenant des instructions de code de programme exécutées sur un ordinateur pour la mise en œuvre des étapes du procédé de l’invention.
Selon un autre aspect, l’invention concerne un terminal comportant un calculateur, une mémoire et un afficheur pour mettre en œuvre le procédé de l’invention. Un avantage est de permettre de télécharger une application sur un téléphone intelligent. Les médias peuvent alors être directement visionnés depuis un terminal. Chaque terminal peut être configuré avec des données propres à un utilisateur donné.
Selon un autre aspect, l’invention concerne un système comportant une pluralité de terminaux de l’invention, comportant en outre au moins un serveur configuré pour collecter les données émises par lesdits terminaux. Un avantage est de traiter l’ensemble des interactions utilisateur de sorte à créer des indicateurs communautaires permettant d’enrichir la lecture d’un média.
D’autres caractéristiques et avantages de l’invention ressortiront à la lecture de la description détaillée qui suit, en référence aux figures annexées, qui illustrent :
Fig. 1 : un mode de réalisation comportant les principales étapes du procédé de l’invention;
Fig. 2 : un mode de réalisation comportant des étapes préliminaires relatives à la sélection d’un média par un utilisateur;
Fig. 3 : un mode de réalisation du procédé de l’invention dans lequel une interaction utilisateur permet d’activer un nouveau scénario comportant la lecture d’un nouveau média ;
Fig. 4 : un mode de réalisation dans lequel une étape de calibration et une étape d’intégration des éléments graphiques d’une communauté sont générées dynamiquement lors de la lecture d’un média ;
Fig. 5 : un exemple d’architecture du système de l’invention représentant différents terminaux utilisateur et des serveurs pour mettre en œuvre le procédé de l’invention,
Fig. 6 : un exemple de représentations d’éléments graphiques sous la forme d’émojis.
La figure 1 représente des étapes d’une mise en œuvre possible du procédé de l’invention.
Lecture d’un média
Selon un mode de réalisation, le procédé comprend une première étape LEC (M1) de lecture d’un média M1. Cette étape est réalisée par exemple au moyen d’un lecteur multimédia. La lecture est réalisée sur un support de type téléphone intelligent, « Smartphone », ou un sur une tablette numérique ou encore un ordinateur. D’une manière générale, le média est joué sur tout type de support numérique présentant un afficheur. Selon un exemple, le média est stocké sur un serveur d’archivage de média. La figure 4 représente deux serveurs SERV1, SERV2et trois terminaux T1, T2, T3. Dans ce cas, le terminal d’un premier utilisateur U1est le premier terminal T1. Le média est joué sur ce premier terminal T1. Il peut être préalablement téléchargé depuis le serveur SERV2distant. Alternativement, il peut être lu en streaming, c’est-à-dire en continu depuis le serveur SERV2. Dans ce dernier cas, la lecture est réalisée en même temps que le chargement du média. Selon une autre configuration, le média M1est téléchargé depuis une pluralité de serveurs selon une architecture distribuée.
Selon différents modes de réalisation, le premier média M1est préférentiellement une vidéo. Elle peut être encodée, compressée ou encryptée selon différents algorithmes. Le format de la vidéo peut être selon les cas d’exemple celui dont les extensions sont les suivants: .mov, .rm, . wmv, .wmf, .mp4, m4v, .mkv. Tous les autres formats de vidéos non énumérés sont également compatibles du procédé de l’invention. Les vidéos peuvent être de différentes durées prédéfinies. Selon un exemple, les vidéos comprennent une séquence d’images racontant une histoire selon une mise en scène donnée et selon un scénario donné dans lequel une action se déroule et des personnages fictifs évoluent. D’autres types d’exemples de vidéos peuvent être mis en œuvre avec le procédé de l’invention, tels que des vidéos filmées ou animées ou des fichiers multimédias combinant des extraits de films et des animations.
Selon un exemple de réalisation, les vidéos sont associées à des dialogues qui peuvent être intégrés dans des bulles. Ces derniers sont destinés à être affichés à des moments prédéfinis dans la vidéo. Des marqueurs temporels peuvent être associés à ces éléments multimédias qui sont représentés.
Selon un exemple, une vidéo est séquencée de sorte à comprendre une pluralité de scènes qui s’enchainent. L’enchainement d’une scène à une autre peut être, par exemple, déclenché lorsqu’un élément multimédia ou lorsqu’un paramètre physiologique est généré par une action de l’utilisateur.
On nomme indifférent dans la suite de la description un élément multimédia et un élément graphique qui désigne la même entité.
Acquisition d’une image du visage
Le procédé de l’invention comprend une étape d’acquisition notée ACQ. L’étape d’acquisition ACQ est préférentiellement réalisée par une acquisition d’images d’un capteur optique. Le capteur optique est par exemple au moins une caméra d’un ordinateur, d’un téléphone intelligent ou d’une tablette. Dans la suite de la description, on désigne cet équipement par un terminal. On entend que généralement la caméra est fixée au terminal est que l’utilisateur oriente le terminal de telle manière à se filmer.
Préférentiellement, l’acquisition est réalisée avec un échantillonnage allant de 60i/s à 1 i/s. D’autres échantillonnages plus ou moins rapides que cette gamme serait compatible du procédé de l’invention. Néanmoins, le choix d’un échantillonnage rapide permet de réaliser des traitements en temps réel. De ce fait, cette configuration fluidifie les interactions de l’utilisateur vis-à-vis du média en cours de lecture. Un échantillonnage de la capture d’image d’un utilisateur allant de 15i/s à 30i/S est par exemple suffisant pour offrir une bonne dynamique de réponse pour générer des éléments multimédias en temps réel. Selon un exemple de réalisation, la vitesse d’acquisition est configurée automatiquement en fonction de paramètres prenant en compte le niveau de batterie, le type de vidéo sélectionnée, la résolution ou la taille de la vidéo jouée ou sa durée ou encore du scénario propre à la vidéo.
Selon d’autres exemples, l’acquisition ACQ est une acquisition d’un son, d’une température, d’une pression, d’un taux d’humidité ou de toute consigne numérique pouvant être générée depuis un capteur et déclenchée spontanément par une action générée dans l’environnement de l’utilisateur du terminal. Dans la suite de la description, l’exemple traité est celui d’une vidéo ou d’un ensemble d’images acquises par la caméra d’un terminal.
Selon un mode de réalisation, l’image acquise par la caméra est une image d’un visage d’un utilisateur U1. Dans ce cas, l’utilisateur positionne le terminal face à lui de sorte à lire le média M1en même temps que la caméra est orientée face à son visage.
Détection des points caractéristiques
Le procédé de l’invention met en œuvre un procédé de détection d’un ensemble de points caractéristiques du visage pour en extraire des paramètres de positions, des paramètres cinématiques, des paramètres dynamiques et également des comparaisons de ces différents paramètres pour en déduire des données de symétries ou des signatures géométriques afin de sélectionner un archétype donné.
Une technologie comme celle d’ARkit développée par Apple peut être utilisée, une autre technologie comme celle d'ARCore de Google peut être utilisée. D’autres technologies similaires peuvent être utilisées en combinaison avec l’invention de manière à extraire des points caractéristiques du visage, des positions d’un ensemble de points caractéristiques, des mouvements et vitesses d’un ensemble de points, etc. pour qualifier des signatures géométriques d’une expression, une attitude ou une humeur, etc.
Selon un exemple de réalisation, le procédé de l’invention est capable de définir des signatures géométriques relatives à des expressions faciales très diverses. Notamment, on trouve : le clin d’œil, le clignement des yeux, les deux yeux fermés pendant un laps de temps, le sourire, la bouche ouverte, un mouvement de pommette ou un plissement du front, etc. Le procédé permet également de comparer des évolutions de points caractéristiques du visage présentant une symétrie et évoluant conjointement successivement ou séquentiellement. En outre, la symétrie ou la dissymétrie d’évolution de points caractéristiques du visage peut être comparée de manière à identifier une signature géométrique donnée.
Selon un exemple de réalisation, les points caractéristiques sont des points tels que les extrémités latérales des yeux, le point central de l’iris de l’œil, certains points définissant le contour de la bouche ou encore du nez. Cela peut être des points délimitant une portion du visage. Selon un exemple, les points caractéristiques définissent des courbes telles que des contours de zones du visage ou des formes définissant des zones caractéristiques.
On définit un archétype par la présence d’au moins une signature géométrique donnée. L’archétype se réfère davantage à une expression, une attitude ou une humeur telle que la joie, l’étonnement, etc. La signature géométrique se réfère davantage à la présence d’un sourire dans le visage ou d’un clin d’œil. Généralement, un archétype peut comprendre la présence d’une pluralité de signatures géométriques. Toutefois dans la suite de la description on pourra se référer indifféremment à une signature géométrique ou un archétype dans la mesure où selon un exemple, un archétype peut être défini par la présence d’une unique signature géométrique, telle que la présence d’un clin d’œil.
Traitements des points caractéristiques
L’invention comporte une étape visant à réaliser des traitements sur les points caractéristiques.
Selon un premier traitement T1, l’évaluation des positions de certains points caractéristiques est réalisée. Les positions peuvent être calculées dans un référentiel lié au plan de l’image et prenant en compte les dimensions caractéristiques du visage. Selon un exemple, les dimensions du visage et l’orientation du visage par rapport au plan focal de la caméra sont corrigées par des coefficients de correction. Un intérêt est d’obtenir un référentiel stable, uniforme et homogène pour référencer des coordonnées de points. Selon un premier exemple, les positions de certains points caractéristiques sont comparées avec des positions de référence de ces mêmes points. Les positions de références peuvent être obtenues par exemple pour une expression du visage donnée d’un utilisateur à un instant donné. Selon un second exemple, les positions des points caractéristiques sont comparées avec les positions calculées à un instant précédent. Ainsi, c’est l’évolution des positions des points caractéristiques relativement dans le temps qui est évaluée. Selon un exemple, les modifications des positions des points caractéristiques sont normalisées selon une échelle prédéfinie.
Dans cet exemple, un déclencheur, dénommé « trigger » dans la terminologie anglo-saxonne, peut être mis en œuvre pour sauvegarder des positions remarquables de points caractéristiques ayant changé de positions simultanément. Ainsi, un sous-ensemble de points caractéristiques ayant changé de positions permet de définir un archétype donné d’expression ou d’humeur du visage. Le premier traitement génère un résultat positif en cas d’un déclenchement suite à une comparaison d’une position avec une référence.
Selon un second traitement T2, l’évaluation du mouvement de certains points caractéristiques détectés est réalisée. Le mouvement des points peut être évalué par une direction, une durée pendant laquelle des points caractéristiques évoluent. Lorsqu’un mouvement d’un ou plusieurs points caractéristiques est détecté et comparé à un mouvement prédéfini de référence, le traitement peut générer un résultat positif. En outre, des mouvements conjoints de différents points caractéristiques peuvent être corrélés pour détecter une signature géométrique donnée ou directement un archétype donné. La simultanéité des mouvements de certains points peut être également évaluée. En outre, un enchainement ou une séquence de mouvements détectés peut être comparé(e) à une séquence attendue afin de détecter la présence d’une signature géométrique ou un archétype relatif à l’expression du visage d’un utilisateur.
Selon ce second traitement, la vitesse ou l’accélération de certains points caractéristiques peuvent être évaluées. Lorsque ces valeurs relatives à certains points caractéristiques dépassent un seuil prédéfini, un déclencheur permet d’enregistrer des variations particulières. Selon un exemple, des comparaisons ou corrélations entre des variations de différents points permettent de déduire la présence d’une signature géométrique ou d’archétype relatif à une expression donnée du visage de l’utilisateur. Les données de vitesse ou d’accélération peuvent être normalisées selon une échelle prédéfinie de manière à les comparer à des seuils homogènes au cours du temps ou pour les comparer d’une utilisation à une autre. Lors d’un dépassement de seuil, le traitement permet de générer un résultat positif.
Selon un troisième traitement T3, des comparaisons d’évolutions de la vitesse ou de l’accélération d’un ensemble de points caractéristiques définissant différentes zones du visage sont réalisées. Ces comparaisons permettent d’analyser des modifications symétriques, telles qu’un clignement des yeux, ou des modifications dissymétriques, telles qu’un clin d’œil. Par exemple, un traitement indiquant une symétrie donnée permet de générer un résultat positif.
Un exemple de l’utilisation de la vitesse est par exemple la génération d’un élément graphique correspondant à une bulle. La signature géométrique est une ouverture de la bouche de l’utilisateur enchainée à sa fermeture. La bouche réalise un mouvement tel que le mouvement de la bouche d’un poisson, les deux lèvres se touchent de manière répétée. Dans ce cas, le procédé de l’invention est capable de réaliser autant de bulles que le nombre d’ouvertures de bouche détectées. Afin de distinguer ce cas d’une ouverture de bouche relative à un archétype lié à l’étonnement d’un utilisateur, la vitesse d’évolution des points caractéristiques de la bouche peut être analysée.
Un quatrième traitement T4peut être mis en œuvre selon le procédé de l’invention. Le quatrième traitement T4permet de détecter un élément graphique différent que des points ou des zones caractéristiques du visage. Il peut s’agir par exemple de la détection de présence d’une main d’un utilisateur ou d’un mouvement de ladite main. Selon un autre exemple, il peut s’agir d’une donnée de couleur ou de luminosité permettant de déduire une information d’environnement autour de l’utilisateur. Selon un autre exemple, la présence d’une seconde personne dans le champ de la caméra ou d’un passage d’un objet en premier plan ou en second plan, c’est-à-dire derrière l’utilisateur U1peut être détecté. Lorsqu’un tel traitement T4permet de déduire une situation donnée, un résultat positif est généré. Les exemples suivants sont possiblement mis en œuvre par le procédé de l’invention : « main devant la bouche », « main sur le front », « main sur la tête à plat, « main sur la tête formant une crête », « pouce levé », etc.
Selon un mode de réalisation, un ensemble de traitement est réalisé en temps réel sur les images acquises par la caméra.
Selon un mode de réalisation, une base de données comportant des archétypes prédéfinis est stockée dans une mémoire. Ces données peuvent être stockées dans une mémoire du terminal ou d’un serveur distant. Les archétypes sont définis par un ensemble de signatures géométriques détectées simultanément ou dans une fenêtre limitée de temps prédéfini. Dans la littérature anglo-saxonne, ces signatures géométriques peuvent être définies comme des « patterns ». Les signatures comprennent la définition d’une pluralité de points caractéristiques définissant au moins une zone du visage et dont le traitement à permis de générer un résultat positif.
Un archétype peut être défini à partir de plusieurs signatures géométriques. En conséquence, lorsque l’intégralité des signatures géométriques d’un archétype est détectée, le procédé de l’invention permet de générer un paramètre physiologique correspondant à l’archétype détecté. Le paramètre physiologique piest associé à un élément multimédia EM1ij. Le paramètre physiologique pipeut correspondre à une humeur, une émotion, une réaction, une attitude ou une action de l’utilisateur. A titre d’exemple, on trouve les archétypes suivants : exaspération, surprise, étonnement, effarement, rire, sourire, pouffement de rire, éclat de rire, colère, méfiance, menace, etc.
Les archétypes peuvent correspondre à une combinaison de signatures géométriques détectées simultanément ou de manière séquentielle. Chaque signature géométrique peut être définie par un ensemble de points ayant subi une modification permettant de déclencher des résultats positifs des traitements. Ainsi, certains archétypes comprennent une unique signature géométrique pouvant possiblement comprendre un faible nombre de points caractéristiques et d’autres archétypes peuvent comprendre un grand nombre de signatures géométriques de natures différentes et impactant des zones très éloignées entre elles du visage.
Selon un exemple de réalisation, les signatures géométriques d’un utilisateur U1sont sauvegardées. Selon un cas, un algorithme de normalisation des signatures géométriques est réalisé, par exemple à partir d’un algorithme d’intelligence artificielle. Un tel algorithme permet de qualifier une signature pour un individu donné, par exemple au cours du temps. A titre d’exemple, la statistique de détection d’une signature géométrique pour un premier individu U1peut être comprise entre 0,4 et 0,8 sur une échelle de 0 à 1. Dans ce dernier cas, « 0 » correspond à l’absence de signature géométrique et « 1 » correspond à la présence de la signature à un degré maximal. En d’autres termes, l’échelle permet de quantifier la signature géométrique. « 0,8 » peut correspondre par exemple à un grand sourire et « 0,6 » est à un sourire moyen et 0,4 à « un rictus » de l’utilisateur U1. Pour un second individu U2, une même signature géométrique peut être comprise entre 0,1 et 1. « 1 » peut correspondre par exemple à un grand sourire et « 0,5 » est à un sourire moyen et 0,1 à « un rictus » de l’utilisateur U2. On comprend que cette échelle dépend de nombreux facteurs tels que l’âge de l’individu, son origine, sa culture, sa pudeur ou d’un évènement passé, tel que des ruptures amoureuses à répétition qui peuvent provoquer en lui un sourire dit « méfiant » même quand il est supposé être souriant dans son for intérieur. Un intérêt de l’algorithme de normalisation mis en œuvre dans le procédé de l’invention est d’étalonner les traitements du procédé de l’invention pour détecter la présence d’une signature géométrique donnée pour un utilisateur donné. Un tel algorithme permet de "renormaliser" l’échelle de quantification d’une signature géométrique donnée. La figure 4 représente une étape CALU1qui correspond à une étape de calcul prenant en compte un élément de l’utilisateur U1et par exemple de son profil Pu1 afind’affiner la détection des points caractéristiques, éventuellement réaliser une étape de correction ou de normalisation pour générer un paramètre physiologique normalisé.
Lorsqu’un paramètre physiologique est généré, le procédé de l’invention génère automatiquement un élément multimédia EM1ijqui lui est associé dans une base de données. L’étape de génération d’un élément physiologique est notée GEN1et l’étape de génération d’un élément graphique est notée GEN2 sur la figure 1.
L’élément multimédia EM1ijest alors affiché sur l’afficheur de l’utilisateur U1en superposition de la vidéo M1qui est en lecture. L’affichage, noté AFF sur la figure 1, peut être réalisé sur une bordure de l’afficheur ou en bordure du lecteur utilisé pour lire la vidéo ou de la vidéo elle-même lorsqu’elle est intégrée dans un environnement graphique. A titre d’exemple, l’élément multimédia EM1ijest généré depuis la partie inférieure de la vidéo M1. Selon un exemple, l’élément multimédia EM1ijest animé en superposition de la vidéo qui est jouée. L’animation de l’élément multimédia peut comprendre la génération d’un mouvement de ce dernier, par exemple de bas vers le haut. D’autres animations peuvent être réalisées telles qu’un mouvement de vibration, un mouvement formant une courbe, ou encore en rotation de l’élément graphique autour d’un point défini sur l’élément graphique lui-même. Selon un exemple, l’élément graphique EM1ijchange de couleur, grossit ou rétrécit. Par exemple dans le cas d’une bulle, cette dernière peut exploser à la fin d’une course qu’elle réalise en s’élevant vers le haut de la vidéo. Selon un autre exemple, l’élément graphique EM1i jest affiché pendant un laps de temps avant de disparaitre. Sa disparation peut être réalisée progressivement en appliquant une transparence progressive à l’élément graphique EM1i.
Selon un exemple, les éléments graphiques EM1ijsont des emojis. Les émojis sont par exemple associés aux paramètres physiologiques de sorte à représenter graphiquement une émotion, une attitude ou une expression d’un utilisateur U1. Ainsi, la production des éléments graphiques EM1ijest réalisée de manière à offrir une interaction miroir de l’expression d’un utilisateur. La figure 6 représente des exemples d’émojis pouvant être générés selon différents paramètres physiologiques générés.
Un premier emoji EM11a un œil fermé et une langue tirée, il peut être généré lorsque des signatures géométriques correspondantes ont été détectées à partir des traitements réalisés sur les données caractéristiques, telles que des points, des courbes, des formes caractéristiques. Un second exemple EM12représente un emoji comportant les deux yeux ouverts et une langue tirée. Un troisième exemple EM1 3représente un émoji comportant les deux yeux fermés et une ouche caractérisant une déception ou un mécontentement. Un quatrième exemple EM1 4représente un émoji ayant une bouche ouverte et les yeux au ciel caractérisant l’étonnement.
Selon un autre exemple, les éléments graphiques EM1ijsont des textes, par exemple intégrés dans des bulles. Les textes peuvent être affichés dans des zones dédiées du média tel que des zones où des personnages apparaissent.
Selon un mode de réalisation, le média M1est joué jusqu’à un instant donné prédéfini par un marqueur temporel. Le marqueur temporel peut être exploité comme métadonnée du média ou il peut être contrôlé depuis un serveur distant. L’instant auquel le média en attente est prédéfini. Le média M1est, par exemple, joué en boucle sur une courte séquence. Lors de la détection d’une interaction utilisateur donnée, le média reprend alors sa lecture. L’interaction utilisateur peut correspondre à la détection d’un élément physiologique détecté par le terminal ou par un serveur distant. Selon un cas de figure, c’est un serveur distant qui active les différentes séquences du média M1en fonction des éléments physiologiques reçus. Par exemple, un clin d’œil peut être attendu afin de poursuivre la lecture du média. Dans ce cas, soit le média est figé à un instant donné, soit il est joué en boucle sur la dernière seconde du média. Le temps pendant lequel le média est en boucle est configuré à l’avance et peut être adapté à chaque séquence.
Émission des données vers un serveur
Le procédé de l’invention comprend une étape TR visant à émettre des données DATA1vers un serveur distant, par exemple SERV1. Les données DATA1comprennent, par exemple, une première donnée décrivant l’élément physiologique pi qui a été généré préalablement. Alternativement, les premières données comprennent directement les signatures géométriques qui ont permis de déterminer l’élément physiologique généré pi. Les données DATA1émises comprennent en outre des secondes données comportant au moins un marqueur temporel ti. Le marqueur temporel ti correspond à l’instant auquel le paramètre physiologique pi a été généré dans le repère temporel du média M1. Ainsi, les données DATA1comprennent au moins un couple de valeur (pi, ti). Selon un cas de figure, les données DATA1 comprennent un identifiant de média M1 et un identifiant d’utilisateur IDU1ou alternativement un profil utilisateur Pu1.
Un serveur distant SERV1reçoit les données émises par le terminal T1de l’utilisateur U1. Selon un mode de réalisation, le serveur SERV1reçoit à chaque instant une pluralité de données DATA1émises depuis une multitude de terminaux d’une pluralité d’utilisateurs. Des architectures distribuées permettent de réaliser cette collecte de données provenant de différents terminaux par une pluralité de serveurs. La suite de la description détaille le cas d’un unique serveur de collecte, toutefois le procédé de l’invention concerne tous les modes de réalisation mis en œuvre avec des architectures distribuées de différentes manières.
Le serveur SERV1collecte les données DATA1émises par différents utilisateurs. Les données sont classées par média et sont ensuite agrégées de sorte à alimenter un compteur temporel de paramètres physiologiques. Ainsi, à chaque instant d’un média M1, le procédé de l’invention permet de comptabiliser le nombre de paramètres physiologiques cumulés lors de la lecture du média.
Selon un mode de réalisation, le compteur est généré par le serveur SERV1ou un autre serveur à chaque lecture du média par un utilisateur donné. Cette étape est notée GEN0sur la figure 4 et illustre que la lecture de la vidéo est simultanément réalisée avec la superposition d’un compteur affiché sur le média M1. Un intérêt est de représenter un volume d’interactions d’une communauté ayant réagi sur un même média, par exemple, à des moments forts du média M1.
Selon un mode de réalisation, les éléments physiologiques collectés auprès d’une pluralité d’utilisateurs sont triés par catégorie de sorte que les mêmes éléments physiologiques sont répertoriés à chaque instant du média M1. Ceci est rendu possible grâce à l’analyse des marqueurs temporels associés à chaque élément physiologique généré. Ainsi, il est possible de restituer des indicateurs communautaires EM2ijémanant d’une pluralité d’éléments physiologiques générés d’une pluralité d’utilisateurs aux mêmes instants ou dans une fenêtre temporelle réduite. Cet indicateur communautaire EM2ijpeut prendre la forme d’un élément graphique du même type que les éléments graphiques EM1 ijgénérés par chaque utilisateur. L’indicateur communautaire peut alors être généré par le serveur SERV1à destination des utilisateurs visualisant le média M1en cours de lecture. L’indicateur communautaire EM2ijest alors superposé au cours de la lecture du média M1. A chaque instant un nouvel indicateur communautaire est susceptible d’être affiché en superposition du média M1lu.
Dans cette configuration, lorsqu’un média M1est joué sur un terminal T1d’un utilisateur U1, des indicateurs communautaires EM2ijsont affichés en superposition du média M1et des éléments graphiques EM1ijde l’utilisateur U1sont également affichés en superposition du média.
Selon un mode de réalisation, les éléments graphiques EM1ijpeuvent évoluer dans une zone donnée du média et les indicateurs communautaires EM2 ijpeuvent évoluer dans une autre zone du média au même moment.
Les indicateurs communautaires sont par exemple des émojis. Dans certains modes de réalisation, les indicateurs communautaires peuvent être éléments graphiques dimensionnés en proportion du nombre d’éléments physiologiques collectés d’un même type. Selon un exemple, le nombre d’éléments physiologiques d’un indicateur communautaire est affiché, par exemple lorsqu’un seuil est dépassé. Selon un exemple, les indicateurs communautaires sont animés, l’animation peut par exemple dépendre du nombre d’indicateurs physiologiques collectés à un instant donné d’un média M1. Un intérêt d’un tel retour issu d’une communauté d’utilisateurs en superposition du média est de restituer pour un utilisateur donné une interaction collective pouvant l’inviter à interagir également. Selon un exemple, un élément graphique EM1 ijrare, c’est-à-dire relativement peu généré par la communauté, peut être affiché plus longtemps ou être affiché dans des dimensions plus importantes que les autres éléments graphiques EM1 ij. Identiquement, un indicateur communautaire EM2ijpeut également être généré pour des éléments physiologiques reçus rares ou peu générés par une communauté d’utilisateurs. La prise en compte de la rareté d’un élément physiologique généré permet d’inviter d’autres utilisateurs à enrichir leurs interactions lors de la lecture d’un média M1.
Selon un mode de réalisation, les indicateurs physiologiques pipeuvent être utilisés pour profiler des médias, c’est-à-dire les catégoriser ou les « tagger ». Un intérêt est de classifier une bibliothèque de médias sur un critère d’interaction spontané d’un ensemble d’utilisateurs. Lors de l’exploitation des médias ainsi profilés, le procédé de l’invention peut prendre en compte, selon le profil d’un utilisateur, une catégorie donnée de média. Un média peut être classé comme "surprenant", un autre comme "hilarant" et encore un autre comme "choquant".
Le procédé de l’invention permet d’offrir une autre possibilité de classer du contenu multimédia et une autre manière de consommer des médias. Un avantage est d’offrir une solution très performante en termes d’exploitation d’une bibliothèque multimédia, par exemple lorsque les médias sont des vidéos. Un avantage est également de restituer instantanément des émotions lors de la lecture d’un média. Un avantage est d’obtenir des retours plus spontanés et moins intellectualisés lors d’une restitution ultérieure après l’expérience de lecture du média.
La figure 2 représente des étapes préliminaires pouvant être réalisées avant le procédé de l’invention. Une étape de sélection d’un média notée SEL permet à un utilisateur de choisir le média qu’il souhaite visualiser. Préalablement, une étape GENLISTest, par exemple, réalisée par le procédé de l’invention. La liste générée de médias peut l’être en prenant en compte une date de média, une popularité du média, un nombre d’éléments physiologiques générés par média. Selon un autre exemple, la liste est générée en fonction du profil utilisateur Pu. Le procédé comporte alors une étape visant à exploiter des données utilisateur qui sont enregistrées dans une mémoire. Les données utilisateur peuvent correspondre à des préférences définies par ce dernier ou bien elles peuvent correspondre à des données collectées au cours des précédentes lectures. Les données ainsi collectées permettent de définir des préférences d’un utilisateur.
Selon un mode de réalisation, les médias Mi et leur catégorie sont pris en compte pour générer une liste pertinente pour un utilisateur donné. Ainsi, un média M1peut comprendre un profil média PM1. Une étape de corrélation des données d’un profil média PM1et du profil utilisateur PU1peut être mise en œuvre préalablement à la génération de la liste de média M1. Cette corrélation peut être appliquée à un ensemble de médias noté ΣMi.
Les principales étapes du procédé sont notées PROC1 dans la figure 1 et sont donc désignées ainsi dans la figure 2.
La figure 3 représente un cas d’interaction d’un utilisateur U1 pendant la lecture d’un média M1 dans lequel un élément physiologique génère un changement de média. Ainsi la lecture du média M1 est alors interrompue pour activer un média M2 ou un média M3. Selon un cas d’exemple, le changement de média est scénarisé de sorte que le premier média M1est joué jusqu’à un marqueur temporel donné. Lorsque le premier média M1est joué jusqu’à atteindre le marqueur temporel prédéfini, une courte séquence du média M1est jouée en boucle comme précédemment évoquée. Le média M1est alors joué jusqu’à ce que l’utilisateur U1provoque un changement de média en interagissant avec ce dernier. L’interaction peut correspondre à un élément physiologique pi attendu et détecté. Identiquement, le traitement qui suit est soit réalisé en local au sein du terminal, soit par un serveur distant qui active la suite de la lecture.
Dans le cas de figure de la figure 3, lorsque le procédé génère GEN(p1) un premier élément physiologique p1consécutivement à une interaction utilisateur donné à un instant donné de la lecture du média M1, l’étape de lecture d’un second média M2est activée. Dans le cas de la figure 3, on considère le cas où un autre scénario aurait pu se produire avec la lecture du média M3 au même instant et de manière alternative à la lecture du média M2. La lecture du média M3aurait pu survenir si le procédé de l’invention avait généré un élément physiologique p2. Les étapes qui sont ensuite réalisées lors de la lecture du média M2ou M3sont similaires aux étapes de la figure 1. Un avantage est de permettre de définir des expériences utilisateur comportant un scénario mettant en œuvre différents médias qui sont activés en fonction des émotions d’un utilisateur.
Selon un autre mode de réalisation de l’invention, un enchainement de médias est réalisé de sorte que chaque média est généré et affiché en fonction d’interactions utilisateur données. Les éléments physiologiques attendus et activant un changement de média peuvent être prédéfinis.
La figure 5 représente un exemple d’architecture permettant de mettre en œuvre le procédé de l’invention. Un ensemble de terminaux utilisateurs T1, T2, T3est représenté. Un premier serveur SERV1permet de réaliser les principales étapes du procédé de l’invention. Un réseau de données, noté NET, tel qu’internet peut être utilisé pour échanger des données numériques entre les différentes entités représentées. Les serveurs SERV1, SERV2 peuvent être configurés pour réaliser différentes fonctions ou des fonctions similaires, telles que l’émission d’un contenu média, la collecte de données utilisateur, le calcul d’indicateurs communautaires, l’identification d’un utilisateur à un service, etc.

Claims (18)

  1. Procédé de génération d’un premier élément multimédia (EM1 ji) caractérisé en ce qu’il comporte :
    • Lecture (LEC) d’un premier média (M1) sur un afficheur (AF1) d’un terminal numérique (T1) ;
    • Acquisition (ACQ) d’au moins une image d’ au moins un visage d’un utilisateur (U1) à partir d’une optique dudit terminal numérique (T1), ladite acquisition (ACQ) étant réalisée en temps réel lors de la lecture du premier média (M1) ;
    • Détection (EXT) d’une pluralité de points caractéristiques du visage de l’utilisateur (U1) d’au moins une image acquise ;
    • Génération (GEN1) d’au moins un paramètre physiologique (pi) à partir d’au moins un traitement d’au moins un point caractéristique détecté ;
    • Génération (GEN2) d’un premier élément multimédia (EM1 ji) en superposition du premier média (M1) en cours de lecture sur l’afficheur (AF1), ledit premier élément multimédia (EM1 ji) étant déterminé en fonction d’au moins la valeur du paramètre physiologique (pi) ;
    • Émission (EM) simultanément à l’étape de génération d’une donnée numérique (DATA1) déduite de la valeur du paramètre physiologique (pi), ladite donnée numérique (DATA1) comportant en outre un marqueur temporel (ti) dudit premier média (M1), ladite émission (EM) étant réalisée au moyen d’une interface de communication à destination d’un serveur (SERV) collectant ladite donnée numérique (DATA1).
  2. Procédé selon la revendication 1, caractérisé en ce qu’il comporte préalablement à l’étape de lecture (SEC):
    • Génération d’une liste (GEMLIST) de médias (Mi), lesdits médias (Mi) étant associés à un profil média (Pm) dont la corrélation avec le profil utilisateur (Pu) du premier utilisateur (U1) définit une valeur supérieure à un seuil ;
    • Sélection (SEL) d’un premier média parmi une liste prédéfinie de médias (Mi).
  3. Procédé selon l’une quelconque des revendications 1 à 2, caractérisé en ce que l’étape de détection (EXT) comporte :
    • un premier traitement (T1) comportant une évaluation des positions des points caractéristiques ;
    • un second traitement (T2) comportant une évaluation du mouvement des points caractéristiques, dont au moins un vecteur vitesse,
    • un troisième traitement (T3) comportant une évaluation de la similarité de valeurs obtenues de mêmes traitements d’une pluralité de points caractéristiques.
  4. Procédé selon la revendication 3, caractérisé en ce que la génération (GEN2) d’un paramètre physiologique (pi) comporte :
    • détermination d’un ensemble donné de traitements d’un ensemble de points caractéristiques détectés et ;
    • comparaison de la valeur obtenue de chaque traitement avec un seuil prédéfini ;
    • génération d’un paramètre physiologique (pi) en fonction du résultat de l’étape de comparaison.
  5. Procédé selon l’une quelconque des revendications 1 à 4, caractérisé en ce que chaque paramètre physiologique généré est associé à une donnée de quantification de ce dernier qui est calculée selon une échelle prédéfinie.
  6. Procédé selon l’une quelconque des revendications 1 à 5, caractérisé en ce que chaque quantification d’un paramètre physiologique est normalisée en fonction d’un profil utilisateur (Pu).
  7. Procédé selon l’une quelconque des revendications 5 à 6, caractérisé en ce qu’une étape de calibration est préalablement réalisée dans laquelle au moins une gamme de valeurs d’une quantification d’un paramètre physiologique (pi) donné est ajustée selon au moins un coefficient de pondération, ledit coefficient de pondération prenant en compte au moins un élément parmi lesquels :
    • Une forme générale de visage d’un utilisateur ;
    • Des positions relatives d’un sous-ensemble de points caractéristiques, lesdites positions définissant des positions de calibration ;
    • Un mouvement d’un sous-ensemble de points caractéristiques pendant un laps de temps, lesdits mouvements définissant des mouvements de calibration,
    • Un historique de valeurs de paramètres physiologiques déjà générés pour un utilisateur donné.
  8. Procédé selon l’une quelconque des revendications 1 à 7, caractérisé en ce que la génération (GEN2) d’un premier élément multimédia (EM1 ji) donné est une fonction d’un paramètre physiologique généré donné, ledit élément multimédia (EM1 ji) étant sélectionné parmi une liste de premiers éléments multimédias (EM1 ji) enregistrés dans une mémoire et associés à un élément physiologique donné (pi), ledit élément multimédia (EM1 ji) étant généré pendant une durée prédéfinie à une position prédéfinie sur l’afficheur et réalise une trajectoire donnée.
  9. Procédé selon la revendication 8, caractérisé en ce que :
    • la position dans le média, les dimensions, la vitesse d’animation ou la couleur d’un premier élément multimédia (EM1 ji) généré est une fonction de la quantification du paramètre physiologique généré ; et/ou,
    • la durée et/ou la position et/ou la trajectoire d’un élément multimédia (EMji)
    est/sont définie(s) selon la quantification du paramètre physiologique généré.
  10. Procédé selon l’une quelconque des revendications 1 à 9, caractérisé en ce qu’un élément multimédia (EMji) peut être une combinaison des éléments multimédias parmi lesquels :
    • Un texte intégré ou non dans un élément graphique ;
    • Une image prédéfinie ;
    • Une image animée ;
    • Un son prédéfini,
    • Un émoji, c’est-à-dire une image représentant une émotion ou une humeur déduite d’au moins un paramètre physiologique généré.
  11. Procédé selon l’une quelconque des revendications 1 à 10, caractérisé en ce que lorsqu’un élément physiologique donné est généré, le procédé de l’invention active la lecture d’un second média (M2, M3).
  12. Procédé selon l’une quelconque des revendications 1 à 11, caractérisé en ce que le premier média (M1) est joué pendant une durée prédéfinie jusqu’à un instant prédéfini du média, le procédé générant une boucle de lecture dudit premier média (M1) pendant un laps de temps donné.
  13. Procédé selon l’une quelconque des revendications 1 à 12, caractérisé en ce qu’il comprend la génération (GEN0) d’une pluralité de seconds éléments multimédia (EM2i j) en superposition du premier média (M1) affiché sur l’afficheur du premier utilisateur (U1), lesdits seconds éléments multimédias (EM2ij) étant générés à des instants donnés et correspondant à des valeurs de paramètres physiologiques précédemment générés d’une pluralité d’utilisateurs ayant visionnée le même média (M1).
  14. Procédé selon l’une quelconque des revendications 1 à 13, caractérisé en ce qu’il comprend la génération (GEN0) d’un premier compteur de paramètres physiologiques (pi) précédemment générés d’une pluralité d’utilisateurs, chaque paramètre physiologique (pi) étant comptabilisé à un moment donné du premier média (M1) selon le marqueur temporel lui étant associé.
  15. Procédé selon l’une quelconque des revendications 1 à 14, caractérisé en ce qu’une étape de collecte des données numériques (DATA1) par un serveur distant (SERV) comprend, en outre, l’agrégation des données d’une pluralité d’utilisateurs (Ui) ayant visionné un même premier média (M1), ladite agrégation de données générant au moins une étiquette associée au média, l’étiquette étant générée lorsqu’un seuil de nombre donné de paramètres physiologiques donnés générés est atteint dans des fenêtres temporelles prédéfinies vis-à-vis d’un marqueur temporel associé au premier média (M1).
  16. Produit programme d’ordinateur comprenant des moyens de code de programme enregistrés sur un support lisible par un ordinateur, pour mettre en œuvre des étapes de procédé de l’une quelconque des revendications 1 à 15 lorsque ledit programme est exécuté sur un ordinateur.
  17. Terminal (T1, T2, T3) comportant un calculateur, une mémoire et un afficheur pour mettre en œuvre le procédé de l’une quelconque des revendications 1 à 15.
  18. Système comportant une pluralité de terminaux selon la revendication 17, caractérisé en ce qu’il comporte en outre au moins un serveur (SERV1, SERV2) configuré pour collecter les données (DATA1) émises par lesdits terminaux (T1, T2, T3).
FR1903530A 2019-04-02 2019-04-02 Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme Active FR3094856B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1903530A FR3094856B1 (fr) 2019-04-02 2019-04-02 Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme
PCT/EP2020/058857 WO2020201158A1 (fr) 2019-04-02 2020-03-27 Procede de génération d'un element multimedia au cours de la lecture d'un media, terminal, systeme
US17/600,911 US11995738B2 (en) 2019-04-02 2020-03-27 Method for generating a multimedia element when reading a medium, terminal, and system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1903530 2019-04-02
FR1903530A FR3094856B1 (fr) 2019-04-02 2019-04-02 Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme

Publications (2)

Publication Number Publication Date
FR3094856A1 true FR3094856A1 (fr) 2020-10-09
FR3094856B1 FR3094856B1 (fr) 2021-04-30

Family

ID=68138206

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1903530A Active FR3094856B1 (fr) 2019-04-02 2019-04-02 Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme

Country Status (3)

Country Link
US (1) US11995738B2 (fr)
FR (1) FR3094856B1 (fr)
WO (1) WO2020201158A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481460B2 (en) * 2020-07-01 2022-10-25 International Business Machines Corporation Selecting items of interest

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8922481B1 (en) * 2012-03-16 2014-12-30 Google Inc. Content annotation
US20170099519A1 (en) * 2012-01-10 2017-04-06 Microsoft Technology Licensing, Llc Consumption of content with reactions of an individual
US20180303397A1 (en) * 2010-06-07 2018-10-25 Affectiva, Inc. Image analysis for emotional metric evaluation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8561095B2 (en) 2001-11-13 2013-10-15 Koninklijke Philips N.V. Affective television monitoring and control in response to physiological data
CN1313979C (zh) * 2002-05-03 2007-05-02 三星电子株式会社 产生三维漫画的装置和方法
US8646017B2 (en) * 2008-01-14 2014-02-04 At&T Intellectual Property I, L.P. Method and apparatus for providing collaborative viewing of a media stream
KR101708682B1 (ko) * 2010-03-03 2017-02-21 엘지전자 주식회사 영상표시장치 및 그 동작 방법.
US8438590B2 (en) 2010-09-22 2013-05-07 General Instrument Corporation System and method for measuring audience reaction to media content
CN107153496B (zh) * 2017-07-04 2020-04-28 北京百度网讯科技有限公司 用于输入表情图标的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180303397A1 (en) * 2010-06-07 2018-10-25 Affectiva, Inc. Image analysis for emotional metric evaluation
US20170099519A1 (en) * 2012-01-10 2017-04-06 Microsoft Technology Licensing, Llc Consumption of content with reactions of an individual
US8922481B1 (en) * 2012-03-16 2014-12-30 Google Inc. Content annotation

Also Published As

Publication number Publication date
FR3094856B1 (fr) 2021-04-30
US20220189076A1 (en) 2022-06-16
WO2020201158A1 (fr) 2020-10-08
US11995738B2 (en) 2024-05-28

Similar Documents

Publication Publication Date Title
US11663827B2 (en) Generating a video segment of an action from a video
Agarwal et al. Detecting deep-fake videos from appearance and behavior
US20200228359A1 (en) Live streaming analytics within a shared digital environment
EP2483758B1 (fr) Systeme et procede de reconnaissance de gestes
JP7126613B2 (ja) ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
WO2022184117A1 (fr) Procédé de découpage de vidéo basé sur un apprentissage profond, dispositif associé et support de stockage
KR101197978B1 (ko) 웃음 탐지기 및 미디어 프리젠테이션에 대한 감정 반응을 추적하기 위한 시스템 및 방법
US11023732B2 (en) Unsupervised classification of gameplay video using machine learning models
JP7108144B2 (ja) クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
US10541000B1 (en) User input-based video summarization
US20170065889A1 (en) Identifying And Extracting Video Game Highlights Based On Audio Analysis
CN108537017B (zh) 一种用于管理游戏用户的方法与设备
TW201340690A (zh) 視訊推薦系統及其方法
KR20100107451A (ko) 실시간 주석기
EP3612912B1 (fr) Procédé de lecture d'un flux vidéo
US9286710B2 (en) Generating photo animations
US11341689B1 (en) Dynamic virtual audience generation
EP3788553A1 (fr) Extension de réseaux neuronaux profonds préalablement formés
EP4136855A1 (fr) Systèmes et procédés de traitement et de présentation de données de média pour permettre une participation virtuelle à des événements
FR3094856A1 (fr) Procede de génération d’un element multimedia au cours de la lecture d’un media, terminal, systeme
Sudhakar et al. Deepfake: An Endanger to Cyber Security
EP4348598A1 (fr) Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo
CN115905977A (zh) 家庭同胞互动过程中负面情绪的监督系统及方法
CN114727119A (zh) 直播连麦控制方法、装置及存储介质
FR3110268A1 (fr) Procédés d’utilisation sécurisée d’un premier réseau de neurones sur une donnée d’entrée, et d’apprentissage de paramètres d’un deuxième réseau de neurones

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20201009

PLFP Fee payment

Year of fee payment: 3

CA Change of address

Effective date: 20210611

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6