EP4348598A1 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo - Google Patents

Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo

Info

Publication number
EP4348598A1
EP4348598A1 EP22728292.8A EP22728292A EP4348598A1 EP 4348598 A1 EP4348598 A1 EP 4348598A1 EP 22728292 A EP22728292 A EP 22728292A EP 4348598 A1 EP4348598 A1 EP 4348598A1
Authority
EP
European Patent Office
Prior art keywords
tuples
sequences
emotional
descriptors
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP22728292.8A
Other languages
German (de)
English (en)
Inventor
Yann FRACHI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ovomind Sa
Original Assignee
Ovomind KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ovomind KK filed Critical Ovomind KK
Publication of EP4348598A1 publication Critical patent/EP4348598A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/212Input arrangements for video game devices characterised by their sensors, purposes or types using sensors worn by the player, e.g. for measuring heart beat or leg activity
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/15Biometric patterns based on physiological signals, e.g. heartbeat, blood flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Definitions

  • TITLE Process for the automatic prediction of the emotional effect produced by a video game sequence
  • the present invention relates to the field of video games, and more particularly to the automatic adaptation of the gaming experience to the emotional reaction of the players, in an individualized manner.
  • the precision and depth of game mechanics, as well as the design of a level, and the artificial intelligence of a character can be the source of emotion that depends in part on the course of the game, and temperament of the player as well as his playful experience and his past and current challenge-competence interaction.
  • the goal is to achieve an optimal experience corresponding to a pleasant state of mind in which the player succeeds in escaping the anxiety of a goal too difficult to meet and the boredom of a goal too easy to achieve. .
  • US patent US2020/298118 relates to a method comprising generating, via a system comprising a processor, a gaming robot; receiving, via the system, game telemetry data from a game application corresponding to an actual player; generating, via the system, game telemetry data of the game application corresponding to the game robot; generating, via the system, difference data based on the game telemetry data corresponding to an actual player and the game telemetry data corresponding to the game robot, the difference data indicating a difference in time between a first character generated by the real player and a second character generated by the game bot; and updating, via the system, the gaming robot based on the difference data.
  • This solution aims to adapt a game to the experience and dexterity of the player, compared to the performance of a game robot and takes into account the degree of satisfaction of the player according to the Likert scale and not his emotional state.
  • the present invention relates according to its most general meaning to a method for the automatic prediction of the emotional effect produced by a video game sequence having the technical characteristics set out in claim 1.
  • the M-tuples and the N-tuples coming from a player with several executions of the same video game are aggregated.
  • the M-tuples and N-tuples originating from several players using the same video game are aggregated.
  • the player population is segmented and the neural network processes the aggregation of the M-tuples and the N-tuples coming from a player to several executions of the same video game for each of the segments.
  • the invention also relates to a method for the automatic parameterization of video game sequences comprising a step of determining, for a video sequence, said predictive indicator of the emotional state induced by a type of audiovisual sequence by application of the aforementioned method, in that that we compare the measured indicator calculated from the processing of biosignals generated by a means of acquiring the emotional state of a player and the time-stamped signals value S ar ousai (t) and value S va ience (t ) measured, in that said predictive indicator and said measured indicator are compared, and in that at least one parameter of at least one following video sequence is determined as a function of the distance between said indicators.
  • FIG. 1 Figure 1 shows a schematic view of the functional architecture
  • FIG. 2 shows a schematic view of an Adversary Network output image
  • FIG. B Figure 3 illustrates the result of these treatments.
  • the following description illustrates an example of functional architecture of the emotional effect prediction solution, whose technical aim is to provide digital data intended to modify the course of an individual or collective multimedia program.
  • Step (1) image recognition (Computer Vision) This step consists of creating, from images from a video game (100), labeled training data sets recorded in a memory (10), consisting of a series of images each associated with digital data corresponding to labels or classes, according to terminology taken from a library of video games.
  • Step (2) Training a neural model to recognize its classes.
  • the categorization of scenes is a fundamental problem in computer vision, and it is appropriate to supplement the local training data of the base (10) with quality data from external verified sources (20). Indeed, research on scene understanding does not capture the full variety of scene categories.
  • SUN SUN Data bas: Scene Categorization Benchmark ( 4919 Classes)
  • SUN Scene UNderstanding
  • the SUN (Scene UNderstanding) database contains 899 categories and 130,519 images, and uses 397 well-sampled categories to evaluate state-of-the-art algorithms for scene recognition and set new performance boundaries.
  • the result of this learning step is to obtain several models (3) which recognize a plurality of classes of objects on an image frame.
  • an unsupervised machine learning model is trained to automatically detect (12) the objects (“softmasks extracted from the background (object detection)”) then label them (13) by hand by an annotator who will attribute to each extracted image one or more classes of visual descriptor objects (monsters, sword, dog, etc.).
  • Labeled “datasets” (101) are created from the audio sequence of a game (100).
  • a step (31) also trains a model (32) for recognizing the volume from data (101) for example extracted from the system in real time and the waveforms of the audio signal by an extraction step (30).
  • a new model is trained to recognize for example text in audio of different languages from the waveforms and uses to transcribe the text from the audio stream pre-trained models (201) like these below (not limiting) : Multi-Purpose NLP Models (ULMFiT, Transformer, Google's BERT, Transformer-XL, OpenAI's GPT-2); Word Embeddings (ELMo, Flair) or StanfordNLP.
  • Multi-Purpose NLP Models (ULMFiT, Transformer, Google's BERT, Transformer-XL, OpenAI's GPT-2); Word Embeddings (ELMo, Flair) or StanfordNLP.
  • An artificial intelligence recognition model is also implemented to train text data to recognize on-screen text (subtitles or other information).
  • the next step consists in creating a new set of labeled (50) and time-stamped audio data and training images by associating the emotional values provided by equipment (51) by a method as described in patent FR3100972A1.
  • This data is recorded and stored from all parts of the players using the cloud (30), frame by frame and audio streams. Then the recorded audio-visual stream is used as input data for the previous algorithms.
  • the sequences are transformed into new datasets which are used as input data for object class recognition models.
  • DCGAN deep convolutional generative model
  • a Deep Convolutional Generative Adversary Network (DCGAN) output image is used to produce an output image of the 64x64 scaled DCGAN models to be input to the SRGAN

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Cardiology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

L'invention présente un procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo comprenant une étape d'étiquetage de séquences dudit jeu par la génération automatique de descripteurs à des séquences temporelles dudit jeu, caractérisé en ce que - ladite étape d'étiquetage consiste à appliquer un traitement numérique, au flux audio de ladite séquence de jeu vidéo, par une architecture de réseau neuronal et une couche de codage NLP pour la tâche d'identification du langage, pour extraire une première série de descripteurs horodatés et à appliquer un traitement numérique au flux vidéo pour fournir une deuxième série de descripteurs horodatés par une architecture de réseau neuronal pour la tâche de caractérisation des scènes de chaque image dudit flux vidéo [reconnaissance de caractères sur les sous-titres, l'histogramme colorimétrique, et pour fournir une troisième série de descripteurs par un classificateur de composantes graphiques], et la transmission sous forme de M-uplets à un réseau de neurone - le procédé comportant en outre un traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'au moins un joueur pour extraire des signaux horodatés valeur Sarousal (t) et valeur Svalence (t) et leur transmission sous forme de N-uplets à un réseau de neurones - le procédé comportant en outre le traitement desdits M-uplets correspondant auxdits descripteurs horodatés du premier et du deuxième type et lesdits N-uplets par un réseau de neurones pour fournir au moins un indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle.

Description

TITRE : Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo
Domaine de l'invention
La présente invention concerne le domaine du jeu vidéo, et plus particulièrement de l'adaptation automatique de l'expérience de jeu à la réaction émotionnelle des joueurs, de manière individualisée.
Dans le jeu vidéo, la précision et la profondeur des mécaniques de jeu, ainsi que la conception d'un niveau, et de l'intelligence artificielle d'un personnage peuvent être la source d'émotion qui dépendent en partie du déroulé du jeu, et du tempérament du joueur ainsi que de son vécu ludique et son interaction défi-compétence passée et actuelle. Le but est d'aboutir à une expérience optimale correspondant à un état d'esprit plaisant dans lequel le joueur réussit à échapper à l'anxiété d'un objectif trop difficile à relever et à l'ennui d'un but trop facile à atteindre.
Avec un jeu vidéo narratif, dans lequel le joueur adopte les préoccupations et les objectifs posés par le jeu et son récit, les émotions vidéoludiques peuvent résulter de la culpabilité pour avoir fait du mal, la peur d'être incapable de fuir un monstre, ou encore la joie pour avoir accompli une prouesse, ou la déception devant les conséquences malheureuses que le résultat négatif entraîne sur des personnages fictifs sympathiques.
Les jeux vidéo les plus évolués cherchent à entrelacer et agencer conjointement et sans discordance des émotions artistiques, fictionnelles et vidéoludiques par un choix stylistique et une motivation narrative cohérentes, incluant l'animation de personnages, le mixage sonore et le design de niveaux. Le concepteur de jeu doit prendre en compte le fait que le joueur possède deux désirs contradictoires : l'un d'un ordre immédiat, qui est d'éviter l'échec ; l'autre d'un ordre esthétique, qui est de prendre part à une expérience incluant un échec partiel. L'industrie des jeux informatiques et vidéo à propose de nombreuses approches différentes pour améliorer les aspects sociaux de l'expérience de jeu, notamment en essayant de catégoriser les interactions entre le joueur et le jeu vidéo, et en essayant de modéliser les modes émotionnels induits par des paramètres du jeu. Etat de la technique
Le brevet américain US2020/298118 concerne un procédé consistant à générer, via un système comprenant un processeur, un robot de jeu ; recevoir, via le système, des données de télémétrie de jeu d'une application de jeu correspondant à un joueur réel ; générer, via le système, des données de télémétrie de jeu de l'application de jeu correspondant au robot de jeu ; générer, via le système, des données de différence basées sur les données de télémétrie de jeu correspondant à un joueur réel et les données de télémétrie de jeu correspondant au robot de jeu, les données de différence indiquant une différence dans le temps entre un premier personnage généré par le joueur réel et un second personnage généré par le bot de jeu ; et mettre à jour, via le système, le robot de jeu sur la base des données de différence. Cette solution a pour objet l'adaptation d'un jeu à l'expérience et la dextérité du joueur, comparé aux performances d'un robot de jeu et prend en compte le degré de satisfaction du joueur selon l'échelle de Likert et non pas son état émotionnel.
On connaît aussi les brevets US2020206631 et US2020405212 ainsi que l'article « M. S. Hossain, G. Muhammad, B. Song, M. M. Hassan, A. Alelaiwi A. Alamri, "Audio-Visual Emotion- Aware Cloud Gaming Framework," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 25, no. 12, p. 2105-2118, Dec. 2015, doi: 10.1109/TCSVT.2015. 2444731 "
Inconvénients de l'art antérieur
Les solutions de l'art antérieur ne sont pas totalement satisfaisantes car les signaux dermo- galvanique sont fortement perturbés par les artefacts se produisant à l'interface entre les capteurs et la peau de l'utilisateur. Lorsque celui-ci bouge, la qualité de la liaison électrique change, et les données sont ainsi bruitées.
Solution apportée par l'invention
Afin de remédier à ces inconvénients, la présente invention concerne selon son acception la plus générale procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo présentant les caractéristiques techniques énoncées dans la revendication 1.
Selon une première variante, on procède à l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo. Selon une deuxième variante, on procède à l'agrégation des M-uplets et des N-uplets provenant du plusieurs joueurs utilisant le même jeu vidéo.
Selon un mode de réalisation spécifique, on procède à une segmentation de la population de joueur et en ce que l'on procède au traitement par le réseau de neurone de l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo pour chacun des segments.
L'invention concerne aussi un procédé pour le paramétrage automatique des séquences de jeu vidéo comprenant une étape de détermination, pour une séquence vidéo, dudit indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle par application du procédé susvisé, en ce que l'on compare l'indicateur mesuré calculé à partir des traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'un joueur et des signaux horodatés valeur Sarousai (t) et valeur Svaience (t) mesurés, en ce que l'on compare ledit indicateur prédictif et ledit indicateur mesuré, et en ce que l'on détermine au moins un paramètre d' au moins une séquence vidéo suivante en fonction de la distance entre lesdits indicateurs.
Description détaillée d'un exemple non limitatif de l'invention
La présente invention sera mieux comprise à la lecture de la description qui suit, se référant aux dessins annexés relatives à un exemple non limitatif de réalisation, où :
[FIG. 1] La figure 1 représente une vue schématique de l'architecture fonctionnelle
[FIG. 2] La figure 2 représente une vue schématique d'un image de sortie du Réseau Adversaire
Génératif Convolutionnel Profond(DCGAN).
[FIG. B] La figure 3 illustre le résultat de ces traitements.
Architecture fonctionnelle
La description qui suit illustre un exemple d'architecture fonctionnelle de la solution de prédiction de l'effet émotionnel, permettant de dont le but technique est de fournir des données numériques destinées à modifier le déroulement d'un programme multimédias individuel ou collectif.
Etape (1) : reconnaissance d'image (Computer Vision) Cette étape consite à créer à partir des images issues d'un jeu vidéo (100) des jeux données d'entrainement labélisés enregistrées dans une mémoire (10), constituées par une série d'images associées chacune à des données numériques correspondant à des labels ou classes, selon une terminologie issue d'une bibliothèque de jeux vidéos.
Tous les objets et personnages qui peut comprendre des monstres, animaux, fourchettes, épees (non limitatif) deviennent des classes.
Etape (2) Entraînement d'un modèle neuronal à reconnaître ses classes. La catégorisation des scènes est un problème fondamental en vision par ordinateur, et il est opportun de compléter les données d'apprentissage locale de la base (10) par des données de qualité provenant de sources vérifiées externe (20). En effet, la recherche sur la compréhension des scènes ne permet pas la capture de toute la variété des catégories de scènes.
Ces données d'entraînement locales de la base (10) sont exploités dans l'exemple décrit par un moteur d'apprentissage, en complément d'autres données provenant de sources externes (20 telles que SUN : SUN Data bas: Scene Categorization Benchmark (4919 Classes). La base de données SUN (Scene UNderstanding) contient 899 catégories et 130 519 images. Elle utilise 397 catégories bien échantillonnées pour évaluer des algorithmes de pointe pour la reconnaissance de scènes et établir de nouvelles limites de performance.
Les caractéristiques de la source SUN sont décrites par exemple dans les articles suivants :
• J. Xiao, J. Hays, K. Ehinger, A. Oliva et A. Torralba. Base de données SUN: reconnaissance de scènes à grande échelle de l'abbaye au zoo .
• Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes ( CVPR )
• J. Xiao, KA Ehinger, J. Hays, A. Torralba et A. Oliva. Base de données SUN : Exploration d'une grande collection de catégories de scènes International Journal of Computer Vision ( IJCV )
Le résultat de cette étape d'apprentissage est l'obtention de plusieurs modèles (3) qui reconnaissent une pluralité de classes d'objets sur une trame d'image (en anglais « frame »). Pour les nouveaux jeux (11) dont les objets ne sont pas encore connus on procède à un entraînement d'un modèle d'apprentissage automatique non supervisé pour détecter automatiquement (12) les objets (« softmasks extraits du background (détection object) ») puis les labelliser (13) à la main par un annotateur qui attribuera à chaque image extraite une ou plusieurs classes d'objets de descripteurs visuels (monstres, épée, chien etc..).
A l'issue de cette étape on dispose de plusieurs modèles (3) déployables sur le cloud (30) qui peuvent reconnaître X classes d'objets par frame.
Les mêmes types de traitements sont appliqués au signal audio issu du jeu vidéo (100). On crée des jeux de données « datasets » (101) labélisés à partir de séquence audio d'un jeu (100).
Le label permet de décrire l'ambiance (« stressante, dynamique, Epique etc... ») Des labels avec le moins de biais possible sont utilisés ainsi que des jeux de données d'audio d'ambiance pré labélisés (201). On entraîne par une étape (31) également un modèle (32) pour reconnaître le volume à partir de données (101) par exemple extraite du système en temps réel et les waveforms du signal audio par une étape d'extration (30).
Un nouveau modèle est entraîné pour reconnaître par exemple du texte dans l'audio de différent langages à partir des waveforms et utilise pour transcrire le texte à partir du flux audio des modèles pré entraînés (201) comme ceux-ci-dessous (non limitatif) : Multi-Purpose NLP Models (ULMFiT, Transformer, Google's BERT, Transformer-XL, OpenAI's GPT-2) ; Word Embeddings (ELMo, Flair) ou StanfordNLP.
Un modèle de reconnaissance par intelligence artificielle est également mis en œuvre pour entraîner des données de textes afin de reconnaître le texte afficher à l'écran (sous-titres ou autres informations).
Création d'un nouveau jeu de données personnalisées
L'étape suivante consiste à créer un nouveau jeu de données audio et images d'entrainement labélisées (50) et horodatées en associant les valeurs émotionnelles fournies par un équipement (51) par un procédé tel que décrit dans le brevet FR3100972A1. Ces données sont enregistrées et stockées à partir de toutes les parties des joueurs utilisant le cloud (30), image par image et flux audios. Puis le flux audio-visuel enregistrés est utilisé comme donnée d'entrée des algorithmes précédents.
Le résultat de ce traitement est un nouveau jeu de données avec les labels suivants horodatés et synchronisés : • Classes Modèles visuels(objets/personnages/etc) reconnues par les algorithmes Computer vision entraînés sur les données images réelles SUN etc.)
• Classes monstres/objets (Jeux de données Computer vision reconnues par les algorithmes non supervisé entraîné sur des bases de données d'images de Jeux vidéo)
• Ambiance et volume sonore décrites pas les algorithmes de Deep Learning Audio.
• Texte de l'audio reconnu via le traitement audio NLP/Speech to Text/
• Texte de l'image reconnu par les algos de CV reconnaissance de texte.
• Arousal et valence scores extraits des biosignaux
On entraîne ensuite un nouveau modèle avec le nouveau jeu de données labélisées créée : en entrée les données visuelles : toutes les frames du flux vidéos (RGB) que nous pouvons redimensionner pour diminuer le besoin de calcul et les données du flux audio en utilisant la technique MeISpec (128 x 128 pixels) représentation (Grayscale) à partir de la waveform du flux audio et les données émotionnelles (arousal valence). Donc le modèle devrait pouvoir prédire un score arousal/valence à partird'une[fyi][fy2]frame et d'une série de représentation audio (images melspec).
Ces modèles sont ensuite déployés sur le cloud pour disposer d'une prédiction en temps réel des émotions avant que les joueurs aient vraiment joué au jeu simplement à partir du flux audio vidéo.
Ces prédictions seront comparées avec les vrai score émotionnels issues des algorithmes du brevet FR3100972A1 et une variable « LOSS » sera calculée afin de pouvoir affiner le modèle en permanence pour tous les joueurs.
GENERATION D'AUDIO VISUEL EMOTIONELLE VIA Réseaux antagonistes génératifs
Pour la partie générative, pour un joueur donné. A chaque réaction émotionnelle forte (Arousal >70) on crée un jeu de données spécifiques émotionnels en enregistrant l'audio et les images du flux vidéo. On dispose ainsi des séquences émotionnelles enregistrées (Arousal > 70 et un score de valence). Par exemple l'émotion peur/colère (Arousal > 70 et valence <30) ou la joie (Arousal >70 et valence >70).
Les séquences sont transformées en nouveaux jeux de données sont utilisées comme données d'entrée des modèles de reconnaissance de classes d'objets. On sélectionne uniquement les images ou un monstre est reconnu comme classe présente (probabilité de présence > 90%). Après un entrainement des images du modèle de 1000 epochs, on génère des images de faibles résolutions 128x128 via un modèle génératif convolutionel profond (DCGAN).
En parallèle, on entraîne un nouveau modèle Super Résolution Génératif à partir des images de hautes résolutions de la classe reconnue.
Ces images générées automatiquement en fonction du traitement des réactions émotionnelles d'un joueur considéré peuvent constituer une bibliothèque d'images à fort impact sur le joueur considéré, et être utilisées ensuite pour un nouveau modèle de jeu personnalisé dont l'impact émotionnel est adapté au joueur considéré. Il en est de même pour les séquences audios.
Ce modèle a appris à reconstruire une image haute résolution à partir d'une image faible résolution. On utilise une image de sortie du Réseau Adversaire Génératif Convolutionnel Profond(DCGAN) pour produire une image de sortie du modèles DCGAN redimensionnées 64x64 pour être une donnée d'entrée du SRGAN
Pour obtenir des textures plus réalistes on applique une méthode de Transfert de style neuronales par un traitement de l'image avec un filtre convolutionel pour la moyenner(averaging): kernel = np.ones((5,5),np.float32)/25 img = cv.filter2D(img, -5, kernel)
On applique ensuite le transfert de style avec un modèle pré entraîné VGG19 à partir d'une image haute résolution pour obtenir une image modifiée à partir des séquences émotionnelles.
Traitement du flux audio
On applique une méthode similaire pour le flux audio : • Création des séquences émotionnelles, les passer de l'algorithme de classification audio (pitch/ambiance) se focaliser sur une ambiance spécifique reconnue.
• Entrainement une modèle GAN audio pour créer des séquences similaires La figure 3 illustre le résultat de ces traitements.

Claims

Revendications
1 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo comprenant une étape d'étiquetage de séquences dudit jeu par la génération automatique de descripteurs à des séquences temporelles dudit jeu, caractérisé en ce que
- ladite étape d'étiquetage consiste à appliquer un traitement numérique, au flux audio, par une architecture de réseau neuronal et une couche de codage NLP pour la tâche d'identification du langage, pour extraire une première série de descripteurs horodatés et à appliquer un traitement numérique au flux vidéo pour fournir une deuxième série de descripteurs horodatés par une architecture de réseau neuronal pour la tâche de caractérisation des scènes de chaque image dudit flux vidéo et pour fournir une troisième série de descripteurs par un classificateur de composantes graphiques, et la transmission desdites trois séries descripteurs de sous forme de M- uplets à un réseau de neurones
- le procédé comportant en outre un traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'au moins un joueur pour extraire des signaux horodatés Sarousai (t) et Svaience (t) et leur transmission sous forme de N-uplets audit réseau de neurones
- le procédé comportant en outre le traitement desdits M-uplets correspondant auxdits descripteurs horodatés du premier et du deuxième type et lesdits N-uplets par un réseau de neurones pour fournir au moins un indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle.
2 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication 1 caractérisé en ce que l'on procède à l'agrégation des M- uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo.
3 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication 1 caractérisé en ce que l'on procède à l'agrégation des M- uplets et des N-uplets provenant du plusieurs joueurs utilisant le même jeu vidéo. 4 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication précédente caractérisé en ce que l'on procède à une segmentation de la population de joueur et en ce que l'on procède au traitement par le réseau de neurones de l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo pour chacun des segments.
5 - Procédé pour le paramétrage automatique des séquences de jeu vidéo comprenant une étape de détermination, pour une séquence vidéo, dudit indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle par application du procédé conforme à la revendication 1, en ce que l'on calcule un indicateur mesuré calculé à partir des traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'un joueur et des signaux horodatés valeur Sarousai (t) et valeur Svaience (t) mesurés, en ce que l'on compare ledit indicateur prédictif et ledit indicateur mesuré, et en ce que l'on détermine au moins un paramètre d'au moins une séquence vidéo suivante en fonction de la distance entre lesdits indicateurs.
6 - Procédé de génération d'images et de séquences audio à fort impact émotionnel personnalisé caractérisé en ce qu'il comporte une étape de caractérisation de séquences d'images et/ou de séquences sonores par un indicateur personnalisé prédictif de l'état émotionnel induit par un type de séquence audiovisuelle résultant du procédé conforme à la revendication 1, à enregistrer dans une bibliothèque les séquences d'images et/ou séquences sonores associées à une valeur émotionnelle supérieure à une valeur seuil, et à produire un nouveau modèle personnalisé à partir des séquences contenues dans ladite bibliothèque.
7 - Procédé de génération d'images et de séquences audio à fort impact émotionnel selon la revendication précédente caractérisé en ce qu'il comporte une étape additionnelle consistant à transformer lesdites séquences en nouveaux jeux de données utilisées comme données d'entrée d'au moins un modèle de reconnaissance de classes d'objets puis à générer des images faibles résolutions via un modèle génératif convolutionel profond (DCGAN) et à entraîner un nouveau modèle Super Résolution Génératif à partir des images de hautes résolutions de la classe reconnue.
EP22728292.8A 2021-05-27 2022-05-25 Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo Pending EP4348598A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2105553A FR3123487B1 (fr) 2021-05-27 2021-05-27 Procédé pour la prédiction automatique de l’effet émotionnel produit par une séquence de jeu vidéo
PCT/IB2022/054882 WO2022249081A1 (fr) 2021-05-27 2022-05-25 Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo

Publications (1)

Publication Number Publication Date
EP4348598A1 true EP4348598A1 (fr) 2024-04-10

Family

ID=77710885

Family Applications (1)

Application Number Title Priority Date Filing Date
EP22728292.8A Pending EP4348598A1 (fr) 2021-05-27 2022-05-25 Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo

Country Status (4)

Country Link
US (1) US20240245986A1 (fr)
EP (1) EP4348598A1 (fr)
FR (1) FR3123487B1 (fr)
WO (1) WO2022249081A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843798B (zh) * 2023-07-03 2024-07-05 支付宝(杭州)信息技术有限公司 动画生成方法、模型训练方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102690201B1 (ko) 2017-09-29 2024-07-30 워너 브로스. 엔터테인먼트 인크. 사용자 감정 상태에 반응하여 영화 컨텐츠의 생성 및 제어
KR102649074B1 (ko) * 2018-01-08 2024-03-18 워너 브로스. 엔터테인먼트 인크. 신경 생리학적 상태의 검출을 위한 사회적 상호작용 애플리케이션
US10449461B1 (en) 2018-05-07 2019-10-22 Microsoft Technology Licensing, Llc Contextual in-game element recognition, annotation and interaction based on remote user input
US10818312B2 (en) 2018-12-19 2020-10-27 Disney Enterprises, Inc. Affect-driven dialog generation
US10835823B2 (en) * 2018-12-27 2020-11-17 Electronic Arts Inc. Sensory-based dynamic game-state configuration
US10918948B2 (en) * 2019-03-19 2021-02-16 modl.ai ApS Game bot generation for gaming applications
FR3100972B1 (fr) 2019-09-20 2021-09-10 Ovomind K K Système de détermination d’une émotion d’un utilisateur

Also Published As

Publication number Publication date
FR3123487A1 (fr) 2022-12-02
US20240245986A1 (en) 2024-07-25
WO2022249081A1 (fr) 2022-12-01
FR3123487B1 (fr) 2024-01-19

Similar Documents

Publication Publication Date Title
Smith et al. Harnessing ai for augmenting creativity: Application to movie trailer creation
Amato et al. AI in the media and creative industries
CN111541910B (zh) 一种基于深度学习的视频弹幕评论自动生成方法及系统
Baveye et al. Deep learning vs. kernel methods: Performance for emotion prediction in videos
Jiang et al. Predicting emotions in user-generated videos
WO2022184117A1 (fr) Procédé de découpage de vidéo basé sur un apprentissage profond, dispositif associé et support de stockage
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
KR20220039702A (ko) 동적으로 반응하는 가상 캐릭터를 위한 다중 모드 모델
CN112149709A (zh) 使用机器学习模型的游戏播放视频的无监督分类
CN111973996A (zh) 一种游戏资源投放方法和装置
CN116484318A (zh) 一种演讲训练反馈方法、装置及存储介质
CN116595438A (zh) 图片创作方法、装置、设备及存储介质
EP4348598A1 (fr) Procédé pour la prédiction automatique de l&#39;effet émotionnel produit par une séquence de jeu vidéo
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
Salah et al. Video-based emotion recognition in the wild
US20230215460A1 (en) Audio event detection with window-based prediction
CN115222858A (zh) 动画重构网络的训练及其图像重构、视频重构方法与设备
Naas et al. Real-time emotion recognition for sales
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Ramos et al. Personalizing fast-forward videos based on visual and textual features from social network
Ben-Ahmed et al. Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes
CN112822501B (zh) 视频直播中的信息显示方法和装置、存储介质及电子设备
Bawa et al. An automatic multimedia likability prediction system based on facial expression of observer
Latif et al. Development of image-based emotion recognition using convolutional neural networks
WO2020201158A1 (fr) Procede de génération d&#39;un element multimedia au cours de la lecture d&#39;un media, terminal, systeme

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20231207

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: OVOMIND SA