EP4348598A1

EP4348598A1 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo

Info

Publication number: EP4348598A1
Application number: EP22728292.8A
Authority: EP
Inventors: Yann FRACHI
Original assignee: Ovomind KK
Current assignee: Ovomind Sa
Priority date: 2021-05-27
Filing date: 2022-05-25
Publication date: 2024-04-10
Also published as: FR3123487A1; US20240245986A1; WO2022249081A1; FR3123487B1

Abstract

L'invention présente un procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo comprenant une étape d'étiquetage de séquences dudit jeu par la génération automatique de descripteurs à des séquences temporelles dudit jeu, caractérisé en ce que - ladite étape d'étiquetage consiste à appliquer un traitement numérique, au flux audio de ladite séquence de jeu vidéo, par une architecture de réseau neuronal et une couche de codage NLP pour la tâche d'identification du langage, pour extraire une première série de descripteurs horodatés et à appliquer un traitement numérique au flux vidéo pour fournir une deuxième série de descripteurs horodatés par une architecture de réseau neuronal pour la tâche de caractérisation des scènes de chaque image dudit flux vidéo [reconnaissance de caractères sur les sous-titres, l'histogramme colorimétrique, et pour fournir une troisième série de descripteurs par un classificateur de composantes graphiques], et la transmission sous forme de M-uplets à un réseau de neurone - le procédé comportant en outre un traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'au moins un joueur pour extraire des signaux horodatés valeur S_arousal (t) et valeur S_valence (t) et leur transmission sous forme de N-uplets à un réseau de neurones - le procédé comportant en outre le traitement desdits M-uplets correspondant auxdits descripteurs horodatés du premier et du deuxième type et lesdits N-uplets par un réseau de neurones pour fournir au moins un indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle.

Description

TITRE : Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo

Domaine de l'invention

La présente invention concerne le domaine du jeu vidéo, et plus particulièrement de l'adaptation automatique de l'expérience de jeu à la réaction émotionnelle des joueurs, de manière individualisée.

Dans le jeu vidéo, la précision et la profondeur des mécaniques de jeu, ainsi que la conception d'un niveau, et de l'intelligence artificielle d'un personnage peuvent être la source d'émotion qui dépendent en partie du déroulé du jeu, et du tempérament du joueur ainsi que de son vécu ludique et son interaction défi-compétence passée et actuelle. Le but est d'aboutir à une expérience optimale correspondant à un état d'esprit plaisant dans lequel le joueur réussit à échapper à l'anxiété d'un objectif trop difficile à relever et à l'ennui d'un but trop facile à atteindre.

Avec un jeu vidéo narratif, dans lequel le joueur adopte les préoccupations et les objectifs posés par le jeu et son récit, les émotions vidéoludiques peuvent résulter de la culpabilité pour avoir fait du mal, la peur d'être incapable de fuir un monstre, ou encore la joie pour avoir accompli une prouesse, ou la déception devant les conséquences malheureuses que le résultat négatif entraîne sur des personnages fictifs sympathiques.

Les jeux vidéo les plus évolués cherchent à entrelacer et agencer conjointement et sans discordance des émotions artistiques, fictionnelles et vidéoludiques par un choix stylistique et une motivation narrative cohérentes, incluant l'animation de personnages, le mixage sonore et le design de niveaux. Le concepteur de jeu doit prendre en compte le fait que le joueur possède deux désirs contradictoires : l'un d'un ordre immédiat, qui est d'éviter l'échec ; l'autre d'un ordre esthétique, qui est de prendre part à une expérience incluant un échec partiel. L'industrie des jeux informatiques et vidéo à propose de nombreuses approches différentes pour améliorer les aspects sociaux de l'expérience de jeu, notamment en essayant de catégoriser les interactions entre le joueur et le jeu vidéo, et en essayant de modéliser les modes émotionnels induits par des paramètres du jeu. Etat de la technique

Le brevet américain US2020/298118 concerne un procédé consistant à générer, via un système comprenant un processeur, un robot de jeu ; recevoir, via le système, des données de télémétrie de jeu d'une application de jeu correspondant à un joueur réel ; générer, via le système, des données de télémétrie de jeu de l'application de jeu correspondant au robot de jeu ; générer, via le système, des données de différence basées sur les données de télémétrie de jeu correspondant à un joueur réel et les données de télémétrie de jeu correspondant au robot de jeu, les données de différence indiquant une différence dans le temps entre un premier personnage généré par le joueur réel et un second personnage généré par le bot de jeu ; et mettre à jour, via le système, le robot de jeu sur la base des données de différence. Cette solution a pour objet l'adaptation d'un jeu à l'expérience et la dextérité du joueur, comparé aux performances d'un robot de jeu et prend en compte le degré de satisfaction du joueur selon l'échelle de Likert et non pas son état émotionnel.

On connaît aussi les brevets US2020206631 et US2020405212 ainsi que l'article « M. S. Hossain, G. Muhammad, B. Song, M. M. Hassan, A. Alelaiwi A. Alamri, "Audio-Visual Emotion- Aware Cloud Gaming Framework," in IEEE Transactions on Circuits and Systems for Video Technology, vol. 25, no. 12, p. 2105-2118, Dec. 2015, doi: 10.1109/TCSVT.2015. 2444731 "

Inconvénients de l'art antérieur

Les solutions de l'art antérieur ne sont pas totalement satisfaisantes car les signaux dermo- galvanique sont fortement perturbés par les artefacts se produisant à l'interface entre les capteurs et la peau de l'utilisateur. Lorsque celui-ci bouge, la qualité de la liaison électrique change, et les données sont ainsi bruitées.

Solution apportée par l'invention

Afin de remédier à ces inconvénients, la présente invention concerne selon son acception la plus générale procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo présentant les caractéristiques techniques énoncées dans la revendication 1.

Selon une première variante, on procède à l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo. Selon une deuxième variante, on procède à l'agrégation des M-uplets et des N-uplets provenant du plusieurs joueurs utilisant le même jeu vidéo.

Selon un mode de réalisation spécifique, on procède à une segmentation de la population de joueur et en ce que l'on procède au traitement par le réseau de neurone de l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo pour chacun des segments.

L'invention concerne aussi un procédé pour le paramétrage automatique des séquences de jeu vidéo comprenant une étape de détermination, pour une séquence vidéo, dudit indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle par application du procédé susvisé, en ce que l'on compare l'indicateur mesuré calculé à partir des traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'un joueur et des signaux horodatés valeur S_arousai (t) et valeur S_vaience (t) mesurés, en ce que l'on compare ledit indicateur prédictif et ledit indicateur mesuré, et en ce que l'on détermine au moins un paramètre d' au moins une séquence vidéo suivante en fonction de la distance entre lesdits indicateurs.

Description détaillée d'un exemple non limitatif de l'invention

La présente invention sera mieux comprise à la lecture de la description qui suit, se référant aux dessins annexés relatives à un exemple non limitatif de réalisation, où :

[FIG. 1] La figure 1 représente une vue schématique de l'architecture fonctionnelle

[FIG. 2] La figure 2 représente une vue schématique d'un image de sortie du Réseau Adversaire

Génératif Convolutionnel Profond(DCGAN).

[FIG. B] La figure 3 illustre le résultat de ces traitements.

Architecture fonctionnelle

La description qui suit illustre un exemple d'architecture fonctionnelle de la solution de prédiction de l'effet émotionnel, permettant de dont le but technique est de fournir des données numériques destinées à modifier le déroulement d'un programme multimédias individuel ou collectif.

Etape (1) : reconnaissance d'image (Computer Vision) Cette étape consite à créer à partir des images issues d'un jeu vidéo (100) des jeux données d'entrainement labélisés enregistrées dans une mémoire (10), constituées par une série d'images associées chacune à des données numériques correspondant à des labels ou classes, selon une terminologie issue d'une bibliothèque de jeux vidéos.

Tous les objets et personnages qui peut comprendre des monstres, animaux, fourchettes, épees (non limitatif) deviennent des classes.

Etape (2) Entraînement d'un modèle neuronal à reconnaître ses classes. La catégorisation des scènes est un problème fondamental en vision par ordinateur, et il est opportun de compléter les données d'apprentissage locale de la base (10) par des données de qualité provenant de sources vérifiées externe (20). En effet, la recherche sur la compréhension des scènes ne permet pas la capture de toute la variété des catégories de scènes.

Ces données d'entraînement locales de la base (10) sont exploités dans l'exemple décrit par un moteur d'apprentissage, en complément d'autres données provenant de sources externes (20 telles que SUN : SUN Data bas: Scene Categorization Benchmark (4919 Classes). La base de données SUN (Scene UNderstanding) contient 899 catégories et 130 519 images. Elle utilise 397 catégories bien échantillonnées pour évaluer des algorithmes de pointe pour la reconnaissance de scènes et établir de nouvelles limites de performance.

Les caractéristiques de la source SUN sont décrites par exemple dans les articles suivants :

• J. Xiao, J. Hays, K. Ehinger, A. Oliva et A. Torralba. Base de données SUN: reconnaissance de scènes à grande échelle de l'abbaye au zoo .

• Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes ( CVPR )

• J. Xiao, KA Ehinger, J. Hays, A. Torralba et A. Oliva. Base de données SUN : Exploration d'une grande collection de catégories de scènes International Journal of Computer Vision ( IJCV )

Le résultat de cette étape d'apprentissage est l'obtention de plusieurs modèles (3) qui reconnaissent une pluralité de classes d'objets sur une trame d'image (en anglais « frame »). Pour les nouveaux jeux (11) dont les objets ne sont pas encore connus on procède à un entraînement d'un modèle d'apprentissage automatique non supervisé pour détecter automatiquement (12) les objets (« softmasks extraits du background (détection object) ») puis les labelliser (13) à la main par un annotateur qui attribuera à chaque image extraite une ou plusieurs classes d'objets de descripteurs visuels (monstres, épée, chien etc..).

A l'issue de cette étape on dispose de plusieurs modèles (3) déployables sur le cloud (30) qui peuvent reconnaître X classes d'objets par frame.

Les mêmes types de traitements sont appliqués au signal audio issu du jeu vidéo (100). On crée des jeux de données « datasets » (101) labélisés à partir de séquence audio d'un jeu (100).

Le label permet de décrire l'ambiance (« stressante, dynamique, Epique etc... ») Des labels avec le moins de biais possible sont utilisés ainsi que des jeux de données d'audio d'ambiance pré labélisés (201). On entraîne par une étape (31) également un modèle (32) pour reconnaître le volume à partir de données (101) par exemple extraite du système en temps réel et les waveforms du signal audio par une étape d'extration (30).

Un nouveau modèle est entraîné pour reconnaître par exemple du texte dans l'audio de différent langages à partir des waveforms et utilise pour transcrire le texte à partir du flux audio des modèles pré entraînés (201) comme ceux-ci-dessous (non limitatif) : Multi-Purpose NLP Models (ULMFiT, Transformer, Google's BERT, Transformer-XL, OpenAI's GPT-2) ; Word Embeddings (ELMo, Flair) ou StanfordNLP.

Un modèle de reconnaissance par intelligence artificielle est également mis en œuvre pour entraîner des données de textes afin de reconnaître le texte afficher à l'écran (sous-titres ou autres informations).

Création d'un nouveau jeu de données personnalisées

L'étape suivante consiste à créer un nouveau jeu de données audio et images d'entrainement labélisées (50) et horodatées en associant les valeurs émotionnelles fournies par un équipement (51) par un procédé tel que décrit dans le brevet FR3100972A1. Ces données sont enregistrées et stockées à partir de toutes les parties des joueurs utilisant le cloud (30), image par image et flux audios. Puis le flux audio-visuel enregistrés est utilisé comme donnée d'entrée des algorithmes précédents.

Le résultat de ce traitement est un nouveau jeu de données avec les labels suivants horodatés et synchronisés : • Classes Modèles visuels(objets/personnages/etc) reconnues par les algorithmes Computer vision entraînés sur les données images réelles SUN etc.)

• Classes monstres/objets (Jeux de données Computer vision reconnues par les algorithmes non supervisé entraîné sur des bases de données d'images de Jeux vidéo)

• Ambiance et volume sonore décrites pas les algorithmes de Deep Learning Audio.

• Texte de l'audio reconnu via le traitement audio NLP/Speech to Text/

• Texte de l'image reconnu par les algos de CV reconnaissance de texte.

• Arousal et valence scores extraits des biosignaux

On entraîne ensuite un nouveau modèle avec le nouveau jeu de données labélisées créée : en entrée les données visuelles : toutes les frames du flux vidéos (RGB) que nous pouvons redimensionner pour diminuer le besoin de calcul et les données du flux audio en utilisant la technique MeISpec (128 x 128 pixels) représentation (Grayscale) à partir de la waveform du flux audio et les données émotionnelles (arousal valence). Donc le modèle devrait pouvoir prédire un score arousal/valence à partird'une[fyi][fy2]frame et d'une série de représentation audio (images melspec).

Ces modèles sont ensuite déployés sur le cloud pour disposer d'une prédiction en temps réel des émotions avant que les joueurs aient vraiment joué au jeu simplement à partir du flux audio vidéo.

Ces prédictions seront comparées avec les vrai score émotionnels issues des algorithmes du brevet FR3100972A1 et une variable « LOSS » sera calculée afin de pouvoir affiner le modèle en permanence pour tous les joueurs.

GENERATION D'AUDIO VISUEL EMOTIONELLE VIA Réseaux antagonistes génératifs

Pour la partie générative, pour un joueur donné. A chaque réaction émotionnelle forte (Arousal >70) on crée un jeu de données spécifiques émotionnels en enregistrant l'audio et les images du flux vidéo. On dispose ainsi des séquences émotionnelles enregistrées (Arousal > 70 et un score de valence). Par exemple l'émotion peur/colère (Arousal > 70 et valence <30) ou la joie (Arousal >70 et valence >70).

Les séquences sont transformées en nouveaux jeux de données sont utilisées comme données d'entrée des modèles de reconnaissance de classes d'objets. On sélectionne uniquement les images ou un monstre est reconnu comme classe présente (probabilité de présence > 90%). Après un entrainement des images du modèle de 1000 epochs, on génère des images de faibles résolutions 128x128 via un modèle génératif convolutionel profond (DCGAN).

En parallèle, on entraîne un nouveau modèle Super Résolution Génératif à partir des images de hautes résolutions de la classe reconnue.

Ces images générées automatiquement en fonction du traitement des réactions émotionnelles d'un joueur considéré peuvent constituer une bibliothèque d'images à fort impact sur le joueur considéré, et être utilisées ensuite pour un nouveau modèle de jeu personnalisé dont l'impact émotionnel est adapté au joueur considéré. Il en est de même pour les séquences audios.

Ce modèle a appris à reconstruire une image haute résolution à partir d'une image faible résolution. On utilise une image de sortie du Réseau Adversaire Génératif Convolutionnel Profond(DCGAN) pour produire une image de sortie du modèles DCGAN redimensionnées 64x64 pour être une donnée d'entrée du SRGAN

Pour obtenir des textures plus réalistes on applique une méthode de Transfert de style neuronales par un traitement de l'image avec un filtre convolutionel pour la moyenner(averaging): kernel = np.ones((5,5),np.float32)/25 img = cv.filter2D(img, -5, kernel)

On applique ensuite le transfert de style avec un modèle pré entraîné VGG19 à partir d'une image haute résolution pour obtenir une image modifiée à partir des séquences émotionnelles.

Traitement du flux audio

On applique une méthode similaire pour le flux audio : • Création des séquences émotionnelles, les passer de l'algorithme de classification audio (pitch/ambiance) se focaliser sur une ambiance spécifique reconnue.

• Entrainement une modèle GAN audio pour créer des séquences similaires La figure 3 illustre le résultat de ces traitements.

Claims

Revendications

1 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo comprenant une étape d'étiquetage de séquences dudit jeu par la génération automatique de descripteurs à des séquences temporelles dudit jeu, caractérisé en ce que

- ladite étape d'étiquetage consiste à appliquer un traitement numérique, au flux audio, par une architecture de réseau neuronal et une couche de codage NLP pour la tâche d'identification du langage, pour extraire une première série de descripteurs horodatés et à appliquer un traitement numérique au flux vidéo pour fournir une deuxième série de descripteurs horodatés par une architecture de réseau neuronal pour la tâche de caractérisation des scènes de chaque image dudit flux vidéo et pour fournir une troisième série de descripteurs par un classificateur de composantes graphiques, et la transmission desdites trois séries descripteurs de sous forme de M- uplets à un réseau de neurones

- le procédé comportant en outre un traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'au moins un joueur pour extraire des signaux horodatés S_arousai (t) et S_vaience (t) et leur transmission sous forme de N-uplets audit réseau de neurones

- le procédé comportant en outre le traitement desdits M-uplets correspondant auxdits descripteurs horodatés du premier et du deuxième type et lesdits N-uplets par un réseau de neurones pour fournir au moins un indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle.

2 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication 1 caractérisé en ce que l'on procède à l'agrégation des M- uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo.

3 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication 1 caractérisé en ce que l'on procède à l'agrégation des M- uplets et des N-uplets provenant du plusieurs joueurs utilisant le même jeu vidéo. 4 - Procédé pour la prédiction automatique de l'effet émotionnel produit par une séquence de jeu vidéo selon la revendication précédente caractérisé en ce que l'on procède à une segmentation de la population de joueur et en ce que l'on procède au traitement par le réseau de neurones de l'agrégation des M-uplets et des N-uplets provenant d'un joueur à plusieurs exécutions du même jeu vidéo pour chacun des segments.

5 - Procédé pour le paramétrage automatique des séquences de jeu vidéo comprenant une étape de détermination, pour une séquence vidéo, dudit indicateur prédictif de l'état émotionnel induit par un type de séquence audiovisuelle par application du procédé conforme à la revendication 1, en ce que l'on calcule un indicateur mesuré calculé à partir des traitement de biosignaux générés par un moyen d'acquisition de l'état émotionnel d'un joueur et des signaux horodatés valeur S_arousai (t) et valeur S_vaience (t) mesurés, en ce que l'on compare ledit indicateur prédictif et ledit indicateur mesuré, et en ce que l'on détermine au moins un paramètre d'au moins une séquence vidéo suivante en fonction de la distance entre lesdits indicateurs.

6 - Procédé de génération d'images et de séquences audio à fort impact émotionnel personnalisé caractérisé en ce qu'il comporte une étape de caractérisation de séquences d'images et/ou de séquences sonores par un indicateur personnalisé prédictif de l'état émotionnel induit par un type de séquence audiovisuelle résultant du procédé conforme à la revendication 1, à enregistrer dans une bibliothèque les séquences d'images et/ou séquences sonores associées à une valeur émotionnelle supérieure à une valeur seuil, et à produire un nouveau modèle personnalisé à partir des séquences contenues dans ladite bibliothèque.

7 - Procédé de génération d'images et de séquences audio à fort impact émotionnel selon la revendication précédente caractérisé en ce qu'il comporte une étape additionnelle consistant à transformer lesdites séquences en nouveaux jeux de données utilisées comme données d'entrée d'au moins un modèle de reconnaissance de classes d'objets puis à générer des images faibles résolutions via un modèle génératif convolutionel profond (DCGAN) et à entraîner un nouveau modèle Super Résolution Génératif à partir des images de hautes résolutions de la classe reconnue.