FR2920583A1 - Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs - Google Patents

Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs Download PDF

Info

Publication number
FR2920583A1
FR2920583A1 FR0706137A FR0706137A FR2920583A1 FR 2920583 A1 FR2920583 A1 FR 2920583A1 FR 0706137 A FR0706137 A FR 0706137A FR 0706137 A FR0706137 A FR 0706137A FR 2920583 A1 FR2920583 A1 FR 2920583A1
Authority
FR
France
Prior art keywords
voice
character
spectral
avatar
player
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0706137A
Other languages
English (en)
Inventor
Sylvain Squedin
Serge Papillon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Priority to FR0706137A priority Critical patent/FR2920583A1/fr
Priority to EP08162390A priority patent/EP2031584A1/fr
Priority to PCT/EP2008/060696 priority patent/WO2009027239A1/fr
Priority to US12/198,391 priority patent/US20090063156A1/en
Publication of FR2920583A1 publication Critical patent/FR2920583A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • A63F13/33Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers using wide area network [WAN] connections
    • A63F13/335Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers using wide area network [WAN] connections using Internet
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/40Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of platform network
    • A63F2300/407Data transfer via internet
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/55Details of game data or player data management
    • A63F2300/5546Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history
    • A63F2300/5553Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history user representation in the game field, e.g. avatar
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé comprenant une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage.

Description

PROCEDE DE SYNTHESE VOCALE ET PROCEDE DE COMMUNICATION INTERPERSONNELLE, NOTAMMENT POUR JEUX EN LIGNE MULTIJOUEURS
L'invention a trait au domaine technique des jeux interactifs temps réel.
L'invention concerne notamment les jeux en ligne multi joueurs tels que MMOG (Massively Multiplayer Online Games), MMORPG (Massively Multiplayer Online Role-Playing Game), MMOFPS (Massively Multiplayer Online First Person Shooter), UMMORPG (Ultra Massively Multiplayer Online Rote Playing Game). Les jeux en ligne multi joueurs présentent trois caractéristiques : ils sont accessibles en ligne, sur Internet ; ils sont dotés d'un univers persistant, c'est-à-dire accessibles sept jours sur sept ; et ils sont ouverts à un grand nombre de joueurs (typiquement plus de 128 joueurs, et plus de 15000 par exemple pour un UMMORPG tel qu'Eve On line). L'expression jeu de rôle a été employée dès les années 70 pour désigner des jeux de société (essentiellement de dialogue) dans lesquels quelques joueurs (en pratique une demi douzaine) se réunissent autour d'une table pour incarner des personnages dans une aventure qu'ils vivent en interaction avec un maître de jeu, suivant un scénario et des règles écrites, mais en improvisant. Le maître de jeu introduit progressivement les éléments d'une intrigue dont il est le seul à connaître les grandes lignes, les autres joueurs réagissant aux situations proposées en jouant le rôle de personnages imaginaires, avec leurs qualités et leurs défauts, leurs points forts et leurs faiblesses. Dans les royaumes oubliés de Donjons et Dragons, créé en 1974, les personnages sont par exemple des elfes, des orques, des dragons ou des humains.
Dans l'Appel de Cthulhu, créé en 1981 et inspiré de l'oeuvre de Lovecraft, les personnages sont des humains (investigateurs) amenés à enquêter sur les lieux d'un crime, le maître de jeu (gardien des arcanes) créant le plus souvent un scénario angoissant avec des phénomènes étranges ou magiques. La plupart des jeux de rôle font appel à l'univers de la fantasy, genre littéraire à mi chemin entre le fantastique et la science fiction, mélangeant contes, légendes et mythes. Pour ce genre littéraire, la référence habituelle est l'écrivain anglais Tolkien (The Lords of the Rings, 1954). Les jeux de rôle sur table ne permettent pas la création de mondes virtuels persistants. Ils ne permettent pas non plus la participation d'un grand nombre de joueurs, sauf à compliquer énormément le travail de préparation du maître de jeu. Enfin, les jeux de rôle sur table ne permettent pas une interactivité en temps réel entre les joueurs.
Les procédés permettant d'améliorer immersion des joueurs dans les mondes virtuels n'ont cessé de se développer. Quelques étapes de ces développement peuvent être mentionnées. Une première forme de monde virtuel persistant est le MUD (Multi User Dungeon) apparu en 1979 dans des universités américaines. Une interface purement textuelle permettait aux joueurs de se déplacer dans un monde virtuel. Dans les années 80, dans le cadre du projet Habitat, des essais de simulation ont étés réalisés pour un monde persistant habité par de petites créatures dénommées avatars. En septembre 1996 apparaît Meridian 59 (merdian59.neardeathstudios.com), premier MMORPG mettant en oeuvre une modélisation 3D et des vues à la première personne, c'est-à-dire affichant ce que voit le joueur : l'avatar n'est plus directement visible à l'écran, le joueur découvre l'univers virtuel au travers des yeux de son avatar et le déplace directement. Merdian 59 était essentiellement orienté PvP (Player versus Player) : les joueurs s'affrontent entre eux. Les MMORPG actuels permettent également d'autres mécanismes de jeux : - PvE (Player versus Environment) : collaboration entre joueurs pour affronter l'environnement contrôlé par l'ordinateur, par exemple pour le combat contre des monstres, la résolution de quêtes ; l'exploration de donjons ; - RvR (Realm versus Realm), forme de PvP de groupe, entre joueurs de faction ou royaumes adverses (par exemple Dark age of camelot, Worhammer online) ; - instances ou zones instanciées, permettant de dupliquer une zone d'un monde virtuel et ainsi éviter les zones surpeuplées et augmenter la difficulté (par exemple dans Anarchy on fine). Les MMORPG associent les principes des jeux de rôle et le jeu en ligne, et se jouent sur Internet en ligne. Comme dans tout jeu de rôle, le joueur incarne un avatar, c'est-à-dire un personnage fictif qu'il va créer et faire progresser dans un monde virtuel. Ce faisant, il va interagir avec l'environnement contrôlé par le programme et avec les autres joueurs. Les MMORPG actuels se déroulent dans des mondes parallèles mythiques de type médiéval ou antique où cohabitent généralement héros, guerriers, créatures imaginaires, magie et sorcellerie, cultures anciennes et éléments surnaturels. Ce thème a été utilisé dans des MMORPG tels que Ultima Online (1997), Lineage (1998), Everquest (1999) ou Guild Wars (2005) World of Warcraft (2005). D'autres utilisent en plus des éléments futuristes de science-fiction, tels que Anarchy Online (2001), Eve Online (2003) ou Star Wars Galaxies (2003). De nombreux MMORPG sont publiés à la suite de films à succès : Pirates des Caraïbes, Star Wars (2003), Le Seigneur des Anneaux (2007), ou encore Star Trek (startrekonline.com), Matrix on line.
Les MMORPG sont très populaires. Le nombre de joueurs peut être très important. Par exemple, pour Lineage, plus de 2,5 millions d'abonnements actifs étaient référencés en 2002. Pour l'année 2006, le marché mondial du MMOG représentait plus de 13 millions d'abonnements payants et un chiffre d'affaires de 2.5 milliards USD (Interacting with computers 2007, pp.167-179). Au 17 janvier 2007, environ 2,67 millions de personnages résidaient dans l'univers de Second Life (Papagiannidis et al, Technlogical Forecasting & Social Changes 2007). Selon la société Game Flier, le MMORPG Ragnarok Online a rassemblé en ligne en décembre 2004 environ 370 000 joueurs (Computer Networks 2006, pp. 3002-30023). La communication se passe dans les MMORPG principalement par le biais du texte à la manière de discussion sur IRC (Internet Relay Chat). Certains jeux proposent un fil de discussion à destination des personnages géographiquement proche, à destination de tous les des joueurs du serveur, ou bien encore à destination de tous les joueurs de la guilde à laquelle le joueur appartient (par exemple canal IRC de la famille mafieuse dans le jeu Omerta). Le langage se rapproche du langage SMS, pour une communication plus rapide, reprenant de nombreux termes anglais. Aujourd'hui avec l'avènement de logiciels de messagerie instantanée et de voix sur réseau IP comme TeamSpeak, permettant des conversations vocales entre un nombre illimité de personnes (limité par le désordre que peuvent créer 40 personnes qui parlent en même temps) la communication entre les joueurs peut être vocale.
Le document W003/015884 décrit sommairement un système de communication sous forme de voix, entre joueurs de jeux massivement on line. Une modulation de la voix est prévue : pour chaque personnage, une gamme de modulation est à disposition du joueur permettant de conférer à l'avatar d'un joueur de sexe masculin une vois plus aigue de! femme.
Le document US 6987514 décrit un module de transformation de voix pour terminal de communication mobile, pour avatar dans un système de jeu on line. Des techniques de modification de voix sont évoquées (par exemple réverbération). Ces techniques sont prétendues en mesure de transformer la voix du joueur, en la conservant compréhensible et expressive.
Le document US 2003/0115063 décrit un procédé de contrôle de la voix d'un avatar, ce procédé comprenant une étape de conversion de la voix naturelle d'un joueur en fonction des attributs de l'avatar, tels que par exemple son âge, son sexe, sa taille ou son poids. Dans un premier temps, le joueur choisi son type d'avatar. Puis le procédé décrit dans ce document antérieur permet une adaptation de la voix du joueur en fonction des caractéristiques physiologiques de l'avatar. Ainsi par exemple, lorsqu'un joueur de sexe masculin choisi un avatar féminin, le spectre de la voix du joueur est décalé vers de plus hautes fréquences. Lorsqu'un enfant choisi un avatar âgé, le spectre de la voix de l'enfant est décalé vers les fréquences plus basses. Les amplitudes des basses fréquences sont augmentées lorsque le poids de l'avatar est supérieur à celui du joueur. Les paramètres de conversion de la voix du joueur peuvent évoluer au cours du jeu pour tenir compte de l'évolution de l'avatar : vieillissement, changement de corpulence. La voix humaine est complexe, chacun de ses caractères généraux (accent, ampleur, étendue, hauteur, inflexion, intensité, registre, tessiture, timbre, volume) intervenant seul ou en combinaison dans les échanges interpersonnels, pour la transmission d'émotions, de sentiments, ou d'états physiologiques.
De cette complexité résulte que, dans les univers virtuels proposés en ligne, l'impression de réalité est souvent médiocre, la voix des avatars n'étant pas plausible. Les inventeurs ont cherché à comprendre les raisons pour lesquelles la voix des avatars manque souvent de réalisme. Trois causes ont pu être identifiées. En premier lieu, la voix de l'avatar peut être irréaliste dès son émission, parce que cette voix ne traduit pas les émotions, les sentiments ou les états physiologiques ou psychologiques de l'avatar, au cours du jeu. En second lieu, la voix de l'avatar peut être irréaliste à sa transmission, parce que cette transmission ne tient pas compte de l'environnement de l'avatar qui parle. En troisième lieu, la voix de l'avatar peut être irréaliste à sa réception, parce que la réception ne tient pas compte de l'environnement ou des caractéristiques psychologiques et physiologiques de la personne sensée entendre ou écouter. Ainsi, par exemple, dans l'univers d'Everquest, des elfes, des ores, des trolls, des nains, des gnomes, des halfelins et des humains se côtoient dans un univers pseudo médiéval s'étendant sur des milliers de kilomètres carrés. Chaque joueur peut dans ce monde incarner une classe spécifique : guerrier, chasseur, barde, prêtre. Le joueur pourra souhaiter que la voix d'un guerrier soit grave et posée en temps normal, mais puisse exprimer également diverses émotions ou états. Par exemple, la voix sera plus lente avec essoufflement après une longue course. A la suite d'une peur ou d'une ivresse, la voix pourra être balbutiante. La voix d'un avatar ne sera pas transmise de la même manière si l'avatar est dans un cachot ou dans un espace ouvert. La voix de l'avatar ne sera pas perçue de la même manière si la personne sensée écouter est dans une ambiance calme ou bruyante, ou bien encore si la personne est perturbée, distraite, ou présente une déficience auditive partielle, ponctuelle ou permanente. L'invention vise à apporter une solution à ces différents problèmes. A cette fin, l'invention se rapporte, selon un premier aspect, à un procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé étant caractérisé en ce qu'il comprend une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage. L'invention se rapporte, selon un deuxième aspect, à un procédé de communication interpersonnelle, ce procédé comprenant une synthèse vocale telle que présentée ci dessus, à partir de la voix naturelle d'une première personne, pour l'obtention d'une voix naturelle transformée altérée associée à un premier personnage, ce procédé comprenant en outre une étape de détermination d'au moins un paramètre de situation pour un deuxième personnage, parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale des sons perçus, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du deuxième personnage, le procédé comprenant une étape d'altération spectrale de la voix du premier personnage, pour mise en conformité avec l'altération spectrale associée au paramètre de situation du deuxième personnage.
D'autres objets et avantages de l'invention apparaîtront au cours de la description suivante de modes de réalisation, description qui va être effectuée en se référant à la figure annexée qui est une vue schématique d'un procédé de traitement de voix. Dans la suite de cette description, le procédé de traitement de voix va être présenté en référence à une application aux MMORPG. Il est entendu toutefois que le procédé pourra trouver applications dans d'autres contextes, par exemple pour l'apprentissage, la maintenance de systèmes en ligne. Le procédé permet notamment la communication entre plusieurs personnes, chaque émetteur pouvant choisir de masquer sa voix, pour des raisons de confidentialité, de pudeur, par jeu ou pour des raisons d'efficacité. F'ar exemple, pour l'apprentissage des langues, une personne pourra être plus à l'aise en sachant que sa voix ne sera pas reconnue du professeur ou d'autres membres d'une communauté virtuelle. Sur la figure unique annexée, un trait en pointillé 1 sépare un premier joueur 2 et un deuxième joueur 3. II est entendu que ce trait vertical 1 ne représente pas une séparation physique, les joueurs pouvant être dans un même local. Le trait vertical 1 permet de distinguer la progression 4 du jeu côté joueur 2 émetteur de voix de la progression 5 du jeu côté joueur 3 récepteur de voix. Les joueurs 2, 3 ont chacun choisi un avatar et ses attributs (taille, poids, sexe, âge etc). En fonction de ce choix, un type de voix est extrait d'une base de données 6. Le cas échéant, chaque joueur 2, 3 peut modifier la voix de l'avatar en utilisant des outils de personnalisation proposés par un serveur 7. Par exemple, un joueur pourra ajouter de la réverbération. Le choix de la voix et sa personnalisation sont effectués par le module 8. Lorsqu'un joueur 2 commence à parler, sa voix naturelle subit un premier traitement par un module 9 pour obtenir une voix transformée conforme à l'avatar choisi, cette voix transformée étant le cas échéant personnalisée par le joueur.
Parallèlement, un module 10 analyse en continu la situation de l'avatar du joueur 2. Par situation, on désigne ici notamment l'état émotionnel, psychologique et physiologique probable pour l'avatar, en fonction des évènements vécus et des attributs de l'avatar. Par exemple, l'avatar est blessé ou fatigué. Par situation, on désigne également l'environnement dans lequel l'avatar se trouve. Par exemple, l'avatar est dans un cachot, une caverne ou une foule. En fonction des données de situation de l'avatar fournies par le module 10, le module de traitement de voix effectue une altération de la voix de l'avatar. Par altération on désigne ici une modification du spectre habituel de la voix de l'avatar. La voix altérée est transmise vers un module de traitement 12. Ce module de traitement 12 reçoit des informations d'un module 13 d'analyse en continu de la situation de l'avatar du joueur 3. Par situation, on désigne ici notamment l'état émotionnel, psychologique et physiologique probable pour l'avatar, en fonction des évènements vécus et des attributs de l'avatar. Par exemple, l'avatar du joueur 3 est blessé ou fatigué. Par situation, on désigne également l'environnement dans lequel l'avatar se trouve. Par exemple, l'avatar est dans un cachot, une caverne ou une foule.
En fonction des données reçues par le module 13, le module de traitement 12 effectue un filtrage de la voix de l'avatar du joueur 2. Ce filtrage est effectué conformément à des outils de filtrage proposés par un serveur 14. La voix de l'avatar du joueur 2 est transmise au joueur 3 après filtrage.
L'exemple suivant illustre quelques uns des avantages du procédé. La jeune Alice joue avec son oncle Bob. L'avatar A choisi par Alice est un druide âgé et corpulent. Le module 9 assure que ce n'est pas la voix naturelle d'Alice qui parvient à Bob, mais une voix masculine correspondant à la morphologie et à l'âge de l'avatar A choisi.
L'avatar A vient d'être attaqué par un monstre et n'a pu éviter une blessure. Cette blessure altère la voix de A, par exemple en réduisant son timbre. Au vu du monstre, Alice souhaite alerter l'avatar B de Bob. Il se trouve qu'à ce moment, B atteint un rivage à la nage, ce que le module 13 décèle. Dans le serveur 14, un filtre spectral spécifique correspondant à la situation l'avatar est en train de nager . Ce filtre est appliqué à la voix de A par le module 12. Ainsi, la voix de A parvient à B en partie assourdie, tant que B n'a pas atteint le rivage. Le procédé renforce le sentiment d'immersion des membres d'une communauté, par exemple lors de jeux massifs en ligne.

Claims (2)

REVENDICATIONS
1. Procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé étant caractérisé en ce qu'il comprend une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage.
2. Procédé de communication interpersonnelle, ce procédé comprenant une synthèse vocale selon le procédé de la revendication 1, à partir de la voix naturelle d'une première personne, pour l'obtention d'une voix naturelle transformée altérée associée à un premier personnage, ce procédé comprenant en outre une étape de détermination d'au moins un paramètre de situation pour un deuxième personnage, parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale des sons perçus, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du deuxième personnage, le procédé comprenant une étape d'altération spectrale de la voix du premier personnage, pour mise en conformité avec l'altération spectrale associée au paramètre de situation du deuxième personnage. 35
FR0706137A 2007-08-31 2007-08-31 Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs Withdrawn FR2920583A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR0706137A FR2920583A1 (fr) 2007-08-31 2007-08-31 Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
EP08162390A EP2031584A1 (fr) 2007-08-31 2008-08-14 Procédé de synthèse vocale et procédé de communication interpersonnel, particulièrement pour des jeux en ligne à plusieurs joueurs
PCT/EP2008/060696 WO2009027239A1 (fr) 2007-08-31 2008-08-14 Procédé de synthèse vocale et procédé de communication interpersonnelle, en particulier pour des jeux en ligne à joueurs multiples
US12/198,391 US20090063156A1 (en) 2007-08-31 2008-08-26 Voice synthesis method and interpersonal communication method, particularly for multiplayer online games

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0706137A FR2920583A1 (fr) 2007-08-31 2007-08-31 Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs

Publications (1)

Publication Number Publication Date
FR2920583A1 true FR2920583A1 (fr) 2009-03-06

Family

ID=39262561

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0706137A Withdrawn FR2920583A1 (fr) 2007-08-31 2007-08-31 Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs

Country Status (4)

Country Link
US (1) US20090063156A1 (fr)
EP (1) EP2031584A1 (fr)
FR (1) FR2920583A1 (fr)
WO (1) WO2009027239A1 (fr)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2783292A4 (fr) * 2011-11-21 2016-06-01 Empire Technology Dev Llc Interface audio
US20130203026A1 (en) * 2012-02-08 2013-08-08 Jpmorgan Chase Bank, Na System and Method for Virtual Training Environment
JP6018408B2 (ja) * 2012-05-02 2016-11-02 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法
WO2013179275A2 (fr) * 2012-06-01 2013-12-05 Donald, Heather June Procédé et système permettant de générer un affichage interactif
US9889383B2 (en) * 2013-10-03 2018-02-13 Voyetra Turtle Beach, Inc. Configuring headset voice morph based on player assignment
US10725298B2 (en) 2014-03-26 2020-07-28 Mark D. Wieczorek, P.C. Virtual reality devices and accessories
US11137601B2 (en) * 2014-03-26 2021-10-05 Mark D. Wieczorek System and method for distanced interactive experiences
US10311857B2 (en) * 2016-12-09 2019-06-04 Microsoft Technology Licensing, Llc Session text-to-speech conversion
US10179291B2 (en) 2016-12-09 2019-01-15 Microsoft Technology Licensing, Llc Session speech-to-text conversion
US10163451B2 (en) * 2016-12-21 2018-12-25 Amazon Technologies, Inc. Accent translation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255203A2 (fr) * 2001-04-30 2002-11-06 Sony Computer Entertainment America, Inc. Modification de données de contenu transmis dans le réseau selon les caractéristiques indiquées par l'utilisateur
US20030115063A1 (en) * 2001-12-14 2003-06-19 Yutaka Okunoki Voice control method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
EP1160764A1 (fr) * 2000-06-02 2001-12-05 Sony France S.A. Catégories morphologiques pour la synthèse de voix
US6987514B1 (en) 2000-11-09 2006-01-17 Nokia Corporation Voice avatars for wireless multiuser entertainment services
WO2003015884A1 (fr) 2001-08-13 2003-02-27 Komodo Entertainment Software Sa Jeux massivement online comprenant un systeme de modulation et de compression de la voix
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255203A2 (fr) * 2001-04-30 2002-11-06 Sony Computer Entertainment America, Inc. Modification de données de contenu transmis dans le réseau selon les caractéristiques indiquées par l'utilisateur
US20030115063A1 (en) * 2001-12-14 2003-06-19 Yutaka Okunoki Voice control method

Also Published As

Publication number Publication date
US20090063156A1 (en) 2009-03-05
WO2009027239A1 (fr) 2009-03-05
EP2031584A1 (fr) 2009-03-04

Similar Documents

Publication Publication Date Title
FR2920583A1 (fr) Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs
Stone The war of desire and technology at the close of the mechanical age
US6106399A (en) Internet audio multi-user roleplaying game
US20090253512A1 (en) System And Method For Providing Adjustable Attenuation Of Location-Based Communication In An Online Game
Yee Befriending ogres and wood-elves: Relationship formation and the social architecture of Norrath
Neely No player is ideal: why video game designers cannot ethically ignore players' real-world identities
Heeter Femininity
Kirschner Multiplayer online gaming
Meier “The hardest battles are fought in the mind”: The role of women in Viking Age games
Whippey Community in World of Warcraft: The fulfilment of social needs
Imbriani et al. WaTa Fight! How situated multiplayer competitive gaming can facilitate the inclusion of low vision and blind players
Tan Disruptive Vocalities: Auditory Immersion in Punchdrunk's" The Drowned Man: A Hollywood Fable" and First-Person Digital Games
Dalimu et al. The Portrayal and The Effects of Hyper-reality in Ready Player One Movie By Steven Spielberg (The Application of Jean Baudrillard’s Theory)
Bosstick “To Become Who You Wish to Be”: Actual-Play Tabletop Roleplaying Game Podcasts as Oral Storytelling Outlets for Queer Community, Representation, and Identity
CN112863466B (zh) 一种音频社交变声方法及装置
Southwick “The Tongue Can Paint What the Eyes Cannot See”: The Voice Actor and World-Building in Videogames
Kavetsky Men behaving (not so) badly: Interplayer communication in World of Warcraft
Sanders Holy Ocarina! Exploring Religion in/of/through The Legend of Zelda Series
Volland-Butler Transdiegetic Sound and auditory immersion in an asymmetrical cooperative game
IMBRIANI et al. WaTa Fight!
Land Motivations and social conventions of online video game play among young adult males
Gibson Smith and Smitherson’s Theatre of the Absurd: Virtual Reality and Theatricality in Accounting+
Peo Visual Development of a Visual Novel
Rakes My Avatar, My Self: A Posthuman Examination of Video Games and Cyborg Bodies
Neely No Player Is Ideal

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20110502