FR2920583A1 - Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs - Google Patents
Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs Download PDFInfo
- Publication number
- FR2920583A1 FR2920583A1 FR0706137A FR0706137A FR2920583A1 FR 2920583 A1 FR2920583 A1 FR 2920583A1 FR 0706137 A FR0706137 A FR 0706137A FR 0706137 A FR0706137 A FR 0706137A FR 2920583 A1 FR2920583 A1 FR 2920583A1
- Authority
- FR
- France
- Prior art keywords
- voice
- character
- spectral
- avatar
- player
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004891 communication Methods 0.000 title claims description 9
- 238000001308 synthesis method Methods 0.000 title description 3
- 230000003595 spectral effect Effects 0.000 claims abstract description 22
- 230000004075 alteration Effects 0.000 claims abstract description 16
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 description 4
- 230000002085 persistent effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000035790 physiological processes and functions Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000007654 immersion Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 241001155433 Centrarchus macropterus Species 0.000 description 1
- 241001007284 Cthulhu Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 241000544076 Whipplea modesta Species 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/30—Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
- A63F13/33—Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers using wide area network [WAN] connections
- A63F13/335—Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers using wide area network [WAN] connections using Internet
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/40—Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/85—Providing additional services to players
- A63F13/87—Communicating with other players during game play, e.g. by e-mail or chat
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/40—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterised by details of platform network
- A63F2300/407—Data transfer via internet
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/55—Details of game data or player data management
- A63F2300/5546—Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history
- A63F2300/5553—Details of game data or player data management using player registration data, e.g. identification, account, preferences, game history user representation in the game field, e.g. avatar
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/50—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
- A63F2300/57—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
- A63F2300/572—Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6063—Methods for processing data by generating or executing the game program for sound processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé comprenant une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage.
Description
PROCEDE DE SYNTHESE VOCALE ET PROCEDE DE COMMUNICATION INTERPERSONNELLE, NOTAMMENT POUR JEUX EN LIGNE MULTIJOUEURS
L'invention a trait au domaine technique des jeux interactifs temps réel.
L'invention concerne notamment les jeux en ligne multi joueurs tels que MMOG (Massively Multiplayer Online Games), MMORPG (Massively Multiplayer Online Role-Playing Game), MMOFPS (Massively Multiplayer Online First Person Shooter), UMMORPG (Ultra Massively Multiplayer Online Rote Playing Game). Les jeux en ligne multi joueurs présentent trois caractéristiques : ils sont accessibles en ligne, sur Internet ; ils sont dotés d'un univers persistant, c'est-à-dire accessibles sept jours sur sept ; et ils sont ouverts à un grand nombre de joueurs (typiquement plus de 128 joueurs, et plus de 15000 par exemple pour un UMMORPG tel qu'Eve On line). L'expression jeu de rôle a été employée dès les années 70 pour désigner des jeux de société (essentiellement de dialogue) dans lesquels quelques joueurs (en pratique une demi douzaine) se réunissent autour d'une table pour incarner des personnages dans une aventure qu'ils vivent en interaction avec un maître de jeu, suivant un scénario et des règles écrites, mais en improvisant. Le maître de jeu introduit progressivement les éléments d'une intrigue dont il est le seul à connaître les grandes lignes, les autres joueurs réagissant aux situations proposées en jouant le rôle de personnages imaginaires, avec leurs qualités et leurs défauts, leurs points forts et leurs faiblesses. Dans les royaumes oubliés de Donjons et Dragons, créé en 1974, les personnages sont par exemple des elfes, des orques, des dragons ou des humains.
Dans l'Appel de Cthulhu, créé en 1981 et inspiré de l'oeuvre de Lovecraft, les personnages sont des humains (investigateurs) amenés à enquêter sur les lieux d'un crime, le maître de jeu (gardien des arcanes) créant le plus souvent un scénario angoissant avec des phénomènes étranges ou magiques. La plupart des jeux de rôle font appel à l'univers de la fantasy, genre littéraire à mi chemin entre le fantastique et la science fiction, mélangeant contes, légendes et mythes. Pour ce genre littéraire, la référence habituelle est l'écrivain anglais Tolkien (The Lords of the Rings, 1954). Les jeux de rôle sur table ne permettent pas la création de mondes virtuels persistants. Ils ne permettent pas non plus la participation d'un grand nombre de joueurs, sauf à compliquer énormément le travail de préparation du maître de jeu. Enfin, les jeux de rôle sur table ne permettent pas une interactivité en temps réel entre les joueurs.
Les procédés permettant d'améliorer immersion des joueurs dans les mondes virtuels n'ont cessé de se développer. Quelques étapes de ces développement peuvent être mentionnées. Une première forme de monde virtuel persistant est le MUD (Multi User Dungeon) apparu en 1979 dans des universités américaines. Une interface purement textuelle permettait aux joueurs de se déplacer dans un monde virtuel. Dans les années 80, dans le cadre du projet Habitat, des essais de simulation ont étés réalisés pour un monde persistant habité par de petites créatures dénommées avatars. En septembre 1996 apparaît Meridian 59 (merdian59.neardeathstudios.com), premier MMORPG mettant en oeuvre une modélisation 3D et des vues à la première personne, c'est-à-dire affichant ce que voit le joueur : l'avatar n'est plus directement visible à l'écran, le joueur découvre l'univers virtuel au travers des yeux de son avatar et le déplace directement. Merdian 59 était essentiellement orienté PvP (Player versus Player) : les joueurs s'affrontent entre eux. Les MMORPG actuels permettent également d'autres mécanismes de jeux : - PvE (Player versus Environment) : collaboration entre joueurs pour affronter l'environnement contrôlé par l'ordinateur, par exemple pour le combat contre des monstres, la résolution de quêtes ; l'exploration de donjons ; - RvR (Realm versus Realm), forme de PvP de groupe, entre joueurs de faction ou royaumes adverses (par exemple Dark age of camelot, Worhammer online) ; - instances ou zones instanciées, permettant de dupliquer une zone d'un monde virtuel et ainsi éviter les zones surpeuplées et augmenter la difficulté (par exemple dans Anarchy on fine). Les MMORPG associent les principes des jeux de rôle et le jeu en ligne, et se jouent sur Internet en ligne. Comme dans tout jeu de rôle, le joueur incarne un avatar, c'est-à-dire un personnage fictif qu'il va créer et faire progresser dans un monde virtuel. Ce faisant, il va interagir avec l'environnement contrôlé par le programme et avec les autres joueurs. Les MMORPG actuels se déroulent dans des mondes parallèles mythiques de type médiéval ou antique où cohabitent généralement héros, guerriers, créatures imaginaires, magie et sorcellerie, cultures anciennes et éléments surnaturels. Ce thème a été utilisé dans des MMORPG tels que Ultima Online (1997), Lineage (1998), Everquest (1999) ou Guild Wars (2005) World of Warcraft (2005). D'autres utilisent en plus des éléments futuristes de science-fiction, tels que Anarchy Online (2001), Eve Online (2003) ou Star Wars Galaxies (2003). De nombreux MMORPG sont publiés à la suite de films à succès : Pirates des Caraïbes, Star Wars (2003), Le Seigneur des Anneaux (2007), ou encore Star Trek (startrekonline.com), Matrix on line.
Les MMORPG sont très populaires. Le nombre de joueurs peut être très important. Par exemple, pour Lineage, plus de 2,5 millions d'abonnements actifs étaient référencés en 2002. Pour l'année 2006, le marché mondial du MMOG représentait plus de 13 millions d'abonnements payants et un chiffre d'affaires de 2.5 milliards USD (Interacting with computers 2007, pp.167-179). Au 17 janvier 2007, environ 2,67 millions de personnages résidaient dans l'univers de Second Life (Papagiannidis et al, Technlogical Forecasting & Social Changes 2007). Selon la société Game Flier, le MMORPG Ragnarok Online a rassemblé en ligne en décembre 2004 environ 370 000 joueurs (Computer Networks 2006, pp. 3002-30023). La communication se passe dans les MMORPG principalement par le biais du texte à la manière de discussion sur IRC (Internet Relay Chat). Certains jeux proposent un fil de discussion à destination des personnages géographiquement proche, à destination de tous les des joueurs du serveur, ou bien encore à destination de tous les joueurs de la guilde à laquelle le joueur appartient (par exemple canal IRC de la famille mafieuse dans le jeu Omerta). Le langage se rapproche du langage SMS, pour une communication plus rapide, reprenant de nombreux termes anglais. Aujourd'hui avec l'avènement de logiciels de messagerie instantanée et de voix sur réseau IP comme TeamSpeak, permettant des conversations vocales entre un nombre illimité de personnes (limité par le désordre que peuvent créer 40 personnes qui parlent en même temps) la communication entre les joueurs peut être vocale.
Le document W003/015884 décrit sommairement un système de communication sous forme de voix, entre joueurs de jeux massivement on line. Une modulation de la voix est prévue : pour chaque personnage, une gamme de modulation est à disposition du joueur permettant de conférer à l'avatar d'un joueur de sexe masculin une vois plus aigue de! femme.
Le document US 6987514 décrit un module de transformation de voix pour terminal de communication mobile, pour avatar dans un système de jeu on line. Des techniques de modification de voix sont évoquées (par exemple réverbération). Ces techniques sont prétendues en mesure de transformer la voix du joueur, en la conservant compréhensible et expressive.
Le document US 2003/0115063 décrit un procédé de contrôle de la voix d'un avatar, ce procédé comprenant une étape de conversion de la voix naturelle d'un joueur en fonction des attributs de l'avatar, tels que par exemple son âge, son sexe, sa taille ou son poids. Dans un premier temps, le joueur choisi son type d'avatar. Puis le procédé décrit dans ce document antérieur permet une adaptation de la voix du joueur en fonction des caractéristiques physiologiques de l'avatar. Ainsi par exemple, lorsqu'un joueur de sexe masculin choisi un avatar féminin, le spectre de la voix du joueur est décalé vers de plus hautes fréquences. Lorsqu'un enfant choisi un avatar âgé, le spectre de la voix de l'enfant est décalé vers les fréquences plus basses. Les amplitudes des basses fréquences sont augmentées lorsque le poids de l'avatar est supérieur à celui du joueur. Les paramètres de conversion de la voix du joueur peuvent évoluer au cours du jeu pour tenir compte de l'évolution de l'avatar : vieillissement, changement de corpulence. La voix humaine est complexe, chacun de ses caractères généraux (accent, ampleur, étendue, hauteur, inflexion, intensité, registre, tessiture, timbre, volume) intervenant seul ou en combinaison dans les échanges interpersonnels, pour la transmission d'émotions, de sentiments, ou d'états physiologiques.
De cette complexité résulte que, dans les univers virtuels proposés en ligne, l'impression de réalité est souvent médiocre, la voix des avatars n'étant pas plausible. Les inventeurs ont cherché à comprendre les raisons pour lesquelles la voix des avatars manque souvent de réalisme. Trois causes ont pu être identifiées. En premier lieu, la voix de l'avatar peut être irréaliste dès son émission, parce que cette voix ne traduit pas les émotions, les sentiments ou les états physiologiques ou psychologiques de l'avatar, au cours du jeu. En second lieu, la voix de l'avatar peut être irréaliste à sa transmission, parce que cette transmission ne tient pas compte de l'environnement de l'avatar qui parle. En troisième lieu, la voix de l'avatar peut être irréaliste à sa réception, parce que la réception ne tient pas compte de l'environnement ou des caractéristiques psychologiques et physiologiques de la personne sensée entendre ou écouter. Ainsi, par exemple, dans l'univers d'Everquest, des elfes, des ores, des trolls, des nains, des gnomes, des halfelins et des humains se côtoient dans un univers pseudo médiéval s'étendant sur des milliers de kilomètres carrés. Chaque joueur peut dans ce monde incarner une classe spécifique : guerrier, chasseur, barde, prêtre. Le joueur pourra souhaiter que la voix d'un guerrier soit grave et posée en temps normal, mais puisse exprimer également diverses émotions ou états. Par exemple, la voix sera plus lente avec essoufflement après une longue course. A la suite d'une peur ou d'une ivresse, la voix pourra être balbutiante. La voix d'un avatar ne sera pas transmise de la même manière si l'avatar est dans un cachot ou dans un espace ouvert. La voix de l'avatar ne sera pas perçue de la même manière si la personne sensée écouter est dans une ambiance calme ou bruyante, ou bien encore si la personne est perturbée, distraite, ou présente une déficience auditive partielle, ponctuelle ou permanente. L'invention vise à apporter une solution à ces différents problèmes. A cette fin, l'invention se rapporte, selon un premier aspect, à un procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé étant caractérisé en ce qu'il comprend une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage. L'invention se rapporte, selon un deuxième aspect, à un procédé de communication interpersonnelle, ce procédé comprenant une synthèse vocale telle que présentée ci dessus, à partir de la voix naturelle d'une première personne, pour l'obtention d'une voix naturelle transformée altérée associée à un premier personnage, ce procédé comprenant en outre une étape de détermination d'au moins un paramètre de situation pour un deuxième personnage, parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale des sons perçus, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du deuxième personnage, le procédé comprenant une étape d'altération spectrale de la voix du premier personnage, pour mise en conformité avec l'altération spectrale associée au paramètre de situation du deuxième personnage.
D'autres objets et avantages de l'invention apparaîtront au cours de la description suivante de modes de réalisation, description qui va être effectuée en se référant à la figure annexée qui est une vue schématique d'un procédé de traitement de voix. Dans la suite de cette description, le procédé de traitement de voix va être présenté en référence à une application aux MMORPG. Il est entendu toutefois que le procédé pourra trouver applications dans d'autres contextes, par exemple pour l'apprentissage, la maintenance de systèmes en ligne. Le procédé permet notamment la communication entre plusieurs personnes, chaque émetteur pouvant choisir de masquer sa voix, pour des raisons de confidentialité, de pudeur, par jeu ou pour des raisons d'efficacité. F'ar exemple, pour l'apprentissage des langues, une personne pourra être plus à l'aise en sachant que sa voix ne sera pas reconnue du professeur ou d'autres membres d'une communauté virtuelle. Sur la figure unique annexée, un trait en pointillé 1 sépare un premier joueur 2 et un deuxième joueur 3. II est entendu que ce trait vertical 1 ne représente pas une séparation physique, les joueurs pouvant être dans un même local. Le trait vertical 1 permet de distinguer la progression 4 du jeu côté joueur 2 émetteur de voix de la progression 5 du jeu côté joueur 3 récepteur de voix. Les joueurs 2, 3 ont chacun choisi un avatar et ses attributs (taille, poids, sexe, âge etc). En fonction de ce choix, un type de voix est extrait d'une base de données 6. Le cas échéant, chaque joueur 2, 3 peut modifier la voix de l'avatar en utilisant des outils de personnalisation proposés par un serveur 7. Par exemple, un joueur pourra ajouter de la réverbération. Le choix de la voix et sa personnalisation sont effectués par le module 8. Lorsqu'un joueur 2 commence à parler, sa voix naturelle subit un premier traitement par un module 9 pour obtenir une voix transformée conforme à l'avatar choisi, cette voix transformée étant le cas échéant personnalisée par le joueur.
Parallèlement, un module 10 analyse en continu la situation de l'avatar du joueur 2. Par situation, on désigne ici notamment l'état émotionnel, psychologique et physiologique probable pour l'avatar, en fonction des évènements vécus et des attributs de l'avatar. Par exemple, l'avatar est blessé ou fatigué. Par situation, on désigne également l'environnement dans lequel l'avatar se trouve. Par exemple, l'avatar est dans un cachot, une caverne ou une foule. En fonction des données de situation de l'avatar fournies par le module 10, le module de traitement de voix effectue une altération de la voix de l'avatar. Par altération on désigne ici une modification du spectre habituel de la voix de l'avatar. La voix altérée est transmise vers un module de traitement 12. Ce module de traitement 12 reçoit des informations d'un module 13 d'analyse en continu de la situation de l'avatar du joueur 3. Par situation, on désigne ici notamment l'état émotionnel, psychologique et physiologique probable pour l'avatar, en fonction des évènements vécus et des attributs de l'avatar. Par exemple, l'avatar du joueur 3 est blessé ou fatigué. Par situation, on désigne également l'environnement dans lequel l'avatar se trouve. Par exemple, l'avatar est dans un cachot, une caverne ou une foule.
En fonction des données reçues par le module 13, le module de traitement 12 effectue un filtrage de la voix de l'avatar du joueur 2. Ce filtrage est effectué conformément à des outils de filtrage proposés par un serveur 14. La voix de l'avatar du joueur 2 est transmise au joueur 3 après filtrage.
L'exemple suivant illustre quelques uns des avantages du procédé. La jeune Alice joue avec son oncle Bob. L'avatar A choisi par Alice est un druide âgé et corpulent. Le module 9 assure que ce n'est pas la voix naturelle d'Alice qui parvient à Bob, mais une voix masculine correspondant à la morphologie et à l'âge de l'avatar A choisi.
L'avatar A vient d'être attaqué par un monstre et n'a pu éviter une blessure. Cette blessure altère la voix de A, par exemple en réduisant son timbre. Au vu du monstre, Alice souhaite alerter l'avatar B de Bob. Il se trouve qu'à ce moment, B atteint un rivage à la nage, ce que le module 13 décèle. Dans le serveur 14, un filtre spectral spécifique correspondant à la situation l'avatar est en train de nager . Ce filtre est appliqué à la voix de A par le module 12. Ainsi, la voix de A parvient à B en partie assourdie, tant que B n'a pas atteint le rivage. Le procédé renforce le sentiment d'immersion des membres d'une communauté, par exemple lors de jeux massifs en ligne.
Claims (2)
1. Procédé de synthèse vocale, ce procédé comprenant une étape de choix d'une voix de synthèse parmi un ensemble de voix ayant des signatures spectrales prédéterminées et une étape d'enregistrement de la voix naturelle d'une première personne, le procédé comprenant une étape de transformation de la voix naturelle enregistrée pour mise en conformité avec la signature spectrale de la voix de synthèse choisie, la voix naturelle ainsi transformée étant enregistrée, ce procédé étant caractérisé en ce qu'il comprend une étape de détermination d'au moins un paramètre de situation pour un premier personnage parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale de la voix émise, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du personnage, le procédé comprenant une étape d'altération spectrale de la voix naturelle transformée pour mise en conformité avec l'altération spectrale associée au paramètre de situation du personnage.
2. Procédé de communication interpersonnelle, ce procédé comprenant une synthèse vocale selon le procédé de la revendication 1, à partir de la voix naturelle d'une première personne, pour l'obtention d'une voix naturelle transformée altérée associée à un premier personnage, ce procédé comprenant en outre une étape de détermination d'au moins un paramètre de situation pour un deuxième personnage, parmi un ensemble de paramètres prédéfinis, chaque paramètre prédéfini étant associé à une altération spectrale des sons perçus, le paramètre de situation déterminé caractérisant notamment l'environnement, l'état physique ou psychologique du deuxième personnage, le procédé comprenant une étape d'altération spectrale de la voix du premier personnage, pour mise en conformité avec l'altération spectrale associée au paramètre de situation du deuxième personnage. 35
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0706137A FR2920583A1 (fr) | 2007-08-31 | 2007-08-31 | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs |
EP08162390A EP2031584A1 (fr) | 2007-08-31 | 2008-08-14 | Procédé de synthèse vocale et procédé de communication interpersonnel, particulièrement pour des jeux en ligne à plusieurs joueurs |
PCT/EP2008/060696 WO2009027239A1 (fr) | 2007-08-31 | 2008-08-14 | Procédé de synthèse vocale et procédé de communication interpersonnelle, en particulier pour des jeux en ligne à joueurs multiples |
US12/198,391 US20090063156A1 (en) | 2007-08-31 | 2008-08-26 | Voice synthesis method and interpersonal communication method, particularly for multiplayer online games |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0706137A FR2920583A1 (fr) | 2007-08-31 | 2007-08-31 | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2920583A1 true FR2920583A1 (fr) | 2009-03-06 |
Family
ID=39262561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0706137A Withdrawn FR2920583A1 (fr) | 2007-08-31 | 2007-08-31 | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs |
Country Status (4)
Country | Link |
---|---|
US (1) | US20090063156A1 (fr) |
EP (1) | EP2031584A1 (fr) |
FR (1) | FR2920583A1 (fr) |
WO (1) | WO2009027239A1 (fr) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2783292A4 (fr) * | 2011-11-21 | 2016-06-01 | Empire Technology Dev Llc | Interface audio |
US20130203026A1 (en) * | 2012-02-08 | 2013-08-08 | Jpmorgan Chase Bank, Na | System and Method for Virtual Training Environment |
JP6018408B2 (ja) * | 2012-05-02 | 2016-11-02 | 任天堂株式会社 | 情報処理プログラム、情報処理装置、情報処理システム及び情報処理方法 |
WO2013179275A2 (fr) * | 2012-06-01 | 2013-12-05 | Donald, Heather June | Procédé et système permettant de générer un affichage interactif |
US9889383B2 (en) * | 2013-10-03 | 2018-02-13 | Voyetra Turtle Beach, Inc. | Configuring headset voice morph based on player assignment |
US10725298B2 (en) | 2014-03-26 | 2020-07-28 | Mark D. Wieczorek, P.C. | Virtual reality devices and accessories |
US11137601B2 (en) * | 2014-03-26 | 2021-10-05 | Mark D. Wieczorek | System and method for distanced interactive experiences |
US10311857B2 (en) * | 2016-12-09 | 2019-06-04 | Microsoft Technology Licensing, Llc | Session text-to-speech conversion |
US10179291B2 (en) | 2016-12-09 | 2019-01-15 | Microsoft Technology Licensing, Llc | Session speech-to-text conversion |
US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1255203A2 (fr) * | 2001-04-30 | 2002-11-06 | Sony Computer Entertainment America, Inc. | Modification de données de contenu transmis dans le réseau selon les caractéristiques indiquées par l'utilisateur |
US20030115063A1 (en) * | 2001-12-14 | 2003-06-19 | Yutaka Okunoki | Voice control method |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4490840A (en) * | 1982-03-30 | 1984-12-25 | Jones Joseph M | Oral sound analysis method and apparatus for determining voice, speech and perceptual styles |
US4624012A (en) * | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US5113449A (en) * | 1982-08-16 | 1992-05-12 | Texas Instruments Incorporated | Method and apparatus for altering voice characteristics of synthesized speech |
EP1160764A1 (fr) * | 2000-06-02 | 2001-12-05 | Sony France S.A. | Catégories morphologiques pour la synthèse de voix |
US6987514B1 (en) | 2000-11-09 | 2006-01-17 | Nokia Corporation | Voice avatars for wireless multiuser entertainment services |
WO2003015884A1 (fr) | 2001-08-13 | 2003-02-27 | Komodo Entertainment Software Sa | Jeux massivement online comprenant un systeme de modulation et de compression de la voix |
JP3941611B2 (ja) * | 2002-07-08 | 2007-07-04 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP4645241B2 (ja) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
US7831420B2 (en) * | 2006-04-04 | 2010-11-09 | Qualcomm Incorporated | Voice modifier for speech processing systems |
-
2007
- 2007-08-31 FR FR0706137A patent/FR2920583A1/fr not_active Withdrawn
-
2008
- 2008-08-14 WO PCT/EP2008/060696 patent/WO2009027239A1/fr active Application Filing
- 2008-08-14 EP EP08162390A patent/EP2031584A1/fr not_active Withdrawn
- 2008-08-26 US US12/198,391 patent/US20090063156A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1255203A2 (fr) * | 2001-04-30 | 2002-11-06 | Sony Computer Entertainment America, Inc. | Modification de données de contenu transmis dans le réseau selon les caractéristiques indiquées par l'utilisateur |
US20030115063A1 (en) * | 2001-12-14 | 2003-06-19 | Yutaka Okunoki | Voice control method |
Also Published As
Publication number | Publication date |
---|---|
US20090063156A1 (en) | 2009-03-05 |
WO2009027239A1 (fr) | 2009-03-05 |
EP2031584A1 (fr) | 2009-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2920583A1 (fr) | Procede de synthese vocale et procede de communication interpersonnelle, notamment pour jeux en ligne multijoueurs | |
Stone | The war of desire and technology at the close of the mechanical age | |
US6106399A (en) | Internet audio multi-user roleplaying game | |
US20090253512A1 (en) | System And Method For Providing Adjustable Attenuation Of Location-Based Communication In An Online Game | |
Yee | Befriending ogres and wood-elves: Relationship formation and the social architecture of Norrath | |
Neely | No player is ideal: why video game designers cannot ethically ignore players' real-world identities | |
Heeter | Femininity | |
Kirschner | Multiplayer online gaming | |
Meier | “The hardest battles are fought in the mind”: The role of women in Viking Age games | |
Whippey | Community in World of Warcraft: The fulfilment of social needs | |
Imbriani et al. | WaTa Fight! How situated multiplayer competitive gaming can facilitate the inclusion of low vision and blind players | |
Tan | Disruptive Vocalities: Auditory Immersion in Punchdrunk's" The Drowned Man: A Hollywood Fable" and First-Person Digital Games | |
Dalimu et al. | The Portrayal and The Effects of Hyper-reality in Ready Player One Movie By Steven Spielberg (The Application of Jean Baudrillard’s Theory) | |
Bosstick | “To Become Who You Wish to Be”: Actual-Play Tabletop Roleplaying Game Podcasts as Oral Storytelling Outlets for Queer Community, Representation, and Identity | |
CN112863466B (zh) | 一种音频社交变声方法及装置 | |
Southwick | “The Tongue Can Paint What the Eyes Cannot See”: The Voice Actor and World-Building in Videogames | |
Kavetsky | Men behaving (not so) badly: Interplayer communication in World of Warcraft | |
Sanders | Holy Ocarina! Exploring Religion in/of/through The Legend of Zelda Series | |
Volland-Butler | Transdiegetic Sound and auditory immersion in an asymmetrical cooperative game | |
IMBRIANI et al. | WaTa Fight! | |
Land | Motivations and social conventions of online video game play among young adult males | |
Gibson | Smith and Smitherson’s Theatre of the Absurd: Virtual Reality and Theatricality in Accounting+ | |
Peo | Visual Development of a Visual Novel | |
Rakes | My Avatar, My Self: A Posthuman Examination of Video Games and Cyborg Bodies | |
Neely | No Player Is Ideal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20110502 |