EP2059926A2 - Method and system for animating an avatar in real time using the voice of a speaker - Google Patents

Method and system for animating an avatar in real time using the voice of a speaker

Info

Publication number
EP2059926A2
EP2059926A2 EP07848234A EP07848234A EP2059926A2 EP 2059926 A2 EP2059926 A2 EP 2059926A2 EP 07848234 A EP07848234 A EP 07848234A EP 07848234 A EP07848234 A EP 07848234A EP 2059926 A2 EP2059926 A2 EP 2059926A2
Authority
EP
European Patent Office
Prior art keywords
avatar
state
animation
parameters
elementary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP07848234A
Other languages
German (de)
French (fr)
Inventor
Laurent Ach
Serge Vieillescaze
Benoît MOREL
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LA CANTOCHE PRODUCTION SA
Original Assignee
LA CANTOCHE PRODUCTION SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LA CANTOCHE PRODUCTION SA filed Critical LA CANTOCHE PRODUCTION SA
Publication of EP2059926A2 publication Critical patent/EP2059926A2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • the present invention relates to a method for animating an avatar in real time from the voice of an interlocutor.
  • the invention finds. a particularly important application although not exclusive, in the field of mobile devices such as mobile phones or more generally personal devices for portable communication or PDA (English initials for Personal Digital Apparatus).
  • Such graphics can then be ⁇ previously integrated the phone and then be referred to when necessary in a telephone conversation.
  • Such a system does not solve the control of facial expressions of the avatar depending on the speaker, especially in a synchronized manner.
  • Also known is a method of animating an entity on a mobile phone consisting of selecting and digitally processing the words of a message from which "visemes" are identified which are used to modify the mouth of the entity when the voice message is output.
  • Such a method in addition to being based on the use of words, and not sounds as such, is limited and gives a mechanical appearance to the visual image of the entity.
  • the present invention aims at providing a method and a system for animating a real-time avatar better than those previously known to the requirements of the practice, in particular in that it allows real-time animation not only of the mouth, but also the body of an avatar on a mobile device of reduced capacity such as a mobile phone, with excellent synchronization of movements.
  • the invention starts with the idea of using the richness of sound and not just the words themselves.
  • the present invention notably proposes a method of animation on a mobile device screen of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor.
  • the sound input signal is converted in real time into an audio and video stream in which on the one hand the movements of the mouth of the avatar are synchronized with the phonemes detected in said sound input signal.
  • at least one other part of the avatar is animated coherently with said signal by changes of attitudes and movements by analysis of said signal, and in that in addition to the phonemes, the signal is analyzed.
  • level 1 parameters namely the periods of silence, the speech periods and / or other elements contained in said sound signal taken from the ( prosody, intonation, rhythm and / or tonic accent, so that the entire avatar moves and seems to speak in real time or substantially in real time in place of the interlocutor.
  • avatars include body and / or arms, neck, legs, eyes, eyebrows, hair, etc., other than the actual mouth. These are therefore not set in motion independently of the signal.
  • the avatar is chosen and / or configured through an on-line service on the Internet;
  • the mobile device is a mobile phone;
  • to animate the avatar we exploit elementary sequences, consisting of images generated by a calculation of 3D rendering, or generated from drawings; elementary sequences are loaded into memory at the beginning of the animation and stored in said memory for the duration of the animation for several simultaneous and / or successive interlocutors;
  • the elementary sequence to be played is selected in real time, according to previously calculated and / or determined parameters;
  • the list of elementary sequences being common to all the avatars that can be used in the mobile device, an animation graph is defined in which each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the elementary sequences connected through the same state to be visually compatible with the transition from the end of one elementary sequence to the beginning of the other; each elementary sequence is duplicated so as to show a character who speaks or is silent according to the detection or not of a voice sound;
  • P e ⁇ Pi x Ci with Pi value of the level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, this calculation being carried out for all states connected to the state to which the current sequence ends in the graph; when an elementary sequence is in progress, the elementary sequence is allowed to go on until the end or we go on to the duplicated sequence that speaks when the voice is detected and vice versa, then, when the sequence ends and When a new state is reached, the next target state is chosen according to a probability defined by the calculations of the probability value of the states connected to the current state.
  • the invention also proposes a system implementing the above method.
  • an animation system of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor characterized in that it comprises a mobile telecommunication device for receiving the sound input signal emitted by an external telephone source, a signal receiving proprietary server comprising means for analyzing said signal and transforming in real time said sound input signal into an audio and video stream, calculating means arranged on the one hand to synchronize the movements of the mouth of the avatar transmitted • in said stream with the phonemes detected in said input sound signal and secondly to animate at least another portion of the avatar in a manner coherent with said signal by changes of attitudes and movements, in that it comprises means for analyzing the input sound signal to detect and use to animate one or more additional parameters said parameters level 1 1, namely silence periods, periods of speech and / or other elements contained in said sound signal taken from prosody, intonation, rhythm and / or tonic accent, and that it comprises means for transmitting the images of the avatar and the corresponding sound signal, so that the avatar seems to move and speak
  • the system comprises means for configuring the avatar through an online service on the Internet network.
  • it comprises means for constituting and storing on a server, elementary animated sequences for animating the avatar, consisting of images generated by a 3D rendering calculation, or generated from drawings.
  • it comprises means for selecting in real time the elementary sequence to be played, according to parameters previously calculated and / or determined.
  • each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the sequences connected through the same state to be visually compatible with the transition from the end of an elementary sequence to the beginning of the other.
  • it comprises means for duplicating each elementary sequence so as to make it possible to show a character who speaks or is silent according to the detection or not of a voice.
  • level 2 parameters are used to calculate the so-called level 2 parameters that correspond to features such as the character slow, fast, jerky, happy, sad, or other equivalent type of characters and animating the avatar at least in part from said level 2 parameters.
  • parameter of type equivalent to a level 2 parameter we mean a more complex parameter designed from the level 1 parameters, which are themselves simpler.
  • the level 2 parameters correspond to an analysis and / or a regrouping of the level 1 parameters, which will make it possible to further refine the states of the characters by making them more suitable for what we wish to represent. .
  • Level 2 parameters are considered as dimensions according to which a series of coefficients are defined with values which are fixed for each state of the animation graph.
  • computing means are arranged to calculate for a state e the probability value:
  • FIG. 1 is a block diagram showing an animation system for an avatar according to the invention
  • FIG. 2 gives a state graph as implemented according to the embodiment of the invention more particularly described here.
  • Figure 3 shows three types of image sequences, including that obtained with the invention in connection with a sound input signal.
  • FIG. 4 schematically illustrates another mode of implementation of the state graph implemented according to the invention.
  • Figure 5 shows schematically the method of selecting a state from the relative probabilities, according to an embodiment of the invention.
  • FIG. 6 shows an example of a sound input signal allowing the construction of a series of states, to be used for constructing the behavior of the avatar according to the invention.
  • Figure 7 shows an example of initial setting made from the mobile phone of the calling party.
  • FIG. 1 schematically shows the principle of an animation system 1 for avatar 2, 2 'on a screen 3, 3', 3 '' of mobile apparatus 4, 4 ', 4' '.
  • the avatar 2 is provided with a mouth 5, 5 'and is animated from a sound input signal 6 corresponding to the voice 7 of a communication interlocutor 8 by means of a mobile phone 9, or any other means of communication of the sound (fixed telephone, computer, ).
  • the system 1 comprises, from a server 10 belonging to a network (telephone, Internet ...), a proprietary server 11 for receiving signals 6.
  • This server comprises means 12 for analyzing the signal and real-time transformations of said audio and videomultiplexed stream signal 13 in two voices 14, 15; 14 ', 15' in the case of mobile reception 3D or 2D, or in one voice IG in case of said mobile video.
  • the text is scripted in 20 to be transmitted as sound image files 21, before compression in 22 and sent to the mobile 4 '', in the form video stream 23.
  • the result obtained is that the avatar 2, and in particular its mouth 5, seems to speak in real time in the place of the interlocutor 8 and that the behavior of the avatar (attitude, gestures) is coherent with the voice.
  • the sound signal is analyzed from a buffer corresponding to a small time interval (approximately 10 milliseconds).
  • a small time interval approximately 10 milliseconds.
  • Each sequence consists of a series of images produced by a 3D or 2D animation software known in themselves, such as for example the software 3dsMax and Maya of the American company Autodesk and XSI of the French company Softimage, or classic proprietary 3D rendering tools, or even digitized drawings.
  • 3D or 2D animation software known in themselves, such as for example the software 3dsMax and Maya of the American company Autodesk and XSI of the French company Softimage, or classic proprietary 3D rendering tools, or even digitized drawings.
  • a graph 24 of states is then defined (see FIG. 2) in which each node (or state) 26, 27, 28, 29, 30 is defined as a point of transition between elementary sequences.
  • connection between two states is unidirectional, in one direction or the other (arrows 25).
  • Each elementary sequence is duplicated to show a character who speaks or a character who is silent, depending on whether or not detected words in the voice.
  • FIG. 3 shows a sequence of images as obtained with speech 32, the same sequence without speech 33, and depending on the sound input (curve 34) transmitted by the interlocutor, the resulting sequence 35.
  • level 1 parameters whose value varies over time and whose average is calculated over a certain interval, for example 100 milliseconds.
  • These parameters are, for example: the activity of speech (silence or speech signals) the rhythm of speech the tone (acute or severe) if it is a non-tonal language the length of the vowels the presence more less important tonal accent.
  • the speech activity parameter can be calculated as a first approximation, from the power of the sound signal (integral of the signal squared) by considering that there is speech above a certain threshold.
  • the threshold is dynamically calculable according to the signal-to-noise ratio. Frequency filtering is also possible to avoid considering for example the passage of a truck as the voice.
  • the rhythm of the speech is calculated from the average frequency of the periods of silence and speech.
  • Other parameters are also calculable from a frequency analysis of the signal. According to the mode of the invention more particularly described here, simple mathematical formulas (linear combinations, threshold functions, Boolean functions) make it possible to pass from these level 1 parameters to so-called level 2 parameters which correspond to characteristics such as by example the slow, fast, jerky, happy, sad character, etc.
  • the level 2 parameters are considered as dimensions according to which one defines a series of coefficients Ci with fixed values for each state e of the graph of animation. Examples of such a parameterization are given below.
  • the level 1 parameters are calculated.
  • This sum is a relative probability of the state e (relative to the other states) of being selected.
  • Some sequences are loops that start from a state and return to it (arrow 31), they are used when the sequencer decides to keep the avatar in its current state, that is to say, chooses as target state following the current state itself.
  • Example of generation of animation initialize current state to a predefined starting state initialize state target to null initialize current sequence with zero sequence as long as an incoming audio stream is received: o decode incoming audio stream o calculate level 1 parameters o if current animation sequence is complete:
  • target state zero state o if target state zero:
  • level 1 parameters indicate the presence of lyrics
  • level 2 parameters indicate -. cheerful voice (corresponding to "Hello")
  • the probabilistic draw selects the merry target state.
  • Level 2 parameters indicate an interrogative voice
  • the relative probability of the state 40 is determined with respect to the value calculated above. If the value (arrow 45) is at a certain level, the corresponding state is selected (in the figure, state 42).
  • the state graph connects unidirectionally (in both directions) all these states as a star (link 52).
  • the dimensions are thus defined, for the calculation of the relative probabilities (dimensions of the parameters and the coefficients):
  • IDLE values indicating a silence period
  • SPEAK values indicating a speech period
  • NEUTRAL values indicating a neutrality period
  • GREETING values indicating a reception or presentation phase
  • Formulas for passing from first level to second level parameters are also defined:
  • step 1 • 8 user configures the settings of the movie he wants to customize.
  • step 2 the parameters are transmitted in the form of requests to the server application (server 11) which interprets them, creates the video, and sends it (link 13) to the encoding application.
  • step 3 the video sequences are compressed to the "good" format, that is to say readable by the mobile terminals before step 4 where the compressed video sequences are transmitted (links 18, 19, 18 ', 19' 23) to the recipient for example by MMS.
  • the invention is not limited to the embodiment more particularly described but encompasses all the variants and in particular those where the ' diffusion is done offline and not in real time or near real time.

Abstract

This is a method and a system for animating on a screen (3, 3', 3'') of a mobile apparatus (4, 4', 4'') an avatar (2, 2', 2'') furnished with a mouth (5, 5') using an input sound signal (6) corresponding to the voice (7) of a speaker (8) having a telephone communication. The input sound signal is transformed in real time into an audio and video stream in which the movements of the mouth of the avatar are synchronized with the phonemes detected in said input sound signal, and the avatar is animated in a manner consistent with said signal by changes of posture and movements by analysing said signal, so that the avatar seems to talk in real time or substantially in real time instead of the speaker.

Description

A AT
PROCEDE ET SYSTEME D'ANIMATION D'UN AVATAR EN TEMPS REEL A PARTIR DE LA VOIX D'UN INTERLOCUTEURMETHOD AND SYSTEM FOR ANIMATING A REAL-TIME AVATAR FROM THE VOICE OF AN INTERLOCUTOR
La présente invention concerne un procédé d'animation d'un avatar en temps réel à partir de la voix d'un interlocuteur.The present invention relates to a method for animating an avatar in real time from the voice of an interlocutor.
Elle concerne également un système d'animation d'un tel avatar.It also relates to a system for animation of such an avatar.
L'invention trouve . une application particulièrement importante bien que non exclusive, dans le domaine des appareils mobiles comme les téléphones portables ou plus généralement les appareils personnels de communication portable ou PDA (initiales anglosaxonnes pour Personal Digital Apparatus) .The invention finds. a particularly important application although not exclusive, in the field of mobile devices such as mobile phones or more generally personal devices for portable communication or PDA (English initials for Personal Digital Apparatus).
L'amélioration des téléphones portables, de leur esthétique et de la qualité des images et du son qu' ils véhiculent est une préoccupation constante des constructeurs de ce type d'appareils.The improvement of mobile phones, their aesthetics and the quality of images and sound they convey is a constant concern for the manufacturers of this type of device.
Son utilisateur est quant-à-lui particulièrement sensible à la personnalisation de cet outil qui est devenu un vecteur essentiel de communication.Its user is particularly sensitive to the customization of this tool which has become an essential vector of communication.
Cependant, même si ses fonctionnalités sont devenues multiples, puisqu' il " permet aujourd'hui le stockage de sons et d' images notamment photographiques, en plus de sa fonction première de téléphone, il reste néanmoins une plate-forme limitée.However, even if its functionalities have become multiple, since it " today allows the storage of sound and images including photographic, in addition to its primary function of telephone, it remains nevertheless a limited platform.
Il ne permet pas notamment d'afficher des images de haute définition, qui ne vont de toutes les façons pas pouvoir être visualisées du fait de la dimension réduite de son écran. Par ailleurs, de nombreux services accessibles aux téléphones portables fonctionnant jusqu'à présent uniquement en mode audio, se trouvent devoir répondre aujourd'hui à une demande en mode visiophonieIt does not allow in particular to display high definition images, which in any case can not be viewed because of the reduced size of its screen. In addition, many services accessible to mobile phones that until now only operate in audio mode, are now required to meet a demand in video-telephony mode.
(services de. messagerie, centre d'appel clients, ...) .(courier services, call center, ...).
Les prestataires à l'origine de ces services n'ont souvent pas de solution prête pour le passage de 1 ' audio à la vidéo et/ou ne souhaitent pas diffuser l'image d'une personne réelle.The service providers at the origin of these services often do not have a ready solution for the transition from audio to video and / or do not wish to broadcast the image of a real person.
L'une des solutions à ces problèmes consiste dès lors à s'orienter vers l'utilisation d'avatars, c'est à dire l'utilisation d'images graphiques, schématiques et moins complexes, représentant un ou plusieurs utilisateurs.One of the solutions to these problems is therefore to move towards the use of avatars, that is to say the use of graphic images, schematic and less complex, representing one or more users.
De tels graphiques peuvent ι alors être intégrés préalablement au téléphone et être ensuite appelés quand nécessaire lors d'une conversation téléphonique .Such graphics can then be ι previously integrated the phone and then be referred to when necessary in a telephone conversation.
On connaît ainsi (WO 2004/053799) un système et une méthode pour implémenter des avatars dans un téléphone mobile permettant de les créer et de les modifier en utilisant le standard XML (initiales anglosaxonnes pour Extensible Markup Language) .A system and a method for implementing avatars in a mobile phone for creating and modifying them using the XML standard (Extensible Markup Language) are thus known (WO 2004/053799).
Un tel système ne permet cependant pas de résoudre le contrôle des expressions faciales de l'avatar en fonction de l'interlocuteur, en particulier de façon synchronisée .Such a system, however, does not solve the control of facial expressions of the avatar depending on the speaker, especially in a synchronized manner.
Tout au plus existe-t-il dans l'art antérieur (EP 1 560 406) des programmes permettant de modifier l'état d'un avatar' de façon simple sur la base d'informations externes générées par un utilisateur, mais sans la finesse et 'la rapidité recherchée dans le cas où. l'avatar doit se comporter de façon parfaitement synchronisée avec le son d'une voix.At most, there exists in the prior art (EP 1 560 406) programs for modifying the state of an avatar ' in a simple manner on the basis of external information generated by a user, but without the finesse and 'the speed sought in where. the avatar must behave in a perfectly synchronized way with the sound of a voice.
Les technologies et programmes actuels conversationnels utilisant les avatars, tels que par exemple ceux mettant en œuvre un programme développé par la société américaine Microsoft dénommé « Microsoft Agent », ne permettent pas, en effet, de reproduire efficacement le comportement d'un avatar en temps réel par rapport à une voix, sur un appareil portable de capacités limitées comme un téléphone mobile.Current conversational technologies and programs using avatars, such as for example those implementing a program developed by the American company Microsoft called "Microsoft Agent", do not, indeed, effectively reproduce the behavior of an avatar in time real compared to a voice, on a portable device with limited capabilities such as a mobile phone.
On connaît également (GB 2 423 905) un procédé d'animation d'une entité sur un téléphone portable consistant à sélectionner et traiter numériquement les mots d'un message à partir desquels on identifie des « visèmes » qui sont utilisés pour modifier la bouche de l'entité lors de la sortie du message vocal .Also known (GB 2 423 905) is a method of animating an entity on a mobile phone consisting of selecting and digitally processing the words of a message from which "visemes" are identified which are used to modify the mouth of the entity when the voice message is output.
Un tel procédé, outre le fait qu'il est basé sur l'utilisation de mots, et non des sons en tant que tels, est limité et donne un aspect mécanique à l'image visuelle de l'entité.Such a method, in addition to being based on the use of words, and not sounds as such, is limited and gives a mechanical appearance to the visual image of the entity.
La présente invention vise à fournir un procédé et un système d'animation d'un avatar en temps réel répondant mieux que ceux antérieurement connus aux exigences de la pratique, notamment en ce qu'elle permet l'animation en temps réel non seulement de la bouche, mais également du corps d'un avatar sur un appareil mobile de capacité réduite tel qu'un téléphone portable, et ce avec une excellente synchronisation des mouvements.The present invention aims at providing a method and a system for animating a real-time avatar better than those previously known to the requirements of the practice, in particular in that it allows real-time animation not only of the mouth, but also the body of an avatar on a mobile device of reduced capacity such as a mobile phone, with excellent synchronization of movements.
Avec l'invention il va être possible, tout en fonctionnant dans l'environnement standard des terminaux informatiques ou de communication mobile, et ce sans installer de composants logiciels spécifiques dans le téléphone mobile, d'obtenir une animation de l'avatar en temps réel ou quasi réel cohérente avec le signal d'entrée, et ce uniquement par détection et analyse du son de la voix, c'est à dire des phonèmes .With the invention it will be possible, while operating in the standard environment of computer terminals or mobile communication, without installing specific software components in the mobile phone, to obtain an animation of the real-time or near-real-time avatar consistent with the input signal, and only by detection and analysis of the sound of the voice, ie phonemes.
Une grande qualité esthétique et artistique est ainsi conférée aux avatars et à leur mouvement lors de leur création et ce tout en respectant la complexité du timbre et des finesses de la voix, pour un coût faible et avec une excellente fiabilité.A great aesthetic and artistic quality is thus conferred on the avatars and their movement during their creation and this while respecting the complexity of the timbre and finesse of the voice, for a low cost and with excellent reliability.
Pour ce faire l'invention part notamment de l'idée d'utiliser la richesse du son et non plus uniquement les mots eux-mêmes.To do this, the invention starts with the idea of using the richness of sound and not just the words themselves.
Dans ce but la présente invention propose notamment un procédé d'animation sur un écran d'appareil mobile d'un avatar muni d'une bouche à partir d'un signal d'entrée sonore correspondant à la voix d'un interlocuteur de communication téléphonique , caractérisé en ce que on transforme en temps réel le signal d'entrée sonore en un flux audio et vidéo dans lequel d'une part on synchronise les mouvements de la bouche de l'avatar avec les phonèmes détectés dans ledit signal d'entrée sonore, et d'autre part on anime au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements par analyse dudit signal, et en ce que en plus des phonèmes, on analyse le signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenus dans ledit signal sonore pris parmi la( prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'ensemble de l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.For this purpose, the present invention notably proposes a method of animation on a mobile device screen of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor. , characterized in that the sound input signal is converted in real time into an audio and video stream in which on the one hand the movements of the mouth of the avatar are synchronized with the phonemes detected in said sound input signal. , and on the other hand at least one other part of the avatar is animated coherently with said signal by changes of attitudes and movements by analysis of said signal, and in that in addition to the phonemes, the signal is analyzed. sound input to detect and use one or more parameters for the animation additional so-called level 1 parameters, namely the periods of silence, the speech periods and / or other elements contained in said sound signal taken from the ( prosody, intonation, rhythm and / or tonic accent, so that the entire avatar moves and seems to speak in real time or substantially in real time in place of the interlocutor.
Par autres parties de l'avatar, on entend le corps et/ou les bras, le cou, les jambes, les yeux, les sourcils, les cheveux, etc, autres que la bouche proprement dite. Ceux-ci ne sont donc pas mis en mouvement de façon indépendante du signal .Other parts of the avatar include body and / or arms, neck, legs, eyes, eyebrows, hair, etc., other than the actual mouth. These are therefore not set in motion independently of the signal.
Il ne s'agit pas non plus ici de détecter l'émotion (réelle) d'un interlocuteur à partir de sa voix mais de créer des réactions artificielles probables de façon mécanique, néanmoins crédibles et compatibles avec ce qui pourrait être la réalité.It is not a question here of detecting the (real) emotion of an interlocutor from his voice but of creating probable artificial reactions in a mechanical way, nevertheless credible and compatible with what could be the reality.
Dans des modes de réalisation avantageux on a de plus recours à l'une et/ou à l'autre des dispositions suivantes : on choisit et/ou on configure l'avatar à travers un service en ligné sur le réseau Internet ; l'appareil mobile est un téléphone mobile ; pour animer l'avatar, on exploite des séquences élémentaires, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins ; on charge des séquences élémentaires en mémoire en début d'animation et on les conserve dans ladite mémoire pendant toute la durée de l'animation pour plusieurs interlocuteurs simultanés et/ou successifs ; on sélectionne en temps réel la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés ; la liste des séquences élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, on définit un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences élémentaires connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une séquence élémentaire au début de l'autre ; chaque séquence élémentaire est dupliquée de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une son de voix ; les phonèmes et/ou les autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 à savoir et notamment le caractère lent, rapide, saccadé, joyeux ou triste de l'avatar, à partir desquels est réalisée en tout ou partie l'animation dudit avatar ; les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, on calcule pour un état e la valeur de probabilité :In advantageous embodiments, one and / or other of the following provisions are also used: the avatar is chosen and / or configured through an on-line service on the Internet; the mobile device is a mobile phone; to animate the avatar, we exploit elementary sequences, consisting of images generated by a calculation of 3D rendering, or generated from drawings; elementary sequences are loaded into memory at the beginning of the animation and stored in said memory for the duration of the animation for several simultaneous and / or successive interlocutors; the elementary sequence to be played is selected in real time, according to previously calculated and / or determined parameters; the list of elementary sequences being common to all the avatars that can be used in the mobile device, an animation graph is defined in which each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the elementary sequences connected through the same state to be visually compatible with the transition from the end of one elementary sequence to the beginning of the other; each elementary sequence is duplicated so as to show a character who speaks or is silent according to the detection or not of a voice sound; the phonemes and / or the other level 1 parameters are used to calculate so-called level 2 parameters namely and especially the slow, fast, jerky, joyous or sad character of the avatar, from which is made in whole or in part the animation of said avatar; the level 2 parameters being considered as dimensions according to which one defines a series of coefficients with values which are fixed for each state of the graph of animation, one calculates for a state e the value of probability:
Pe = ∑ Pi x Ci avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, ce calcul étant effectué pour tous les états connectés à l'état vers lequel la séquence en cours aboutit dans le graphe ; lorsqu'une séquence élémentaire est en cours on laisse se dérouler la séquence élémentaire qui se tait jusqu'au bout ou on passe à la séquence dupliquée qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, on choisit le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à 1 ' état en cours .P e = Σ Pi x Ci with Pi value of the level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, this calculation being carried out for all states connected to the state to which the current sequence ends in the graph; when an elementary sequence is in progress, the elementary sequence is allowed to go on until the end or we go on to the duplicated sequence that speaks when the voice is detected and vice versa, then, when the sequence ends and When a new state is reached, the next target state is chosen according to a probability defined by the calculations of the probability value of the states connected to the current state.
L' invention propose également un système mettant en œuvre le procédé ci-dessus.The invention also proposes a system implementing the above method.
Elle propose également un système d'animation d'un avatar muni d'une bouche à partir d'un signal d'entrée sonore correspondant à la voix d'un interlocuteur de communication téléphonique, caractérisé en ce que il comporte un appareil mobile de télécommunication, pour réception du signal d'entrée sonore émis par une source téléphonique externe, un serveur propriétaire de réception du signal comprenant des moyens d'analyse dudit signal et de transformation en temps réel dύdit signal d'entrée sonore en un flux audio et vidéo, des moyens de calcul agencés d'une part pour synchroniser les mouvements de la bouche de l'avatar transmis dans, ledit flux avec les phonèmes détectés dans ledit signal d'entrée sonore et d'autre part pour animer au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements, en ce qu'il comporte des moyens d'analyse du signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres1 de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, et en ce qu' il comporte des moyens pour transmettre les images de l'avatar et le signal sonore correspondant, de sorte que l'avatar semble bouger et parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.It also proposes an animation system of an avatar equipped with a mouth from a sound input signal corresponding to the voice of a telephone communication interlocutor, characterized in that it comprises a mobile telecommunication device for receiving the sound input signal emitted by an external telephone source, a signal receiving proprietary server comprising means for analyzing said signal and transforming in real time said sound input signal into an audio and video stream, calculating means arranged on the one hand to synchronize the movements of the mouth of the avatar transmitted in said stream with the phonemes detected in said input sound signal and secondly to animate at least another portion of the avatar in a manner coherent with said signal by changes of attitudes and movements, in that it comprises means for analyzing the input sound signal to detect and use to animate one or more additional parameters said parameters level 1 1, namely silence periods, periods of speech and / or other elements contained in said sound signal taken from prosody, intonation, rhythm and / or tonic accent, and that it comprises means for transmitting the images of the avatar and the corresponding sound signal, so that the avatar seems to move and speak in real time or substantially in real time in place of the interlocutor.
Ces paramètres supplémentaires sont par exemple en nombre supérieur à deux, par exemple au moins trois et/ou supérieur à cinq.-These additional parameters are for example greater than two, for example at least three and / or more than five.
Avantageusement le système comporte des moyens de configuration de l'avatar à travers un service en ligne sur le réseau Internet.Advantageously, the system comprises means for configuring the avatar through an online service on the Internet network.
Dans un mode de réalisation avantageux il comporte des moyens de constitution et de stockage sur un serveur, de séquences animées élémentaires pour animer l'avatar, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.In an advantageous embodiment, it comprises means for constituting and storing on a server, elementary animated sequences for animating the avatar, consisting of images generated by a 3D rendering calculation, or generated from drawings.
Avantageusement il comporte des moyens de sélection en temps réel de la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.Advantageously, it comprises means for selecting in real time the elementary sequence to be played, according to parameters previously calculated and / or determined.
Egalement avantageusement la liste des séquences animées élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, "il comporte des moyens de calcul et de mise en œuvre d'un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une séquence élémentaire au début de l'autre.Also advantageously the list of elementary animated sequences being common to all avatars used in the mobile device, "it comprises means for calculating and implementing an animation graph, each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the sequences connected through the same state to be visually compatible with the transition from the end of an elementary sequence to the beginning of the other.
Dans un mode de réalisation avantageux il comporte des moyens pour dupliquer chaque séquence élémentaire de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une voix.In an advantageous embodiment, it comprises means for duplicating each elementary sequence so as to make it possible to show a character who speaks or is silent according to the detection or not of a voice.
Avantageusement les phonèmes et/ou les* autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 qui correspondent à des caractéristiques telles que le caractère lent, rapide, saccadé, joyeux, triste, ou d'autres caractères de type équivalent et on anime l'avatar au moins en partie à partir desdits paramètres de niveau 2.Advantageously phonemes and / or other level 1 * parameters are used to calculate the so-called level 2 parameters that correspond to features such as the character slow, fast, jerky, happy, sad, or other equivalent type of characters and animating the avatar at least in part from said level 2 parameters.
Par paramètre de type équivalent à un paramètre de niveau 2, on entend un paramètre plus complexe conçu à partir des paramètres de niveau 1, qui sont eux- mêmes plus simples .By parameter of type equivalent to a level 2 parameter, we mean a more complex parameter designed from the level 1 parameters, which are themselves simpler.
En d'autres termes les paramètres de niveau 2 correspondent à une analyse et/ou à un regroupement des paramètres de niveau 1, qui vont permettre d'affiner encore les états des personnages en les rendant plus adéquats à ce que l'on souhaite représenter.In other words, the level 2 parameters correspond to an analysis and / or a regrouping of the level 1 parameters, which will make it possible to further refine the states of the characters by making them more suitable for what we wish to represent. .
Les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, les moyens de calculs sont agencés pour calculer pour un état e la valeur de probabilité :Level 2 parameters are considered as dimensions according to which a series of coefficients are defined with values which are fixed for each state of the animation graph. computing means are arranged to calculate for a state e the probability value:
Pe = ∑ Pi x Ci avec Pi valeur diα paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, ce calcul étant effectué pour tous les états connectés à l'état vers lequel la séquence en cours aboutit dans le graphe. Lorsqu'une séquence élémentaire est en cours laisser se dérouler la séquence élémentaire qui se tait jusqu'au bout ou passer à la séquence dupliquée qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, choisir le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à l'état courant.P e = Σ Pi x Ci with Pi value diα level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, this computation being carried out for all the states connected to the state to which the current sequence ends in the graph. When an elementary sequence is in progress let the elementary sequence which is silent to the end or pass to the duplicate sequence which speaks in case of detection of the voice and vice versa, then, when the sequence ends and that we arrive at a new state, choose the next target state according to a probability defined by the calculations of the probability value of the states connected to the current state.
L'invention sera mieux comprise à la lecture qui suit de modes de réalisation particuliers donnés ci- après à titre d'exemples non limitatifs.The invention will be better understood on reading the following particular embodiments given below by way of non-limiting examples.
La description se réfère aux dessins qui l'accompagnent dans lesquels :The description refers to the accompanying drawings in which:
La figure 1 est un schéma de principe montrant un système d'animation pour avatar selon l'invention,FIG. 1 is a block diagram showing an animation system for an avatar according to the invention,
La figure 2 donne un graphe d'état tel que mis en œuvre selon le mode de réalisation de l'invention plus particulièrement décrit ici.FIG. 2 gives a state graph as implemented according to the embodiment of the invention more particularly described here.
La figure 3 montre trois types de séquences d'images, dont celle obtenue avec l'invention en relation avec un signal d'entrée sonore.Figure 3 shows three types of image sequences, including that obtained with the invention in connection with a sound input signal.
La figure 4 illustre schématiquement un autre mode d' implémentation du graphe d'état mis en œuvre selon l' invention. La figure 5 montre schématiquement la méthode de sélection d'un état à partir des probabilités relatives, selon un mode de réalisation de 1' invention.FIG. 4 schematically illustrates another mode of implementation of the state graph implemented according to the invention. Figure 5 shows schematically the method of selecting a state from the relative probabilities, according to an embodiment of the invention.
La figure 6 montre un exemple de signal d'entrée sonore permettant la construction d'une suite d'états, pour être utilisés pour construire le comportement de l'avatar selon l'invention.FIG. 6 shows an example of a sound input signal allowing the construction of a series of states, to be used for constructing the behavior of the avatar according to the invention.
La figure 7 montre un exemple de paramétrage initial effectué à partir du téléphone portable de 1 ' interlocuteur appelant .Figure 7 shows an example of initial setting made from the mobile phone of the calling party.
La figure 1 montre schématiquement le principe d'un système 1 d'animation pour avatar 2, 2' sur un écran 3, 3', .3'' d'appareil mobile 4, 4', 4''.FIG. 1 schematically shows the principle of an animation system 1 for avatar 2, 2 'on a screen 3, 3', 3 '' of mobile apparatus 4, 4 ', 4' '.
L'avatar 2 est muni d'une bouche 5, 5' et est animé à partir d'un signal d'entrée sonore 6 correspondant à la voix 7 d'un interlocuteur 8 de communication par le biais d'un téléphone mobile 9, ou tout autre moyen de communication du son (téléphone fixe, ordinateur, ...) .The avatar 2 is provided with a mouth 5, 5 'and is animated from a sound input signal 6 corresponding to the voice 7 of a communication interlocutor 8 by means of a mobile phone 9, or any other means of communication of the sound (fixed telephone, computer, ...).
Le système 1 comprend, à partir d'un serveur 10 appartenant à un réseau (téléphonique, Internet ...) , un serveur propriétaire 11 de réception de signaux 6.The system 1 comprises, from a server 10 belonging to a network (telephone, Internet ...), a proprietary server 11 for receiving signals 6.
Ce serveur comprend des moyens 12 d'analyse du signal et des transformations en temps réel dudit signal en flux audio et vidéomultiplexé 13 en deux voix 14, 15 ; 14', 15' dans le cas d'une réception par mobiles 3D ou 2D, ou en une seule voix IG en cas de mobile dit vidéo.This server comprises means 12 for analyzing the signal and real-time transformations of said audio and videomultiplexed stream signal 13 in two voices 14, 15; 14 ', 15' in the case of mobile reception 3D or 2D, or in one voice IG in case of said mobile video.
Il comprend de plus des moyens de calculs agencés pou synchroniser les mouvements de la bouche 5 de l'avatar avec les phénomènes détectés dans le signal d'entrée sonore et pour retransmettre (en cas de mobile 2D et 3D) d'une part les données texte scénarisé en- 17 ; 17', transmises alors en 18, 18' sous forme de script au téléphone mobile 4 ; 4', et d'autre part pour télécharger l'avatar 2D ou 3D, en 19, 19' audit téléphone mobile.It further comprises calculation means arranged to synchronize the movements of the mouth 5 of the avatar with the phenomena detected in the sound input signal and to retransmit (in case of mobile 2D and 3D) on the one hand the scripted text data 17; 17 ', then transmitted in 18, 18' in script form to the mobile phone 4; 4 ', and secondly to download the 2D or 3D avatar, in 19, 19' to said mobile phone.
Dans le cas d'utilisation d'un mobile dit de vidéo téléphonie, le texte est scénarisé en 20 pour être transmis sous forme de fichiers d'images de sons 21, avant compression en 22 et envoi au mobile 4'', sous la forme du flux vidéo 23.In the case of using a mobile said video telephony, the text is scripted in 20 to be transmitted as sound image files 21, before compression in 22 and sent to the mobile 4 '', in the form video stream 23.
Le résultat obtenu est que l'avatar 2, et notamment sa bouche 5, semble parler en temps réel à la place de l'interlocuteur 8 et que le comportement de l'avatar (attitude, gestes) est cohérent avec la voix.The result obtained is that the avatar 2, and in particular its mouth 5, seems to speak in real time in the place of the interlocutor 8 and that the behavior of the avatar (attitude, gestures) is coherent with the voice.
On va maintenant décrire plus avant l'invention en référence aux figures 2 à 7, le procédé plus particulièrement décrit permettant de réaliser les fonctions suivantes : exploiter des séquences animées élémentaires, constituées d'images générées par un calcul de rendu 3D ou bien directement produites à partir de dessins ; choisir et configurer son personnage à travers un service en ligne qui produira de nouvelles séquences élémentaires : rendu 3D sur le serveur ou sélection de catégories de séquences ; charger toutes les séquences élémentaires en mémoire, au lancement de l'application et les conserver en mémoire pendant toute la durée du service pour plusieurs utilisateurs simultanés et successifs ; analyser la voix contenue dans le signal d'entrée afin de détecter les périodes de silence, les périodes de parole et éventuellement d'autres éléments contenus dans le signal sonore, comme les phonèmes, la prosodie (intonation de la voix, rythme de la parole, accents toniques) ; sélectionner en temps réel la séquence élémentaire à jouer, en fonction des paramètres précédemment calculés.The invention will now be described in more detail with reference to FIGS. 2 to 7, the method more particularly described making it possible to perform the following functions: to exploit elementary animated sequences, consisting of images generated by a 3D rendering calculation or directly produced from drawings; choose and configure your character through an online service that will produce new basic sequences: 3D rendering on the server or selection of categories of sequences; load all the elementary sequences into memory, when the application is launched and keep them in memory for the duration of the service for several simultaneous and successive users; analyze the voice contained in the input signal in order to detect the periods of silence, the speech periods and possibly other elements contained in the sound signal, such as phonemes, prosody (intonation of the voice, rhythm of the speech , tonic accents); select in real time the elementary sequence to play, according to the parameters previously calculated.
L'analyse du signal sonore s'effectue a partir d'un buffer correspondant à un petit intervalle de temps (environ 10 millisecondes) . Le choix des séquences élémentaires (par ce qu'on appelle le séquenceur) est expliqué plus loin.The sound signal is analyzed from a buffer corresponding to a small time interval (approximately 10 milliseconds). The choice of the elementary sequences (by what is called the sequencer) is explained later.
Plus précisément et pour obtenir les résultats recherchés par l'invention, on commence par créer une liste de séquences élémentaires d'animation pour un ensemble de personnages.More precisely, and to obtain the results sought by the invention, we begin by creating a list of elementary animation sequences for a set of characters.
Chaque séquence est constituée d'une série d'images produites par un logiciel d'animation 3D ou 2D connus en eux-mêmes, comme par exemple les logiciels 3dsMax et Maya de la société américaine Autodesk et XSI de la société française Softimage, ou bien par des outils classiques de rendu 3D propriétaires, ou bien encore constituées de dessins numérisés. Ces séquences sont générées au préalable et placées sur le serveur propriétaire qui diffuse le flux vidéo d'avatar, ou bien générées par le service en ligne de configuration d'avatars et placées sur ce même serveur.Each sequence consists of a series of images produced by a 3D or 2D animation software known in themselves, such as for example the software 3dsMax and Maya of the American company Autodesk and XSI of the French company Softimage, or classic proprietary 3D rendering tools, or even digitized drawings. These sequences are generated in advance and placed on the proprietary server that broadcasts the avatar video stream, or generated by the online avatars configuration service and placed on the same server.
Dans le mode de réalisation plus particulièrement décrit ici la liste des noms des séquences élémentaires disponibles est commune à tous les personnages, mais les images qui les composent peuvent représenter des animations très différentes.In the embodiment more particularly described here the list of sequence names Elemental available is common to all characters, but the images that compose them can represent very different animations.
Cela permet de définir un graphe d'état commun à plusieurs avatars mais cette disposition n'est pas obligatoire .This makes it possible to define a state graph common to several avatars but this provision is not mandatory.
On définit ensuite (cf. figure 2) un graphe 24 d'états dont chaque nœud (ou état) 26, 27, 28, 29, 30 est défini comme un point de transition entre des séquences élémentaires.A graph 24 of states is then defined (see FIG. 2) in which each node (or state) 26, 27, 28, 29, 30 is defined as a point of transition between elementary sequences.
La connexion entre deux états est unidirectionnelle, dans un sens ou dans l'autre (flèches 25) .The connection between two states is unidirectional, in one direction or the other (arrows 25).
Plus précisément, dans l'exemple de la figure 2, on a défini cinq états, à savoir les états de début de séquence 26, neutre 27, excité 28, au repos 29 et de fin de séquence 30.More precisely, in the example of FIG. 2, five states have been defined, namely the start states of sequence 26, neutral 27, excited 28, at rest 29 and end of sequence 30.
Toutes les séquences connectées à travers un même état du graphe, doivent être visuellement compatibles avec le passage de la fin d'une animation au début de 1 ' autre . Le respect de cette contrainte est géré lors de la création des animations correspondant aux séquences élémentaires .All sequences connected through the same state of the graph, must be visually compatible with the passage of the end of one animation at the beginning of the other. The respect of this constraint is managed during the creation of the animations corresponding to the elementary sequences.
Chaque séquence élémentaire est dupliquée pour permettre de montrer un personnage qui parle ou bien un personnage qui se tait, suivant qu'on a ou non détecté des paroles dans la voix.Each elementary sequence is duplicated to show a character who speaks or a character who is silent, depending on whether or not detected words in the voice.
Cela permet de passer d'une version à l'autre de la séquence élémentaire qui se déroule, pour synchroniser l'animation de la bouche du personnage avec les périodes de parole.This makes it possible to switch from one version to the other of the elementary sequence that takes place, to synchronize the animation of the character's mouth with the speaking periods.
On a représenté sur la figure 3 une séquence d'images telle qu'obtenue avec parole 32, la même séquence sans parole 33, et en fonction de l'entrée sonore (courbe 34) émise par l'interlocuteur, la séquence résultante 35.FIG. 3 shows a sequence of images as obtained with speech 32, the same sequence without speech 33, and depending on the sound input (curve 34) transmitted by the interlocutor, the resulting sequence 35.
Il est maintenant décrit ci-après le principe de sélection des séquences d'animation.It is now described below the principle of selection of animation sequences.
L'analyse de la voix produit un certain nombre de paramètres dits de niveau 1, dont la valeur varie au cours du temps et dont on calcule la moyenne sur un certain intervalle, par exemple de 100 millisecondes. Ces paramètres sont, par exemple : l'activité de parole (silence ou signaux de paroles) le rythme de parole le ton (aigu ou grave) s'il s'agit d'un langage non tonal la longueur des voyelles la présence plus au moins importante d'accent tonique .The analysis of the voice produces a certain number of so-called level 1 parameters whose value varies over time and whose average is calculated over a certain interval, for example 100 milliseconds. These parameters are, for example: the activity of speech (silence or speech signals) the rhythm of speech the tone (acute or severe) if it is a non-tonal language the length of the vowels the presence more less important tonal accent.
Le paramètre d'activité de la parole peut-être calculé en première approximation, à partir de la puissance du signal sonore (intégrale du signal au carré) en considérant qu'il y a parole au dessus d'un certain seuil. Le seuil est calculable dynamiquement en fonction du rapport signal / bruit. Un filtrage en fréquence est aussi envisageable pour éviter de considérer par exemple le passage d'un camion comme de la voix. Le rythme de la parole est calculé à partir de la fréquence moyenne des périodes de silence et de parole. D'autres paramètres sont également calculables à partir d'une analyse fréquentielle du signal. Selon le mode de l'invention plus particulièrement décrit ici, des formules mathématiques simples (combinaisons linéaires, fonctions seuil, fonctions booléennes) permettent de passer de ces paramètres de niveau 1 à des paramètres dits de niveau 2 qui correspondent à des caractéristiques telles que par exemple le caractère lent, rapide, saccadé, joyeux, triste, etc.The speech activity parameter can be calculated as a first approximation, from the power of the sound signal (integral of the signal squared) by considering that there is speech above a certain threshold. The threshold is dynamically calculable according to the signal-to-noise ratio. Frequency filtering is also possible to avoid considering for example the passage of a truck as the voice. The rhythm of the speech is calculated from the average frequency of the periods of silence and speech. Other parameters are also calculable from a frequency analysis of the signal. According to the mode of the invention more particularly described here, simple mathematical formulas (linear combinations, threshold functions, Boolean functions) make it possible to pass from these level 1 parameters to so-called level 2 parameters which correspond to characteristics such as by example the slow, fast, jerky, happy, sad character, etc.
Les paramètres de niveau 2 sont considérés comme des dimensions suivant lesquelles on définit une série de coefficients Ci avec des valeurs fixées pour chaque état e du graphe d'animation. Des exemples d'un tel paramétrage sont donnés ci-après.The level 2 parameters are considered as dimensions according to which one defines a series of coefficients Ci with fixed values for each state e of the graph of animation. Examples of such a parameterization are given below.
A tout instant c'est à dire par exemple avec une périodicité de 10 millisecondes, on calcule les paramètres de niveau 1. Lorsqu'un nouvel état doit être choisi, c'est-à-dire à la fin du déroulement d'une séquence, on peut donc calculer les paramètres de niveau 2 qui s ' en déduisent et calculer pour un état e la valeur suivante : Pe = ∑ Pi x Ci où les valeurs Pi sont celles des paramètres de niveau 2 et Ci les coefficients de l'état e suivant ladite dimension i.At any time, that is to say for example with a periodicity of 10 milliseconds, the level 1 parameters are calculated. When a new state must be chosen, that is to say at the end of the course of a sequence we can therefore compute the level 2 parameters that are deduced and calculate for a state e the following value: P e = Σ Pi x Ci where the values Pi are those of the level 2 parameters and Ci the coefficients of the state e along said dimension i.
Cette somme constitue une probabilité relative de l'état e (par rapport aux autres états) d'être sélectionné .This sum is a relative probability of the state e (relative to the other states) of being selected.
Lorsqu'une séquence élémentaire est en cours, on la laisse alors se dérouler jusqu'au bout c'est-à- dire jusqu'à l'état du graphe auquel elle aboutit mais on passe d'une version à l'autre de la séquence (version avec ou sans parole) à tout instant en fonction du signal de parole détecté. Lorsque la séquence se termine et qu'on arrive à un nouvel état, on choisit le prochain état cible suivant une probabilité définie par les calculs précédents. Si l'état cible est le même que l'état actuel, on s'y maintient en jouant une animation en boucle un certain nombre de fois et on se ramène ainsi au cas précédent.When an elementary sequence is in progress, it is then allowed to proceed to the end, that is to say until the state of the graph at which it ends, but we go from one version to another of the sequence (version with or without speech) at any time depending on the detected speech signal. When the sequence ends and we arrive at a new state, we choose the next target state following a probability defined by the previous calculations. If the target state is the same as the current state, it is maintained by playing a loop animation a certain number of times and thus we come back to the previous case.
Certaines séquences sont des boucles qui partent d'un état et y retournent (flèche 31) , elles sont utilisées lorsque le séquenceur décide de maintenir l'avatar dans son état courant, c'est-à-dire, choisit comme état cible suivant l'état courant lui-même.Some sequences are loops that start from a state and return to it (arrow 31), they are used when the sequencer decides to keep the avatar in its current state, that is to say, chooses as target state following the current state itself.
On a donné ci-après la description en pseudo-code d'un exemple de génération d'animation et la description d'un exemple de déroulement de séquences: Exemple de génération d'animation initialiser état courant à un état de départ prédéfini initialiser état cible à nul initialiser séquence d'animation courante à séquence nulle tant qu'on reçoit un flux audio entrant : o décoder le flux audio entrant o calculer les paramètres de niveau 1 o si séquence d'animation courante terminée :The description in pseudo-code of an example of animation generation is given below and the description of an example of sequence flow: Example of generation of animation initialize current state to a predefined starting state initialize state target to null initialize current sequence with zero sequence as long as an incoming audio stream is received: o decode incoming audio stream o calculate level 1 parameters o if current animation sequence is complete:
" séquence d'animation courante = séquence nulle"current animation sequence = null sequence
" état cible = état nul o si état cible nul:"target state = zero state o if target state zero:
" calculer paramètres de niveau 2 en fonction des paramètres de niveau 1 (et éventuellement de leur historique) " sélectionner les états connectés à l ' état courant"calculate level 2 parameters according to level 1 parameters (and possibly their history)" select the states connected to the current state
* calcul des probabilités de ces états connectés en fonction de leurs coefficients et des paramètres de niveau 2 précédemment calculés* calculation of the probabilities of these connected states according to their coefficients and previously calculated level 2 parameters
" tirage parmi ces états connectés de l'état cible en fonction des probabilités précédemment calculées => un nouvel état cible est ainsi défini o si séquence d'animation courante nulle :"draw among these connected states of the target state based on previously calculated probabilities => a new target state is thus defined o if zero current animation sequence:
" sélectionner dans le graphe la séquence d'animation de l'état courant vers l'état cible => définit la séquence d'animation courante o dérouler la séquence d'animation courante => sélection d'images précalculées correspondantes o mettre en correspondance portion de flux audio entrant et les images sélectionnées à partir de l ' analyse de ces portions de flux audio o générer un flux audio et vidéo compressé à partir des images sélectionnées et du flux audio entrant"select in the graph the animation sequence from the current state to the target state => defines the current animation sequence o unfold the current animation sequence => selection of corresponding pre-calculated images o match the portion incoming audio streams and images selected from the analysis of these portions of audio streams o generate a compressed audio and video stream from the selected images and the incoming audio stream
Exemple de déroulement des séquences : l'interlocuteur dit : "Bonjour, comment ça va ?" :Example of sequence flow: the interlocutor says: "Hello, how are you?" :
1. les paramètres de niveau 1 indiquent la présence de paroles1. level 1 parameters indicate the presence of lyrics
2. les paramètres de niveau 2 indiquent -. voix enjouée (correspondant à "Bonjour")2. level 2 parameters indicate -. cheerful voice (corresponding to "Hello")
3. le tirage probabiliste sélectionne l'état cible joyeux.3. the probabilistic draw selects the merry target state.
4. on déroule la séquence d'animation de l'état de départ vers l'état joyeux (dans sa version avec paroles)4. we run the animation sequence from the initial state to the joyous state (in its version with lyrics)
5. on arrive dans la période de silence, reconnue à travers les paramètres de niveau 15. we arrive in the period of silence, recognized through the level 1 parameters
6. la séquence d'animation est toujours en cours, on ne l'interrompt pas mais on sélectionne sa version sans parole6. the animation sequence is still running, we do not interrupt it but we select its version without speech
7. l'état cible joyeux est atteint7. the happy target state is reached
8. le silence conduit à sélectionner l'état cible neutre (a travers le calcul des paramètres de niveau 1 et 2 et le tirage probabiliste)8. Silence leads to selecting the neutral target state (through the calculation of level 1 and 2 parameters and the probabilistic draw)
S. on déroule la séquence d'animation de l'état joyeux vers l'état neutre (dans sa version sans paroles) 10. l'état cible neutre est atteint 11.1e silence conduit à nouveau à sélectionner l'état cible neutre 12. on déroule la séquence d'animation neutre => neutreS. the animation sequence of the joyous state is unrolled to the neutral state (in its version without words) 10. the neutral target state is reached 11.1th silence leads again to select the neutral target state 12. the neutral animation sequence => neutral
(boucle) dans sa version sans paroles 13. les paramètres de niveau 1 indiquent la présence de paroles (correspondant à "Comment ça va ?")(loop) in its version without lyrics 13. level 1 parameters indicate the presence of lyrics (corresponding to "How are you?")
14. les paramètres de niveau 2 indiquent une voix ' interrogative14. Level 2 parameters indicate an interrogative voice
15.1 ' état cible neutre est à nouveau atteint15.1 'neutral target state is reached again
16. on sélectionne l'état cible interrogatif (à travers le calcul des paramètres de niveau 1 et 2 et le tirage probabiliste) 17. etc.16. select the interrogative target state (through the calculation of the level 1 and 2 parameters and the probabilistic draw).
La méthode de sélection d'un état à partir des probabilités relatives est maintenant décrite en référence à la figure 5 qui donne un graphe de probabilité des états 40 à 44.The method of selecting a state from relative probabilities is now described with reference to FIG. 5 which gives a probability graph of states 40 to 44.
La probabilité relative de l'état 40 est déterminée par rapport à la valeur calculée ci -avant. Si la valeur (flèche 45) est à un niveau déterminé l'état correspondant est sélectionné (sur la figure l'état 42) .The relative probability of the state 40 is determined with respect to the value calculated above. If the value (arrow 45) is at a certain level, the corresponding state is selected (in the figure, state 42).
En référence à la figure 4, on donne un autre exemple de graphe d'états selon l'invention. Ici on a défini les états suivants état neutre (Neutral) : 46 état approprié à une première période de parole (speak 1) : 47 autre état approprié à une seconde période de parole (speak 2) : 48 état approprié à une première période de silence (Idlel) : 49 autre état approprié à une seconde période de silence (IdIe 2) : 50 état approprié à un discours d ' introductionWith reference to FIG. 4, another example of a state graph according to the invention is given. Here the following states have been defined neutral state: 46 state suitable for a first speech period (speak 1): 47 other state suitable for a second speech period (speak 2): 48 state suitable for a first period of time silence (Idlel): 49 other state suitable for a second period of silence (IdIe 2): 50 state appropriate to an introductory speech
(greeting) : 51(greeting): 51
Le graphe d'états relie quant à lui de façon unidirectionnelle (dans les deux sens) tous ces états sous forme d'étoile (lien 52) .The state graph connects unidirectionally (in both directions) all these states as a star (link 52).
En d'autres termes, dans l'exemple plus particulièrement décrit en référence à la figure 4, on définit ainsi les dimensions, pour le calcul des probabilités relatives (dimensions des paramètres et des coefficients) :In other words, in the example more particularly described with reference to FIG. 4, the dimensions are thus defined, for the calculation of the relative probabilities (dimensions of the parameters and the coefficients):
IDLE : valeurs indiquant une période de silence SPEAK : valeurs indiquant une période de parole NEUTRAL : valeurs indiquant une période de neutralité GREETING : valeurs indiquant une phase d'accueil ou de présentationIDLE: values indicating a silence period SPEAK: values indicating a speech period NEUTRAL: values indicating a neutrality period GREETING: values indicating a reception or presentation phase
On introduit ensuite des paramètres de premier niveau, détectés dans le signal d'entrée et utilisés comme valeurs intermédiaires pour le calcul des paramètres précédents, à savoir :First level parameters, detected in the input signal and used as intermediate values for the calculation of the preceding parameters, are then introduced, namely:
Speak : valeur binaire qui indique si on est en train de parlerSpeak: binary value that indicates if we are talking
SpeakTime : durée écoulée depuis le début de la période de paroleSpeakTime: time elapsed since the beginning of the speaking period
MuteTime : durée écoulée depuis le début de la période de silenceMuteTime: time elapsed since the beginning of the silence period
Speaklndex : numéro de la période de parole depuis un instant déterminéSpeaklndex: number of the speaking period since a specific moment
On définit également les formules permettant de passer des paramètres de premier niveau à ceux de second niveau :Formulas for passing from first level to second level parameters are also defined:
- IDLE : NOT (Speak) x MuteTime- IDLE: NOT (Speak) x MuteTime
- SPEAK : Speak - NEUTRAL : NOT (Speak)- SPEAK: Speak - NEUTRAL: NOT (Speak)
- GREETING : Speak & (Speaklndex =1) Les coefficients associés aux états sont par exemple donnés par le Tableau I ci-après :- GREETING: Speak & (Speaklndex = 1) The coefficients associated with the states are for example given by Table I below:
TABLEAU ITABLE I
Un tel paramétrage, en référence à la figure 6, et pour quatre instants Tl, T2 , T3 , T4, donne l'état courant et les valeurs des paramètres de niveau 1 et 2 dans le Tableau II ci-après.Such a parameterization, with reference to FIG. 6, and for four instants T1, T2, T3, T4, gives the current state and the values of the level 1 and 2 parameters in Table II below.
TABLEAU IITABLE II
Tl : Etat courant = NeutralTl: Current state = Neutral
U Speak = 1 " IDLE = 0 a SpeakTime = 0.01 sec " SPEAK = 1 a MuteTime = 0 sec - NEUTRAL = 0 a Speaklndex = 1 " GREETING = 1U Speak = 1 "IDLE = 0 to SpeakTime = 0.01 sec" SPEAK = 1 to MuteTime = 0 sec - NEUTRAL = 0 to Speaklndex = 1 "GREETING = 1
T2 : Etat courant = Greeting m - IDLE = 0.01T2: Current state = Greeting m - IDLE = 0.01
B Speak = 0 - SPEAK = 0 a SpeakTime = 0 sec » NEUTRAL = 1B Speak = 0 - SPEAK = 0 to SpeakTime = 0 sec » NEUTRAL = 1
B MuteTime = 0 .01 sec " GREETING = 0 m Speaklndex = ]_B MuteTime = 0 .01 sec "GREETING = 0 m Speaklndex = ] _
T3 : Etat courant = Neutràl m Speak = 0 - IDLE = 0.5 m SpeakTime = 0 sec - SPEAK = 0 a MuteTime = 1 .5 sec - NEUTRAL = 1 a Speaklndex = i • GREETING = 0T3: Current state = Neutral m Speak = 0 - IDLE = 0.5 m SpeakTime = 0 sec - SPEAK = 0 a MuteTime = 1 .5 sec - NEUTRAL = 1 a Speaklndex = i • GREETING = 0
T4 : Etat courant = Neutral a Speak = 1 " IDLE = 0 SpeakTime = 0.01 sec SPEAK = 1 MuteTime ≈ 0 sec NEUTRAL = 0 Speaklndex = 2 GREETING = 0T4: Current state = Neutral a Speak = 1 "IDLE = 0 SpeakTime = 0.01 sec SPEAK = 1 MuteTime ≈ 0 sec NEUTRAL = 0 Speaklndex = 2 GREETING = 0
La probabilité relative des états suivants est alors donnée dans le Tableau III ci-après.The relative probability of the following states is then given in Table III below.
TABLEAU IIITABLE III
Tl T2Tl T2
• Neutral = 0 Neutral = 1• Neutral = 0 Neutral = 1
» Speaki = = 1 Speaki = 0 "Speaki = = 1 = 0 Speaki
" Speak2 = = 1 .2 Speak2 = 0"Speak2 = = 1 .2 Speak2 = 0
• Greeting — 2.5 Greeting = 0• Greeting - 2.5 Greeting = 0
- IdIeI = 0 IdIeI = 0.02- IdIeI = 0 IdIeI = 0.02
- Idle2 = 0 Idle2 = 0.01- Idle2 = 0 Idle2 = 0.01
T3 T4T3 T4
" Neutral = 1 • Neutral = 0"Neutral = 1 • Neutral = 0
• Speaki = = 0 • Speaki = = 1• Speaki = = 0 • Speaki = = 1
- Speak2 = = 0 • Speak2 = = 1 .2- Speak2 = = 0 • Speak2 = = 1 .2
* Greeting = 0 • Greeting = 0* Greeting = 0 • Greeting = 0
- IdIeI = 1 - IdIeI ≈ 0- IdIeI = 1 - IdIeI ≈ 0
- Idle2 = 0 5 - Idle2 = 0- Idle2 = 0 5 - Idle2 = 0
Ce qui donne dans l'exemple choisi le tirage des probabilités correspondant au Tableau IV suivant : TABLEAU IVWhich gives in the example chosen the drawing of the probabilities corresponding to the following Table IV: TABLE IV
Tl : Etat Courant =Neutral T2 : Etat Courant = GreetingTl: Current State = Neutral T2: Current State = Greeting
Speakl Neutral tirageSpeakl Neutral draw
Speak2Speak2
Greeting tirageGreeting draw
Etat suivant = Greetiαε Etat suivant = NeutralNext state = Greetiαε Next state = Neutral
T3 : Etat Courant = Neutral T4 : Etat Courant = NeutralT3: Current State = Neutral T4: Current State = Neutral
Neutral Speakl tirageNeutral Speakl draw
Miel Speak2 tirageHoney Speak2 draw
Idle2IDLE2
Etat suivant = Neutral Etat Suivant = Speak2 Enfin, en référence aux figures 7 et 1 on a représenté l'écran schématisé 52 d'un mobile permettant d'obtenir le paramétrage de l'avatar en temps réel .Next State = Neutral Next State = Speak2 Finally, with reference to FIGS. 7 and 1, there is shown the schematic screen 52 of a mobile device for obtaining the configuration of the avatar in real time.
A l'étape 1, l'utilisateur 8 configure les paramètres de la séquence vidéo qu'il souhaite personnaliser .In step 1 8 user configures the settings of the movie he wants to customize.
Par exemple :For example :
• Personnage 53• Character 53
• Expression du personnage (heureux, triste ...) 54• Expression of the character (happy, sad ...) 54
• Réplique du personnage 55• Replica of the character 55
• Fond sonore' 56• Background music '56
• Numéro de téléphone du destinataire 57.• Recipient's phone number 57.
A l'étape 2, les paramètres sont transmis sous forme de requêtes à l'application serveur (serveur 11) qui les interprète, crée la vidéo, et l'envoie (liaison 13) à l'application d'encodage.In step 2, the parameters are transmitted in the form of requests to the server application (server 11) which interprets them, creates the video, and sends it (link 13) to the encoding application.
A l'étape 3, les séquences vidéo sont compressées au «.bon » format c'est à dire lisibles par les terminaux mobiles avant l'étape 4 où les séquences vidéo compressées sont transmises (liaisons 18, 19, 18', 19' ; 23) au destinataire par exemple par MMS.In step 3, the video sequences are compressed to the "good" format, that is to say readable by the mobile terminals before step 4 where the compressed video sequences are transmitted (links 18, 19, 18 ', 19' 23) to the recipient for example by MMS.
Comme il va de soi, et comme il résulte de ce qui précède, l'invention ne se limite pas au mode de réalisation plus particulièrement décrit mais en embrasse au contraire toutes les variantes et notamment celles où la' diffusion se fait en différé et non en temps réel ou quasi réel . As it is obvious, and as it follows from the foregoing, the invention is not limited to the embodiment more particularly described but encompasses all the variants and in particular those where the ' diffusion is done offline and not in real time or near real time.

Claims

REVENDICATIONS
1. Procédé d'animation sur un écran (3, 3', 3'') d'appareil mobile (4, 4', 4'') d'un avatar (2, 2', 2'') muni d'une bouche (5, 5') à partir d'un signal d'entrée sonore (6) correspondant à la voix (7) d'un interlocuteur (8) de communication téléphonique, caractérisé en ce que on transforme en temps réel le signal d'entrée sonore en un flux audio et vidéo dans lequel d'une part on synchronise les mouvements de la bouche de l'avatar avec les phonèmes détectés dans ledit signal d' entrée sonore, et d'autre part on anime au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements par analyse dudit signal, et en ce que en plus des phonèmes, on analyse le signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires dits paramètres de niveau 1, à savoir les périodes de silence, les périodes de parole et/ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'ensemble de l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l'interlocuteur.1. A method of animation on a screen (3, 3 ', 3' ') of a mobile device (4, 4', 4 '') of an avatar (2, 2 ', 2' ') provided with a mouth (5, 5 ') from a sound input signal (6) corresponding to the voice (7) of a telephone communication interlocutor (8), characterized in that the signal is transformed in real time sound input into an audio and video stream in which on the one hand we synchronize the movements of the mouth of the avatar with the phonemes detected in said sound input signal, and on the other hand we animate at least one other part of the avatar in a manner coherent with said signal by changes of attitudes and movements by analysis of said signal, and that in addition to the phonemes, the sound input signal is analyzed in order to detect and use for the animation one or more additional parameters called level 1 parameters, namely the periods of silence, the periods of speech and / or other elements contained in said signa l sound taken from prosody, intonation, rhythm and / or tonic accent, so that the whole avatar moves and seems to speak in real time or substantially in real time in the place of the interlocutor .
2. Procédé selon la revendication 1, caractérisé en ce que on choisit et/ou on configure l'avatar à travers un service en ligne sur le réseau Internet . 2. Method according to claim 1, characterized in that one chooses and / or configures the avatar through an online service on the Internet.
3. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'appareil mobile est un téléphone mobile.3. Method according to any one of the preceding claims, characterized in that the mobile device is a mobile phone.
4. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que, pour animer l'avatar, on exploite des séquences élémentaires, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.4. Method according to any one of the preceding claims, characterized in that, to animate the avatar, it exploits elementary sequences, consisting of images generated by a calculation of 3D rendering, or generated from drawings.
5. Procédé selon la revendication 4, caractérisé en ce que on charge des séquences élémentaires en mémoire en début d'animation et on les conserve dans ladite mémoire pendant toute la durée de l'animation pour plusieurs interlocuteurs simultanés et/ou successifs.5. The method as claimed in claim 4, wherein elementary sequences are loaded into memory at the beginning of the animation and stored in said memory for the duration of the animation for several simultaneous and / or successive interlocutors.
6. ' Procédé selon l'une quelconque des revendications 4 et 5, caractérisé en ce que on sélectionne en temps réel la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.6. ' Process according to any one of claims 4 and 5, characterized in that one selects in real time the elementary sequence to play, according to previously calculated and / or determined parameters.
7. Procédé selon l'une quelconque des revendication 4 à 6, caractérisé en ce que les séquences élémentaires étant communes à tous les avatars utilisables dans l'appareil mobile, on définit un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences élémentaires connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une animation au début de l ' autre .7. Method according to any one of claims 4 to 6, characterized in that the elementary sequences being common to all avatars used in the mobile device, defining an animation graph where each node represents a point or state of transition between two elementary sequences, each connection between two transition states being unidirectional and all the elementary sequences connected through the same state to be visually compatible with the transition from the end of one animation to the beginning of the other.
8. Procédé selon la revendication 7, caractérisé en ce que chaque séquence élémentaire est dupliquée de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'une son de voix.8. Process according to claim 7, characterized in that each elementary sequence is duplicated so as to allow to show a character who speaks or who is silent according to the detection or not of a sound of voice.
*9. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que les phonèmes et/ou les autres paramètres de niveau 1 sont utilisés pour calculer des paramètres dits de niveau 2 à savoir le caractère lent, rapide, saccadé, joyeux ou triste de l'avatar, a partir desquels est réalisé en tout ou partie l'animation dudit avatar.* 9. Method according to any of the preceding claims, characterized in that the phonemes and / or the other level 1 parameters are used to calculate so-called level 2 parameters, namely the slow, fast, jerky, joyful or sad character of the avatar, from which is made in whole or part the animation of said avatar.
10. Procédé selon la revendication 9, caractérisé en ce que les paramètres de niveau 2 étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, on calcule pour un état e la valeur de probabilité :10. Method according to claim 9, characterized in that the level 2 parameters being considered as dimensions according to which a series of coefficients are defined with values which are fixed for each state of the animation graph, one calculates for a state e the probability value:
Pe = ∑ P1 x C1 avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, puis lorsqu'une séquence élémentaire est en cours . on laisse se dérouler la séquence élémentaire qui se tait jusqu'au bout ou on passe à l'autre séquence qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état ,' P e = Σ P 1 x C 1 with Pi value of the level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, then when an elementary sequence is in Classes . the elementary sequence is allowed to go to the end or we go to the other sequence that speaks in case of detection of the voice and vice versa, then, when the sequence ends and we arrive at a new state, '
. .on choisit le prochain état cible suivant une probabilité définie par les calculs des valeurs de probabilité des états connectés à l'état courant.. the next target state is chosen according to a probability defined by the calculation of the probability values of the states connected to the current state.
11. Système (1) d' animation. d'un avatar (2, 2') muni d'une bouche (5, 5') à partir d'un signal d'entrée sonore (6) correspondant à la voix (7) d'un interlocuteur (8) de communication téléphonique, caractérisé en ce que il comporte un appareil mobile (9) de télécommunication, pour réception du signal d'entrée sonore émis par une source teléphonique externe, un serveur propriétaire (11) de réception du signal comprenant des moyens (12) d'analyse dudit signal et de transformation en temps réel dudit signal d'entrée sonore en un flux audio et vidéo, des moyens de calcul agencés d'une part pour synchroniser les mouvements de la bouche de l'avatar transmis dans ledit flux, avec les phonèmes détectés dans ledit signal d'entrée sonore, et d' autre part pour animer au moins une autre partie de l'avatar de façon cohérente avec ledit signal par des changements d'attitudes et des mouvements, et en ce qu' il comporte de plus des moyens d' analyse du signal d'entrée sonore afin de détecter et d'utiliser pour l'animation un ou plusieurs paramètres supplémentaires, dit paramètre de niveau 1, à savoir les périodes de silence, les périodes de parole et /ou d'autres éléments contenu dans ledit signal sonore pris parmi la prosodie, l'intonation, le rythme et/ou l'accent tonique, de sorte que l'avatar bouge et semble parler en temps réel ou sensiblement en temps réel à la place de l ' interlocuteur .11. System (1) animation . an avatar (2, 2 ') with a mouth (5, 5') from a signal sound input device (6) corresponding to the voice (7) of a telephone communication partner (8), characterized in that it comprises a mobile telecommunication device (9) for receiving the sound input signal emitted by an external telephone source, a proprietary signal receiving server (11) comprising means (12) for analyzing said signal and transforming in real time said sound input signal into an audio and video stream, computing means arranged on the one hand to synchronize the movements of the mouth of the avatar transmitted in said stream, with the phonemes detected in said sound input signal, and on the other hand to animate at least one other part of the avatar so as to coherent with said signal by changes of attitudes and movements, and in that it further comprises means for analyzing the sound input signal in order to detect and use for the animation one or more additional parameters. , d it parameter of level 1, namely the periods of silence, the periods of speech and / or other elements contained in the sound signal taken among the prosody, the intonation, the rhythm and / or the tonic accent, so that the avatar moves and seems to speak in real time or substantially in real time in the place of the interlocutor.
12. Système selon la revendication 11, caractérisé en ce que il comporte des moyens de configuration de l'avatar à travers un service en ligne sur le réseau Internet . 12. System according to claim 11, characterized in that it comprises means for configuring the avatar through an online service on the Internet.
13. Système selon l'une quelconque des revendications 11 et 12, caractérisé en ce que il comporte des moyens de constitution et de stockage dans un serveur propriétaire, de séquences élémentaires pour animer l'avatar, constituées d'images générées par un calcul de rendu 3D, ou générées à partir de dessins.13. System according to any one of claims 11 and 12, characterized in that it comprises means for constitution and storage in a proprietary server, elementary sequences to animate the avatar, consisting of images generated by a calculation of 3D rendering, or generated from drawings.
14. Système selon la revendication 13, caractérisé en ce que il comporte des moyens de sélection en temps réel de la séquence élémentaire à jouer, en fonction de paramètres préalablement calculés et/ou déterminés.14. System according to claim 13, characterized in that it comprises real-time selection means of the elementary sequence to be played, according to previously calculated and / or determined parameters.
15. Système selon l'une quelconque des revendications 11 à 14, caractérisé en ce que, la liste des séquences élémentaires étant communes à tous les avatars utilisables pour l'envoi vers l'appareil mobile, il comporte des moyens de calcul et de mise en œuvre d'un graphe d'animation dont chaque nœud représente un point ou état de transition entre deux séquences élémentaires, chaque connexion entre deux états de transition étant unidirectionnelle et toutes les séquences connectées à travers un même état devant être visuellement compatibles avec le passage de la fin d'une animation au début de l ' autre .15. System according to any one of claims 11 to 14, characterized in that, the list of elementary sequences being common to all avatars used for sending to the mobile device, it comprises means for calculating and setting an animation graph in which each node represents a point or transition state between two elementary sequences, each connection between two transition states being unidirectional and all the sequences connected through the same state to be visually compatible with the transition. from the end of one animation to the beginning of the other.
16. Système selon l'une quelconque des revendications 11 à 15, caractérisé en ce que il comporte des moyens pour dupliquer chaque séquence élémentaire de façon à permettre de montrer un personnage qui parle ou qui se tait selon la détection ou non d'un son de voix.16. System according to any one of claims 11 to 15, characterized in that it comprises means for duplicating each elementary sequence to allow to show a character who speaks or who is silent according to the detection or not of a sound of voice.
17. Système selon l'une quelconque des revendications 11 à 16 caractérisé en ce que, les phonèmes et/ou les autres paramètres étant considérés comme des dimensions suivant lesquelles on définit une série de coefficients avec des valeurs qui sont fixées pour chaque état du graphe d'animation, les moyens de calculs sont agencés pour calculer pour un état e la valeur de probabilité :17. System according to any one of claims 11 to 16 characterized in that, the phonemes and / or the other parameters being considered as dimensions according to which a series of coefficients are defined with values which are fixed for each state of the animation graph, the calculation means are arranged to calculate for a state e the value of probability:
Pe = Σ Pi X Ci avec Pi valeur du paramètre de niveau 2 calculé à partir des paramètres de niveau 1 détectés dans la voix et Ci coefficient de l'état e suivant la dimension i, puis lorsqu'une séquence élémentaire est en cours laisser se dérouler la séquence élémentaire qui se tait jusqu'au bout ou passer à l'autre séquence qui parle en cas de détection de la voix et vice versa, puis, lorsque la séquence se termine et qu'on arrive à un nouvel état, choisir le prochain état cible suivant une probabilité définie par les calculs de la valeur de probabilité des états connectés à l'état courant . P e = Σ Pi X Ci with Pi value of the level 2 parameter calculated from the level 1 parameters detected in the voice and Ci coefficient of the state e according to the dimension i, then when an elementary sequence is being left unfold the elementary sequence that is silent until the end or move to the other sequence that speaks in case of detection of the voice and vice versa, then, when the sequence ends and we arrive at a new state, choose the next target state according to a probability defined by the calculations of the probability value of the states connected to the current state.
EP07848234A 2006-09-15 2007-09-14 Method and system for animating an avatar in real time using the voice of a speaker Withdrawn EP2059926A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0608078A FR2906056B1 (en) 2006-09-15 2006-09-15 METHOD AND SYSTEM FOR ANIMATING A REAL-TIME AVATAR FROM THE VOICE OF AN INTERLOCUTOR
PCT/FR2007/001495 WO2008031955A2 (en) 2006-09-15 2007-09-14 Method and system for animating an avatar in real time using the voice of a speaker

Publications (1)

Publication Number Publication Date
EP2059926A2 true EP2059926A2 (en) 2009-05-20

Family

ID=37882253

Family Applications (1)

Application Number Title Priority Date Filing Date
EP07848234A Withdrawn EP2059926A2 (en) 2006-09-15 2007-09-14 Method and system for animating an avatar in real time using the voice of a speaker

Country Status (4)

Country Link
US (1) US20090278851A1 (en)
EP (1) EP2059926A2 (en)
FR (1) FR2906056B1 (en)
WO (1) WO2008031955A2 (en)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2468140A (en) * 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels
US9665563B2 (en) * 2009-05-28 2017-05-30 Samsung Electronics Co., Ltd. Animation system and methods for generating animation based on text-based data and user information
US20120058747A1 (en) * 2010-09-08 2012-03-08 James Yiannios Method For Communicating and Displaying Interactive Avatar
US20120069028A1 (en) * 2010-09-20 2012-03-22 Yahoo! Inc. Real-time animations of emoticons using facial recognition during a video chat
US8948893B2 (en) 2011-06-06 2015-02-03 International Business Machines Corporation Audio media mood visualization method and system
CN103918010B (en) * 2011-11-24 2017-06-30 诺基亚技术有限公司 Method, device and computer program product for generating the animated image being associated with content of multimedia
RU2481640C1 (en) * 2011-12-01 2013-05-10 Корпорация "Самсунг Электроникс Ко., Лтд" Method and system of generation of animated art effects on static images
US9035955B2 (en) 2012-05-16 2015-05-19 Microsoft Technology Licensing, Llc Synchronizing virtual actor's performances to a speaker's voice
US9325809B1 (en) * 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
GB201301981D0 (en) * 2013-02-04 2013-03-20 Headcast Ltd Presenting audio/visual animations
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US20150287403A1 (en) * 2014-04-07 2015-10-08 Neta Holzer Zaslansky Device, system, and method of automatically generating an animated content-item
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US10291597B2 (en) 2014-08-14 2019-05-14 Cisco Technology, Inc. Sharing resources across multiple devices in online meetings
US10542126B2 (en) 2014-12-22 2020-01-21 Cisco Technology, Inc. Offline virtual participation in an online conference meeting
US9948786B2 (en) 2015-04-17 2018-04-17 Cisco Technology, Inc. Handling conferences using highly-distributed agents
US10592867B2 (en) 2016-11-11 2020-03-17 Cisco Technology, Inc. In-meeting graphical user interface display using calendar information and system
US10516707B2 (en) 2016-12-15 2019-12-24 Cisco Technology, Inc. Initiating a conferencing meeting using a conference room device
US10440073B2 (en) 2017-04-11 2019-10-08 Cisco Technology, Inc. User interface for proximity based teleconference transfer
US10375125B2 (en) 2017-04-27 2019-08-06 Cisco Technology, Inc. Automatically joining devices to a video conference
US10375474B2 (en) 2017-06-12 2019-08-06 Cisco Technology, Inc. Hybrid horn microphone
US10477148B2 (en) 2017-06-23 2019-11-12 Cisco Technology, Inc. Speaker anticipation
US10516709B2 (en) 2017-06-29 2019-12-24 Cisco Technology, Inc. Files automatically shared at conference initiation
US10706391B2 (en) 2017-07-13 2020-07-07 Cisco Technology, Inc. Protecting scheduled meeting in physical room
US10091348B1 (en) 2017-07-25 2018-10-02 Cisco Technology, Inc. Predictive model for voice/video over IP calls
US10812430B2 (en) * 2018-02-22 2020-10-20 Mercury Universe, LLC Method and system for creating a mercemoji
US10580187B2 (en) * 2018-05-01 2020-03-03 Enas TARAWNEH System and method for rendering of an animated avatar
KR20210117066A (en) * 2020-03-18 2021-09-28 라인플러스 주식회사 Method and apparatus for controlling avatars based on sound
CN111988658B (en) * 2020-08-28 2022-12-06 网易(杭州)网络有限公司 Video generation method and device
CN116762103A (en) * 2021-01-13 2023-09-15 三星电子株式会社 Electronic device and method for running avatar video service in the same

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839672B1 (en) * 1998-01-30 2005-01-04 At&T Corp. Integration of talking heads and text-to-speech synthesizers for visual TTS
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
EP1345179A3 (en) * 2002-03-13 2004-01-21 Matsushita Electric Industrial Co., Ltd. Method and apparatus for computer graphics animation
AU2003218320A1 (en) * 2002-03-21 2003-10-08 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
US7136818B1 (en) * 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
GB2423905A (en) * 2005-03-03 2006-09-06 Sean Smith Animated messaging
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2008031955A3 *

Also Published As

Publication number Publication date
WO2008031955A2 (en) 2008-03-20
FR2906056B1 (en) 2009-02-06
FR2906056A1 (en) 2008-03-21
US20090278851A1 (en) 2009-11-12
WO2008031955A3 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
WO2008031955A2 (en) Method and system for animating an avatar in real time using the voice of a speaker
US8326596B2 (en) Method and apparatus for translating speech during a call
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
JP2008529345A (en) System and method for generating and distributing personalized media
JP2014512049A (en) Voice interactive message exchange
US20180315438A1 (en) Voice data compensation with machine learning
TW200933608A (en) Systems, methods, and apparatus for context descriptor transmission
FR3071689A1 (en) PRESENTATION OF COMMUNICATIONS
CN103873642A (en) Method and device for recording call log
US20200211540A1 (en) Context-based speech synthesis
US20090201297A1 (en) Electronic device with animated character and method
JP2022020659A (en) Method and system for recognizing feeling during conversation, and utilizing recognized feeling
JP2005078427A (en) Mobile terminal and computer software
US20120013620A1 (en) Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media
US10002611B1 (en) Asynchronous audio messaging
CN113257218B (en) Speech synthesis method, device, electronic equipment and storage medium
EP4289129A1 (en) Systems and methods of handling speech audio stream interruptions
CN115312079A (en) Information display method and device, electronic equipment and computer readable medium
CN110798393B (en) Voiceprint bubble display method and terminal using voiceprint bubbles
KR20200040625A (en) An electronic device which is processing user's utterance and control method thereof
JP2012518308A (en) Messaging system
CN111091807A (en) Speech synthesis method, speech synthesis device, computer equipment and storage medium
CN114866856B (en) Audio signal processing method, audio generation model training method and device
WO2024001462A1 (en) Song playback method and apparatus, and computer device and computer-readable storage medium
Kadous et al. Mobile conversational characters

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20090319

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC MT NL PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA HR MK RS

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20130403