FR2749420A1 - METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON - Google Patents

METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON Download PDF

Info

Publication number
FR2749420A1
FR2749420A1 FR9606813A FR9606813A FR2749420A1 FR 2749420 A1 FR2749420 A1 FR 2749420A1 FR 9606813 A FR9606813 A FR 9606813A FR 9606813 A FR9606813 A FR 9606813A FR 2749420 A1 FR2749420 A1 FR 2749420A1
Authority
FR
France
Prior art keywords
image
face
voice
animated
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9606813A
Other languages
French (fr)
Other versions
FR2749420B1 (en
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to FR9606813A priority Critical patent/FR2749420B1/en
Priority to EP97928304A priority patent/EP0907934A1/en
Priority to PCT/FR1997/000981 priority patent/WO1997046974A1/en
Priority to AU32653/97A priority patent/AU3265397A/en
Publication of FR2749420A1 publication Critical patent/FR2749420A1/en
Application granted granted Critical
Publication of FR2749420B1 publication Critical patent/FR2749420B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

The invention discloses a method for forming animated and sound images representing the face of a speaker consisting in effecting the following steps: initially: receiving an image of the said speaker's face; modeling a face said to be "modelled" representing the said face and adapted to be animated; and memorising the said modelled face; then after receiving a message likely to be spoken by the said speaker, analysing this message to determine a series of facial expressions to match the speaking out of the said message, and: transmitting a voice speaking out the said message, and animating the modelled face corresponding all the time to the delivery of the message.

Description

La présente invention concerne un procédé et un dispositif de formation d'images animées d'un interlocuteur. The present invention relates to a method and a device for forming animated images of an interlocutor.

Elle s'applique aussi bien à la formation d'images à distance, par exemple pour des téléspectateurs, qu'à la formation d'image localement pour l'insertion dans un jeu vidéo. It applies equally to the formation of images at a distance, for example for viewers, as to the formation of images locally for insertion into a video game.

Les dispositifs de transmission d'images animées actuellement connus nécessitent l'utilisation d'un capteur photosensible qui fournit un signal électrique représentant des luminosités perçues. La quantité d'information représentative de l'image est alors très élevée et, bien que des technologies de compression d'images existent, la transmission des images nécessite un support de transmission capable de transférer de grandes quantités d'informations. The currently known moving image transmission devices require the use of a photosensitive sensor which supplies an electrical signal representing perceived luminosities. The amount of information representative of the image is then very high and, although image compression technologies exist, the transmission of images requires a transmission medium capable of transferring large amounts of information.

De plus, I'utilisation du capteur photosensible implique de maîtriser les conditions de prise de vue. Enfin, la capture et la transmission d'images animées est alors d'un coût élevé à cause des quantités d'informations à transmettre. In addition, the use of the photosensitive sensor implies controlling the shooting conditions. Finally, the capture and transmission of moving images is then of high cost because of the quantities of information to be transmitted.

D'une manière générale, I'invention entend remédier à ces inconvénients en proposant de transmettre successivement une image fixe d'un visage, de modéliser une image de ce visage qui peut être animée, d'analyser une voix pour déterminer une expression faciale puis d'animer le modèle d'image pour lui donner ladite expression faciale.  In general, the invention intends to remedy these drawbacks by proposing to successively transmit a fixed image of a face, to model an image of this face which can be animated, to analyze a voice to determine a facial expression and then to animate the image model to give it said facial expression.

Ainsi, la capture de l'image de l'interlocuteur est effectuée en captant non pas des rayons iumineux réfléchis par le visage mais des sons émis par ledit visage, et plus particulièrement par la bouche, elle même représentative de l'expression du visage. Le coût du dispositif de l'invention est ainsi limité à celui de réalisation d'une image fixe, par exemple avec un appareil photographique ou par ordinateur, et à celui de capture de la voix, par exemple par un appareil téléphonique. Thus, the image of the interlocutor is captured by capturing not light rays reflected by the face but by sounds emitted by said face, and more particularly by the mouth, itself representative of the expression of the face. The cost of the device of the invention is thus limited to that of producing a still image, for example with a camera or by computer, and to that of capturing the voice, for example by a telephone.

La présente invention propose un dispositif de formation d'images, caractérisé en ce qu'il comporte: - un moyen de mémorisation d'une image représentative d'un visage réel; - un moyen de réception de signaux représentatifs de voix - un moyen d'analyse desdits signaux adapté à déterminer des expressions de visage selon des règles prédéterminées prenant en compte lesdits signaux; - un moyen d'animation de l'image par lesdites expressions de visage. The present invention provides an image forming device, characterized in that it comprises: - a means for memorizing an image representative of a real face; - means for receiving voice representative signals - means for analyzing said signals adapted to determine facial expressions according to predetermined rules taking into account said signals; a means of animating the image by said facial expressions.

Grâce à ces dispositions, le support de transmission d'images animées est un support de transmission de voix et il n'est donc pas nécessaire qu'il soit capable de transmettre plus que les fréquences vocales. La complexité et le coût de cette transmission et de la formation d'images animées sont donc très limités. Thanks to these arrangements, the moving image transmission medium is a voice transmission medium and it is therefore not necessary for it to be capable of transmitting more than the voice frequencies. The complexity and the cost of this transmission and of the formation of moving images are therefore very limited.

Selon un mode de réalisation préféré, le dispositif, objet de la présente invention, comporte un moyen de modélisation d'image adapté à fournir une image destinée à être animée, en fonction d'une image prise par un capteur photosensible et le moyen de mémorisation mémorise ladite image. According to a preferred embodiment, the device, object of the present invention, comprises an image modeling means suitable for providing an image intended to be animated, as a function of an image taken by a photosensitive sensor and the storage means stores said image.

Grâce à ces dispositions, la transmission d'une image fixe destinée à être animée est réalisée par transmission d'une photographie ou d'une image vidéo, et le coût de capture et de transmission est très limité. Thanks to these provisions, the transmission of a still image intended to be animated is carried out by transmission of a photograph or of a video image, and the cost of capture and transmission is very limited.

Selon un mode de réalisation particulier, ce moyen de modélisation est adapté à effectuer un "morphing" partiel, c'est-à-dire une métamorphose partielle prenant en compte ladite image prise par un capteur photosensible, et un modèle prédéterminé adapté à être animé.  According to a particular embodiment, this modeling means is adapted to perform a partial "morphing", that is to say a partial metamorphosis taking into account said image taken by a photosensitive sensor, and a predetermined model adapted to be animated .

Grâce à ces dispositions, le modèle prédéterminé est adapté à être déformé pour présenter les expressions faciales transmises et ce modèle est combiné à une image mémorisée représentative du visage réel. Thanks to these provisions, the predetermined model is adapted to be deformed to present the facial expressions transmitted and this model is combined with a stored image representative of the real face.

Selon un premier aspect de l'invention, le moyen de réception de signaux représentatif de voix est relié à une ligne téléphonique. According to a first aspect of the invention, the means for receiving voice representative signals is connected to a telephone line.

Grâce à ces dispositions, la transmission des images a lieu à distance par l'intermédiaire de n'importe quel type de réseau téléphonique, qu'il soit commuté ou numérique. Thanks to these provisions, the transmission of images takes place remotely via any type of telephone network, whether switched or digital.

Un exemple de ce premier aspect concerne la transmission dans une émission de télévision d'une image animée d'un téléspectateur qui participe à l'émission. An example of this first aspect concerns the transmission in a television program of an animated image of a viewer who participates in the program.

Selon un second aspect de l'invention, le moyen de réception de signaux représentatifs de voix est relié à une bande son d'un programme audiovisuel. According to a second aspect of the invention, the means for receiving voice representative signals is connected to a soundtrack of an audiovisual program.

Grâce à ces dispositions, le programme audiovisuel incorpore une image animée du visage utilisé. Thanks to these provisions, the audiovisual program incorporates an animated image of the face used.

A titre d'exemple de ce second aspect de la présente invention, le visage est celui du spectateur d'un film et la voix est celle d'un personnage dudit film. Ainsi ledit spectateur voit son image dans le film, animée avec les expressions d'un des personnages du film. As an example of this second aspect of the present invention, the face is that of the spectator of a film and the voice is that of a character from said film. Thus said spectator sees his image in the film, animated with the expressions of one of the characters in the film.

Selon un troisième aspect de la présente invention, le moyen de réception de signaux représentatifs de voix est relié à une antenne hertzienne. According to a third aspect of the present invention, the means for receiving voice representative signals is connected to a radio antenna.

Un exemple mise en oeuvre de ce troisième aspect concerne la transmission d'une émission de télévision par radiodiffusion d'une image animée de journalistes, d'animateurs, de personnes connues ou médiatiques qui participent à l'émission. An exemplary implementation of this third aspect relates to the transmission of a television program by broadcasting an animated image of journalists, presenters, well-known or media people who participate in the program.

L'invention vise aussi une console de jeu, un ordinateur et un banc de montage audiovisuel, caractérisés en ce qu'ils comportent un dispositif tel que succinctement présenté ci-dessus.  The invention also relates to a game console, a computer and an audiovisual editing bench, characterized in that they comprise a device as succinctly presented above.

Le procédé de formation d'images animées d'un interlocuteur, selon l'invention, est caractérisé en ce qu'il consiste à effectuer successivement les étapes suivantes - dans un premier temps
* à transmettre une image fixe d'un visage de l'interlocuteur; et
* à modéliser une image représentative dudit visage et adaptée
à être animée; - puis à la réception d'une voix:
* à analyser cette voix pour déterminer une expression de
visage;
* à animer ladite image pour qu'elle présente ladite expression
de visage.
The process for forming animated images of a contact, according to the invention, is characterized in that it consists in successively carrying out the following steps - firstly
* to transmit a fixed image of a face of the interlocutor; and
* to model an image representative of said face and adapted
to be animated; - then upon receiving a voice:
* to analyze this voice to determine an expression of
face;
* to animate said image so that it presents said expression
of face.

Grâce à ces dispositions, I'étape réalisée dans un premier temps peut être faite préliminairement à la réception de la voix, éventuellement assez lentement. Thanks to these arrangements, the step carried out initially can be done preliminary to the reception of the voice, possibly quite slowly.

La puissance de calcul nécessaire est ainsi moins élevée que pour la transmission d'une image animée captée par un capteur photosensible. The computing power required is thus lower than for the transmission of an animated image captured by a photosensitive sensor.

Selon un premier aspect de l'invention, la voix et le visage correspondent au même interlocuteur. According to a first aspect of the invention, the voice and the face correspond to the same interlocutor.

Grâce à ces dispositions, c'est le visage de cet interlocuteur qui est transmis à distance. Thanks to these provisions, it is the face of this interlocutor which is transmitted remotely.

Un exemple de ce premier aspect concerne la transmission dans une émission de télévision d'une image animée d'un téléspectateur qui participe à l'émission. An example of this first aspect concerns the transmission in a television program of an animated image of a viewer who participates in the program.

Selon un second aspect de la présente invention, la voix et le visage proviennent de différentes sources d'informations. According to a second aspect of the present invention, the voice and the face come from different sources of information.

Grâce à ces dispositions, on réalise une transmission de l'image avec des expressions qui sont superposées. Thanks to these arrangements, the image is transmitted with expressions which are superimposed.

A titre d'exemple de ce second aspect de la présente invention, le visage est celui du spectateur d'un film et la voix est celle d'un personnage dudit film. Ainsi ledit spectateur voit son image dans le film animée avec les expressions d'un des personnages du film. As an example of this second aspect of the present invention, the face is that of the spectator of a film and the voice is that of a character from said film. Thus said viewer sees his image in the film animated with the expressions of one of the characters in the film.

Selon une mise en oeuvre particulière de ce second aspect, la voix provient d'un support audiovisuel prédéterminé et le visage provient d'un spectateur. According to a particular implementation of this second aspect, the voice comes from a predetermined audiovisual medium and the face comes from a spectator.

Grâce à ces dispositions, le spectateur voit son visage dans un programme audiovisuel avec des expressions qui proviennent dudit programme. Thanks to these provisions, the spectator sees his face in an audiovisual program with expressions which come from said program.

Selon une mise en oeuvre particulière du procédé de l'invention, pour modéliser une image représentative du visage et adapter cette image à être animée, I'interlocuteur qui émet la voix destinée à être analysée positionne lui-même des repères sur certains points de ladite image. According to a particular implementation of the method of the invention, to model an image representative of the face and to adapt this image to be animated, the interlocutor who emits the voice intended to be analyzed positions himself marks on certain points of said picture.

Grâce à ces dispositions, des systèmes informatiques simples et bien connus suffisent à mettre en oeuvre un procédé de transmission télévisiophonique (aussi appelé visiophonique) sans que l'utilisateur n'ait besoin d'une assistance professionnelle. Thanks to these provisions, simple and well-known computer systems are sufficient to implement a method of television transmission (also called videophone) without the user needing professional assistance.

L'invention vise aussi une console de jeu, un ordinateur et un banc de montage audiovisuel, caractérisés en ce qu'ils mettent en oeuvre un procédé de transmission d'images tel que succinctement présenté ci-dessus. The invention also relates to a game console, a computer and an audiovisual editing bench, characterized in that they implement an image transmission method as succinctly presented above.

D'autres avantages, buts et caractéristiques de la présente invention ressortiront de la description qui va suivre, faite en regard des dessins annexés, dans lesquels:
- la figure 1 représente un schéma bloc de dispositifs d'émission et de réception d'images selon le premier aspect de la présente invention
- la figure 2A représente les opérations successives réalisées selon le premier aspect de la présente invention
- la figure 2B représente une implantation matérielle d'un dispositif présenté en figure 1;
- la figure 3 représente un schéma bloc de dispositifs d'émission et de réception d'images selon le deuxième aspect de la présente invention
- la figure 4 représente les opérations successives réalisées selon le deuxième aspect de la présente invention
- la figure 5 représente une photographie d'un visage;
- la figure 6 représente la réalisation d'une image modélisée du visage présenté en figure 5
- la figure 7 représente le spectre d'un signal sonore représentatif d'une voix
- la figure 8 représente l'expression correspond au signal sonore présenté en figure 7
- la figure 9 représente un modèle animé par la voix dont le spectre est représenté en figure 7, destiné à être mis en correspondance avec le visage représenté sur la photographie présentée en figure 5 pour fournir l'image de l'interlocuteur.
Other advantages, aims and characteristics of the present invention will emerge from the description which follows, given with reference to the appended drawings, in which:
- Figure 1 shows a block diagram of image transmission and reception devices according to the first aspect of the present invention
- Figure 2A shows the successive operations performed according to the first aspect of the present invention
- Figure 2B shows a hardware layout of a device shown in Figure 1;
- Figure 3 shows a block diagram of image transmission and reception devices according to the second aspect of the present invention
- Figure 4 shows the successive operations performed according to the second aspect of the present invention
- Figure 5 shows a photograph of a face;
- Figure 6 shows the realization of a modeled image of the face presented in Figure 5
- Figure 7 shows the spectrum of a sound signal representative of a voice
- Figure 8 represents the expression corresponds to the sound signal presented in Figure 7
- Figure 9 shows a model animated by voice whose spectrum is shown in Figure 7, intended to be matched with the face shown in the photograph presented in Figure 5 to provide the image of the interlocutor.

Dans le schéma bloc de dispositifs d'émission et de réception d'images selon le premier aspect de la présente invention (figure 1), sont représentés - un appareil téléphonique 1 comportant un combiné 2 et un clavier 3 et adapté à émettre un signal électrique représentatif des sons qui atteignent son microphone et des pressions effectuées sur les touches de son clavier 3, selon des techniques connues dans les appareils téléphoniques à fréquences vocales; - un réseau téléphonique 4, de type connu, représenté sous la forme de deux rectangles schématisant des prises téléphoniques - un moyen d'analyse de voix 5 dont le fonctionnement est exposé en regard de la figure 2 et qui fournit des données représentatives d'expressions orales à un moyen d'animation de visage 9; - un moyen d'analyse de fréquences vocales synthétiques 6 de type connu, adapté à transmettre des données numériques représentatives des fréquences vocales émises sur le réseau téléphonique par l'appareil téléphonique 1, et représentative d'une éventuelle pression appliquée sur un des touches de son clavier 3; - un moyen de numérisation d'image 7, adapté à transmettre des données représentatives d'une image d'un visage, de type connu dans les scanners bureautiques; - un moyen de modélisation 8 adapté à combiner des données représentatives d'une image reçue de la part du moyen de numérisation d'image avec un modèle et à fournir l'image fixe combinée résultante au moyen d'animation d'image 9 - le moyen d'animation de visage 9 adapté à animer le modéle combiné avec des expressions faciales correspondant aux expressions orales provenant du moyen d'analyse de voix 5; - un moyen d'animation de personne 10, de type connu, et adapté à fournir des informations représentatives d'images animées d'une personne possédant le visage réalisé par le moyen d'animation de visage 9, en fonction de données provenant du moyen d'analyse de fréquences vocales synthétiques 6; - un moyen de combinaison de personne et de scène 11 adapté à insérer l'image de la personne représentée par les informations sortant du moyen d'animation de personne avec des informations sur une scène comportant, par exemple des mobiles, des décors et des personnages, selon des techniques connues; - un moyen d'affichage 12 de type connu, par exemple constitué d'un téléviseur, adapté à afficher l'image sortant du moyen de combinaison Il; - un émetteur vidéo 13 de type connu, par exemple constitué d'une émetteur hertzien ou d'un émetteur sur réseau de télévision câblé ; et - un moyen d'enregistrement 14 de type connu, par exemple constitué d'un magnétoscope. In the block diagram of devices for transmitting and receiving images according to the first aspect of the present invention (FIG. 1), are represented - a telephone apparatus 1 comprising a handset 2 and a keyboard 3 and adapted to transmit an electrical signal representative of the sounds reaching his microphone and of the presses made on the keys of his keyboard 3, according to techniques known in telephone apparatus with vocal frequencies; - a telephone network 4, of known type, represented in the form of two rectangles diagramming telephone sockets - a voice analysis means 5, the operation of which is explained with reference to FIG. 2 and which provides data representative of expressions oral to face animation means 9; a means of analysis of synthetic voice frequencies 6 of known type, adapted to transmit digital data representative of the voice frequencies emitted on the telephone network by the telephone apparatus 1, and representative of a possible pressure applied to one of the keys his keyboard 3; an image digitizing means 7, adapted to transmit data representative of an image of a face, of a type known in office scanners; a modeling means 8 adapted to combine data representative of an image received from the image digitizing means with a model and to provide the resulting combined still image by means of image animation 9 - the face animation means 9 adapted to animate the model combined with facial expressions corresponding to the oral expressions coming from the voice analysis means 5; a person animation means 10, of known type, and adapted to provide information representative of animated images of a person having the face produced by the face animation means 9, as a function of data coming from the means synthetic voice frequency analysis 6; a means of person and scene combination 11 adapted to insert the image of the person represented by the information leaving the person animation means with information on a scene comprising, for example mobiles, decorations and characters , according to known techniques; a display means 12 of known type, for example consisting of a television set, adapted to display the image emerging from the combination means II; a video transmitter 13 of known type, for example consisting of a radio transmitter or a transmitter on a cable television network; and - a recording means 14 of known type, for example consisting of a video recorder.

Le moyen d'analyse de voix 5 qui fournit des données représentatives d'expressions orales est, par exemple constitué d'un ordinateur, d'une carte d'acquisition de son, de type connu, et d'un logiciel de détection dit "F.V.", initiales des mots "Fréquences Vocales", qui détermine des clés d'animation, en fonction des fréquences vocales utilisées, des graves, des aigus, des paliers et des évolutions de ces fréquences utilisées, une agressivité, des lettres prononcées, des rires, des attentes sonores ou muettes,
et d'autres attitudes. Des fournisseurs connus de ces types de logiciels sont SILICLONE et SOFTIMAGE VIEWER.
The voice analysis means 5 which provides data representative of oral expressions consists, for example, of a computer, a sound acquisition card, of known type, and a so-called detection software " FV ", initials of the words" Vocal Frequencies ", which determines animation keys, according to the vocal frequencies used, bass, treble, levels and changes in these frequencies used, aggressiveness, pronounced letters, laughter, loud or silent expectations,
and other attitudes. Known suppliers of these types of software are SILICLONE and SOFTIMAGE VIEWER.

Le moyen de modélisation 8 est adapté à combiner des données représentatives d'une image reçue de la part du moyen de numérisation d'image avec un modèle. II est, par exemple, composé d'un ordinateur et d'un logiciel de traitement d'image adapté à réaliser des traitements d'images connus sous le nom anglais de "morphing", parfois traduit en français sous le nom de "métamorphose" et qui fait correspondre - des points caractéristiques de deux images (coins de bouche, points de contours du nez et du visage, coins des yeux) pour déterminer la distance entre ces points sur les deux images (ici l'une des images est un modèle de visage et l'autre est une photographie numérisée) et - les autres points, par calculs sur des triangles qui entourent ces points et dont les sommets sont des points caractéristiques, en affectant au déplacement du point de la photographie, un barycentre des vecteurs déplacement des sommets, barycentre dont les poids sont décroissants en fonction des distances entre ledit point et ledit sommet. Certains ouvrages techniques de référence, comme le guide de l'utilisateur et le manuel de l'utilisateur du logiciel
SOFTIMAGE "EDDIE", imprimé au Canada, définissent le morphing ou la métamorphose comme un fondu enchaîné entre deux états. Ils sont incorporés à la description par référence.
The modeling means 8 is adapted to combine data representative of an image received from the image scanning means with a model. It is, for example, composed of a computer and image processing software suitable for carrying out image processing known by the English name of "morphing", sometimes translated into French under the name of "metamorphosis" and which matches - characteristic points of two images (corners of the mouth, nose and face contour points, corners of the eyes) to determine the distance between these points on the two images (here one of the images is a model face and the other is a digital photograph) and - the other points, by calculations on triangles which surround these points and whose vertices are characteristic points, by assigning to the displacement of the point of the photograph, a barycenter of the vectors displacement vertices, barycenter whose weights are decreasing as a function of the distances between said point and said vertex. Some technical reference books, such as the user guide and the software user manual
SOFTIMAGE "EDDIE", printed in Canada, defines morphing or metamorphosis as a crossfade between two states. They are incorporated into the description by reference.

On note que, selon l'invention, la personne modélisée résultant du fonctionnement du moyen de modélisation 8 correspond à un état intermédiaire de ia métamorphose entre une photographie d'un visage réel et d'un modèle destiné à être animé. It is noted that, according to the invention, the modeled person resulting from the operation of the modeling means 8 corresponds to an intermediate state of metamorphosis between a photograph of a real face and of a model intended to be animated.

Ainsi, la personne modélisée résultant possède un visage représentatif de la photographie, les traits de ce visage pouvant être animés par déplacement de points ou de lignes particuliers du modèle auquel a été associée la photographie pour former la personne modélisée. Thus, the resulting modeled person has a face representative of the photograph, the features of this face being able to be animated by displacement of particular points or lines of the model with which the photograph has been associated to form the modeled person.

Le moyen d'animation de visage 9 adapté à animer le modèle combiné avec des expressions faciales correspondant aux expressions orales provenant du moyen d'analyse de voix 5 est de type connu dans l'animation de personnages de dessins animés. The face animation means 9 adapted to animate the model combined with facial expressions corresponding to the oral expressions coming from the voice analysis means 5 is of known type in the animation of cartoon characters.

Le lecteur pourra, pour une meilleure compréhension, se référer aux ouvrages de référence cités ci-dessus ainsi qu'au "Tool Book" et au manuel de l'utilisateur du logiciel correspondant de la société ALIAS WAVE
FRONT et du guide de l'utilisateur du logiciel "Morph" de la société GRYPHON
SOFTWARE CORPORATION, ces cinq documents étant incorporés par référence dans la description de l'invention.
The reader will be able, for a better understanding, to refer to the reference works cited above as well as to the "Tool Book" and the user manual of the corresponding software from the company ALIAS WAVE.
FRONT and the user guide of the "Morph" software from GRYPHON
SOFTWARE CORPORATION, these five documents being incorporated by reference into the description of the invention.

L'ensemble des fonctions de traitement d'image décrites en regard des figures 1 et 2 peuvent etre réalisées par des ordinateurs mettant en oeuvre des logiciels tels que ceux cités ci-dessus ainsi que les logiciels
SOFTIMAGE VIEWER, SILICLONE et un logiciel de l'lnstitut National de l'Audiovisuel réalisant des morphings ou métamorphoses en trois dimensions de manière automatique.
All the image processing functions described with regard to FIGS. 1 and 2 can be carried out by computers using software such as those mentioned above as well as software
SOFTIMAGE VIEWER, SILICLONE and software from the National Audiovisual Institute performing morphings or metamorphoses in three dimensions automatically.

Le fonctionnement du dispositif présenté en figure 1 est simple
pour transmettre une image animée, le dispositif utilise d'une part un traitement d'une image fixe afin de la rendre apte à être animée (par l'intermédiaire du moyen de numérisation d'image 7 et du moyen de modélisation 8) et d'autre part un traitement de voix pour déterminer des expressions orales (réalisée par le moyen d'analyse de voix 5) puis faciales qui animent l'image fixe (animation effectuée par le moyen d'animation de visage 9).
The operation of the device presented in Figure 1 is simple
to transmit an animated image, the device uses on the one hand a processing of a fixed image in order to make it suitable for being animated (by means of the image digitization means 7 and the modeling means 8) and d 'other hand a voice processing to determine oral expressions (performed by the voice analysis means 5) and facial expressions that animate the still image (animation performed by the face animation means 9).

Selon une variante, destinée à la transmission d'images entre interlocuteurs téléphoniques, L'appareil téléphonique peut ne pas être à fréquence vocale, le moyen d'analyse de fréquences vocales 6, le moyen d'animation de personne 10, le moyen de combinaison de personne et de scène 11, L'émetteur vidéo 13 et le moyen d'enregistrement 14 sont supprimés, le moyen d'affichage 12 affichant directement l'image sortant du moyen d'animation de visage. According to a variant, intended for the transmission of images between telephone interlocutors, the telephone apparatus may not be at voice frequency, the voice frequency analysis means 6, the person animation means 10, the combination means person and scene 11, The video transmitter 13 and the recording means 14 are deleted, the display means 12 directly displaying the image coming out of the face animation means.

La figure 2 représente les opérations successives réalisées selon le premier aspect de la présente invention, en suivant un programme conservé dans la mémoire morte 17 de l'ordinateur 15. FIG. 2 represents the successive operations carried out according to the first aspect of the present invention, by following a program preserved in the read-only memory 17 of the computer 15.

Les deux premières opérations, référencées 200 et 201, sont effectuées préliminairement à la réception du signal sonore qui porte la voix. Au cours de l'opération 200, le visage est numérisé, par le moyen de numérisation 7 et mémorisé dans la mémoire vive 16 de l'ordinateur 15 (figure 1). The first two operations, referenced 200 and 201, are carried out preliminary to the reception of the sound signal which carries the voice. During operation 200, the face is digitized, by the digitizing means 7 and stored in the random access memory 16 of the computer 15 (FIG. 1).

Au cours de l'opération 201, le visage numérisé au cours de l'opération 200 est combiné, par métamorphose, avec un modèle destiné à être animé. Les traits du visage résultant sont donc ceux du visage numérisé, c'està-dire ceux de l'interlocuteur, mais les éléments de ce visage sont mis en mouvement selon des procédures dépendant du visage numérisé, mais liées aussi au modèle destiné à être animé. During operation 201, the face digitized during operation 200 is combined, by metamorphosis, with a model intended to be animated. The resulting facial features are therefore those of the digitized face, that is to say those of the interlocutor, but the elements of this face are set in motion according to procedures depending on the digitized face, but also linked to the model intended to be animated. .

Le visage résultant est donc hybride, son apparence étant celle du visage numérisé et ses mouvements étant ceux du modèle. Comme il est décrit en regard des figures 1 et 2, les mouvements sont commandés, par l'intermédiaire de l'analyse de la voix de l'interlocuteur, par les mouvements du visage de l'interlocuteur. The resulting face is therefore hybrid, its appearance being that of the digitized face and its movements being those of the model. As described with reference to FIGS. 1 and 2, the movements are controlled, by means of the analysis of the interlocutor's voice, by the movements of the interlocutor's face.

L'opération 202 correspond à la réception du son téléphonique sur une entrée de signaux du dispositif présenté en figure 1. Operation 202 corresponds to the reception of telephone sound on a signal input of the device presented in FIG. 1.

L'opération 203 correspond à l'analyse spectrale du son reçu au cours de l'opération 202 afin de fournir un spectre en fréquence de ce signal. Dans ledit spectre, à chaque fréquence, en abscisse, est associée l'amplitude du signal possédant cette fréquence, en ordonnée, dans le signal sonore reçu. Operation 203 corresponds to the spectral analysis of the sound received during operation 202 in order to provide a frequency spectrum of this signal. In said spectrum, with each frequency, on the abscissa, is associated the amplitude of the signal having this frequency, on the ordinate, in the received sound signal.

L'opération 204 consiste à extraire les fréquences vocales synthétiques pour déterminer si le clavier 3 de l'appareil téléphonique 1 a été utilisé. On note que les fréquences vocales utilisées correspondent toujours à une combinaison d'au moins deux fréquences primaires non harmoniques, de telle manière que les risques d'erreur de détection soient limités. Operation 204 consists in extracting the synthetic voice frequencies to determine whether the keyboard 3 of the telephone apparatus 1 has been used. It is noted that the vocal frequencies used always correspond to a combination of at least two non-harmonic primary frequencies, so that the risks of detection error are limited.

Le résultat de l'extraction des fréquences vocales, est la mise en mémoire vive 16, dans le registre freqvoc de la valeur de la touche du clavier sur laquelle une pression a été détectée. The result of the extraction of the vocal frequencies, is the setting in random access memory 16, in the register freqvoc of the value of the key of the keyboard on which a pressure was detected.

Au cours de l'opération 205, le moyen d'analyse de voix détermine, par analyse du spectre réalisé au cours de l'opération 203, les phonèmes et autres expressions orales utilisées par l'interlocuteur. Pour réaliser cette opération, le spectre du signal sonore est comparé à des spectres caractéristiques de phonémes et d'expressions orales (comme le rire), lesdits spectres caractéristiques étant conservés dans la mémoire morte 17 de l'ordinateur 15. On note cependant, que cette analyse est effectuée de manière dynamique, ce qui signifie que ce n'est pas toujours un seul spectre instantané qui permet de déterminer l'expression orale mais aussi parfois une succession de spectres, ladite succession pouvant être caractéristique d'une expression orale. Pour une meilleure compréhension de cette opération, on se rapportera au notices d'utilisation des logiciels cités plus haut. During operation 205, the voice analysis means determines, by analysis of the spectrum carried out during operation 203, the phonemes and other oral expressions used by the interlocutor. To perform this operation, the spectrum of the sound signal is compared to characteristic spectra of phonemes and oral expressions (such as laughter), said characteristic spectra being stored in the read-only memory 17 of the computer 15. It is noted, however, that this analysis is carried out dynamically, which means that it is not always a single instantaneous spectrum which makes it possible to determine the oral expression but also sometimes a succession of spectra, said succession being able to be characteristic of an oral expression. For a better understanding of this operation, we will refer to the instructions for use of the software mentioned above.

Au cours de l'opération 206, chaque expression orale est mise en relation avec une expression faciale, par exemple le phonème prononcé à la lecture de la lettre "O" correspond à une expression faciale dans laquelle les mâchoires sont légèrement écartées et les lèvres forment une ouverture ronde de petite dimension. During operation 206, each oral expression is related to a facial expression, for example the phoneme pronounced on reading the letter "O" corresponds to a facial expression in which the jaws are slightly apart and the lips form a small round opening.

Chacune de ces expressions faciales est mise en correspondance, au cours de l'opération 207, avec une succession de mouvements de points caractéristiques du modèle de visage qui supporte le visage de l'interlocuteur. Par exemple si la prononciation de la lettre "O" est effectuée pendant une durée d'une seconde, entre deux silences, les mouvements successifs du modèle et donc de la personne modélisée, correspondent: - d'abord, pendant un quart de seconde à l'écartement des mâchoires et à la mise des lèvres en rond - puis, à un maintien de cette posture pendant toute la durée de la prononciation de la lettre "O" - puis, à la fin de cette prononciation (et donc ici au retour du silence), le visage reprend son aspect initial en un quart de seconde. Each of these facial expressions is matched, during operation 207, with a succession of movements of points characteristic of the face model which supports the face of the interlocutor. For example if the pronunciation of the letter "O" is carried out for a period of one second, between two rests, the successive movements of the model and therefore of the modeled person, correspond: - first, for a quarter of a second to the spacing of the jaws and putting the lips in circles - then, maintaining this posture for the duration of the pronunciation of the letter "O" - then, at the end of this pronunciation (and therefore here on the return of silence), the face resumes its initial appearance in a quarter of a second.

Si la fréquence de rafraîchissement de l'image est de 25 Hertz, c'est-à-dire que 25 images différentes sont affichées pendant chaque seconde (fréquence correspondant à la télévision), la séquence décrite ci-dessus correspond à environ 37 images donc à 37 successions de mouvements effectués entre deux images. If the refresh rate of the image is 25 Hertz, that is to say that 25 different images are displayed during each second (frequency corresponding to television), the sequence described above corresponds to approximately 37 images therefore to 37 successions of movements made between two images.

L'opération 208 consiste à mettre le visage en mouvement selon les valeurs successives conservées dans le registre freqvoc (figure 3) pour tenir compte de l'appui sur les touches du clavier 3. Cette opération 208 correspond par exemple à un jeu auquel joue l'interlocuteur. Operation 208 consists in putting the face in motion according to the successive values kept in the freqvoc register (FIG. 3) to take account of the pressing of the keys of the keyboard 3. This operation 208 corresponds for example to a game which the l 'interlocutor.

L'opération 209 consiste à insérer le visage résultant des opérations 207 et 208 dans une scène dont les caractéristiques dépendent, elles aussi, des expressions orales et des touches de clavier utilisées. Operation 209 consists in inserting the face resulting from operations 207 and 208 into a scene whose characteristics also depend on the oral expressions and the keyboard keys used.

Par exemple, au cours d'un jeu, les expressions orales peuvent permettre de déformer un objet, et les appuis sur des touches peuvent permettre de déplacer cet objet. For example, during a game, oral expressions can be used to distort an object, and pressing keys can be used to move the object.

L'opération 210 correspond à l'affichage de la scène comportant le visage, à sa mémorisation et à l'émission de l'image. Dans l'exemple du jeu télévisé considéré ici, I'interlocuteur voit son image sur un téléviseur et il utilise, d'une part le clavier 3 de son appareil téléphonique 1, et d'autre part sa voix, pour jouer au jeu considéré. Operation 210 corresponds to the display of the scene comprising the face, to its memorization and to the emission of the image. In the example of the televised game considered here, the interlocutor sees his image on a television set and he uses, on the one hand the keyboard 3 of his telephone apparatus 1, and on the other hand his voice, to play the game considered.

A la suite de l'opération 210, le système retourne à l'opération 202. Following operation 210, the system returns to operation 202.

II faut noter que la suite d'opération décrite ici s'effectue, en fait, en temps réel, c'est-à-dire que, après l'affichage de chaque image (opération 210), toutes les opérations 202 à 209 sont effectuées en une durée inférieure à celle du rafraîchissement de l'image, le visage et la scène étant en fait modifiés progressivement au cours de ces opérations.  It should be noted that the sequence of operations described here is carried out, in fact, in real time, that is to say that, after the display of each image (operation 210), all of the operations 202 to 209 are performed in a period shorter than that of the image refresh, the face and the scene being in fact gradually modified during these operations.

La figure 2B représente une implantation matérielle d'un dispositif présenté en figure 1. Ce dispositif est, ici, organisé selon des architectures connues dans le domaine des ordinateurs, autour d'un bus de communication informatique 20 auxquels sont reliés - une unité centrale de calcul 21, de type connu, comportant en particulier un processeur; - une mémoire vive 16 qui comporte des registres de mémoire et en particulier le registre freqvoc; - une mémoire morte 17 qui conserve le programme de fonctionnement du dispositif; - un port de sortie vidéo 18 - un port d'entrée et de traitement de son 19 ; et - un port d'entrée et de traitement d'image 22. FIG. 2B represents a hardware layout of a device presented in FIG. 1. This device is, here, organized according to architectures known in the field of computers, around a computer communication bus 20 to which are connected - a central processing unit calculation 21, of known type, comprising in particular a processor; - a random access memory 16 which includes memory registers and in particular the freqvoc register; - a read only memory 17 which stores the operating program of the device; - a video output port 18 - an input and sound processing port 19; and - an input and image processing port 22.

Le port de sortie vidéo 18 est de type connu, il fournit, selon des variantes, soit un signal adapté aux normes en matière de télévision, par exemple la norme CCIR en Europe, soit un signal adapté au normes en matière d'écrans d'ordinateur, par exemple la norme super VGA. The video output port 18 is of known type, it provides, according to variants, either a signal adapted to television standards, for example the CCIR standard in Europe, or a signal adapted to standards relating to screen displays. computer, for example the super VGA standard.

Le port d'entrée et de traitement de son 19 est de type connu, d'une part il numérise le son, et d'autre part il en extrait un spectre instantané. The sound input and processing port 19 is of known type, on the one hand it digitizes the sound, and on the other hand it extracts an instantaneous spectrum.

Les informations résultantes sont mémorisées dans la mémoire vive 16.The resulting information is stored in the RAM 16.

Le port d'entrée et de traitement d'image 22 est de type connu, il permet de mettre en mémoire vive 16 des données numériques représentatives d'une scène visuelle. The input and image processing port 22 is of known type, it makes it possible to store in random access memory 16 digital data representative of a visual scene.

La figure 3 représente un schéma bloc de dispositifs d'émission et de réception d'images selon le deuxième aspect de la présente invention. FIG. 3 represents a block diagram of devices for transmitting and receiving images according to the second aspect of the present invention.

On retrouve dans la figure 3 certains éléments de la figure 1, le moyen de numérisation 7, le moyen de modélisation 8, le moyen d'animation de visage 9, le moyen d'analyse de voix 5, le moyen d'affichage 12, le moyen d'enregistrement 14 et l'émetteur vidéo 13. We find in FIG. 3 certain elements of FIG. 1, the digitization means 7, the modeling means 8, the face animation means 9, the voice analysis means 5, the display means 12, the recording means 14 and the video transmitter 13.

A ces différents éléments, qui assurent les mêmes fonctions que dans le mode de réalisation présenté en figure 1, s'ajoutent: - un moyen de lecture 33 d'un support audiovisuel comportant un support audio 30, par exemple une mémoire qui conserve des signaux sonores, combiné et synchronisé avec un support visuel 31, par exemple une mémoire qui conserve des scènes successives d'un spectacle ; ce moyen de lecture fournit un signal représentatif des informations portées par chacun des deux supports ; et - un moyen de combinaison du visage et de la scène, qui regroupe les fonctions des moyens d'animation de personne 10 et du moyen de combinaison de la personne et d'une scène 11, présentés en figure 1. To these different elements, which provide the same functions as in the embodiment presented in FIG. 1, are added: - a reading means 33 of an audiovisual medium comprising an audio medium 30, for example a memory which stores signals sound, combined and synchronized with a visual medium 31, for example a memory which stores successive scenes from a show; this reading means provides a signal representative of the information carried by each of the two supports; and a means for combining the face and the scene, which combines the functions of the person animation means 10 and the person and scene combination means 11, presented in FIG. 1.

Au cours du fonctionnement de ce mode de réalisation du dispositif, le support audio 30 est lu et il fournit un signal sonore au moyen d'analyse de voix 5. Parallèlement, le support visuel 31 et le moyen d'animation de visage 9 fournissent chacun des signaux représentatifs d'images au moyen de combinaison de visage et de scène 32. During the operation of this embodiment of the device, the audio support 30 is played and it provides an audible signal by means of voice analysis 5. At the same time, the visual support 31 and the face animation means 9 each provide image representative signals by means of face and scene combinations 32.

La figure 4 représente les opérations successives réalisées selon le deuxième aspect de la présente invention. FIG. 4 represents the successive operations carried out according to the second aspect of the present invention.

On retrouve dans la figure 4 les opérations 200, 201, 203, 205, 206 et 210, ainsi que deux opérations supplémentaires - I'opération 400 qui succède à l'opération 201, qui précède l'opération 203 et qui consiste à la réception et la mémorisation du son provenant du support audio 30; - I'opération qui succède à l'opération 206, qui précède l'opération 210 et qui réalise l'insertion des expressions faciales déterminées au cours de l'opération 206 sur le visage d'un modèle, ou personnage, faisant partie du programme visuel issu du support visuel 31. We find in Figure 4 operations 200, 201, 203, 205, 206 and 210, as well as two additional operations - operation 400 which follows operation 201, which precedes operation 203 and which consists of reception and storing the sound from the audio medium 30; The operation which follows operation 206, which precedes operation 210 and which carries out the insertion of the facial expressions determined during operation 206 on the face of a model, or character, forming part of the program visual from visual support 31.

La figure 5 représente une photographie d'un visage. Figure 5 shows a photograph of a face.

La figure 6 représente un modèle du visage présenté en figure 5, auquel un microphone à bras articulé a été ajouté. Le visage modélisé créé par le moyen de modélisation 8 au cours de l'opération 201 fournit une image qui est intermédiaire dans la métamorphose des images présentées en figure 5 et 6. On observe (figure 8) que les visages des figures 5 et 6 peuvent être associés par des points caractéristiques 60, sur le front, 61, sur les pommettes, 62, aux coins des lèvres et 63 sur le menton. Ces points nommés "primaires" sont ceux qui sont les sources ou repères de déformation du visage, c'est-àdire que les autres points du visage sont déplacés en fonction du déplacement de ces points primaires. Figure 6 shows a model of the face shown in Figure 5, to which a swing arm microphone has been added. The modeled face created by the modeling means 8 during operation 201 provides an image which is intermediate in the metamorphosis of the images presented in FIGS. 5 and 6. We observe (FIG. 8) that the faces of FIGS. 5 and 6 can be associated by characteristic points 60, on the forehead, 61, on the cheekbones, 62, at the corners of the lips and 63 on the chin. These points called "primary" are those which are the sources or markers of facial deformation, that is to say that the other points of the face are displaced as a function of the displacement of these primary points.

Bien que dès à présente, le positionnement automatique des points primaires sur l'image représentée en figure 5 soit possible, par des techniques de reconnaissance de forme appliquées à ces points, il est plus économique et plus sûr de positionner manuellement, en utilisant des moyens de pointage connus, tels que souris ou joystick, associés selon des techniques connues, à l'unité centrale 21 mettant en oeuvre le procédé de l'invention. Although as of now, the automatic positioning of the primary points on the image shown in FIG. 5 is possible, by shape recognition techniques applied to these points, it is more economical and safer to position manually, using means known pointing devices, such as a mouse or joystick, associated according to known techniques, to the central unit 21 implementing the method of the invention.

C'est le déplacement des points primaires qui est mis en relation avec des expressions faciales, elles-mêmes en relation avec des expressions orales. It is the displacement of the primary points which is put in relation with facial expressions, themselves in relation with oral expressions.

La figure 7 représente le spectre d'un signal sonore représentatif d'une voix. FIG. 7 represents the spectrum of a sound signal representative of a voice.

Comme indiqué plus haut, en abscisse de ce spectre se trouvent les fréquences et en ordonnée les amplitudes correspondantes. C'est la répartition spectrale et la déformation de cette répartition qui permettent de déterminer une expression orale. As indicated above, on the abscissa of this spectrum are the frequencies and on the ordinate the corresponding amplitudes. It is the spectral distribution and the distortion of this distribution which make it possible to determine an oral expression.

La figure 8 représente l'expression qui correspond au signal sonore présenté en figure 7. FIG. 8 represents the expression which corresponds to the sound signal presented in FIG. 7.

Cette expression de rire comporte, par rapport au même visage sans expression - un déplacement vers la bas du point primaire du menton 63; - un écartement et une remontée latérale des points primaires des lèvres 62; - une remontée des points primaires de pommettes 61 - un rapprochement des points primaires de front 60. This expression of laughter involves, compared to the same expressionless face - a downward displacement of the primary point of the chin 63; - A spacing and a lateral rise of the primary points of the lips 62; - a rise in the primary points of the cheekbones 61 - a bringing together of the primary front points 60.

La figure 9 représente l'image animée correspondant à l'expression portée par la voix présentée en figure 7. Chaque point du visage modélisé, représenté en figure 6, est associé à trois points primaires, sommets d'un triangle qui entoure le point considéré. Ce point est déplacé proportionnellement à la déformation et au déplacement des sommets de ce triangle, de telle manière que les déplacements soient continus sur toute la surface du triangle. FIG. 9 represents the animated image corresponding to the expression carried by the voice presented in FIG. 7. Each point of the modeled face, represented in FIG. 6, is associated with three primary points, vertices of a triangle which surrounds the point considered. . This point is moved in proportion to the deformation and the displacement of the vertices of this triangle, so that the displacements are continuous on all the surface of the triangle.

On observe que pour mettre en oeuvre l'invention, deux procédures peuvent indifféremment être suivies : soit, comme exposé cidessus, on constitue par métamorphose partielle, une personne modélisée, dont certains points, dits primaires, servent de repères pour l'animation, soit on anime le modèle puis on constitue une métamorphose partielle du modèle animé et de l'image réelle. We observe that to implement the invention, two procedures can be followed indifferently: either, as described above, we constitute by partial metamorphosis, a modeled person, certain points of which, called primary, serve as benchmarks for the animation, or we animate the model then we constitute a partial metamorphosis of the animated model and the real image.

Selon une variante non représentée, le modéliseur 8 ne fonctionne plus à partir d'une photographie, mais à partir d'informations transmises par l'interlocuteur utilisant le téléphone 2. A titre d'exemple, cet utilisateur indique les caractéristiques de son visage, de sa chevelure, de lunette, d'appareil dentaire, de couleur  According to a variant not shown, the modeler 8 no longer works from a photograph, but from information transmitted by the interlocutor using the telephone 2. By way of example, this user indicates the characteristics of his face, hair, glasses, braces, color

On note à cet égard que l'invention permet ainsi la création de chaînes de télévision d'information ou de divertissement en utilisant uniquement la bande passante correspondant aux voix humaines, éventuellement complétée par des informations numériques traitées à leur réception pour ne pas être audibles par les spectateurs. Ainsi, une station de radiodiffusion pourra ajouter à ses programmes normaux des informations qui, traitées à la réception, permettront au dispositif selon l'invention de déterminer la personne modélisée à animer par la voix transmise par ladite station (cette personne modélisée pouvant, en complément être animée par des informations numériques non audibles transmises par le signal radiodiffusé). In this respect, it should be noted that the invention thus allows the creation of news or entertainment television channels using only the bandwidth corresponding to human voices, possibly supplemented by digital information processed on reception so as not to be audible by the viewers. Thus, a broadcasting station can add to its normal programs information which, processed on reception, will allow the device according to the invention to determine the modeled person to be animated by the voice transmitted by said station (this modeled person being able, in addition be animated by non-audible digital information transmitted by the broadcast signal).

De mêmes des utilisateurs de réseaux de communication, comme le réseau INTERNET, pourront non seulement transmettre leur image et l'animer avec leur voix, mais aussi transmettre des images et des voix d'autres personnes. Likewise, users of communication networks, such as the INTERNET network, will not only be able to transmit their image and animate it with their voice, but also to transmit images and voices of other people.

Selon une dernière variante, I'interlocuteur dont l'image est transmise transmet son image électronique, captée par un capteur photoélectrique connu, en positionnant lui-même les points primaires ou repères permettant d'animer cette image en utilisant les expressions orales transmises par la voix, comme décrit ci-dessus. Pour positionner lesdits repères, un système informatique comportant un ordinateur et un moyen de pointage, comme par exemple une souris, pourront être utilisés selon des techniques connues de l'homme du métier. According to a last variant, the interlocutor whose image is transmitted transmits his electronic image, captured by a known photoelectric sensor, by positioning himself the primary points or landmarks allowing to animate this image by using the oral expressions transmitted by the voice, as described above. To position said marks, a computer system comprising a computer and a pointing device, such as for example a mouse, may be used according to techniques known to those skilled in the art.

L'invention ne se limite pas aux modes de réalisation décrits et représentés mais s'étend, bien au contraire aux modes de réalisation, aux améliorations, aux modifications et perfectionnements à la portée de l'homme du métier.  The invention is not limited to the embodiments described and shown but extends, quite the contrary to the embodiments, improvements, modifications and improvements within the reach of the skilled person.

Claims (17)

REVENDICATIONS 1. Dispositif de formation d'images animées, caractérisé en ce qu'il comporte: - un moyen de mémorisation d'une image représentative d'un visage réel; - un moyen de réception de signaux représentatifs de voix; - un moyen d'analyse desdits signaux adapté à déterminer des expressions de visage selon des règles prédéterminées prenant en compte lesdits signaux; - un moyen d'animation de l'image par lesdites expressions de visage.1. A device for forming animated images, characterized in that it comprises: - a means for memorizing an image representative of a real face; - means for receiving voice representative signals; a means of analysis of said signals adapted to determine facial expressions according to predetermined rules taking into account said signals; a means of animating the image by said facial expressions. 2. Dispositif selon la revendication 1, caractérisé en ce qu'il comporte un moyen de modélisation d'image adapté à fournir une image destinée à être animée, en fonction d'une image prise par un capteur photosensible d'une et en ce que le moyen de mémorisation mémorise ladite image.2. Device according to claim 1, characterized in that it comprises an image modeling means adapted to provide an image intended to be animated, as a function of an image taken by a photosensitive sensor of one and in that the storage means stores said image. 3. Dispositif selon la revendication 2, caractérisé en ce que ledit moyen de modélisation est adapté à effectuer un "morphing" partiel, c'est-à-dire une métamorphose partielle prenant en compte ladite image prise par un capteur photosensible, et un modèle prédéterminé adapté à être animé.3. Device according to claim 2, characterized in that said modeling means is adapted to perform a partial "morphing", that is to say a partial metamorphosis taking into account said image taken by a photosensitive sensor, and a model predetermined suitable to be animated. 4. Dispositif selon l'une quelconque des revendications 1 à 3 caractérisé en ce que le moyen de réception de signaux représentatif de voix est relié à une ligne téléphonique.4. Device according to any one of claims 1 to 3 characterized in that the means for receiving voice representative signals is connected to a telephone line. 5. Dispositif selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le moyen de réception de signaux représentatifs de voix est relié à une bande son d'un programme audiovisuel.5. Device according to any one of claims 1 to 3, characterized in that the means for receiving voice representative signals is connected to a soundtrack of an audiovisual program. 6. Dispositif selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le moyen de réception de signaux représentatif de voix est relié à une antenne hertzienne.6. Device according to any one of claims 1 to 3, characterized in that the means for receiving signals representative of voice is connected to a radio antenna. 7. Console de jeu, caractérisée en ce qu'elle comporte un dispositif selon l'une quelconque des revendications 1 à 6.7. Game console, characterized in that it comprises a device according to any one of claims 1 to 6. 8. Ordinateur, caractérisé en ce qu'il comporte un dispositif selon l'une quelconque des revendications 1 à 6. 8. Computer, characterized in that it comprises a device according to any one of claims 1 to 6. 9. Banc de montage audiovisuel, caractérisée en ce qu'il comporte un dispositif selon l'une quelconque des revendications 1 à 6.9. Audiovisual assembly bench, characterized in that it comprises a device according to any one of claims 1 to 6. 10. Procédé de formation d'images animées d'un interlocuteur, caractérisé en ce qu'il consiste à effectuer successivement les étapes suivantes - dans un premier temps:10. A method of forming animated images of a contact, characterized in that it consists in successively carrying out the following steps - firstly: * à transmettre une image fixe d'un visage de l'interlocuteur; et * to transmit a fixed image of a face of the interlocutor; and * à modéliser une image représentative dudit visage et adaptée * to model an image representative of said face and adapted à être animée; - puis à la réception d'une voix: to be animated; - then upon receiving a voice: * à analyser cette voix pour déterminer une expression de visage  * analyze this voice to determine a facial expression * à animer ladite image pour qu'elle présente ladite expression * to animate said image so that it presents said expression de visage. of face. 11. Procédé selon la revendication 10, caractérisé en ce que, la voix et le visage correspondent au même interlocuteur.11. Method according to claim 10, characterized in that, the voice and the face correspond to the same interlocutor. 12. Procédé selon la revendication 10, caractérisé en ce que la voix et le visage proviennent de différentes sources d'informations.12. Method according to claim 10, characterized in that the voice and the face come from different sources of information. 13. Procédé selon la revendication 12, caractérisé en ce que la voix provient d'un support audiovisuel prédéterminé et le visage provient d'un spectateur.13. Method according to claim 12, characterized in that the voice comes from a predetermined audiovisual medium and the face comes from a spectator. 14. Procédé selon l'une quelconque des revendications 10 à 13, caractérisé en ce que pour modéliser une image représentative du visage et adapter cette image à être animée, l'interlocuteur qui émet la voix destinée à être analysée positionne lui-même des repères sur certains points de ladite image.14. Method according to any one of claims 10 to 13, characterized in that to model an image representative of the face and adapt this image to be animated, the interlocutor who emits the voice intended to be analyzed positions himself landmarks on certain points of said image. 15. Console de jeu, caractérisée en ce qu'elle met en oeuvre un procédé selon l'une quelconque des revendications 10 à 14.15. Game console, characterized in that it implements a method according to any one of claims 10 to 14. 16. Ordinateur, caractérisé en ce qu'il met en oeuvre un procédé selon l'une quelconque des revendications 10 à 14. 16. Computer, characterized in that it implements a method according to any one of claims 10 to 14. 17. Banc de montage audiovisuel, caractérisé en ce qu'il met en oeuvre un procédé selon l'une quelconque des revendications 10 à 14. 17. Audiovisual editing bench, characterized in that it implements a method according to any one of claims 10 to 14.
FR9606813A 1996-06-03 1996-06-03 METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON Expired - Fee Related FR2749420B1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR9606813A FR2749420B1 (en) 1996-06-03 1996-06-03 METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON
EP97928304A EP0907934A1 (en) 1996-06-03 1997-06-03 Device and method for transmitting animated and sound images
PCT/FR1997/000981 WO1997046974A1 (en) 1996-06-03 1997-06-03 Device and method for transmitting animated and sound images
AU32653/97A AU3265397A (en) 1996-06-03 1997-06-03 Device and method for transmitting animated and sound images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9606813A FR2749420B1 (en) 1996-06-03 1996-06-03 METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON

Publications (2)

Publication Number Publication Date
FR2749420A1 true FR2749420A1 (en) 1997-12-05
FR2749420B1 FR2749420B1 (en) 1998-10-02

Family

ID=9492658

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9606813A Expired - Fee Related FR2749420B1 (en) 1996-06-03 1996-06-03 METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON

Country Status (4)

Country Link
EP (1) EP0907934A1 (en)
AU (1) AU3265397A (en)
FR (1) FR2749420B1 (en)
WO (1) WO1997046974A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2359459A (en) * 2000-02-18 2001-08-22 Sensei Ltd Mobile telephone with animated display
IT1320002B1 (en) * 2000-03-31 2003-11-12 Cselt Centro Studi Lab Telecom PROCEDURE FOR THE ANIMATION OF A SYNTHESIZED VOLTOHUMAN MODEL DRIVEN BY AN AUDIO SIGNAL.

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2250405A (en) * 1990-09-11 1992-06-03 British Telecomm Speech analysis and image synthesis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2250405A (en) * 1990-09-11 1992-06-03 British Telecomm Speech analysis and image synthesis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MORISHIMA E.A.: "A FACIAL MOTION SYNTHESIS FOR INTELLIGENT MAN-MACHINE INTERFACE", SYSTEMS & COMPUTERS IN JAPAN, vol. 22, no. 5, 1991, NEW YORK US, pages 50 - 59, XP000240754 *
MORISHIMA E.A.: "FACIAL EXPRESSION SYNTHESIS BASED ON NATURAL VOICE FOR VIRTUAL FACE-TO-FACE COMMUNICATION WITH MACHINE", IEEE VIRTUAL REALITY ANNUAL INTERNATIONAL SYMPOSIUM, 18 September 1993 (1993-09-18) - 22 September 1993 (1993-09-22), NEW-YORK NY US, pages 486 - 491, XP000457717 *
TAKEUCHI AND NAGAO: "COMMUNICATIVE FACIAL DISPLAYS AS A NEW CONVERSATIONAL MODALITY", INTERCHI '93 CONFERENCE PROCEEDINGS, 24 April 1993 (1993-04-24) - 29 April 1993 (1993-04-29), AMSTERDAM, pages 187 - 193, XP000473765 *

Also Published As

Publication number Publication date
FR2749420B1 (en) 1998-10-02
EP0907934A1 (en) 1999-04-14
AU3265397A (en) 1998-01-05
WO1997046974A1 (en) 1997-12-11

Similar Documents

Publication Publication Date Title
US10163111B2 (en) Virtual photorealistic digital actor system for remote service of customers
US5884267A (en) Automated speech alignment for image synthesis
US6925438B2 (en) Method and apparatus for providing an animated display with translated speech
JP6019108B2 (en) Video generation based on text
US4260229A (en) Creating visual images of lip movements
US7460731B2 (en) Personalizing a video
JP2589478B2 (en) Image synthesis device
US8447065B2 (en) Method of facial image reproduction and related device
US20100085363A1 (en) Photo Realistic Talking Head Creation, Content Creation, and Distribution System and Method
US20030163315A1 (en) Method and system for generating caricaturized talking heads
JP4761568B2 (en) Conversation support device
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
JP2014519082A5 (en)
CN111050023A (en) Video detection method and device, terminal equipment and storage medium
US20030085901A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
WO2009071795A1 (en) Automatic simultaneous interpretation system
CN112512649B (en) Techniques for providing audio and video effects
US20040068408A1 (en) Generating animation from visual and audio input
CN115578512A (en) Method, device and equipment for training and using generation model of voice broadcast video
CN117593473B (en) Method, apparatus and storage medium for generating motion image and video
CN112330579B (en) Video background replacement method, device, computer equipment and computer readable medium
CN117636897A (en) Digital human audio and video generation system
FR2749420A1 (en) METHOD AND DEVICE FOR FORMING MOVING IMAGES OF A CONTACT PERSON
FR2899097A1 (en) Hearing-impaired person helping system for understanding and learning oral language, has system transmitting sound data transcription to display device, to be displayed in field of person so that person observes movements and transcription
EP0056507A1 (en) Apparatus and method for creating visual images of lip movements

Legal Events

Date Code Title Description
TP Transmission of property
ST Notification of lapse

Effective date: 20060228