FR2908583A1

FR2908583A1 - Systeme d'interaction collaborative autour d'objets partages, par fusion d'images

Info

Publication number: FR2908583A1
Application number: FR0654847A
Authority: FR
Inventors: Dit Picard Stephane Louis; Arnaud Bouguet
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-11-10
Filing date: 2006-11-10
Publication date: 2008-05-16
Anticipated expiration: 2026-11-10
Also published as: FR2908583B1

Abstract

Système (10) d'interaction collaborative autour d'au moins un objet partagé, ledit système comprenant un moteur collaboratif (200) apte à fournir une image 2D dudit objet partagé.Selon l'invention, ledit système comprend en outre un dispositif (100) de représentation d'utilisateurs distants et un gestionnaire (300) de fusion de ladite image 2D de l'objet partagé avec une image fournie par ledit dispositif (100) de représentation des utilisateurs.Application aux services et aux applications de travail collaboratif assisté par ordinateur.

Description

SYSTEME D'INTERACTION COLLABORATIVE AUTOUR D'OBJETS PARTAGES, PAR FUSION

D'IMAGES La présente invention concerne un système d'interaction collaborative autour d'au moins un objet partagé. L'invention s'applique de manière particulièrement avantageuse, mais non exclusive, au domaine technique des systèmes de réalité virtuelle, dans le cadre des services ou d'applications de travail collaboratif assisté par ordinateur TCAO (ou CSCW pour "Computer Supported Cooperative Work"). L'invention peut être notamment utilisée par des équipes de développement réparties, comme dans le domaine de l'aéronautique ou de l'automobile, ces équipes travaillant autour de maquettes numériques à trois io dimensions (3D) fournies par CAO (Conception Assistée par Ordinateur). Toutefois, l'invention peut être également proposée à d'autres secteurs d'activité impliquant un travail en commun d'une pluralité de personnes, comme les réunions de conception de produits, les réunions d'équipes médicales, etc.

15 De même, l'invention s'étend à tout type d'objets partagés, en 3D voire 2D, tels que maquettes numériques, documents, applications, etc. D'une manière générale, on définit un Environnement Virtuel 3D (EV) comme étant une représentation numérique d'un environnement en 3D pouvant imiter, ou non, le monde réel et dans lequel il est possible d'interagir.

20 Par ailleurs, on désigne par Environnement Virtuel Collaboratif 3D (EVC) un Environnement Virtuel 3D permettant à plusieurs personnes de collaborer à distance en temps réel et/ou différé au moyen d'un terminal informatique relié à un réseau de télécommunication. Dans les EVC 3D, il est possible de représenter les utilisateurs sous forme d'avatars divers, tels que des clones 25 3D, ceci dans le but de faciliter la communication et permettre une collaboration plus aisée.

2908583 2 Dans l'état de la technique, on trouve des systèmes de collaboration synchrone permettant à des participants distants de travailler ensemble et en même temps autour d'objets partagés : objets virtuels 3D, documents 2D tels que textes, schémas, feuilles de calcul, présentations, etc.

5 En particulier, le système Multimedia Conference de la société France Télécom et son option de collaboration autour de maquettes numériques 3D est un exemple de système de collaboration synchrone basé sur le moteur collaboratif connu sous le nom de Spin-3D. Le moteur collaboratif Spin-3D est un Environnement Virtuel Collaboratif io (EVC) 3D synchrone permettant à plusieurs participants utilisateurs de collaborer en temps réel. On entend ici par collaboration synchrone la possibilité de disposer d'objets réellement partagés, modifiables par chacun des participants successivement ou simultanément. Le système s'appuie sur une architecture distribuée pour supporter la collaboration sur les objets 15 partagés. Chaque participant dispose d'une copie de chaque objet partagé, et dès lors qu'il opère une modification sur un tel objet depuis son poste local, les modifications réalisées sont automatiquement transmises aux postes distants des autres participants. Afin de faciliter l'interaction collaborative, Spin-3D permet, en plus de la 20 communication par le canal audio, de représenter les participants utilisateurs distants et leurs activités sous formes d'avatars 3D, ou de clones 3D réalistes, intégrés dans l'espace de travail collaboratif. Cet espace de travail collaboratif, appelé aussi scène, est composé par un module spécifique du moteur collaboratif désigné sous le nom de gestionnaire de scène. Ce module a pour 25 fonction de présenter aux participants les objets partagés dans une scène 3D homogène dans laquelle figurent leur avatar, ou clone, respectif. Le gestionnaire de scène communique avec une carte électronique, appelée classiquement carte 3D qui a pour fonction de transformer les informations 3D qui lui sont fournies en données 2D susceptibles d'être 30 affichées sur un écran. Cependant, même si les techniques de synthèse permettent de réaliser des modélisations et des animations réalistes, les avatars 3D ne permettent pas encore de reproduire fidèlement l'activité des participants. Or, on sait que 2908583 3 dans une communication interpersonnelle, le canal non verbal, lié à la gestuelle et au comportement du locuteur, reste très important et est difficilement reproduit aujourd'hui au niveau des avatars 3D. Il est aussi possible d'utiliser des vignettes vidéo ou des photos, 5 généralement limitées au visage des personnes, affichées dans un espace découplé de l'espace collaboratif, ce qui augmente ainsi l'effort cognitif à produire de la part des participants lors de la collaboration, ces derniers ayant beaucoup de difficultés à faire le lien entre les images fournies dans l'espace de communication et les actions effectuées dans l'espace de collaboration. io On connaît également un autre type de moteur collaboratif capable de fournir une image 2D d'un objet partagé, connu sous le nom de VNC ( Virtual Network Computing ). Il s'agit d'un ensemble logiciel installé dans une machine hôte fournissant un accès graphique à l'environnement d'une ou plusieurs machines distantes à travers un réseau de télécommunication ; on is parle d'outil de prise en main à distance des machines distantes par la machine hôte. Le fonctionnement de ce système est du type client/serveur : en particulier, toute action d'une machine cliente sur l'image 2D d'un objet est envoyée au serveur hébergeant le logiciel VNC, lequel interprète cette action et génère une nouvelle image qui est envoyée à toutes les machines clientes.

20 Avec l'outil VNC, il est très facile de rendre n'importe quelle application collaborative, que ce soit une application proprement bureautique comme Word ou Excel, ou une application de CAO comme CATIA. Le logiciel VNC est mis à disposition par la société AT&T. L'inconvénient d'un moteur collaboratif basé sur VNC réside dans la 25 lenteur des communications et dans le principe même de la prise en main par la machine hôte qui alourdit l'interactivité et la spontanéité de l'interaction. De plus, il est à noter que ce type d'application ne supporte aucun canal de communication. Il ne s'agit donc pas d'un système de collaboration au sens propre du terme, ceci du fait de l'absence de support de téléprésence. Pour 30 pouvoir parler véritablement de collaboration, il faudrait coupler ce type d'application avec un système de communication audio et/ou vidéo indépendant.

2908583 4 En résumé, si l'on souhaite actuellement réaliser un système d'interaction collaborative permettant de mettre en relation des participants distants tout en leur offrant la possibilité de travailler autour d'objets partagés, il est nécessaire d'utiliser un système de communication et un système de 5 collaboration de façon indépendante. Cela a pour conséquence de séparer l'espace de communication et l'espace d'interaction/collaboration, avec les limites que cela représente en terme de capacité cognitive des participants. Le but de l'invention est donc de proposer un système d'interaction collaborative autour d'au moins un objet partagé, ledit système comprenant un io moteur collaboratif apte à fournir une image 2D dudit objet partagé, qui permettrait de regrouper l'espace de communication et l'espace d'interaction et de collaboration sur les objets partagés 3D dans un même espace d'affichage homogène réduisant ainsi l'effort cognitif des participants. Ce but est atteint, conformément à l'invention, du fait que ledit système is comprend en outre un dispositif de représentation d'utilisateurs distants et des moyens de fusion de ladite image 2D de l'objet partagé avec une image fournie par ledit dispositif de représentation. Ainsi, par une représentation réelle ou virtuelle des participants dans l'espace de collaboration/interaction, l'effort cognitif à réaliser pour associer 20 une action effectuée sur l'objet partagé à l'auteur de l'action est grandement facilité par rapport aux techniques antérieures. Selon un premier mode de réalisation, ledit dispositif de représentation d'utilisateurs distants est un dispositif de visio-conférence. Il existe de nombreux dispositifs de visio-conférence permettant de 25 mettre en relation des participants distants afin qu'ils puissent communiquer de façon naturelle à travers un écran vidéo. Tous peuvent convenir à la mise en oeuvre de l'invention. Toutefois, selon un mode de réalisation préféré, ledit dispositif de visio-conférence est un mur de téléprésence. Le mur de téléprésence est un dispositif qui a été décrit notamment 30 dans la demande de brevet français n 2 761 562 de la société France Télécom. Ce dispositif présente la caractéristique d'éviter l'effet dit faux jeton en permettant à deux utilisateurs distants en situation de communication de se voir les yeux dans les yeux. Cette caractéristique est 2908583 5 particulièrement avantageuse dans le contexte de l'invention où, comme mentionné plus haut, les composantes non proprement verbales de la communication, telles que le regard, sont de première importance. De même, un mur de téléprésence donne une image sensiblement à l'échelle 1 des 5 participants, ce qui renforce encore l'impression de présence. Une version commerciale du mur de téléprésence est connue sous la marque RealMeet . Selon un deuxième mode de réalisation, ledit dispositif de représentation d'utilisateurs distants comprend un dispositif de représentation io par avatars. Il convient de préciser ici que, dans le cadre de l'invention, on entend de manière très large par avatar tout type de représentation d'un utilisateur, de la simple représentation symbolique, par un carré coloré par exemple, à la représentation réaliste sous forme par exemple d'avatar anthropomorphique 15 3D, connu sous le nom de clone 3D . Un avatar peut être animé ou non et associé éventuellement à un flux audio. Afin de réaliser la fusion de l'image de l'objet partagé dans l'image fournie par le dispositif de représentation des utilisateurs, l'invention prévoit un mode de réalisation dans lequel ledit gestionnaire de fusion comprend des 20 moyens d'incrustation en chrominance. Cette technique, connue également sous le nom de chroma keying , consiste à partir d'un objet présenté sur un fond uni d'une couleur, dite clé, à enlever le fond par sélection de couleurs pour le remplacer par un autre. Selon un mode de réalisation avantageux, ledit gestionnaire de fusion 25 comprend des moyens pour prendre en compte des modifications opérées sur l'image 2D dudit objet partagé. En particulier, ledit gestionnaire de fusion comprend des moyens de pondération d'images aptes à rendre ladite image 2D de l'objet partagé au moins partiellement transparente. Il est ainsi possible de modifier le coefficient de mélange entre les deux images. Dans ce cas, on 30 peut prévoir que lesdits moyens de pondération d'image utilisent la technique de mélange alpha pour obtenir une image 2D de l'objet partagé au moins partiellement transparente.

2908583 6 L'invention concerne en outre un procédé d'interaction collaborative autour d'au moins un objet partagé, remarquable en ce que ledit procédé comprend une opération de fusion d'une image 2D de l'objet partagé fournie par un moteur collaboratif avec une image fournie par un dispositif de 5 représentation d'utilisateurs distants. Enfin, l'invention concerne un programme d'ordinateur comprenant des instructions de programme pour la mise en oeuvre du procédé selon l'invention, lorsque ledit programme est exécuté par un ordinateur. La description qui va suivre en regard du dessin annexé, donné à titre io d'exemple non limitatif, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée. La figure 1 est un schéma d'un premier mode de réalisation d'un système d'interaction collaborative conforme à l'invention. La figure 2 est un schéma d'un deuxième mode de réalisation d'un 15 système d'interaction collaborative conforme à l'invention. Sur les figures 1 et 2 sont représentés deux modes de réalisation particuliers de l'invention. La figure 1 met en oeuvre un dispositif de visioconférence en tant que dispositif de représentation d'utilisateurs distants, tandis que sur la figure 2 cette fonction est réalisée par un dispositif de 20 représentation par avatars. De même, le système de la figure 1 est décrit en utilisant un EVC 3D synchrone comme moteur collaboratif, alors que le moteur collaboratif de la figure 2 est un système VNC. Il est bien entendu que l'invention n'est pas limitée à ces deux modes de réalisation particuliers et qu'elle s'étend à toute autre forme de réalisation 25 quels que soient le dispositif de représentation et le moteur collaboratif utilisés. Sur la figure 1 est représenté, sur un premier site A, un système 10 d'interaction collaborative d'un participant autour d'un objet partagé (non représenté) avec un autre participant sur un deuxième site B disposant d'un système 10' d'interaction collaborative qui peut être semblable au système 10 30 du participant sur le site A, sans que cela soit une obligation. Les systèmes 10 et 10' sont reliés entre eux par un réseau 20 de télécommunication. Naturellement, le nombre de sites concernés peut être supérieur à deux.

2908583 7 On rappelle que par objet on entend non seulement des objets 3D au sens propre ou virtuels, mais aussi des documents 2D : textes, schémas, feuilles de calcul, présentations, etc. Le système 10 de la figure 1 comprend un dispositif 100 de 5 visioconférence comme par exemple un mur de téléprésence tel que mentionné plus haut. Ce système 10 comporte également un module 400 de périphériques utilisateurs. L'acquisition des flux audio et vidéo est effectuée par un module 110 à partir de périphériques constituant le dispositif 420 de capture audio et le dispositif 410 de capture vidéo. io Dans le cadre du mur de téléprésence, la capture des flux vidéo est réalisée au moyen d'un système de miroirs semi-transparents permettant d'éviter l'effet "faux-jeton" cité plus haut. Cependant, des moyens de capture plus classiques, comme par exemple une camera analogique ou une webcam USB pour PC, peuvent également être utilisés. En outre, il faut is signaler que l'image issue du flux vidéo peut être enrichie ou modifiée à l'aide de techniques de traitement d'image, telles que détourage des personnes, suppression du fond, etc. En ce qui concerne le capture des flux audio, il est possible d'utiliser des moyens bon marché, comme de simples microphones, ou bien des 20 systèmes plus complexes permettant d'effectuer une capture sonore spatialisée augmentant la qualité du rendu sonore et le réalisme de la téléprésence lors de la visioconférence. En outre, les moyens de capture audio peuvent être équipés d'un système de contrôle d'écho afin d'éviter les effets de "Iarsen".

25 Les flux audio/vidéo ainsi capturés sont ensuite transmis à un étage 120 de compression ayant pour but de coder les données de façon à en réduire la quantité à transmettre sur le réseau. La compression généralement mise en oeuvre est destructive au sens où la qualité des signaux audio/vidéo est dégradée. Pour le canal vidéo, la compression peut être par exemple de type 30 H323, H261, H264 ou encore d'un type défini par le consortium MPEG (MPEG-1, MPEG-2, ou MPEG-4). Pour le canal audio, il est possible par exemple d'utiliser des systèmes de codage de type G711, G722, G723, G729 ou encore de type TDAC.

2908583 8 Les données audio/vidéo compressées issues l'étage 120 de compression sont alors envoyées sur le réseau au site B distant par un étage 130 d'émission. Afin de minimiser le surplus lié aux en-têtes IP ( overhead ), il est possible de multiplexer les données audio/vidéo dans un même flux de 5 données. Les flux de données sont généralement transportés via des protocoles réseau minimisant la latence, comme par exemple le protocole UDP/IP, protocole non fiable, contrairement à TCP/IP pour qui l'introduction de mécanismes de fiabilisation, d'ordonnancement et de congestion augmente la latence des données échangées. Il est également possible d'utiliser des io protocoles au-dessus d'UDP/IP, comme par exemple RTP/UDP/IP, le rôle principal de RTP ( Real-Time Transport Protocol ) consistant à mettre en oeuvre des numéros de séquence de paquets IP et des informations temporelles pour reconstituer de la meilleure façon les informations vidéo et audio, ceci même si le réseau sous-jacent change l'ordre des paquets ou 15 introduit de la gigue. En complément de RTP, il est possible d'utiliser le protocole RTCP ( Real-time Transfer Control Protocol ) qui permet d'envoyer de façon périodique des rapports sur la qualité de service QoS ( Quality of Service ) de façon à ce que l'émetteur puisse adapter les données envoyées.

20 Des opérations équivalentes sont également réalisées sur le site B qui émet alors des données audio/vidéo vers le site A, la réception s'effectuant par l'étage 140 de réception du système 100 de visio-conférence. Les données reçues sont alors démultipléxées si nécessaire puis décodées par l'étage 150 de décompression dont le décodeur doit être en accord avec le codeur utilisé 25 lors de la phase de codage décrite précédemment afin de fournir, d'une part, les données audio au module 170 et, d'autre part, les données vidéo au module 160. De même, un traitement équivalent est réalisé sur le site B de façon à récupérer le signal audio et l'image vidéo provenant du site A. Les données audio issues du module 170 sont envoyées à un module 320 de 30 rendu sonore, lequel peut être un simple dispositif à haut-parleur unique ou un système plus évolué capable de reproduire la spatialisation du son, augmentant ainsi le sentiment de téléprésence dans la visioconférence, comme un dispositif à n haut-parleurs distribués le long du dispositif 310 2908583 9 d'affichage d'une scène 2D. La manière dont est constituée cette scène 2D sera expliquée en détail ci-après. Les fonctions de collaboration et d'interaction du système 10 sont assurées par un moteur collaboratif 200 qui, dans l'exemple de la figure 1, est 5 un système EVC du type Spin-3D. Des périphériques 400 d'entrée permettent, d'une part, de manipuler le moteur collaboratif 200 et l'objet partagé dans une scène 3D composée par le système EVC, et d'autre part, de modifier dynamiquement, via un gestionnaire 300 de fusion qui sera décrit plus loin, l'agencement, en position et io transparence notamment, de l'image 2D issue du moteur collaboratif 200 par rapport à l'image vidéo issue de la visioconférence. Par exemple, Spin-3D utilise deux périphériques : - un périphérique isotonique 430, telle qu'une souris, destiné à la sélection/désignation, il permet notamment de déplacer un pointeur dans la 15 scène, - un périphérique isométrique 450, telle qu'une souris 3D ( SpaceMouse commercialisée par la société 3Dconnexion ), pour la manipulation en rotation/translation de l'objet 3D sélectionné. Pour agir sur les objets partagés, on peut imaginer également 20 l'utilisation de périphériques classiques, comme un clavier 440, ou plus évolués, fonctionnant par analyse de gestes et de parole au moyen des dispositifs de capture audio 420 et vidéo 410 et via le module 210 de reconnaissance gestuelle et/ou vocale, représentés sur la figure 1. Les différentes manipulations effectuées par les participants sur les 25 périphériques 400 d'entrée sont ensuite converties en actions sur les objets 3D, partagés ou non, par un module 220 de conversion, ainsi que le montre la figure 1. Pour cela, le système d'interaction de Spin-3D repose sur un mécanisme à trois phases : - une phase de sélection permettant à l'utilisateur de pointer via son pointeur 30 l'objet 3D, ou une sous-partie, qu'il souhaite manipuler. Après avoir cliqué, l'objet 3D, ou la sous-partie, est alors sélectionné. Cette phase utilise le périphérique isotonique. 2908583 i0 - une fois l'objet 3D, ou la sous-partie, sélectionné, un capteur d'interaction qui lui est associé est activé de façon à ce que lors de la phase de manipulation, l'utilisateur participant agit sur l'objet, ou la sous-partie, sélectionné via le capteur d'interaction. Cette phase utilise le périphérique isométrique. 5 - une phase de désélection permettant à l'utilisateur participant de désélectionner l'objet 3D, ou la sous-partie, sélectionné lors de la première phase. La désélection s'effectue par un simple clic sur le périphérique isotonique. Pour faciliter l'interaction, notamment lors de la phase de sélection, io Spin-3D propose un mécanisme de boîtes englobantes progressives qui est fonction de la distance entre le pointeur de l'utilisateur et l'objet 3D. De plus, comme le montre la figure 1, Spin-3D prévoit un gestionnaire 230 de collaboration en charge de gérer la collaboration sur le(s) objet(s) partagé(s) présent(s) dans la scène : 15 - d'une part, il permet d'assurer qu'un seul participant à la fois ne manipule un objet 3D partagé, ou sous-partie. Pour cela, un mécanisme de verrouillage par jeton est mis en place : à chaque objet 3D partagé, on associe un unique jeton et seul l'utilisateur participant possédant le jeton est en droit de manipuler l'objet 3D qui lui est associé. L'acquisition et le verrouillage du jeton sont 20 effectués lors de la phase de sélection, tandis que le déverrouillage du jeton est réalisé lors de la phase de désélection. Ainsi, la manipulation par le participant détenteur du jeton se trouve protégée lors de la phase de manipulation du système d'interaction. - d'autre part, il permet de maintenir la cohérence des objets partagés. Les 25 différentes actions réalisées sur les capteurs d'interaction sont transmises au site distant de façon à ce que les modifications opérées localement sur un capteur d'interaction soient également reproduites sur le site distant. Pour cela, le moteur collaboratif 200 embarque une plate-forme de communication utilisant le réseau 20 de télécommunication.

30 Dans le cas d'un système EVC, comme Spin-3D, le moteur collaboratif 200 comprend un gestionnaire 250 de scène 3D montré sur la figure 1, permettant de présenter dans une scène homogène les objets 3D partagés aux utilisateurs participants. La scène peut être assimilée à celle définie dans 2908583 Il le standard VRML97. Lors de la conception des objets 3D présents dans la scène, des capteurs d'interaction, définis sous le terme de sensors dans la norme VRML97, sont placés sur chacun des objets 3D ou sur des sous-parties composant ces objets. Les différents périphériques 400 d'entrée permettent 5 aux utilisateurs d'agir sur le(s) objets(s) 3D. De même, le concepteur des objets a en charge de définir les différentes actions qu'il souhaite voir partagées, c'est à dire que si un utilisateur manipule l'objet 3D, alors les modifications qui en résultent sont répercutées chez les participants distants ( Plate-forme de communication io distribuée pour les Environnements Virtuels Collaboratifs 3D à fort couplage d'activité synchrone , Stéphane Louis dit Picard, Thèse de l'Université de Lille 1, novembre 2003). On rappelle qu'il n'est pas possible à deux utilisateurs d'agir en même temps sur un même capteur d'interaction, cependant des actions simultanées 15 sur deux capteurs d'interaction différents d'un même objet 3D restent possible, par exemple deux utilisateurs peuvent manipuler chacun une bague différente d'un appareil photo en 3D. Par ailleurs, le fichier de configuration du gestionnaire de scène est paramétré de manière à fournir une image dans laquelle l'objet 3D partagé est 20 représenté sur un fond de couleur uniforme, appelée couleur clé, vert par exemple, en application de la technique connue sous le nom d'incrustation en chrominance ou chroma keying . Une carte électronique (non représentée), connue sous le nom de carte 3D , permet, de manière classique, de transformer les informations 25 3D fournies par le gestionnaire de scène du moteur collaboratif 200 en données 2D susceptibles d'être affichées sur un écran 310. Un tel dispositif 310 d'affichage peut être un dispositif usuel comme un écran d'ordinateur, ou plus évolué comme le mur de téléprésence mentionné plus haut. Le langage utilisé pour établir le dialogue entre le gestionnaire de scène 30 et la carte 3D est par exemple OpenGL ou DirectX . En définitive, c'est donc une image 2D sur un fond uniforme de l'objet partagé qui est envoyée du moteur collaboratif 200 à un gestionnaire 300 de fusion qui va maintenant être décrit en détail. Cette image 2D sur fond 2908583 12 uniforme peut être aussi produite par le serveur hôte d'un système VNC et envoyée aux machines clientes des différents participants. Outre l'image fournie par le moteur collaboratif 200, le gestionnaire 300 de fusion reçoit également l'image vidéo des participants fournie par le module 5 vidéo 160 du système 100 de visioconférence. Le gestionnaire 300 de fusion crée alors une image résultant du mixage de ces deux images selon un agencement en position, orientation et transparence, déterminé automatiquement ou à partir de directives imposées par les participants utilisateurs au moyen des périphériques 400 d'entrée, comme l'indique la figure 1. La technique de fusion utilisée consiste : - à appliquer une transformation de façon à agencer en position et en rotation l'image issue du moteur collaboratif par rapport à l'image vidéo, - à remplacer les pixels de l'image issue du moteur collaboratif dont la couleur est égale à la couleur clé par les pixels de l'image vidéo, conformément à la technique chroma keying , - à appliquer aux pixels de l'image issue du moteur collaboratif dont la couleur n'est pas égale à la couleur clé une technique de mélange pondéré entre l'image vidéo et l'image du moteur collaboratif, appelée mélange alpha ou alpha blending , en utilisant la formule suivante : pixel (image fusionnée) = (1-alpha) *pixel (visio) +alpha *pixel(moteur collaboratif) avec 0<_alpha<_1 (0 : objet complètement transparent, 1 : objet complètement opaque) Le coefficient d < alpha blending peut être modifié automatiquement ou par les participants ; il permet donc de pondérer l'image issue de la visioconférence et l'image issue du moteur collaboratif afin d'afficher plus ou moins distinctement, voire même de masquer, l'image visio ou celle du moteur collaboratif. On notera qu'en plus des images issues de la visioconférence et des images issues du moteur collaboratif, le gestionnaire 300 de fusion pourrait aussi intégrer des images issues d'autres applications, comme Word par 2908583 13 exemple. Ces applications ne sont pas partagées et restent propres à chaque site. Sur la figure 2 est représenté un schéma d'un système d'interaction collaborative dans lequel le moteur collaboratif 201 est un système de type 5 VNC, le dispositif 101 de représentation des utilisateurs distants comprend un dispositif 600 de représentation par avatars 3D animés auquel est associé un module audio 500. Dans ce mode de réalisation, l'EVC Spin-3D joue le rôle de plate-forme pour une communication par avatars interposés. Il s'agit d'une utilisation 10 dégradée de Spin-3D, puisqu'elle ne met en oeuvre aucune collaboration autour d'objets 3D. Spin-3D se charge de la mise en relation des sites, du chargement de chaque avatar, de son affichage et de son animation (voir l'article Virtual Human Animations in a Collaborative Virtual Environments , de A. Bouguet, D. Pavy, P. Le Mer, S. Louis dit Picard, L. Perron et G. Saugis, 15 dans Proceedings of Collabtech 2005, Tokyo, Japon, juillet 2005). Chaque utilisateur est représenté par un avatar de son choix, spécifié dans un fichier de configuration. Le fichier de configuration contient également toutes les informations qui permettent l'animation de l'avatar, parmi les quelles onpeut trouver les paramètres faciaux et corporels ou encore une référence vers une 20 bibliothèque de mouvements préenregistrés. L'acquisition du flux audio est effectuée par le module 510 à partir du dispositif 420 de capture audio, la vidéo n'étant pas utilisée ici. Les flux audio sont transmis à l'étage 520 de compression, puis envoyés sur le réseau 20 de télécommunication au site B distant par l'étage 530 d'émission. Des opérations 25 équivalentes sont également réalisées sur le site B qui émet des données audio vers le site A. La réception s'effectue sur le site A à l'étage 540, puis les données sont décompressées à l'étage 550, et enfin fournies au module 560. De même, un traitement équivalent est réalisé sur le site B de façon à récupérer le signal audio provenant du site A.

30 Les données audio issues du module 560 sont envoyées au module 320 de rendu sonore. On notera que le périphérique audio 410 peut être utilisé par le module 610 d'acquisition audio qui sera décrit ci-dessous de manière à faire labialiser l'avatar.

2908583 14 L'animation des avatars sur chacun des sites va maintenant être expliquée en détail en référence au module 600. Cette animation peut se faire par l'analyse d'indices intentionnels ou non de l'utilisateur. Dans le cas de l'EVC SPIN-3D, le dispositif de 5 représentation de l'utilisateur comprend sur chacun des sites un étage 610 d'acquisition, un étage 620 de traitement de l'information, un étage 630 d'envoi à distance des paramètres d'animations, un étage 640 de réception des informations, un étage 650 de traitement des informations et un étage 660 d'animation de l'avatar.

10 L'étage 610 d'acquisition prend en compte les informations en provenance de l'utilisateur par le biais des périphériques 400. Cela inclut notamment des actions sur un clavier 440, des mouvements de souris 430, des mouvements derrière une caméra 410 (voir l'article de O. Bernier "Real-Time 3D Articulated Pose Tracking using Particle Filters Interacting through 15 Belief Propagation", Int. Conf. Pattern Recognition, Hong Kong, August 20-24, 2006.) ou encore des informations audio provenant du dispositif 420 de capture audio. Les données ainsi recueillies sont analysées par l'étage 620 de traitement. Cette analyse est possible grâce à une définition préalable de 20 règles d'interprétation des informations. Ces règles d'interprétation peuvent également tenir compte de l'historique et du contexte courant de la scène, comme, par exemple, si une animation est en cours d'exécution. Les paramètres d'animation obtenus sont du type : émotion faciale à restituer, éventuel objet de la scène à désigner avec le bras, animation de la 25 bibliothèque à jouer ou encore une nouvelle position où se rendre. Les paramètres sont ensuite envoyés sur le site B par l'étage 630 de transmission. Le même traitement est réalisé sur le site B et les informations sont envoyées sur le site A. Sur le site A, l'étage 640 de réception récupère les informations 30 envoyées par le site distant B. Ces informations sont éventuellement traitées ou adaptées par l'étage 650 de traitement et transmises à l'étage 660 d'animation qui est capable de calculer la nouvelle animation à donner à l'avatar.

2908583 15 Le fichier de configuration du gestionnaire de scène de Spin-3D est paramétré de manière à fournir une image dans laquelle les avatars sont représentés sur un fond de couleur uniforme, la couleur clé, en application de la technique d'incrustation en chrominance. La carte 3D transforme les 5 informations 3D fournies par le gestionnaire de scène de Spin-3D en données 2D. Ces données 2D sont envoyées au gestionnaire 300 de fusion comme dans le cas précédent. 10

Claims

REVENDICATIONS

1. Système (10 ; 11) d'interaction collaborative autour d'au moins un objet partagé, ledit système comprenant un moteur collaboratif (200 ; 201) apte à fournir une image 2D dudit objet partagé, caractérisé en ce que ledit système comprend en outre un dispositif (100 ; 101) de représentation d'utilisateurs distants et un gestionnaire (300) de fusion de ladite image 2D de l'objet Io partagé avec une image fournie par ledit dispositif (100 ; 101) de représentation.

2. Système selon la revendication 1, dans lequel ledit dispositif de représentation d'utilisateurs distants est un dispositif (100) de visio-conférence.

3. Système selon la revendication 2, dans lequel ledit dispositif de visio- 15 conférence (100) est un mur de téléprésence.

4. Système selon la revendication 1, dans lequel ledit dispositif de représentation (101) d'utilisateurs distants comprend un dispositif (600) de représentation par avatars.

5. Système selon l'une quelconque des revendications 1 à 4, dans lequel ledit 20 gestionnaire (300) de fusion comprend des moyens d'incrustation en chrominance.

6. Système selon l'une quelconque des revendications 1 à 5, dans lequel ledit gestionnaire (300) de fusion comprend des moyens pour prendre en compte des modifications opérées sur l'image 2D dudit objet partagé 25

7. Système selon la revendication 6, dans lequel ledit gestionnaire (300) de fusion comprend des moyens de pondération d'images aptes à rendre ladite image 2D de l'objet partagé au moins partiellement transparente.

8. Système selon la revendication 7, dans lequel lesdits moyens de pondération d'image utilisent la technique de mélange alpha pour obtenir une 30 image 2D de l'objet partagé au moins partiellement transparente. 2908583 17

9. Système selon l'une quelconque des revendications 1 à 8, dans lequel ledit moteur collaboratif (200) est un système à environnement virtuel collaboratif (EVC).

10. Système selon l'une quelconque des revendications 1 à 8, dans lequel ledit 5 moteur collaboratif (201) est un système VNC.

11. Procédé d'interaction collaborative autour d'au moins un objet partagé, caractérisé en ce que ledit procédé comprend une opération de fusion d'une image 2D de l'objet partagé fournie par un moteur collaboratif (200 ; 201) avec une image fournie par un dispositif (100 ; 101) de représentation d'utilisateurs lo distants.

12. Programme d'ordinateur comprenant des instructions de programme pour la mise en oeuvre du procédé selon la revendication 11, lorsque ledit programme est exécuté par un ordinateur. 15