Une méthode de détourage en temps réel d'une entité réelle enregistrée dans une séquence vidéo [0001] DOMAINE DE L'INVENTION [0002] Un aspect de l'invention concerne une méthode de détourage en temps réel d'une entité réelle enregistrée dans une séquence vidéo, et plus particulièrement le détourage en temps réel d'une partie du corps d'un utilisateur dans une séquence vidéo en utilisant la partie du corps correspondante d'un avatar. Une telle méthode trouve une application particulière et non exclusive dans le domaine de la réalité virtuelle, en particulier l'animation d'un avatar dans un environnement dit virtuel ou dit de réalité mixte. [0003] ETAT DE LA TECHNIQUE ANTERIEURE [0004] La Figure 1 représente un exemple d'application de réalité virtuelle dans le cadre d'un système multimédia, par exemple de vidéoconférence ou de jeux en ligne. Le système multimédia 1 comporte plusieurs dispositifs multimédia 3, 12, 14, 16 connectés à un réseau de télécommunication 9 permettant la transmission de données et un serveur distant d'application 10. Dans un tel système multimédia 1, les utilisateurs 2, 11, 13, 15 des dispositifs multimédia 3, 12, 14, 16 respectifs peuvent interagir dans un environnement virtuel ou un environnement de réalité mixte 20 (représenté à la Figure 2). Le serveur distant d'application 10 peut gérer l'environnement virtuel ou de réalité mixte 20. Typiquement, le dispositif multimédia 3 comporte un processeur 4, une mémoire 5, un module de connexion 6 au réseau de télécommunication 9, des moyens d'affichage et d'interaction 7, et une caméra 8 par exemple une webcam. Les autres dispositifs multimédia 12, 14, 16 sont équivalents au dispositif multimédia 3 et ne seront pas décrits plus en détails. [0005] La Figure 2 illustre un environnement virtuel ou de réalité mixte 20 dans lequel évolue un avatar 21. L'environnement virtuel ou de réalité mixte 20 est une représentation graphique imitant un monde dans lequel les utilisateurs 2, 11, 13, 15 peuvent évoluer, interagir, et/ou collaborer, etc .... Dans l'environnement virtuel ou de réalité mixte 20, chaque utilisateur 2, 11, 13, 16 est représenté par son avatar 21, c'est-à-dire une représentation graphique virtuelle d'un être humain. Dans l'application précitée, il est intéressant de mixer en temps réel la tête 22 de l'avatar avec une vidéo de la tête de l'utilisateur 2, 11, 13 ou 15 prise par la caméra 8, ou en d'autres termes de substituer la tête de l'utilisateur 2, 11, 13 ou 15 à la tête 22 de l'avatar 21 correspondant d'une manière dynamique ou en temps réel. On entend par dynamique ou en temps réel, le fait de reproduire les mouvements, postures, apparences réels de la tête de l'utilisateur 2, 11, 13 ou 15 se trouvant devant son dispositif multimédia 3, 12, 14, 16 de manière synchrone ou quasi-synchrone sur la tête 22 de l'avatar 21. On entend par vidéo une séquence visuelle ou audiovisuelle comportant une succession d'image. [0006] Cependant, détourer la tête issue de la vidéo de l'utilisateur prise par la caméra à un instant donné, l'en extraire, puis la coller sur la tête de l'avatar et répéter cette séquence à des instants ultérieurs est une opération délicate et couteuse lorsqu'un rendu réel est recherché. D'une part, les algorithmes de reconnaissance de contour nécessitent une image vidéo bien contrastée. Ceci peut être obtenu en studio avec un éclairage ad hoc. A contrario, ceci n'est pas toujours possible avec une caméra de type webcam et/ou dans l'environnement lumineux d'une pièce d'un bâtiment à usage d'habitation ou de bureau. D'autre part, les algorithmes de reconnaissance de contour nécessitent une puissance de calcul importante de la part du processeur. De manière générale, une telle puissance de calcul n'est pas actuellement disponible sur les dispositifs multimédias standards tels que des ordinateurs personnels, des ordinateurs portables, des assistants personnels (de l'anglais "Personal Digital Assistant PDA") ou des téléphones intelligents (de l'anglais "smartphone"). [0007] Par conséquent, il existe un besoin pour une méthode de détourage en temps réel d'une partie du corps d'un utilisateur dans une vidéo en utilisant la partie du corps correspondante d'un avatar avec une qualité suffisante propre à procurer un sentiment d'immersion dans l'environnement virtuel et pouvant être mise en oeuvre avec les dispositifs multimédia standards précités. [0008] EXPOSE DE L'INVENTION [0009] Un but de l'invention est de proposer une méthode de détourage en temps réel d'une zone d'une vidéo, et plus particulièrement le détourage en temps réel d'une partie du corps d'un utilisateur dans une vidéo en utilisant la partie du corps correspondante d'un avatar remédiant à au moins un des inconvénients de l'art antérieur. [0010] Selon un premier aspect, l'invention concerne une méthode de détourage en temps réel d'une entité réelle en mouvement dans un environnement réel enregistrée dans une séquence vidéo, l'entité réelle étant associée à une entité virtuelle, la méthode comportant les étapes: - extraction à partir de la séquence vidéo d'une image comportant l'entité réelle enregistrée, - détermination d'une échelle et/ou d'une orientation de l'entité réelle à partir de l'image comportant l'entité réelle enregistrée, - transformation propre à mettre à l'échelle, orienter et positionner d'une manière sensiblement identique l'entité virtuelle et l'entité réelle enregistrée, et - substitution de l'entité virtuelle par une image détourée de l'entité réelle, l'image détourée de l'entité réelle étant une zone de l'image comportant l'entité réelle enregistrée délimitée par un contour de l'entité virtuelle. [0011] Selon un mode de réalisation de l'invention, l'entité réelle peut être une partie du corps d'un utilisateur, l'entité virtuelle peut être la partie du corps correspondante d'un avatar destinée à reproduire une apparence de la partie du corps de l'utilisateur, et la méthode comporte les étapes: - extraction à partir de la séquence vidéo d'une image comportant la partie du corps de l'utilisateur enregistrée, - détermination d'une orientation et d'une échelle de la partie du corps de l'utilisateur dans l'image comportant la partie du corps de l'utilisateur enregistrée, - orientation et mise à l'échelle de la partie du corps de l'avatar d'une manière sensiblement identique à celle de la partie du corps de l'utilisateur, et - utilisation d'un contour de la partie du corps de l'avatar pour former une image détourée de l'image comportant la partie du corps de l'utilisateur enregistrée, l'image détourée étant limitée à une zone de l'image comportant la partie du corps de l'utilisateur enregistrée contenue dans le contour. [0012] La méthode peut en outre comporter une étape de fusion de la partie du corps de l'avatar avec l'image détourée. [0013] Selon un autre mode de réalisation de l'invention, l'entité réelle peut être une partie du corps d'un utilisateur, et l'entité virtuelle peut être la partie du corps correspondante d'un avatar destinée à reproduire une apparence de la partie du corps de l'utilisateur, la méthode comporte les étapes: - extraction à partir de la séquence vidéo d'une image comportant la partie du corps de l'utilisateur enregistrée, - détermination d'une orientation de la partie du corps de l'utilisateur à partir de l'image comportant la partie du corps de l'utilisateur, - orientation de la partie du corps de l'avatar d'une manière sensiblement identique à celle de l'image comportant la partie du corps de l'utilisateur enregistrée, - translation et mise à l'échelle de l'image comportant la partie du corps de l'utilisateur enregistrée pour l'aligner avec la partie du corps correspondante de l'avatar orientée, - dessin d'une image de l'environnement virtuel dans laquelle une zone détourée délimitée par un contour de la partie du corps de l'avatar orientée est codée par une absence de pixels ou des pixels transparents; et - superposition de l'image de l'environnement virtuel à l'image comportant la partie du corps de l'utilisateur translatée et mise à l'échelle. [0014] L'étape de détermination de l'orientation et/ou de l'échelle de l'image comportant la partie du corps de l'utilisateur enregistrée peut être réalisée par une fonction de suivie de tête appliquée à ladite image. [0015] Les étapes d'orientation et mise à l'échelle, d'extraction du contour, et de fusion peuvent prendre en compte des points ou zones remarquables de la partie du corps de l'avatar ou de l'utilisateur. [0016] La partie du corps de l'avatar peut être une représentation tridimensionnelle de ladite partie du corps de l'avatar. [0017] La méthode de détourage peut en outre comporter une étape d'initialisation consistant à modeler la représentation tridimensionnelle de la partie du corps de l'avatar conformément à la partie du corps de l'utilisateur dont l'apparence doit être reproduite. [0018] La partie du corps peut être la tête de l'utilisateur ou de l'avatar. [0019] Selon un autre aspect, l'invention concerne un système multimédia comportant un processeur mettant en oeuvre la méthode de détourage selon l'invention. [0020] Selon encore un autre aspect, l'invention concerne un produit programme d'ordinateur destiné à être chargé dans une mémoire d'un système multimédia, le produit programme d'ordinateur comportant des portions de code de logiciel mettant en oeuvre la méthode de détourage selon l'invention lorsque le programme est exécuté par un processeur du système multimédia. [0021] L'invention permet de détourer efficacement des zones représentant une entité dans une séquence vidéo. L'invention permet aussi de fusionner en temps réel un avatar et une séquence vidéo avec une qualité suffisante propre à procurer un sentiment d'immersion dans un environnement virtuel. La méthode de l'invention consomme peu de ressources du processeur et utilise des fonctions généralement codées dans les cartes graphiques. Elle peut donc être mise en oeuvre avec les dispositifs multimédia standards tels que des ordinateurs personnels, des ordinateurs portables, des assistants personnels ou des téléphones intelligents. Elle peut utiliser des images peu contrastées ou présentant des défauts issues de caméra du type webcam. [0022] D'autres avantages ressortiront de la description détaillée de l'invention qui va suivre. [0023] BREVE DESCRIPTION DES FIGURES [0024] La présente invention est illustrée par des exemples non limitatifs sur les Figures jointes, dans lesquelles des références identiques indiquent des éléments similaires: • La Figure 1 représente une application de réalité virtuelle dans le cadre d'un système multimédia de vidéoconférence ou de jeux en ligne; • La Figure 2 illustre un environnement virtuel ou de réalité mixte dans lequel évolue un avatar; • Les Figures 3A et 3B sont un diagramme fonctionnel illustrant un mode de réalisation de la méthode de détourage en temps réel d'une tête d'un utilisateur enregistrée dans une séquence vidéo selon l'invention; et • Les Figures 4A et 4Bsont un diagramme fonctionnel illustrant un autre mode de réalisation de la méthode de détourage en temps réel d'une tête d'un utilisateur enregistrée dans une séquence vidéo selon l'invention. [0025] DESCRIPTION DETAILEE DE L'INVENTION [0026] Les Figures 3A et 3B sont un diagramme fonctionnel illustrant un mode de réalisation de la méthode de détourage en temps réel d'une tête d'un utilisateur enregistrée dans une séquence vidéo. [0027] Lors d'une première étape S1, à un instant donné une image 31 est extraite EXTR de la séquence vidéo 30 de l'utilisateur. On entend par séquence vidéo une succession d'images enregistrée par exemple par la caméra (voir Figure 1). [0028] Lors d'une deuxième étape S2, une fonction de suivi de tête HTFunc est appliquée à l'image 31 extraite. La fonction de suivi de tête permet de déterminer l'échelle E et l'orientation O de la tête de l'utilisateur. Elle utilise la position remarquable de certains points ou zones du visage 32, par exemple les yeux, les sourcils, le nez, les joues, le menton. Une telle fonction de suivi de tête (de l'anglais "head tracker function") peut être mise en oeuvre par l'application logicielle "faceAPl" commercialisée par la société Seeing Machines. [0029] Lors d'une troisième étape S3, une tête d'avatar tridimensionnelle 33 est orientée ORI et mise à l'échelle ECH d'une manière sensiblement identique à celle de la tête de l'image extraite en se basant sur l'orientation O et l'échelle E déterminées. Il en résulte une tête d'avatar tridimensionnelle 34 de taille et d'orientation conforme à l'image de la tête extraite 31. Cette étape utilise des algorithmes standards de rotation et de mise à l'échelle. [0030] Lors d'une quatrième étape S4, la tête de l'avatar tridimensionnelle 34 de taille et d'orientation conforme à l'image de la tête extraite est positionnée POSI comme la tête dans l'image extraite 31. Il est en résulte un positionnement identique 35 des deux têtes par rapport à l'image. Cette étape utilise des fonctions de translation standards, les translations prenant en compte des points ou zones remarquables du visage, comme les yeux, les sourcils, le nez, les joues, et/ou le menton ainsi que les points remarquables codés pour la tête d'avatar. [0031] Lors d'une cinquième étape S5, la tête de l'avatar tridimensionnelle positionnée 35 est projetée PROJ sur un plan. Une fonction de projection sur un plan standard, par exemple une matrice de transformation peut être utilisée. Ensuite, seuls les pixels de l'image extraite 31 se trouvant à l'intérieur du contour 36 de la tête de l'avatar tridimensionnelle projeté sont sélectionnés PIX SEL et conservés. Une fonction ET standard peut être utilisée. Cette sélection de pixels forment une image de tête détourée 37, fonction de la tête projetée de l'avatar et de l'image résultant de la séquence vidéo à l'instant donné. [0032] Lors d'une sixième étape S6, l'image de tête détourée 37 peut être positionnée, appliquée et substituée SUB à la tête 22 de l'avatar 21 évoluant dans l'environnement virtuel ou de réalité mixte 20. De cette façon, l'avatar présente dans l'environnement virtuel ou l'environnement de réalité mixte la tête réelle de l'utilisateur se trouvant devant son dispositif multimédia sensiblement au même instant donné. Selon ce mode, comme l'image de tête détourée est plaquée sur la tête de l'avatar, les éléments de l'avatar, par exemple les cheveux, sont recouverts par l'image de tête détourée 37. [0033] A titre d'alternative, l'étape S6 peut être considérée comme optionnelle lorsque la méthode de détourage est utilisée pour filtrer une séquence vidéo et n'en extraire que le visage de l'utilisateur. Dans ce cas aucune image d'un environnement virtuel ou de réalité mixte n'est affichée. [0034] Les Figures 4A et 4B sont un diagramme fonctionnel illustrant un autre mode de réalisation de la méthode de détourage en temps réel d'une tête d'un utilisateur enregistrée dans une séquence vidéo. Dans ce mode de réalisation, la zone de la tête de l'avatar 22 correspondant au visage est codée de manière spécifique dans le modèle de tête d'avatar tridimensionnel. Il peut s'agir par exemple de l'absence des pixels correspondants ou de pixels transparents. [0035] Lors d'une première étape S1A, à un instant donné une image 31 est extraite EXTR de la séquence vidéo 30 de l'utilisateur. [0036] Lors d'une deuxième étape S2A, une fonction de suivi de tête HTFunc est appliquée à l'image 31 extraite. La fonction de suivi de tête permet de déterminer l'orientation O de la tête de l'utilisateur. Elle utilise la position remarquable de certains points ou zones du visage 32, par exemple les yeux, les sourcils, le nez, les joues, le menton. Une telle fonction de suivi de tête (de l'anglais "head tracker function") peut être mise en oeuvre par l'application logicielle "faceAPI" commercialisée par la société Seeing Machines. [0037] Lors d'une troisième étape S3A, l'environnement virtuel ou de réalité mixte 20 dans lequel évolue l'avatar 21 est calculé et une tête d'avatar tridimensionnelle 33 est orientée ORI d'une manière sensiblement identique à celle de la tête de l'image extraite en se basant sur l'orientation O déterminée. Il en résulte une tête d'avatar tridimensionnelle 34A d'orientation conforme à l'image de la tête extraite 31. Cette étape utilise un algorithme standard de rotation. [0038] Lors d'une quatrième étape S4A, l'image 31 extraite de la séquence vidéo est positionnée POST et mise à l'échelle ECH comme la tête de l'avatar tridimensionnelle 34A dans l'environnement virtuel ou de réalité mixte 20. Il est en résulte un alignement de l'image extraite de la séquence vidéo 38 et de la tête de l'avatar dans l'environnement virtuel ou de réalité mixte 20. Cette étape utilise des fonctions de translation standards, les translations prenant en compte des points ou zones remarquables du visage, comme les yeux, les sourcils, le nez, les joues, et/ou le menton ainsi que les points remarquables codés pour la tête d'avatar. [0039] Lors d'une cinquième étape S5A, l'image de l'environnement virtuel ou de réalité mixte 20 dans lequel évolue l'avatar 21 est dessinée en prenant soin de ne pas dessiner les pixels qui se trouvent derrière la zone de la tête de l'avatar 22 correspondant au visage orienté, ces pixels étant facilement identifiable grâce au codage spécifique de la zone de la tête de l'avatar 22 correspondant au visage et par une simple projection. [0040] Lors d'une sixième étape S6A, l'image de l'environnement virtuel ou de réalité mixte 20 et l'image extraite de la séquence vidéo comportant la tête de l'utilisateur translatée et mise à l'échelle 38 sont superposées SUP. Alternativement, les pixels de l'image extraite de la séquence vidéo comportant la tête de l'utilisateur translatée et mise à l'échelle 38 derrières la zone de la tête de l'avatar 22 correspondant au visage orienté sont intégrés dans l'image virtuelle à la profondeur du plus profond des pixels du visage orienté de l'avatar. [0041] De cette façon, l'avatar présente dans l'environnement virtuel ou l'environnement de réalité mixte le visage réel de l'utilisateur se trouvant devant son dispositif multimédia sensiblement au même instant donné. Selon ce mode, comme l'image de l'environnement virtuel ou de réalité mixte 20 comportant le visage de l'avatar détouré est superposée à l'image de la tête de l'utilisateur translatée et mise à l'échelle 38, les éléments de l'avatar, par exemple les cheveux, sont visibles et recouvre l'image de l'utilisateur. [0042] La tête d'avatar tridimensionnelle 33 est issue d'un modèle numérique à trois dimensions. Elle est simple et rapide à calculer quelque soit l'orientation et la taille de la tête d'avatar tridimensionnelle pour des dispositifs multimédias standards. Il en va de même pour sa projection sur un plan. Ainsi, l'ensemble de la séquence donne un résultat qualitatif même avec un processeur standard. [0043] La séquence d'étapes S1 à S6 ou S1A à S6A peut ensuite être réitérée pour des instants ultérieurs. [0044] D'une manière optionnelle, une étape d'initialisation (non représentée) peut être effectuée une seule fois avant la mise en oeuvre des séquences S1 à S6 ou S1A à S6A. Lors de l'étape d'initialisation, une tête d'avatar tridimensionnelle est modelée selon la tête de l'utilisateur. Cette étape peut être réalisée manuellement ou automatiquement à partir d'une image ou de plusieurs images de la tête de l'utilisateur prise sous différents angles. Cette étape permet de distinguer de manière précise la silhouette de la tête d'avatar tridimensionnelle qui sera la plus adaptée à la méthode de détourage en temps réel selon l'invention. L'adaptation de l'avatar à la tête de l'utilisateur sur la base d'une photo peut être réalisée par l'intermédiaire d'une application logicielle telle que par exemple "FaceShop" commercialisée par la société Abalone. [0045] Les Figures et leurs descriptions faites ci-dessus illustrent l'invention plutôt qu'elles ne la limitent. En particulier, l'invention vient d'être décrite en relation avec un exemple particulier d'application à la vidéoconférence ou aux jeux en ligne. Néanmoins, il est évident pour un homme du métier que l'invention peut être étendue à d'autres applications en ligne, de manière générale à toutes applications nécessitant un avatar reproduisant la tête de l'utilisateur en temps réel, par exemple un jeu, un forum de discussion, un travail collaboratif entre des utilisateurs à distance, une interaction entre des utilisateurs communiquant via le langage des signes, etc .... Elle peut en outre être étendue à toutes les applications nécessitant l'affichage en temps réel du visage ou de la tête isolée de l'utilisateur. [0046] L'invention vient d'être décrite en relation avec un exemple particulier de mixage entre une tête d'avatar et une tête d'utilisateur. Néanmoins, il est évident pour un homme du métier que l'invention peut être étendue à d'autres parties du corps, par exemple un membre quelconque, ou une partie plus précise du visage tel que la bouche, etc Elle est également applicable à des parties de corps d'animaux, ou des objets, ou des éléments d'un paysage, etc.... [0047] Bien que certaines Figures montrent différentes entités fonctionnelles comme des blocs distincts, ceci n'exclut en aucune façon des modes de réalisation de l'invention dans lesquels une entité unique effectue plusieurs fonctions, ou plusieurs entités effectuent une seule fonction. Ainsi, les Figures doivent être considérées comme une illustration très schématique de l'invention. [0048] Les signes de références dans les revendications n'ont aucun caractère limitatif. Les verbes "comprendre" et "comporter" n'excluent pas la présence d'autres éléments que ceux listés dans les revendications. Le mot "un" précédant un élément n'exclut pas la présence d'une pluralité de tels éléments.