FR2857132A1 - Dispositif, systeme et procede de codage d'images numeriques - Google Patents

Dispositif, systeme et procede de codage d'images numeriques Download PDF

Info

Publication number
FR2857132A1
FR2857132A1 FR0308112A FR0308112A FR2857132A1 FR 2857132 A1 FR2857132 A1 FR 2857132A1 FR 0308112 A FR0308112 A FR 0308112A FR 0308112 A FR0308112 A FR 0308112A FR 2857132 A1 FR2857132 A1 FR 2857132A1
Authority
FR
France
Prior art keywords
image
source
images
dimensional
comprises means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR0308112A
Other languages
English (en)
Inventor
Edouard Francois
Philippe Robert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Priority to FR0308112A priority Critical patent/FR2857132A1/fr
Priority to EP04102739A priority patent/EP1496476A1/fr
Priority to US10/881,537 priority patent/US20050001841A1/en
Priority to JP2004196599A priority patent/JP2005025762A/ja
Priority to CNA2004100621751A priority patent/CN1577399A/zh
Priority to KR1020040051591A priority patent/KR20050004120A/ko
Publication of FR2857132A1 publication Critical patent/FR2857132A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

L'invention concerne un dispositif de codage d'images à deux dimensions représentant des points de vue d'une scène virtuelle à trois dimensions, un déplacement dans cette scène, simulé par l'affichage successif d'images, étant limité selon des trajectoires prédéterminées.Conformément à l'invention, le dispositif est caractérisé en ce qu'il comprend des moyens pour coder une trajectoire à l'aide d'un graphe (300) de noeuds (Ni) successifs tels qu'à chaque noeud (Ni) est associé au moins une image source à deux dimensions et une transformation de cette image.

Description

La présente invention se rapporte à un dispositif, à un système et à un
procédé de codage d'images numériques, notamment pour simuler un déplacement dans une scène virtuelle à
trois dimensions.
De nombreuses applications, telles que des jeux vidéo, des ventes en ligne ou des simulations immobilières, requièrent la génération d'images numériques à deux dimensions affichées successivement sur un écran afin de simuler un déplacement dans une scène virtuelle à trois dimensions pouvant correspondre, selon certains des exemples précédemment cités, à un magasin ou à un appartement.
En d'autres termes, les images à deux dimensions affichées sur l'écran varient en fonction des déplacements souhaités par un utilisateur dans la scène virtuelle à trois dimensions, chaque nouvelle image affichée correspondant à un nouveau point de vue de la scène en accord avec le déplacement effectué.
Pour générer ces images à deux dimensions, il est connu de coder l'ensemble des points de vue possible de la scène à trois dimensions, par exemple au moyen de polygones, chaque facette d'un polygone codant une partie de la scène selon un point de vue donné.
Lorsque l'utilisateur souhaite simuler un déplacement dans la scène, l'image affichée est alors générée en choisissant la (ou les) facette(s) adéquate(s) des polygones représentant les parties de la scène concernées par le point de vue requis puis en projetant les images codées par cette (ou ces) facette(s) sur l'écran.
Un tel procédé présente l'inconvénient de requérir une carte graphique au niveau du dispositif utilisé pour générer les images car les opérations effectuées pour générer cette image sont nombreuses et complexes, ce qui augmente le coût et la complexité de ce procédé.
De plus, la quantité de données devant être stockée et traitée pour générer une image est particulièrement importante puisqu'elle correspond à l'information nécessaire au codage d'une scène selon l'ensemble de ces points de vue possibles.
Par ailleurs, il est aussi connu de simuler un déplacement dans une scène à deux dimensions au moyen d'images à deux dimensions, dénommées par la suite images sources, telles qu'une image source peut être utilisée pour générer diverses images affichées.
Pour cela, les dimensions d'une image source sont supérieures à celles d'une image affichée de telle sorte que, en modifiant la zone de l'image source utilisée pour générer une Image affichée et en appliquant éventuellement des transformations aux zones de l'image source considérées, on peut générer différentes images à deux dimensions.
Un exemple d'utilisation d'une image source est représentée à la figure 1 où trois images lai Ia2 et Ia3 sont générées à partir d'une unique image source I. Une telle utilisation est mise en oeuvre dans la norme MPEG-4 (Motion Picture Expert Group), comme décrit par exemple dans le document ISO/IEC JTC 1/SC 29/WG 11 N 2502, pages 189 à 195.
La présente invention résulte de la constatation que, dans de nombreuses applications simulant un déplacement dans une scène ou environnement à trois dimensions, les déplacements simulés sont effectués selon des trajectoires prédéfinies.
Par exemple, les déplacements accessibles à un utilisateur dans le cadre d'une vente en ligne (respectivement d'un projet immobilier) sont limités aux rayons du magasin effectuant cette vente (respectivement limités aux pièces de l'appartement ou de la maison concerné(e) par le projet immobilier).
C'est pourquoi, l'invention concerne un dispositif de codage d'images à deux dimensions représentant des points de vue d'une scène virtuelle à trois dimensions, un déplacement dans cette scène, simulé par l'affichage successif d'images, étant 2857132 3 limité selon des trajectoires prédéterminées, caractérisé en ce qu'il comprend des moyens pour coder une trajectoire à l'aide d'un graphe de noeuds successifs tels qu'à chaque noeud est associé au moins une image source à deux dimensions et une transformation de cette image source permettant de générer une image à afficher.
Grâce à l'invention, la simulation d'un déplacement dans une scène à trois dimensions s'effectue à l'aide d'images sources à deux dimensions sans qu'il soit nécessaire d'utiliser une carte graphique pour traiter des codages en trois dimensions.
Par conséquent, le codage et le traitement d'images selon l'invention sont moins coûteux et plus simples à mettre en oeuvre.
En outre, les bases de données requises pour générer les images sont moins importantes que lorsque des données à trois dimensions sont codées puisque le codage de l'image selon des points de vue qui ne sont pas accessibles à l'utilisateur n'est pas considéré.
Dans une réalisation, le dispositif comprend des moyens pour coder une image à afficher à l'aide d'un masque associé à une image source, par exemple un masque binaire, et/ou à l'aide de polygones, le masque identifiant pour chaque pixel de l'image à afficher l'image Is,i source à partir de laquelle il doit être construit.
Selon une réalisation, le dispositif comprend des moyens pour coder une liste relative aux images sources et aux transformations de ces images sources pour des noeuds successifs sous la forme d'un train binaire.
Dans une réalisation, le dispositif comprend des moyens pour ordonner dans la liste les images sources générant une image de la plus lointaine, c'est-à-dire générant une partie de l'image apparaissant comme la plus distante de l'utilisateur, à l'image source la plus proche, c'est-à-dire générant la partie de l'image apparaissant comme la plus proche de l'utilisateur.
Selon une réalisation, le dispositif comprend des moyens pour recevoir une commande déterminant un n ud à considérer parmi une pluralité de noeuds lorsque plusieurs trajectoires, définis par ces n uds, sont possibles.
Selon une réalisation, le dispositif comprend des moyens pour générer les images sources selon un flux d'images vidéo de type MPEG-4.
Dans une réalisation, le dispositif comprend des moyens pour générer les images sources à partir d'un codage à trois dimensions en projetant, à l'aide d'une relation homographique, affine et/ou linéaire, le codage à trois dimensions sur le plan de l'image à afficher.
Selon une réalisation, le dispositif comprend des moyens pour considérer les paramètres de la caméra simulant la 15 prise de vue.
Dans une réalisation, le dispositif comprend des moyens pour évaluer une erreur de projection du codage à trois dimensions de telle sorte que la projection linéaire (respectivement affine) est effectuée lorsque l'écart entre cette projection et la projection affine (respectivement homographique) est inférieure à cette erreur.
Selon une réalisation, le dispositif comprend des moyens pour grouper les images sources générées en déterminant, pour chaque image source associée à une image à afficher, les images sources adjacentes qui peuvent lui être intégrées en vérifiant si l'erreur engendrée en appliquant à ces images adjacentes les paramètres de l'image source est inférieure à un seuil sur tous les pixels concernés, ou bien sur un pourcentage minimum.
L'invention concerne aussi un système de simulation de déplacements dans une scène virtuelle à trois dimensions comprenant un dispositif d'affichage d'images, ce système comprenant un écran d'affichage et des moyens de commande permettant à un utilisateur de commander un déplacement selon une trajectoire parmi une pluralité limitée de trajectoires prédéfinies, ce système étant caractérisé en ce qu'il comprend un dispositif selon l'une des réalisations précédentes.
Dans une réalisation, le système comprend des moyens pour effectuer automatiquement l'occultation d'une partie d'une image source distante par rapport à l'utilisateur avec une autre image source plus proche.
Selon une réalisation, le système comprend des moyens pour générer un pixel de l'image à afficher de façon successive à partir de plusieurs images sources, chaque nouvelle valeur du pixel remplaçant les valeurs précédemment calculées.
Finalement, l'invention concerne aussi un procédé de simulation de déplacements dans une scène virtuelle à trois dimensions utilisant un dispositif d'affichage d'images, un écran d'affichage et des moyens de commande permettant à un utilisateur de commander un déplacement selon une trajectoire parmi une pluralité limitée de trajectoires prédéfinies, ce procédé étant caractérisé en ce qu'il comprend un dispositif selon l'une des réalisations précédentes.
D'autres caractéristiques et avantages de l'invention apparaîtront avec la description effectuée ci-dessous, à titre d'exemple non limitatif, de réalisations de l'invention faisant référence aux figures ci-jointes sur lesquelles: La figure 1, déjà décrite, représente l'utilisation d'une image source pour générer des images à deux dimensions, La figure 2 représente un système conforme à l'invention utilisant un réseau de télécommunication, La figure 3 est un schéma du codage d'une scène virtuelle à trois dimensions selon l'invention, Les figures 4 et 5 sont des schémas de transmissions de données dans un système conforme à l'invention, et La figure 6 représente la génération d'une image à afficher dans un système conforme à l'invention utilisant la norme MPEG-4.
Un système 100 (figure 2) conforme à l'invention 35 comprend un dispositif 104 de codage d'images à deux dimensions.
2857132 6 Les images codées représentent des points de vue d'une scène virtuelle à trois dimensions. De façon pratique, on considère dans cet exemple que cette scène correspond à un appartement comprenant plusieurs pièces.
Les déplacements dans cet appartement, simulés par l'affichage successif d'images, sont limités selon des trajectoires prédéterminées qui correspondent aux passages d'une première pièce à une seconde pièce voisine de la première.
En accord avec l'invention, le dispositif 104 comprend des moyens pour coder une trajectoire à l'aide d'un graphe de noeuds successifs, décrit en détail ultérieurement à l'aide de la figure 3, à chaque noeud du graphe étant associé au moins une image source à deux dimensions et une transformation de cette image pour générer une image à afficher.
Dans cette réalisation, plusieurs utilisateurs 106, 106' et 106" utilisent le même dispositif 104 pour simuler divers déplacements, identiques ou distincts, dans cet appartement.
Pour cela, ce système 100 comprend des moyens 108, 108' et 108" de commande permettant, à chaque utilisateur 106, 106' et 106", de transmettre au dispositif 104 des commandes relatives aux déplacements que chaque utilisateur 106, 106' ou 106" désire simuler dans l'appartement.
En réponse à ces commandes, les données transmises par le dispositif varient, comme décrit ultérieurement à l'aide de la figure 4, ces données étant transmises à des décodeurs 110, 110' et 110" traitant les données pour générer chaque image à afficher.
Sur la figure 3 est représenté un graphe 300 conforme à l'invention codant trois trajectoires possibles à l'aide de noeuds Ni, N2, N3,... Nn successifs, chaque noeud Ni correspondant à une image à afficher, c'est-à-dire à un point de vue de la scène codée.
Pour cela, le graphe 300 est stocké dans le dispositif 35 104 de telle sorte qu'une ou plusieurs images sources Is, à deux 2857132 7 dimensions, et des transformations T5,i propres à chaque image source sont associées à chaque noeud Ni.
Par la suite, lors des simulations des déplacements dans la scène à trois dimensions, le graphe 300 est utilisé pour générer les images à afficher selon deux modes décrits ci-dessous: - Selon un premier mode passif, la simulation du déplacement est effectuée avec une unique trajectoire possible dans la scène à trois dimensions. Un tel mode correspond, par exemple, à la partie 302 du graphe 300 comprenant les noeuds N1 jusqu'à N6.
Dans ce cas, l'utilisation de commandes 108 par l'utilisateur du dispositif permet la poursuite, l'arrêt ou le retour du déplacement simulé.
Lorsque le déplacement est poursuivi, les images sources Is associées à un noeud Ni sont transmises de façon successive du dispositif 104 aux moyens de génération 110 afin que ces derniers forment les images à transmettre à l'écran 102.
Dans cette réalisation de l'invention, une image source Is n'est transmise que lorsqu'elle est nécessaire à la génération d'une image à afficher.
En outre, les images sources Is transmises sont mémorisées par les décodeurs 110, 110' et 110" de façon à ce qu'elles puissent être utilisées à nouveau, c'est-à-dire pour former une nouvelle image à afficher, sans requérir une nouvelle transmission.
Ainsi, la quantité de données transmises pour la simulation du déplacement dans la scène à trois dimensions est réduite.
Toutefois, lorsqu'une image source 15 n'est plus utilisée pour générer une image, cette image source Is est supprimée des décodeurs et remplacée par une autre image source It utilisée ou plus récemment transmise.
- Selon un deuxième mode interactif, les moyens 108, 35 108' et 108" de commande et le dispositif 104 communiquent pour choisir la simulation d'un déplacement parmi une pluralité de déplacements possibles. Ainsi, l'utilisateur choisit l'affichage d'un nouveau point de vue parmi un choix de plusieurs nouveaux points de vue possibles.
Une telle situation se produit lorsque le graphe 300 présente une pluralité de noeuds N9 et N12 (respectivement Nlo et N11) successifs à un même noeud N, antérieur (respectivement N9) . De façon concrète, cela se produit lorsqu'un déplacement peut être effectué selon deux trajectoires concurrentes à partir d'un même emplacement.
Dans ce cas, les décodeurs 110, 110' et 110" comprennent des moyens pour transmettre au codeur 104 une commande indiquant le choix d'une trajectoire A cet effet, il convient de souligner que le graphe de navigation a été préalablement transmis au récepteur qui contrôle ainsi les déplacements de l'utilisateur et envoie les requêtes nécessaires au serveur.
En mode de navigation passif ou interactif, une image source Is est représentée sous la forme d'une image rectangulaire, codant une texture, et d'un ou plusieurs masques binaires indiquant les pixels de cette image source I, qu'il faut considérer pour former l'image à afficher.
Un polygone décrit par une liste ordonnée de ses sommets, définis par leur cordonnées à deux dimensions dans l'image de la texture, peut être utilisé au lieu du masque binaire.
En outre, un polygone décrivant la partie utile de l'image source peut être utilisé pour déterminer la zone de l'image à afficher que l'image source va permettre de reconstituer. On limite ainsi la reconstruction de l'image à afficher à partir de cette image source à la zone ainsi identifiée.
Lorsqu'une image source Is devant être utilisée par un décodeur 110, 110' ou 110" n'est pas stockée par ce dernier, sa 35 texture et sa forme sont transmises par le codeur tandis que, pour les points de vue suivants utilisant cette image source, seules sont transmises sa forme et sa transformation.
Ainsi, on limite la quantité de données transmises entre le codeur 104 et les décodeurs 110, 110' et 110".
De fait, pour chaque image à afficher, indicée par i, le codeur 104 transmet une liste des images sources IS nécessaires à la construction de cette image, par exemple sous la forme de numéros s de référence identifiant chaque image source I,.
En outre, cette liste comprend la transformation Ts,i géométrique associée à chaque image source IS pour l'image à afficher i.
Cette liste peut être ordonnée de l'image source la plus lointaine, c'està-dire générant une partie de l'image apparaissant comme la plus distante de l'utilisateur, à l'image source la plus proche, c'est-à-dire générant la partie de l'image apparaissant comme la plus proche de l'utilisateur, de façon à effectuer automatiquement l'occultation d'une partie d'une image source distante par une autre image source proche.
Selon une variante de l'invention, un masque binaire est transmis pour chaque image à afficher, ce masque identifiant pour chaque pixel de l'image à afficher l'image IS source à partir de laquelle il doit être construit.
En résumé, pour permettre la génération d'une image à 25 afficher, on effectue les opérations suivantes: - Dans un premier temps, on identifie les images IS sources associées à une image à afficher au moyen de la liste transmise lorsque l'utilisateur désire se déplacer à un point de vue donné.
- Dans un deuxième temps, pour chaque image source I. on projette le polygone convexe sur l'image à afficher de façon à réduire la zone de l'image à balayer au cours de la reconstruction en partant de l'image source la plus lointaine et en allant vers l'image source la plus proche.
- Dans un troisième temps, pour chaque pixel de 35 l'image à afficher appartenant à la zone identifiée, on applique la transformation géométrique Ts,i pour déterminer l'adresse du pixel correspondant dans l'image source I,.
Dans ce mode de réalisation, on détermine l'appartenance d'un pixel à une image Is source si ce pixel est entouré par quatre autres pixels appartenant à cette image source, cette caractéristique étant déterminé à partir d'informations fournies par le masque.
Dans ce cas, les valeurs de luminance et de 10 chrominance d'un pixel sont calculées par interpolation bilinéaire au moyen de ces points environnants.
Un pixel de l'image à afficher peut être reconstruit de façon successive à partir de plusieurs images sources, chaque nouvelle valeur du pixel remplaçant les valeurs précédemment calculées.
Selon une variante de l'invention, où les images sources sont classées de l'image la plus proche vers la plus lointaine, chaque pixel peut être construit l'un après l'autre en considérant l'ensemble des images sources identifiées dans la liste transmise pour la construction du point de vue associé au n ud dans lequel est situé l'utilisateur.
Dans ce cas, la construction d'un pixel s'arrête lorsqu'il a pu être interpolé à partir d'une image source.
Dans une autre variante, il est possible de reconstruire l'image à partir de chaque image source, en considérant une image source après l'autre, et en construisant un pixel sauf s'il a déjà été construit à partir d'une image source plus proche.
Finalement, si, selon la troisième variante précédemment mentionnée, un masque binaire a été transmis avec la transformation associée à un point de vue, les étapes 1 et 2 précédemment mentionnées sont supprimées.
Dans la suite de la description, on décrit une
application du procédé particulièrement adaptée à la norme MPEG4 selon laquelle un point de vue est simulé à l'aide de vidéos obtenus au moyens d'images sources.
Pour cela, ces vidéos sont combinées, suivant un ordre d'utilisation, dans l'écran d'affichage conformément aux indications fournies par le noeud considéré.
Un tel procédé permet de transmettre progressivement la texture d'une image source comme décrit précisément dans la norme MPEG-4 vidéo (cf. partie 7.8 du document ISO/IEC JTC 1/SC 29/WG 11 N 2502, pages 189 à 195).
La transmission des données relatives à chaque image affichée est alors effectuée au moyen de trains binaires 400 (figure 4) successifs dans lesquels on transmet le codage d'une image en transmettant des groupes d'informations comprenant des indications 404 ou 404' relatives à une image source, telles que sa texture, et des indications 406 ou 406' relatives aux transformations Ti,s devant être appliquées à l'image source associée pour générer l'image à afficher.
Une telle transmission est utilisée par le décodeur pour générer une partie d'une image à afficher comme décrit à l'aide de la figure 5.
Sur cette figure 5 sont représentés différents trains binaires 502, 504, 506 et 508 permettant de générer les différentes parties d'une image 500 à afficher en combinant les différentes images 5002, 5004, 5006 et 500$ au niveau des moyens 510 d'affichage.
Finalement, sur la figure 6 est représentée l'application du procédé de génération d'image décrit à l'aide de la figure 5 dans le cadre d'une séquence vidéo telle qu'une série d'images 608, simulant un déplacement, doit être générée.
Pour cela, les différentes parties transmises par des trains binaires 600, 602, 604 et 606 permettant de générer une image à afficher 608 sont représentées à divers instants successifs t0, t1, t2 et t3.
Il apparaît ainsi que, en modifiant la nature des images codées par les différents trains 600, 602, 604 et 606, on modifie l'image à afficher 6008 de façon à simuler un déplacement.
Comme précédemment décrit, l'invention permet de simuler un déplacement dans une scène, ou un environnement, à trois dimensions en considérant uniquement des données à deux dimensions permettant ainsi la représentation à deux dimensions d'une navigation dans un environnement à trois dimensions d'une façon simple.
Toutefois, lorsque l'environnement disponible est codé au moyen d'outils à trois dimensions, il est nécessaire de transformer ce codage à trois dimensions en un codage à deux dimensions pour pouvoir utiliser le système décrit ci-dessus.
C'est pourquoi, on décrit ci-dessous un procédé pour synthétiser un ensemble d'images sources Is, le plus petit possible, pour associer une liste d'images, la plus petite possible à chaque point de vue des trajectoires retenues, et pour définir la transformation Ts,i la plus simple possible qui doit être associée à des images sources pour générer le point de vue.
La prédétermination des trajectoires de navigation permet la constitution de cette représentation à deux dimensions. Cette simplification pourra se faire au prix d'une perte de qualité des images reconstruites qu'il est nécessaire de pouvoir contrôler.
Pour effectuer cette transformation de représentation à trois dimensions en une représentation à deux dimensions, on utilise la connaissance des trajectoires prédéterminées dans la scène à trois dimensions et des paramètres tels que les caractéristiques de la caméra, notamment son orientation et son optique, à travers laquelle est simulée la perception de la scène, et on détermine les points de vue pouvant être requis par l'utilisateur.
Dans cet exemple de transformation de codage à trois dimensions en codage à deux dimensions, on considère que ce codage à trois dimensions utilise N facettes planaires correspondant à N textures.
Chaque facette f est définie par un jeu de paramètres à trois dimensions (X, Y, Z) constitué des coordonnées des sommets de chaque facette ainsi que des coordonnées à deux dimensions de ces sommets dans l'image de texture.
Par ailleurs, on utilise aussi des paramètres décrivant la position, l'orientation et les paramètres optiques de l'utilisateur dans la scène à trois dimensions.
Pour chaque point de vue des trajectoires prédéterminées, on détermine les facettes nécessaires à la reconstruction de l'image associée par projection perspective connue utilisant les coordonnées des sommets de facettes et les paramètres mentionnés ci-dessus.
Finalement, on détermine les informations nécessaires à la reconstruction des images correspondant à ces points de vue: les images de texture (qui étaient associées aux facettes sélectionnées) et pour chacune d'elle la transformation permettant de passer des coordonnées de l'image à reconstruire aux coordonnées de l'image de texture.
Cette transformation est décrite par une équation 20 projective planaire à deux dimensions, connue, également appelée homographique, et définie à l'aide d'une relation telle que: uz _ pll.ul+p12.v1+p13 p31.U1 + p32.V1 + p33 p21.u1+p22.v1+p23 V2 = p31.U1 + p32.V1 +p33 où les coefficients pi, résultent d'une combinaison connue des paramètres décrivant le plan de la facette et des 25 paramètres du point de vue.
Une telle transformation Ts,i s'effectue donc par un simple calcul qui permet de s'affranchir de carte graphique 3D (à trois dimensions).
Il convient de noter que Ts,i est décrite par 8 30 paramètres pi; (p33=l) qui relie les coordonnées des pixels dans l'image source Is et dans l'image à afficher.
Par ailleurs, la liste des facettes nécessaires à la reconstruction d'un point de vue étant ainsi prédéterminée, il est possible d'établir une liste d'images sources nécessaires pour générer une image, la transformation homographique propre à chaque image source étant associée à cette dernière.
Pour réduire encore la complexité de la représentation à deux dimensions et donc la complexité de la synthèse des images au cours de la navigation, il est possible de simplifier la transformation homographique en une transformation affine ou linéaire lorsque la qualité de l'image résultante est acceptable.
Tel est le cas, par exemple, lorsqu'une facette est parallèle au plan de l'image ou que la variation de distance des sommets de la facette est faible devant la distance à la caméra.
Dans le cas d'une projection affine, on peut utiliser une relation telle que: U2 = P11. u1+P12 É Vi+P13 V2 = P21. ul+P22. V1+P23 Tandis que dans le cas d'une projection linéaire, on peut utiliser une relation telle que: U2 = P11. u1 +P13 V2 = P22 ' V1+P23 En résumé, la construction d'une image source à partir d'un modèle à trois dimensions peut s'effectuer de la façon suivante: - Pour chaque point de vue de la trajectoire, on projette les facettes du modèle à trois dimensions selon le point de vue considéré afin de constituer la liste des facettes nécessaires à sa reconstruction.
- Pour chaque facette identifiée, on calcule la transformation homographique qui permet de reconstruire la région de l'image concernée à partir de la texture de la facette. Cette transformation, constituée de huit paramètres, est suffisante pour effectuer la reconstruction car elle permet de calculer pour chaque pixel de l'image à reconstruire son adresse dans l'image texture correspondante.
La description de la facette se réduit alors aux coordonnées 2D dans l'image texture, et la facette devient une 10 image source.
-Il est possible de vérifier ensuite si le modèle homographique peut être réduit à un modèle affine, en vérifiant que l'erreur de projection 2D sur l'image texture AE engendrée par la mise à 0 de p31 et p32 est inférieure à un seuil yf sur tous les pixels concernés, ou bien sur un pourcentage minimum.
-Il est également possible de vérifier si le modèle affine peut être réduit à un modèle linéaire, en vérifiant que l'erreur de projection 2D sur l'image texture AE engendrée par la mise à 0 supplémentaire de p12 et p22 est inférieure à un seuil y sur tous les pixels concernés, ou bien sur un pourcentage minimum.
Un numéro d'identification s est associé à l'image source générée ainsi qu'une transformation géométrique Ts,i propre à la génération d'une image affichée à travers cette transformation.
Pour réduire encore la complexité de la représentation et accélérer l'affichage d'une scène, il est intéressant de limiter le nombre d'images sources à considérer. A cet effet, on peut regrouper plusieurs facettes dans la génération d'une image source.
En effet, des facettes adjacentes et non-coplanaires peuvent par exempleêtre fusionnées en une seule facette sans perte importante de qualité dès lors qu'elles sont distantes du point de vue ou qu'elles sont observées d'une position unique 2857132 16 (avec par exemple un mouvement de caméra virtuelle de type panoramique).
Une telle application peut être effectuée en considérant les opérations suivantes: - Pour chaque image source Is de la liste associée à une image à afficher, on détermine chaque image source Is, de la liste et adjacente à IS qui peut lui être intégrée en vérifiant si l'erreur de projection à deux dimensions AEs(s') engendrée en appliquant à IS, les paramètres de l'image source IS est inférieure à un seuil sur tous les pixels concernés, ou bien sur un pourcentage minimum.
On obtient ainsi l'ensemble des groupements possibles entre des images sources adjacentes et les coûts d'intégration correspondant.
- Puis les images sources sont groupées afin de minimiser leur nombre sous la contrainte d'erreur DES minimale et inférieure à un seuil.
Le groupement d'images sources est itéré jusqu'à ce qu'il n'y ait plus de regroupement permis, l'ensemble d'images sources obtenues pouvant alors être considéré pour la génération de cette image à afficher.
Lorsque l'image suivante est considérée, on prend en compte, dans un premier temps les images sources Is(i) qui sont présentes dans l'image antérieure à afficher ainsi que les groupements éventuels analogues à ceux effectués dans l'image antérieure.
Puis le traitement précédemment décrit est itéré sur le nouveau groupe d'images sources.
A l'aide du seuil d'erreur sur AE, il est possible de 30 déterminer si ces groupements doivent être effectués ou pas.

Claims (1)

17 REVENDICATIONS
1. Dispositif (104) de codage d'images à deux dimensions représentant des points de vue d'une scène virtuelle à trois dimensions, un déplacement dans cette scène, simulé par l'affichage successif d'images, étant limité selon des trajectoires prédéterminées, caractérisé en ce qu'il comprend des moyens pour coder une trajectoire à l'aide d'un graphe (300) de noeuds (Ni) successifs tels qu'à chaque noeud (Ni) est associé au moins une image source (Is) à deux dimensions et une transformation (Ti,$) de cette image.
2. Dispositif selon la revendication 1 caractérisé en ce qu'il comprend des moyens pour coder une image à afficher à l'aide d'un masque associé à une image source, par exemple un masque binaire, et/ou à l'aide de polygones, le masque identifiant pour chaque pixel de l'image à afficher l'image (Is) source à partir de laquelle il doit être construit.
3. Dispositif selon la revendication 2 caractérisé en ce qu'il comprend des moyens pour coder une liste relative aux images sources (IS) et aux transformations (T ,$) de ces images sources (IS) pour des noeuds successifs sous la forme d'un train binaire (400).
4. Dispositif selon la revendication 3 caractérisé en ce qu'il comprend des moyens pour ordonner dans la liste les images sources (Is) générant une image de la plus lointaine, c'est-à-dire générant une partie de l'image apparaissant comme la plus distante de l'utilisateur, à l'image source (Is) la plus proche, c'est-à-dire générant la partie de l'image apparaissant comme la plus proche de l'utilisateur.
5. Dispositif selon l'une des revendications précédentes caractérisé en ce qu'il comprend des moyens pour recevoir une commande déterminant un n ud (Ni) à considérer parmi une pluralité de n uds (Ni) lorsque plusieurs trajectoires, définis par ces noeuds, sont possibles.
6. Dispositif selon l'une des revendications précédentes caractérisé en ce qu'il comprend des moyens pour générer les images sources (IS) selon un flux d'images vidéo de type MPEG-4.
7. Dispositif selon l'une des revendications précédentes caractérisé en ce qu'il comprend des moyens pour générer les images sources (IS) à partir d'un codage à trois dimensions en projetant, à l'aide d'une relation homographique, affine et/ou linéaire, le codage à trois dimensions sur le plan de l'image à afficher.
8. Dispositif selon la revendication 7 caractérisé en 10 ce qu'il comprend des moyens pour considérer les paramètres de la caméra simulant la prise de vue.
9. Dispositif selon la revendication 7 ou 8 caractérisé en ce qu'il comprend des moyens pour évaluer une erreur (AE) de projection du codage à trois dimensions de telle sorte que la projection linéaire (respectivement affine) est effectuée lorsque l'écart entre cette projection et la projection affine (respectivement homographique) est inférieure à cette erreur (AE).
10. Dispositif selon l'une des revendications 7, 8 ou 9 caractérisé en ce qu'il comprend des moyens pour grouper les images sources générées en déterminant, pour chaque image source (IS) associée à une image à afficher, les images sources (Is,i_, ; Is,i+l) adjacentes qui peuvent lui être intégrées en vérifiant si l'erreur (AE,_) engendrée en appliquant à ces images adjacentes les paramètres de l'image source (IS) est inférieure à un seuil sur tous les pixels concernés, ou bien sur un pourcentage minimum.
11. Système de simulation de déplacements dans une scène virtuelle à trois dimensions comprenant un dispositif d'affichage d'images, ce système comprenant un écran d'affichage (102) et des moyens de commande (108) permettant à un utilisateur de commander un déplacement selon une trajectoire parmi une pluralité limitée de trajectoires prédéfinies, caractérisé en ce qu'il comprend un dispositif (104) selon l'une
des revendications précédentes.
12. Système selon la revendication 11 caractérisé en ce qu'il comprend des moyens pour effectuer automatiquement l'occultation d'une partie d'une image source distante par rapport à l'utilisateur avec une autre image source plus proche.
13. Système selon la revendication 11 ou 12 caractérisé en ce qu'il comprend des moyens pour générer un pixel de l'image à afficher de façon successive à partir de plusieurs images sources, chaque nouvelle valeur du pixel remplaçant les valeurs précédemment calculées.
14. Procédé de simulation de déplacements dans une scène virtuelle à trois dimensions utilisant un dispositif (104) d'affichage d'images, un écran d'affichage (102) et des moyens de commande (108) permettant à un utilisateur de commander un déplacement selon une trajectoire parmi une pluralité limitée de trajectoires prédéfinies, caractérisé en ce qu'il comprend un dispositif selon l'une des revendications 1 à 10.
FR0308112A 2003-07-03 2003-07-03 Dispositif, systeme et procede de codage d'images numeriques Pending FR2857132A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
FR0308112A FR2857132A1 (fr) 2003-07-03 2003-07-03 Dispositif, systeme et procede de codage d'images numeriques
EP04102739A EP1496476A1 (fr) 2003-07-03 2004-06-16 Dispositif et procédé pour la simulation de déplacement dans une scène virtuelle
US10/881,537 US20050001841A1 (en) 2003-07-03 2004-06-30 Device, system and method of coding digital images
JP2004196599A JP2005025762A (ja) 2003-07-03 2004-07-02 デジタル画像のコーディング装置、コーディングシステム、およびコーディング方法
CNA2004100621751A CN1577399A (zh) 2003-07-03 2004-07-02 对数字图像进行编码的设备、系统和方法
KR1020040051591A KR20050004120A (ko) 2003-07-03 2004-07-02 디지털 이미지들을 코딩하는 디바이스, 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0308112A FR2857132A1 (fr) 2003-07-03 2003-07-03 Dispositif, systeme et procede de codage d'images numeriques

Publications (1)

Publication Number Publication Date
FR2857132A1 true FR2857132A1 (fr) 2005-01-07

Family

ID=33443232

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0308112A Pending FR2857132A1 (fr) 2003-07-03 2003-07-03 Dispositif, systeme et procede de codage d'images numeriques

Country Status (6)

Country Link
US (1) US20050001841A1 (fr)
EP (1) EP1496476A1 (fr)
JP (1) JP2005025762A (fr)
KR (1) KR20050004120A (fr)
CN (1) CN1577399A (fr)
FR (1) FR2857132A1 (fr)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA200805337B (en) * 2006-01-09 2009-11-25 Thomson Licensing Method and apparatus for providing reduced resolution update mode for multiview video coding
JP4930126B2 (ja) * 2007-03-19 2012-05-16 日立電線株式会社 物理量測定システム
US8754892B2 (en) 2011-10-28 2014-06-17 International Business Machines Corporation Visualization of virtual image relationships and attributes
KR101663593B1 (ko) * 2014-01-13 2016-10-10 주식회사 큐램 가상공간의 네비게이션 방법 및 그 시스템
KR101810673B1 (ko) * 2017-05-23 2018-01-25 링크플로우 주식회사 촬상 위치 정보를 결정하는 방법 및 이러한 방법을 수행하는 장치
CN108305228B (zh) * 2018-01-26 2020-11-27 网易(杭州)网络有限公司 图像处理方法、装置、存储介质及处理器
US11461942B2 (en) 2018-12-21 2022-10-04 Koninklijke Kpn N.V. Generating and signaling transition between panoramic images
CN110645917B (zh) * 2019-09-24 2021-03-09 东南大学 基于阵列式相机的高空间分辨率三维数字图像测量方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5661525A (en) * 1995-03-27 1997-08-26 Lucent Technologies Inc. Method and apparatus for converting an interlaced video frame sequence into a progressively-scanned sequence
US5982909A (en) * 1996-04-23 1999-11-09 Eastman Kodak Company Method for region tracking in an image sequence using a two-dimensional mesh
US6031930A (en) * 1996-08-23 2000-02-29 Bacus Research Laboratories, Inc. Method and apparatus for testing a progression of neoplasia including cancer chemoprevention testing
US6192156B1 (en) * 1998-04-03 2001-02-20 Synapix, Inc. Feature tracking using a dense feature array
US6710770B2 (en) * 2000-02-11 2004-03-23 Canesta, Inc. Quasi-three-dimensional method and apparatus to detect and localize interaction of user-object and virtual transfer device
JP4758013B2 (ja) * 2000-03-14 2011-08-24 三星電子株式会社 三次元シーンのノード処理方法及びその装置
US7003150B2 (en) * 2001-11-05 2006-02-21 Koninklijke Philips Electronics N.V. Homography transfer from point matches

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DARSA L ET AL: "Walkthroughs of complex environments using image-based simplification", COMPUTERS AND GRAPHICS, PERGAMON PRESS LTD. OXFORD, GB, vol. 22, no. 1, 25 February 1998 (1998-02-25), pages 55 - 69, XP004123426, ISSN: 0097-8493 *
YAN-FAI CHAN ET AL: "A panoramic-based walkthrough system using real photos", COMPUTER GRAPHICS AND APPLICATIONS, 1999. PROCEEDINGS. SEVENTH PACIFIC CONFERENCE ON SEOUL, SOUTH KOREA 5-7 OCT. 1999, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 5 October 1999 (1999-10-05), pages 231 - 240,328, XP010359469, ISBN: 0-7695-0293-8 *
ZAGORODNOV V ET AL: "Data rate smoothing in interactive walkthrough applications using 2D prefetching", PROCEEDINGS 2002 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING. ICIP 2002. ROCHESTER, NY, SEPT. 22 - 25, 2002, INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, NEW YORK, NY: IEEE, US, vol. 2 OF 3, 22 September 2002 (2002-09-22), pages 201 - 204, XP010607689, ISBN: 0-7803-7622-6 *

Also Published As

Publication number Publication date
CN1577399A (zh) 2005-02-09
EP1496476A1 (fr) 2005-01-12
JP2005025762A (ja) 2005-01-27
KR20050004120A (ko) 2005-01-12
US20050001841A1 (en) 2005-01-06

Similar Documents

Publication Publication Date Title
JP7189895B2 (ja) 異なるビデオ・データ・ストリームにおいて、異なる複数のヴァンテージ(Vantage)・ポイントから表現されるバーチャル・オブジェクト及び現実世界オブジェクトに基づいて融合現実シーンを生成するための方法及びシステム
US11055828B2 (en) Video inpainting with deep internal learning
CN102138333B (zh) 利用启发式视图合并的视图合成
JP6471780B2 (ja) 深層畳み込みニューラルネットワークを用いる新ビュー合成
CN111402399B (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
US9031356B2 (en) Applying perceptually correct 3D film noise
KR102550847B1 (ko) 가상 씬의 가상 엔티티 디스크립션 프레임에 기초하여 상이한 밴티지 포인트들로부터 가상 씬의 프레임들을 렌더링하기 위한 방법들 및 시스템들
US10546181B2 (en) Method and device for generating data for two-dimensional or three-dimensional depiction of at least part of an object and for generating the two-dimensional or three-dimensional depiction of the at least one part of the object
FR2775813A1 (fr) Procede et dispositif de remplacement de panneaux cibles dans une sequence video
Lafruit et al. Understanding MPEG-I coding standardization in immersive VR/AR applications
CN109934764A (zh) 全景视频文件的处理方法、装置、终端、服务器及存储介质
CA3139657C (fr) Appareil d'analyse de couverture d'ecran multi-angle
EP4298607A1 (fr) Reconstruction tridimensionnelle en couleurs et infrarouge à l'aide d'une fonction de luminance implicite
WO2019193364A1 (fr) Procédé et appareil de génération d'images de réalité augmentée
EP3631767A1 (fr) Procédés et systèmes pour générer une projection virtualisée d'une vue personnalisée d'une scène du monde réel en vue d'une inclusion dans un contenu multimédia de réalité virtuelle
FR2857132A1 (fr) Dispositif, systeme et procede de codage d'images numeriques
CN112950739A (zh) 纹理生成方法、装置、设备及存储介质
EP0722251B1 (fr) Procédé d'interpolation d'images
US20220114784A1 (en) Device and method for generating a model of an object with superposition image data in a virtual environment
JP2022056769A (ja) 画像処理方法、プログラム、画像処理装置、学習済みモデルの製造方法、学習方法、学習装置、および、画像処理システム
EP4246988A1 (fr) Synthèse d'images
EP4104446A1 (fr) Procédé et dispositif de traitement de données de vidéo multi-vues
Weekley et al. Beyond viewpoint: X3d camera nodes for digital cinematography
Deschaintre Lightweight material acquisition using deep learning
Alain et al. Introduction to immersive video technologies