FR2988962A1 - Procede et dispositif de creation d'images - Google Patents

Procede et dispositif de creation d'images Download PDF

Info

Publication number
FR2988962A1
FR2988962A1 FR1252868A FR1252868A FR2988962A1 FR 2988962 A1 FR2988962 A1 FR 2988962A1 FR 1252868 A FR1252868 A FR 1252868A FR 1252868 A FR1252868 A FR 1252868A FR 2988962 A1 FR2988962 A1 FR 2988962A1
Authority
FR
France
Prior art keywords
screen
user
graphic
scene
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1252868A
Other languages
English (en)
Inventor
Herve Marchand
Guillaume Roul
Cedric Chedaleux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1252868A priority Critical patent/FR2988962A1/fr
Priority to PCT/FR2013/050661 priority patent/WO2013144506A1/fr
Priority to EP13715383.9A priority patent/EP2831847A1/fr
Priority to US14/387,782 priority patent/US9942540B2/en
Publication of FR2988962A1 publication Critical patent/FR2988962A1/fr
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/286Image signal generators having separate monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • H04N13/351Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking for displaying simultaneously
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/349Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking
    • H04N13/354Multi-view displays for displaying three or more geometrical viewpoints without viewer tracking for displaying sequentially
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

L'invention a trait à un procédé de création d'au moins une image (VG, VD) d'une scène graphique (SG) destinée à être restituée sur un écran (TV2D, TV3D, TVND). La scène graphique (SG) est composée d'objets graphiques (4). La position (P) de l'utilisateur est connue. Un objet graphique (4) est créé dans au moins une image (VG, VD) en prenant en compte la position de l'utilisateur. L'invention concerne aussi un terminal (T) comportant des moyens de création (MC) d'au moins une image d'une scène graphique (SG) destinée à être restituée sur un écran d'un utilisateur occupant une position (P) par rapport à l'écran, la scène comportant au moins un objet graphique.

Description

Procédé et dispositif de création d'images. L'invention se rapporte à la création d'images pour la restitution d'une scène graphique, notamment une scène composée de plusieurs composants graphiques, destinée à être affichée sur un écran. Plus particulièrement, l'invention s'applique à tout terminal comportant un module apte à recevoir en entrée la description d'une scène graphique et à restituer en sortie une ou plusieurs images, aussi appelées vues, de cette même scène graphique. Un tel terminal est par exemple un ordinateur, un téléviseur, un décodeur numérique ou encore un téléphone mobile. On entend par scène graphique un ensemble d'objets graphiques affichés sur un écran, souvent dans le but d'interagir avec l'utilisateur, par exemple dans le contexte d'un jeu vidéo ou d'une interface homme-machine. Par objet graphique, on entend un objet synthétique, c'est-à-dire un objet défini par un ensemble de paramètres (forme, couleur, texture....) par opposition à un objet dit naturel. Les images de la scène sont destinées à assurer sa restitution en relief sur un écran, qu'il soit tridimensionnel ou non. Les écrans bidimensionnels sont utilisés pour la visualisation de données en mode bidimensionnel : une seule image est affichée par l'écran qui la restitue sans relief, mais avec éventuellement une impression de profondeur qui peut être assimilée à un relief. Les écrans tridimensionnels, notamment les écrans tridimensionnels stéréoscopiques d'ordinateur ou de téléviseur, sont utilisés communément pour la visualisation de données en relief. Les écrans tridimensionnels ont généralement la capacité d'afficher des images en mode bidimensionnel ou en mode tridimensionnel. En mode tridimensionnel, deux images sont affichées par l'écran qui les restitue alors en relief. Les deux images, dites stéréoscopiques, sont décalées l'une par rapport à l'autre, l'une étant destinée à l'oeil gauche et l'autre à l'oeil droit d'un utilisateur de l'écran. Ce décalage, nommé aussi parallaxe, correspond à la différence de distance horizontale entre les deux yeux de l'utilisateur humain. Selon la valeur de cette parallaxe, le cerveau de l'utilisateur imagine un point de convergence situé devant ou derrière le plan de l'écran, associant ainsi une impression de profondeur à l'objet observé. D'autres systèmes, notamment les systèmes à vues multiples, aussi désignés sous le nom de systèmes multi-vues, génèrent plus de deux images de la scène correspondant à différentes vues des objets à afficher selon plusieurs directions. Plusieurs images sont alors transmises à un écran, dit écran multiscopique, qui autorise une visualisation en relief de la scène selon plusieurs angles de vues différents. L'utilisateur bénéficie, selon sa position par rapport à l'écran, de deux des images disponibles pour construire une vision stéréoscopique de l'image. Le plus souvent, les scènes graphiques reposent sur un ensemble de bibliothèques logicielles graphiques (en anglais : « graphical toolkit ») qui permettent de dessiner les composants graphiques de base, par exemple des cubes, des polygones, des boutons, des listes, etc. Les bibliothèques graphiques peuvent communiquer directement avec le matériel du terminal, notamment la mémoire vidéo, la carte vidéo et le processeur graphique (GPU : Graphical Processor Unit) ou utiliser un pilote graphique (API : Application Program Interface) communiquant avec ce matériel.
Quel que soit le type d'écran utilisé, il est généralement supposé que l'utilisateur se trouve à une distance et à une position constantes. Cependant, il devient de plus en plus fréquent que l'utilisateur soit en mouvement devant son écran, notamment lorsqu'il est en train de jouer. Ce mouvement entraîne des inconvénients.
Par exemple, avec les solutions de l'état de l'art, l'utilisateur ne peut bénéficier d'informations relatives aux faces cachées de l'objet (dessus, dessous ou côtés de l'objet). De plus, les inventeurs ont constaté que de ces solutions génèrent des images stéréoscopiques de qualité médiocre puisque l'une des images n'est pas forcément en correspondance avec l'autre. En effet, les solutions de l'état de l'art considèrent que l'utilisateur tient la tête droite, et donc que l'axe reliant des deux yeux est parallèle avec la ligne d'horizon. Si ce n'est pas le cas, l'utilisateur perd la précision de la vision stéréoscopique. L'invention offre une solution ne présentant pas les inconvénients de l'état de la technique.
A cet effet, selon un aspect fonctionnel, l'invention a pour objet un procédé de création d'au moins une image d'une scène graphique destinée à être restituée sur un écran d'un utilisateur occupant une position par rapport à l'écran, la scène comportant au moins un objet graphique, caractérisé en ce que au moins un objet graphique est créé dans au moins une image en prenant en compte la position de l'utilisateur. Ainsi, le procédé de l'invention offre l'avantage de restituer, pour affichage sur l'écran, une scène qui est véritablement adaptée à l'utilisateur, quelle que soit la position de ce dernier par rapport à l'écran. En d'autres termes, si l'utilisateur bouge selon l'une quelconque des directions de l'espace par rapport à son écran qui lui, reste fixe, la restitution du composant graphique dans la ou les images créée(s) pour l'écran prend en compte ce mouvement. Cette approche est particulièrement avantageuse lorsque l'utilisateur joue, étant dans ce cas naturellement amené à bouger dans toutes les directions. Selon un mode de mise en oeuvre particulier de l'invention, un procédé tel que décrit ci-dessus est en outre caractérisé en ce que l'étape de création de l'objet graphique comporte les étapes de : - Création d'un univers virtuel muni d'au moins une caméra virtuelle. - Positionnement de ladite au moins une caméra virtuelle en fonction de la position de l'utilisateur. - Projection dudit au moins un objet graphique dans l'univers virtuel; - Capture de ladite au moins une image par ladite au moins une caméra virtuelle à partir de ladite projection dans l'univers virtuel. Ce mode de mise en oeuvre de l'invention permet de créer automatiquement plusieurs images à partir de plusieurs captures, ou photographies, de la scène graphique, chaque image, ou vue, étant constituée d'objets projetés en prenant en compte la position, et donc l'angle de vue, de l'utilisateur. Par exemple, dans un contexte stéréoscopique, deux caméras virtuelles, placées respectivement à la position de l'oeil gauche et de l'oeil droit de l'utilisateur, sont utilisées pour capturer deux images, dont une capture prévue pour restituer à l'écran l'image destinée à l'oeil droit et l'autre capture pour restituer l'image destinée à l'oeil gauche. Au contraire, l'art antérieur ne propose pas de modifier la position des caméras pour suivre celle des yeux de l'utilisateur, et de ce fait le rendu de la scène ne tient pas compte du mouvement de l'utilisateur. Avec l'invention, le point de vue de l'utilisateur est retranscrit via les images capturées. Par exemple, si l'utilisateur se déplace vers le haut, l'invention permet de lui dévoiler le dessus de l'objet ; s'il se déplace vers la gauche, la vue droite de l'objet lui est dévoilée etc. De plus, l'art antérieur n'offre pas de solution pour corriger le désalignement des yeux de l'utilisateur par rapport à l'horizontale. Avec l'invention, même si l'utilisateur incline la tête, une image stéréoscopique de bonne qualité lui est restituée : il peut voir à la fois le dessus et le dessous d'une surface plane, au contraire des systèmes connus, pour lesquels l'image destinée à l'oeil gauche et celle destinée à l'oeil droit seront désalignées. Selon un autre mode de réalisation, qui pourra être mis en oeuvre alternativement ou cumulativement, le procédé de création est caractérisé en ce qu'il comporte en outre - Une étape d'obtention d'un nombre de vues affichables sur l'écran - Une étape de création d'images dont le nombre est fonction du nombre de vues restituables sur l'écran.
Ce mode de réalisation offre l'avantage de fournir automatiquement le nombre d'images optimal pour l'écran de l'utilisateur : à partir de la même scène graphique (par exemple une scène de jeu), le procédé de l'invention crée automatiquement une image unique si l'écran de l'utilisateur est bidimensionnel, deux images dans le cas d'un écran stéréoscopique, et un nombre d'images supérieur pour un écran multiscopique.
Ce mode de réalisation est très avantageux puisqu'il offre un procédé unique pour un ensemble hétérogène de terminaux d'affichage. Selon un aspect matériel, l'invention a pour objet un terminal comportant des moyens de création d'au moins une image d'une scène graphique destinée à être restituée sur un écran d'un utilisateur occupant une position par rapport à l'écran, la scène comportant au moins un objet graphique, caractérisé en ce qu'il comporte des moyens de création d'au moins un objet graphique dans au moins une image, en prenant en compte la position de l'utilisateur.
Selon un mode de mise en oeuvre particulier de l'invention, un terminal tel que décrit ci-dessus inclut en outre : - Des moyens de création d'un univers virtuel muni d'au moins une caméra virtuelle. - Des moyens de positionnement de ladite au moins une caméra virtuelle en fonction de la position de l'utilisateur. - Des moyens de projection dudit au moins un objet graphique dans l'univers virtuel; - Des moyens de capture de ladite au moins une image par ladite au moins une caméra virtuelle à partir de ladite projection dans l'univers virtuel. Selon un autre mode de mise en oeuvre particulier de l'invention, qui pourra être mis en oeuvre alternativement ou cumulativement, un terminal tel que décrit ci-dessus est en outre caractérisé en ce qu'il comprend : - Des moyens d'obtention d'un nombre de vues affichables sur l'écran. - Des moyens de création d'images dont le nombre est fonction du nombre de vues restituables sur l'écran. Selon un autre aspect matériel, l'invention concerne également un programme d'ordinateur apte à être mis en oeuvre sur un terminal tel que décrit ci-dessus, le programme comprenant des instructions de code qui, lorsque le programme est exécuté par un processeur, réalise les étapes du procédé défini ci-dessus. L'invention sera mieux comprise à la lecture de la description qui suit, donnée à titre d'exemple et faite en référence aux dessins annexés.
Les figures : La figure 1 représente un système comportant un module de création d'images pour la restitution d'une scène graphique selon un mode de réalisation de l'invention. La figure 2 est un schéma bloc d'un terminal apte à réaliser les étapes d'un procédé de création d'images pour la restitution d'une scène graphique selon un mode de réalisation de l'invention. La figure 3 représente un organigramme de haut niveau illustrant les différentes étapes d'un procédé selon l'invention. Les figures 4a et 4b sont des illustrations graphiques de l'étape d'initialisation d'un procédé selon l'invention. Les figures 5a et 5b sont des illustrations graphiques des étapes d'initialisation des caméras d'un procédé selon l'invention dans le contexte d'un écran stéréoscopique. Les figures 6a et 6b sont des illustrations graphiques des étapes de 20 restitution d'un procédé selon l'invention dans le contexte d'un écran stéréoscopique. La figure 7 est un organigramme détaillé de la projection d'un composant graphique de la scène. 25 A titre d'illustration, la présente invention sera décrite en référence à un décodeur numérique STB connecté à un téléviseur TV supportant un écran, mais elle peut s'appliquer à d'autres dispositifs tels qu'un téléphone mobile, un ordinateur, un téléviseur, etc.
La figure 1 représente un système comportant un terminal T selon l'invention, équipé d'un module de conversion MC, et relié à titre d'exemple à trois écrans TV 2D, TV 3D et TV ND à affichages respectivement bidimensionnel, tridimensionnel et multi-vues. Le terminal T contient une scène graphique SG, qui peut être par exemple une interface homme-machine ou une scène de jeu. Cette scène peut avoir été développée localement ou à l'extérieur du terminal. Dans notre exemple, on suppose que la scène graphique a été développée à l'extérieur du terminal T et lui a été transmise via un réseau de télécommunications non représenté. Le module de conversion MC du terminal T reçoit en entrée la scène graphique sous la forme d'une description (SG), par exemple celle d'une interface graphique bidimensionnelle dans laquelle est dessiné un cylindre 4. Cette description peut prendre la forme d'une suite d'instructions de programme aptes à créer, lors de leur exécution, selon l'état de l'art, une image bidimensionnelle V2D (pour : vue bidimensionnelle) de la scène graphique. Le module MC crée deux images stéréoscopiques VG et VD de la scène pour l'écran stéréoscopique. Le module MC peut aussi créer plus de deux images, par exemple six, pour l'écran multiscopique. Dans le mode stéréoscopique, l'une des images (par exemple VG) correspond à la vue de l'oeil gauche et l'autre (VD) à celle de l'oeil droit de l'utilisateur. Une image stéréoscopique globale formée du couple d'images stéréoscopiques VG et VD peut être affichée en relief sur le téléviseur TV 3D équipé d'un écran tridimensionnel, chaque élément de l'interface étant rendu avec une profondeur qui lui est propre : dans notre exemple, pour un utilisateur de l'écran TV 3D, le cylindre 43D a une profondeur positive (il semble sortir de l'écran). Dans le cas multiscopique, plusieurs images, stéréoscopiques ou non, sont transmise à l'écran qui les affiche selon des angles de vues différents. Un utilisateur perçoit une image différente (ou un couple d'images différentes dans le cas de la stéréoscopie multi-vues) en fonction de sa position par rapport au dispositif. Il a, par conséquent, la possibilité de se déplacer par rapport aux objets affichés pour les observer selon des directions différentes.
Afin de pouvoir réaliser la création de ces différentes images en vue de leur restitution sur un écran, le terminal T dispose d'une architecture matérielle et logicielle qui sont maintenant détaillées à l'appui de la figure 2.
La figure 2 représente de façon très schématique un mode de réalisation d'une architecture matérielle TM du terminal T. Le terminal comporte un processeur CPU destiné à exécuter les différentes étapes du procédé. Ce processeur est relié à une mémoire M dans laquelle sont mémorisés au moins les programmes logiciels (dans une partie permanente - ROM - de la mémoire) et des données d'entrée correspondant à la scène graphique, à un processeur graphique GPU destiné à prendre en charge tout ou partie des calculs graphiques autorisant notamment la manipulation tridimensionnelle des composants graphiques, et à des moyens d'entrée-sortie I/O aptes à communiquer avec l'extérieur, notamment pour échanger les données d'images avec un écran connecté au terminal, ou avec un réseau de communications, pour recevoir les caractéristiques de l'écran auquel il est connecté et pour recevoir des données de positionnement de l'utilisateur par rapport à son écran. Par exemple, ces moyens d'entrée-sortie comportent une interface HDMI (pour High Definition Multimedia Interface) permettant le transfert de données numériques multimédia (audio et vidéo) non compressées en haute définition vers les téléviseurs TV 2D, 3D et ND. Tous ces éléments sont reliés entre eux par un système de bus 6. Les objets graphiques traités par l'invention sont enregistrés dans la mémoire M et s'exécutent dans notre exemple sur le CPU et le GPU du terminal. La scène graphique en entrée repose sur un ensemble de bibliothèques logicielles graphiques TK (en anglais : Graphical Toolkit) qui permet de développer de telles scènes, par exemple des interfaces homme-machine ou des scènes de jeu. La bibliothèque graphique TK s'appuie elle-même, classiquement, sur une bibliothèque graphique de bas niveau encore appelée pilote graphique ou API (pour Application Programming Interface) qui fournit un ensemble de bibliothèques de fonctions dédiées aux traitements de bas niveau, par exemple audio et vidéo (carte vidéo, carte son, etc.) ou relatifs aux périphériques d'entrée-sortie (joystick, carte réseau, souris, etc.). De tels pilotes, comme par exemple OpenGL (Open Graphics Library - bibliothèque basée sur une spécification définissant une interface pour la conception d'applications créant des images tridimensionnelles et bidimensionnelles) sont bien connues de l'homme du métier. La bibliothèque graphique TK, en tant que surcouche du pilote graphique API, offre ainsi une interface de développement de plus haut niveau et donc plus confortable aux développeurs de la scène graphique. Dans un mode de réalisation de l'invention, on utilise ces différentes couches logicielles pour projeter l'interface bidimensionnelle dans un univers virtuel tridimensionnel par un procédé de projection qui sera illustré à l'appui des figures suivantes. On entend par "univers virtuel" un espace tridimensionnel virtuel pour projeter les objets graphiques en vue d'obtenir des objets constitutifs d'une scène tridimensionnelle. Cet univers virtuel comprend des moyens de capture de composant projetés. Ces moyens de capture sont ci-après désignés par l'expression "caméras virtuelles". Une telle caméra virtuelle est un objet logiciel qui définit un point de vue sur la scène tridimensionnelle, et dont la fonction est de capturer cette vue dans l'univers virtuel, simulant ainsi une prise de vue réelle dans un univers réel. Dans notre exemple, l'ensemble des modules logiciels et matériels est intégré dans le module MC de conversion du terminal de la figure 1. Le terminal 20 T peut être un décodeur numérique ou un téléphone mobile équipé des éléments cités ci-dessus, ou encore un téléviseur connecté intégrant ces éléments, etc. Les différentes étapes d'un mode de réalisation du procédé de l'invention vont maintenant être illustrées à l'appui de figure 3. 25 Lors d'une première étape El (INIT) d'initialisation, un univers virtuel est créé. Il s'agit de positionner classiquement une caméra virtuelle dans un repère tridimensionnel. Cette étape sera détaillée ultérieurement à l'appui de la figure 4a. L'étape E2 (GET_CP) correspond à l'acquisition de l'un des objets 30 graphiques de base constitutifs de la scène graphique (CP_2D), par exemple le cylindre 4. Cet élément est choisi indifféremment parmi tous les objets graphiques disponibles.
Une fois que l'un des objets graphiques est acquis, le procédé le projette lors d'une étape E3 (PROJ) dans l'univers tridimensionnel créé précédemment. L'étape de projection, qui sera détaillée par la suite à l'appui de la figure 7, consiste à effectuer un plaquage de texture sur un ou plusieurs polygones pour obtenir, à partir de l'élément bidimensionnel, un élément tridimensionnel constitué d'une ou plusieurs facettes possédant la texture de l'élément bidimensionnel. Lors d'une étape E4 (COMP), le procédé teste s'il reste des objets graphiques à traiter. Si ce n'est pas le cas, un nouveau composant est sélectionné et l'étape E3 de projection est effectuée de nouveau. Si tous les composants ont été traités, la scène graphique, ainsi constituée de tous les objets projetés dans l'univers virtuel, est capturée lors d'une étape E9 (CAPT) qui consiste à capturer, ou photographier, la scène par les différentes caméras qui ont été créées à l'étape E6 et positionnées à l'étape E8, qui vont être décrites maintenant. Lors d'une étape E5, représentée en parallèle de l'étape E2 (qui peut avoir lieu avant ou après l'étape E2 ou concomitamment), le procédé selon l'invention obtient le nombre de vues de l'écran. Dans notre exemple, le terminal est connecté au téléviseur via une connexion HDMI (de l'anglais « High Definition Multimedia Interface », en français, « Interface Multimédia Haute Définition »). Le HDMI définit une norme et une interface audio/vidéo numérique qui permettent de relier une source audiovisuelle à un dispositif compatible de type téléviseur. On suppose que les deux appareils (terminal et téléviseur) implémentent de plus la norme optionnelle dite « CEC » (pour « Consumer Electronics Control ») associée au HDMI, qui permet aux appareils compatibles de communiquer et de transmettre des commandes de contrôle. Le terminal peut dans ce cas, via l'interface HDMI/CEC, récupérer les caractéristiques de l'écran, notamment le nombre de vues affichables (1, 2 ou 6 dans notre exemple). Lors de l'étape E6, le procédé crée plusieurs caméras virtuelles ; leur nombre est une fonction du nombre de vues de l'écran : 2 pour un écran stéréoscopique, 1 pour un écran non stéréoscopique, et 6 pour l'écran mutiscopique de l'exemple de la figure 1 (d'autres configurations sont possibles, notamment pour les écrans multiscopiques stéréoscopiques, qui mutualisent parfois les images entre l'oeil droit (resp. gauche) d'une vue et l'oeil gauche (resp. droit) de la vue suivante). Dans notre exemple, il crée deux caméras virtuelles Cl et C2, comme représenté en figure 5a, pour un écran stéréoscopique.
Naturellement si l'écran est bidimensionnel, cette étape peut être omise puisque la caméra unique Cl créée pendant la phase d'initialisation El suffit. L'étape E7 consiste à récupérer la position de l'utilisateur destinataire de la scène. Il existe de nombreuses techniques connues pour obtenir la position d'un utilisateur sans participation active de sa part, par exemple des techniques de détection puis de suivi de sa tête, ou de ses yeux, à l'aide d'une ou plusieurs caméras permettant de déterminer sa position dans l'espace suivant les trois axes. Cette position peut être transmise au terminal par la ou les caméras en charge de l'obtention du positionnement. Ce type de technique est par exemple décrite dans l'article « Real-Time Eye Detection and Tracking under Various Light Conditions » de Feng Jiao and Guiming He (Data Science Journal, Vol. 6 (2007) pp.S636-S640). Ce document est incorporé par référence dans la présente demande. La restitution de la scène peut ainsi se baser sur la position exacte de chacun des yeux de l'utilisateur mais peut également, alternativement, se baser sur la position de sa tête, de son visage, de ses épaules, de ses mains, etc. Selon une variante de réalisation, on peut imaginer que l'utilisateur lui-même transmette sa position au terminal (par exemple en pressant une touche de sa télécommande qui transmettra alors la position à la STB). Lors d'une étape E8 successive, lorsque le terminal dispose de la position de l'utilisateur (qu'il a obtenue à l'étape E7) et du nombre de caméras (qu'il a créées à l'étape E6), la position de chaque caméra est établie en fonction de la position de l'utilisateur, comme il sera illustré à l'appui de la figure 6a. A l'étape E9, la scène tridimensionnelle composée des différents éléments disposés dans l'univers des caméras est disponible en entrée. Elle peut alors être capturée par les différentes caméras. Par exemple, une première image gauche IM1 de la scène tridimensionnelle est capturée par la caméra 1, Cl. Une seconde image IM2 est capturée de la même manière en remplaçant la caméra 1, Cl, par la caméra 2, C2. Les deux images ainsi obtenues forment un couple d'images stéréoscopiques. A l'issue de cette étape E9, on dispose d'une ou plusieurs images (par exemple, les deux images stéréoscopiques correspondant aux deux caméras), qui vont pouvoir être combinées lors d'une étape El0 (COMP) pour créer l'image globale de la scène (IC), selon le format d'entrée attendu par l'écran, par exemple deux images stéréoscopiques en côte à côte (en anglais : Side by Side), ou l'une au-dessus de l'autre (en anglais : Top/Bottom), ou encore alternativement dans le temps conformément au mode séquentiel (en anglais : field sequenti4 du format Bluray 3D. Cette étape El0 peut être omise si l'écran accepte directement les images en entrée. Elle sera, notamment, systématiquement omise dans le cas d'un écran bidimensionnel puisqu'une seule image lui sera délivrée, ne nécessitant pas de format de composition particulier.
Le procédé s'arrête par une étape Ell (END) lors de laquelle l'image finale IC composée de toutes les images capturées est transmise à l'écran. Les figures 4a et 4b sont des illustrations graphiques de l'étape d'initialisation (El) d'un procédé selon l'invention.
Le procédé crée tout d'abord l'espace tridimensionnel représenté par le repère (O,X,Y,Z) (l'axe Y, se trouvant perpendiculaire à la figure puisque l'univers virtuel est vu du dessus, n'est pas représenté). Une première caméra virtuelle Cl, pointant sur l'origine 0 du repère, est créée. La configuration de la caméra détermine un volume de l'espace, aussi appelé frustum par l'homme du métier, ou qui est potentiellement visible par l'utilisateur lors d'une visualisation à l'écran (surface grisée sur la figure). Il s'agit d'une pyramide tronquée. L'apex de la pyramide est la position de la caméra Cl, sa base est le plan le plus éloigné (en anglais : Far Plane - FP) et la pyramide est tronquée au niveau du plan le plus proche, en anglais : Near Plane - NP). Tous les objets tridimensionnels qui se trouvent dans le frustum, ici le cylindre 4, sont visibles et seront donc rendus à l'écran. Cet espace est entièrement paramétrable. Par exemple, on pourra prendre des distances D1 = 150 cm (respectivement D2 = 250 cm) entre l'apex de la pyramide et le plan NP (respectivement FP) et une distance D3 de 1280 cm pour la hauteur du plan de référence ZO qui correspond au plan de projection de profondeur nulle (Z=0). L'unité choisie dans cet exemple est le centimètre mais les distances pourraient être indifféremment exprimées en pouces ou toute autre unité de mesure car l'univers virtuel créé est indépendant d'une unité de mesure et totalement paramétrable. L'utilisateur, représenté face à l'écran dans la figure 4b correspondant à la figure 4a, voit l'objet 4 dans sa position initiale, sans relief. Tout se passe comme s'il se trouvait à la place de la caméra Cl.
Les figures 5a et 5b sont des illustrations graphiques de l'étape de création des caméras (E6) d'un procédé selon l'invention, dans le contexte d'un écran stéréoscopique. Une seconde caméra C2 est créée, identique à la première caméra Cl, lors de l'étape E6 représentée à la figure 3. Les deux caméras sont confondues et de même frusturn. Puis les deux caméras Cl et C2 sont écartées l'une de l'autre selon l'axe Y et positionnées à équidistance de la position initiale, en respectant la contrainte de rendu stéréoscopique, c'est-à-dire qu'elles sont écartées d'une distance D4 de parallaxe correspondant à l'espace entre les deux yeux d'un observateur humain, par exemple D4 est égal à 6 cm. Les origines O' et O" des repères associés aux deux caméras sont déplacées selon le même mouvement de translation que les caméras, la caméra Cl se trouvant pointée sur l'origine d'un repère (O', X, Y, Z) et la caméra C2 sur l'origine d'un repère (O", X, Y, Z) tels que O' et O" sont distants de D4 sur l'axe Y. L'univers tridimensionnel est ainsi créé. L'utilisateur, toujours représenté en face du milieu de l'écran à la figure 5b, voit l'objet 4 dans sa position initiale, avec relief puisque tout se passe maintenant comme s'il recevait les vues respectives des caméras Cl et C2 sur son oeil droit et sur son oeil gauche. Les figures 6a et 6b sont des illustrations graphiques des étapes de 30 restitution d'un procédé selon l'invention dans le contexte d'un écran stéréoscopique. On suppose que l'utilisateur s'est déplacé. On connaît, à cette étape, la position P, récupérée à l'étape E7, de l'utilisateur par rapport à l'écran. Conformément à l'invention, les caméras Cl et C2 sont déplacées dans une position P' dans l'univers virtuel qui correspond à celle de l'utilisateur, P, dans l'univers réel. Plus précisément, si l'on souhaite reproduire la position des yeux de l'utilisateur, la caméra Cl sera placée à la position de son oeil gauche et la caméra C2 à celle de son oeil droit. Comme représenté sur la figure 6b, l'utilisateur dans l'univers réel s'est déplacé vers la gauche. Il voit maintenant la face droite de l'objet 4, tout se passant comme s'il se trouvait à la place des caméras Cl et C2.
La figure 7 est un organigramme détaillé correspondant à l'étape de projection E3 d'un composant graphique de la scène dans l'univers virtuel. L'étape de projection succède d'une part à l'étape précédemment décrite d'acquisition E2 de l'un des composants de la scène et d'autre part à la création de l'univers tridimensionnel virtuel dans l'étape El. Lors de la première étape E20 (GENE), on dispose donc en entrée d'un composant graphique (le cylindre 4) et de l'univers virtuel tridimensionnel. Lors de l'étape E20, une image bidimensionnelle est créée à partir du composant graphique acquis. Par exemple, si la bibliothèque TK fournit en entrée une représentation géométrique du cylindre 4, cette étape se charge de transformer cette représentation en un ensemble de pixels assimilables à une image du cylindre. A partir de cette image, une texture du composant est extraite au cours de l'étape 21 (TEXT). Un tel procédé d'extraction de texture est bien connu de l'homme du métier et ne sera pas décrit plus avant. Dans cet exemple de réalisation, on appelle texture l'ensemble des pixels de l'image construite lors de l'étape E20 pour le composant considéré et applicable sur un polygone. Puis, lors de l'étape E22 (QUAD), une surface est définie par un ensemble de polygones aptes à représenter le relief du composant graphique. Cette surface peut être, par exemple, de manière classique, un ensemble de quadrangles ou de triangles. Dans la suite de la description, on considère que le composant graphique est représenté par une projection sur un seul polygone mais la représentation du composant sur un véritable volume en perspective impliquerait plusieurs polygones. Le polygone est dessiné à la position (Z=0) dans l'univers virtuel, c'est-à-dire qu'on attribue au composant une profondeur nulle par défaut. Puis la texture est appliquée, lors de l'étape E23 (MAP), sur le polygone ainsi dessiné, à l'aide d'un procédé de plaquage de texture. Le plaquage (ou mappage) de texture est une technique bien connue qui permet de dessiner un objet bidimensionnel ou tridimensionnel de manière à ce que les polygones le constituant soient revêtus de la texture. Il s'agit d'associer à chaque pixel du polygone une valeur extraite de la texture à plaquer. Il va de soi que le mode de réalisation qui a été décrit ci-dessus a été donné à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention.

Claims (7)

  1. REVENDICATIONS1. Procédé de création d'au moins une image (VG, VD, IM1, IMN) d'une scène graphique (SG) destinée à être restituée sur un écran (TV2D, TV3D, TVND) d'un utilisateur occupant une position (P) par rapport à l'écran, la scène (SG) comportant au moins un objet graphique (4), caractérisé en ce que au moins un objet graphique (4) est créé dans au moins une image (VG, VD, IM1, IMN) en prenant en compte la position (P) de l'utilisateur.
  2. 2. Procédé de création selon la revendication 1, caractérisé en ce que l'étape de création de l'objet graphique comporte les étapes suivantes : Création (El, E5, E6) d'un univers virtuel muni d'au moins une caméra virtuelle (Cl, C2, ..CN). Positionnement (E7, E8) de ladite au moins une caméra virtuelle (C1, C2, ... CN) en fonction de la position (P) de l'utilisateur. Projection (E3) dudit au moins un objet graphique (3,4) dans l'univers virtuel; Capture (E9) de ladite au moins une image par ladite au moins une caméra virtuelle (Cl, C2, CN) à partir de ladite projection (CP_3D) dans l'univers virtuel.
  3. 3. Procédé de création selon la revendication 1 caractérisé en ce qu'il comporte en outre - Une étape d'obtention d'un nombre de vues affichables sur l'écran - Une étape de création d'images dont le nombre (1, 2, 6) est fonction du nombre de vues restituables sur l'écran (1D, 2D, ND).
  4. 4. Terminal (T) comportant des moyens de création (MC) d'au moins une image d'une scène graphique (SG) destinée à être restituée sur un écran d'un utilisateur occupant une position (P) par rapport à l'écran, la scène comportant au moins un objet graphique,caractérisé en ce qu'il comporte des moyens de création d'au moins un objet graphique dans au moins une image, en prenant en compte la position (P) de l'utilisateur.
  5. 5. Terminal selon la revendication 4 caractérisé en ce qu'il comprend : Des moyens de création d'un univers virtuel muni d'au moins une caméra virtuelle ; - Des moyens de positionnement de ladite au moins une caméra virtuelle en fonction de la position de l'utilisateur. - Des moyens de projection dudit au moins un objet graphique dans l'univers virtuel ; Des moyens de capture (E5) de ladite au moins une image par ladite au moins une caméra virtuelle à partir de ladite projection dans l'univers virtuel.
  6. 6. Terminal selon la revendication 4 caractérisé en ce qu'il comprend Des moyens (I/O) d'obtention d'un nombre de vues affichables sur l'écran Des moyens de création d'images dont le nombre (1, 2, 6) est fonction du nombre de vues restituables sur l'écran (1D, 2D, ND).
  7. 7. Programme d'ordinateur apte à être mis en oeuvre sur un terminal tel que défini dans la revendication 4, le programme comprenant des instructions de code qui, lorsque le programme est exécuté par un processeur, réalise les étapes du procédé défini selon la revendication 1.
FR1252868A 2012-03-29 2012-03-29 Procede et dispositif de creation d'images Pending FR2988962A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1252868A FR2988962A1 (fr) 2012-03-29 2012-03-29 Procede et dispositif de creation d'images
PCT/FR2013/050661 WO2013144506A1 (fr) 2012-03-29 2013-03-27 Procede et dispositif de creation d'images
EP13715383.9A EP2831847A1 (fr) 2012-03-29 2013-03-27 Procede et dispositif de creation d'images
US14/387,782 US9942540B2 (en) 2012-03-29 2013-03-27 Method and a device for creating images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1252868A FR2988962A1 (fr) 2012-03-29 2012-03-29 Procede et dispositif de creation d'images

Publications (1)

Publication Number Publication Date
FR2988962A1 true FR2988962A1 (fr) 2013-10-04

Family

ID=48083544

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1252868A Pending FR2988962A1 (fr) 2012-03-29 2012-03-29 Procede et dispositif de creation d'images

Country Status (4)

Country Link
US (1) US9942540B2 (fr)
EP (1) EP2831847A1 (fr)
FR (1) FR2988962A1 (fr)
WO (1) WO2013144506A1 (fr)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8670023B2 (en) * 2011-01-17 2014-03-11 Mediatek Inc. Apparatuses and methods for providing a 3D man-machine interface (MMI)
US9762895B1 (en) * 2014-03-11 2017-09-12 Rockwell Collins, Inc. Dual simultaneous image presentation for a three-dimensional aviation display
EP3234920A1 (fr) * 2014-12-23 2017-10-25 Meta Company Appareils, procédés et systèmes de couplage d'accommodation visuelle et de convergence visuelle vers le même plan à n'importe quelle profondeur d'un objet d'intérêt
WO2018170917A1 (fr) * 2017-03-24 2018-09-27 深圳看到科技有限公司 Procédé de lecture d'image panoramique et appareil de lecture d'image panoramique

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090184981A1 (en) * 2008-01-23 2009-07-23 De Matos Lucio D Orazio Pedro system, method and computer program product for displaying images according to user position
US20100156907A1 (en) * 2008-12-23 2010-06-24 Microsoft Corporation Display surface tracking

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEHN C ET AL: "Interactive 3-DTV-Concepts and Key Technologies", PROCEEDINGS OF THE IEEE, IEEE. NEW YORK, US, vol. 94, no. 3, 1 March 2006 (2006-03-01), pages 524 - 538, XP011370638, ISSN: 0018-9219, DOI: 10.1109/JPROC.2006.870688 *
TANIMOTO M: "Free viewpoint TV and its international standardization", PROCEEDINGS OF THE SPIE - THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING SPIE - THE INTERNATIONAL SOCIETY FOR OPTICAL ENGINEERING USA, vol. 7329, 2009, XP040496881, ISSN: 0277-786X *

Also Published As

Publication number Publication date
US20150085086A1 (en) 2015-03-26
WO2013144506A1 (fr) 2013-10-03
US9942540B2 (en) 2018-04-10
EP2831847A1 (fr) 2015-02-04

Similar Documents

Publication Publication Date Title
CN107636534B (zh) 用于图像处理的方法和系统
EP3326365B1 (fr) Système et procédé de gestion et de création de vidéo en trois dimensions virtuelle
JP6240963B2 (ja) 運動視差を用いた、2d画像からの3d知覚の生成
US20130321396A1 (en) Multi-input free viewpoint video processing pipeline
WO2012153447A1 (fr) Dispositif de traitement d'image, procédé de traitement d'image vidéo, programme, et circuit intégré
JP2006107213A (ja) 立体画像印刷システム
JP2008140271A (ja) 対話装置及びその方法
CN109791704B (zh) 用于自由运行fvv应用的基于多层uv映射的纹理渲染方法、系统和装置
WO2019244944A1 (fr) Procédé de reconstruction tridimensionnelle et dispositif de reconstruction tridimensionnelle
EP2831847A1 (fr) Procede et dispositif de creation d'images
JP2022522504A (ja) 画像の奥行きマップの処理
WO2005017602A2 (fr) Systeme de visualisation d'images en relief
FR3039028A1 (fr) Procede et dispositif d'affichage de scene tridimensionnelle sur une surface d'affichage de forme arbitraire non plane
US20190295324A1 (en) Optimized content sharing interaction using a mixed reality environment
CA3022298A1 (fr) Dispositif et procede de partage d'immersion dans un environnement virtuel
Lafruit et al. Tele-robotics VR with holographic vision in immersive video
EP2987319A1 (fr) Procede de generation d'un flux video de sortie a partir d'un flux video large champ
CN114463520A (zh) 一种实现虚拟现实vr漫游的方法及装置
FR3056770A1 (fr) Dispositif et procede de partage d'immersion dans un environnement virtuel
FR2974435A1 (fr) Procede et dispositif de creation d'images stereoscopiques
EP2406962B1 (fr) Système et procédé configurés pour la capture d'une pluralité d'images à destination d'une restitution multiscopique à déformation controlée
Guarnaccia et al. An explorable immersive panorama
FR2836570A1 (fr) Procede de transmission de donnees d'images entre un serveur et un terminal
FR3054062A1 (fr) Systeme et procede de capture embarquee et de reproduction 3d/360° du mouvement d'un operateur dans son environnement
FR3013492A1 (fr) Procede utilisant des donnees de geometrie 3d pour une presentation et une commande d'image de realite virtuelle dans un espace 3d