FR3052565B1 - Dispositif individuel d'immersion visuelle pour personne en mouvement - Google Patents

Dispositif individuel d'immersion visuelle pour personne en mouvement Download PDF

Info

Publication number
FR3052565B1
FR3052565B1 FR1655388A FR1655388A FR3052565B1 FR 3052565 B1 FR3052565 B1 FR 3052565B1 FR 1655388 A FR1655388 A FR 1655388A FR 1655388 A FR1655388 A FR 1655388A FR 3052565 B1 FR3052565 B1 FR 3052565B1
Authority
FR
France
Prior art keywords
images
image
camera
calculating
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
FR1655388A
Other languages
English (en)
Other versions
FR3052565A1 (fr
Inventor
Cecile SCHMOLLGRUBER
Edwin AZZAM
Olivier Braun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stereolabs SAS
Original Assignee
Stereolabs SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stereolabs SAS filed Critical Stereolabs SAS
Priority to FR1655388A priority Critical patent/FR3052565B1/fr
Priority to PCT/FR2017/000116 priority patent/WO2017212130A1/fr
Priority to US16/306,545 priority patent/US20190297319A1/en
Publication of FR3052565A1 publication Critical patent/FR3052565A1/fr
Application granted granted Critical
Publication of FR3052565B1 publication Critical patent/FR3052565B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0132Head-up displays characterised by optical features comprising binocular systems
    • G02B2027/0134Head-up displays characterised by optical features comprising binocular systems of stereoscopic type
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Dispositif individuel d'immersion visuelle pour personne en mouvement comprenant un moyen pour placer le dispositif sur la personne et un moyen pour afficher devant les yeux de la personne des images immersives, caractérisé en ce qu'il comprend de plus un capteur d'images stéréoscopique (A) pour générer deux flux synchronisés d'images d'une même scène prises sous deux angles distincts, un moyen de calcul d'une information de disparité entre les images de paires d'images synchronisées des deux flux (B, F1, F2), un moyen de calcul des caractéristiques du mouvement courant du dispositif (C) à partir de l'information de disparité, et des moyens de composition d'un flux d'images immersives (D, E, H) cohérentes avec les caractéristiques du mouvement.

Description

Contexte technologique L'invention porte sur un casque de réalité augmentée ou virtuelle destiné à être porté par un utilisateur et comprenant un écran rectangulaire sur lequel sont diffusées des images synchronisées sur la moitié gauche et la moitié droite, un système optique permettant de visualiser correctement avec l'œil gauche et l'œil droit, respectivement les images diffusées à gauche et à droite de l'écran, chaque œil devant voir l'image et donc la partie de l'écran correspondante. Il est possible également d'utiliser deux écrans synchronisés qui chacun affichent l'image gauche ou droite correspondante, plutôt qu'un seul écran.
Le casque intègre une caméra stéréoscopique (composé de deux capteurs synchronisés) reproduisant les yeux de l'utilisateur et orientée vers la scène que l'utilisateur pourrait voir si ses yeux n'étaient pas occultés par le casque.
Cette caméra est connectée à une unité de calcul interne ou externe au casque permettant le traitement des images provenant des deux capteurs.
Le traitement d'images associé est la succession d'algorithme permettant d'extraire premièrement la cartographie de profondeur de la scène puis d'utiliser ce résultat avec les images associées gauche et droite provenant de la stéréoscopie pour en déduire le changement de position et d'orientation de la caméra entre le temps t-e et le temps t où e est la durée d'une image de la caméra (inverse de la fréquence d'image).
Ces différents résultats peuvent être utilisés pour afficher la scène réelle vue par la caméra comme si l'utilisateur voyait directement cette scène, ou bien afficher un modèle virtuel sur l'écran et modifier le point du vue virtuel en le combinant à la position et l'orientation de la caméra dans l'espace, ou bien combiner ces deux résultats en incorporant de manière cohérente un flux d'image ou d'objets virtuels dans la scène réelle.
La problématique de l'incorporation d'éléments virtuels dans un flux d'images réelles a déjà été abordée dans le document WO2015123775A1 qui porte sur l'intégration d'une caméra stéréoscopique à un casque de réalité virtuel comprenant également des méthodes associées pour capturer, traiter et afficher les éléments de façon optimale, en particulier la gestion des occlusions des objets virtuels par les objets réels.
Cependant, aucune estimation de la position et orientation de la caméra dans l'espace n'est décrite mise à part l'obtention de la position du casque sur la base d'au moins un marqueur connu devant être visible à chaque instant par au moins une caméra.
Si aucun mode d'estimation de la position et orientation de la caméra n'est mis en œuvre, ou si le marqueur est mal repéré ou perdu de vue, un mouvement de la tête de l'utilisateur n'est pas décrit et les éléments virtuels restent à la même place dans l'image, ce qui rend leur intégration incohérente.
Un autre moyen de l'état de l'art couramment utilisé notamment dans les téléphones portables est l'utilisation d'une centrale inertieile (IMU). Le problème de cette technologie est qu'elle ne permet de détecter que l'orientation du système et beaucoup moins son déplacement dans l'espace, rapidement perdu.
Dans le premier cas, l'inconvénient majeur de la méthode étant la nécessité de placer des éléments externes au casque pour connaître la position et l'orientation précise du système.
Dans le deuxième cas, l'inconvénient est évidemment le manque d'informations sur la position de l'utilisateur dans le temps. Cela limite l'utilisation d'un casque intégrant ce type de mesure en une utilisation de type trépied, sans déplacement de l'utilisateur possible. Résumé de l'invention
Dans ce contexte, il est proposé un dispositif individuel d'immersion visuelle pour personne en mouvement comprenant un moyen pour placer le dispositif sur la personne et un moyen pour afficher devant les yeux de la personne des images immersives, caractérisé en ce qu'il comprend de plus un capteur d'images stéréoscopique pour générer deux flux synchronisés d'images d'une même scène prises sous deux angles distincts, un moyen de calcul d'une information de disparité entre les images de paires d'images synchronisées des deux flux, un moyen de calcul des caractéristiques du mouvement courant du dispositif à partir de l'information de disparité, et des moyens de composition d'un flux d'images immersives cohérentes avec les caractéristiques du mouvement. L'invention propose l'amélioration suivante : utiliser un seul et même système, en l'occurrence une caméra stéréoscopique, pour obtenir deux images stéréoscopiques, la carte de profondeur associée à l'image gauche et l'estimation de position de la caméra fixée sur le casque.
La combinaison de ces résultats permet soit, dans un mode d'opération de réalité virtuelle de visualiser un monde virtuel en reportant les mouvements du casque (rotation et translation) sur la caméra virtuelle utilisée pour rendre ce monde suivant le point de vue de l'utilisateur, tout en utilisant la carte de profondeur pour détecter une interaction avec le monde extérieur (objet proche de l'utilisateur dans sa ligne de vision, interaction avec un mouvement dans le monde réel vu par la caméra mais invisible par l'utilisateur).
Elle permet également dans un mode d'opération de réalité augmentée, d'afficher deux images, chacune visible par un des yeux de l'utilisateur (afin que l'utilisateur puisse reconstruire une vision de type humaine de son environnement), d'incorporer des objets virtuels dans cette vision réelle de manière cohérente. Il convient donc de la même manière que dans le mode d'opération (A) d'utiliser la position et l'orientation de la caméra « réelle » afin d'orienter les objets virtuels vu par une caméra virtuelle de la même manière que le monde réel afin que le placement des objets virtuels reste cohérent avec le monde réel. De plus, les éléments virtuels étant affichés en surimpression de l'image réelle, il faut, afin de positionner un objet virtuel derrière un objet réel, masquer une partie de l'objet virtuel pour donner l'impression qu'il est derrière l'objet réel. Afin de masquer la partie d'un objet virtuel, il est nécessaire d'utiliser la carte de profondeur issue de la caméra afin de comparer pixel à pixel la position de l'objet virtuel avec le monde réel.
Afin d'augmenter la fiabilité des résultats, il est considéré optionnellement d'utiliser une centrale inertielle afin de comparer les rotations issues de cette centrale et les rotations issues du calcul basé sur les images de la caméra et sa carte de profondeur.
En résumé, les caractéristiques optionnelles suivantes peuvent être présentes : - le moyen de calcul des caractéristiques du mouvement utilise aussi au moins l'un des flux d'images ; - les moyens de composition créent des images immersives de réalité augmentée en utilisant les images issues du capteur et l'information de disparité pour choisir les éléments de la scène à masquer avec des éléments virtuels ; - les moyens de composition créent des images immersives de réalité virtuelle ; - une centrale inertielle et dans lequel le moyen de calcul des caractéristiques du mouvement courant du dispositif utilise les informations fournies par la centrale inertielle ; - l'information de disparité entre les images synchronisées des deux flux est densifiée en effectuant une détection de contours dans les images et en estimant des valeurs de disparité inconnues en fonction des contours ou en interpolant des valeurs de disparité connues ; - le moyen de calcul des caractéristiques du mouvement courant du dispositif à partir de l'information de disparité évalue le mouvement à partir d'une image de référence choisie en fonction de sa luminosité ou sa netteté, ou quand la position de la caméra a dépassé un seuil prédéfini de déplacement global, ou quand il est possible d'évaluer avec une précision atteignant un seuil prédéfini l'ensemble des composantes du déplacement.
Liste des figures L'invention va maintenant être décrite en référence aux figures, parmi lesquelles - La figure 1 est un ordinogramme présentant la fonction de détermination de la position dans un mode de réalisation de l'invention ; - La figure 2 présente la structure d'un mode de réalisation de l'invention. Description détaillée
La caméra stéréoscopique intégrée au casque permet d'obtenir deux images couleur de la scène de façon synchronisées. Une calibration préalable du capteur stéréoscopique est nécessaire afin de modifier les images suivant une matrice de transformation afin de rendre les images fronto-parallèles (comme si les images provenaient d'une caméra stéréoscopique aux axes optiques complètement parallèle).
Il est ainsi possible de calculer la carte de disparité puis d'obtenir une carte de profondeur en transformant les valeurs pixelliques en valeurs métriques grâce à la calibration préalable.
La carte de profondeur est dite « dense »: c'est à dire que la plupart des pixels présentent une valeur de profondeur en métrique, hormis les occlusions (partie de l'image visible par l'une des caméras mais non visible sur l'autre caméra), zones peu texturées ou saturées, ce qui représente un faible pourcentage de l'image, en opposition à une carte de profondeur dite éparse dont la majorité des pixels ne sont pas définis.
Une première utilisation de la carte de profondeur permet de gérer l'incrustation d'éléments virtuels dans l'image réelle, dans un but de réalité augmentée. Un objet correctement intégré dans une image réelle doit être cohérent avec son environnement. Par exemple, un objet virtuel placé partiellement derrière un objet réel doit être partiellement masqué par cet objet réel. L'incrustation d'éléments virtuels se faisant nécessairement sur l'image réelle, il est nécessaire de connaître la profondeur de chaque pixel de l'image réelle et de l'image virtuelle afin de pouvoir savoir quel pixel doit être affiché (pixel image réelle ou image virtuelle) lors de la composition de l'image finale à afficher dans le casque. Vu que la comparaison est pixel à pixel, il est nécessaire de combler les « trous » de la carte de profondeur. Une détection de contour est effectuée et un remplissage des zones vides est effectué en utilisant les pixels voisins préalablement détectés. Une scène virtuelle étant forcément vue par une caméra virtuelle définie et placée par l'utilisateur, la carte de profondeur d'une scène virtuelle est implicite. En appliquant les mêmes paramètres de caméra entre la caméra virtuelle et la caméra stéréoscopique (fournis par la calibration préalable), il est alors possible de comparer chaque pixel de l'image réelle avec l'image virtuel et de composer le pixel final en choisissant quel pixel est le plus proche de la caméra. Le système permet donc de gérer les occlusions des objets réels sur les objets virtuels pour une meilleure intégration des éléments ajoutés à la scène.
Cette partie est utile dans le cadre d'une utilisation en réalité augmentée, où la composition d'éléments virtuels avec l'environnement réel est nécessaire.
Lorsque la caméra est en mouvement, le point de vue réel est modifié. Il apparaît nécessaire de caler le mouvement de la caméra stéréoscopique sur la caméra virtuelle qui voit l'environnement virtuel afin que le rendu des éléments virtuels reste cohérent avec le mouvement de la caméra réelle et donc du système complet à savoir le casque porté par l'utilisateur. Il faut donc connaître le mouvement du casque (rotation et translation) dans le monde réel.
La seule utilisation d'une centrale inertielle ne permet pas d'avoir la translation sur les trois axes de la caméra mais seulement la rotation.
Pour pouvoir estimer les trois rotations et les trois translations permettant de passer de l'image n-1 (ou n-X) à l'image n, les images gauches ou droites n-1 (ou n-X) et n ainsi que la carte de disparité ou de profondeur associée à l'image gauche ou droite (suivant le choix du côté d'image) sont utilisées.
On effectue le calcul de la matrice de transformation entre l'image de la caméra gauche (ou alternativement droite) actuelle (t) et l'image de la caméra gauche (ou droite) précédente (t-1) à l'aide des images monoscopiques (gauche ou droite) et de la carte de profondeur associée. On peut optionnellement utiliser les rotations de la centrale inertieile et/ou les résultats précédents en estimant ce que pourrait être la nouvelle position de la caméra.
On estime la position de la caméra par un calcul de la matrice de transformation, et une sélection des images n et n-1 (ou n-X).
La matrice de transformation entre deux instants est obtenue en calculant la transformation entre les images prises entre deux instants n et n-1 (ou n-X).
Pour cela, un algorithme de détection de points d'intérêts peut être utilisé pour détecter des points (pixels) spécifique dans l'image n-1 (n-X). On peut par exemple utiliser un algorithme de type Harris ou Surf, ou bien simplement utiliser des points issus du calcul de la carte de profondeur en appliquant par exemple un filtre de contour pour sélectionner certains point de l'image. On peut également sélectionner tous les pixels de l'image comme liste de points.
La carte de profondeur dense associée à l'image n-1 (n-X) est utilisée pour projeter les points de l'image n-1 (ou n-X) en 3D puis d'appliquer la transformation cherchée sur le nuage de point. Les points 3D sont ensuite projetés dans l'image n, on en déduit l'erreur de transformation en comparant l'image obtenue avec l'image originale. Le processus est itératif, jusqu'à obtenir la matrice de transformation finale entre les deux images. La matrice de transformation comprend les rotations sur les trois axes rX,rY,rZ ainsi que les trois translation tX,tY,tZ, usuellement embarqués sous la forme d'un matrice 4x4, où la rotation est une matrice 3x3 et la translation un vecteur de 3 dimensions.
Dans le processus d'itération, plusieurs modes d'Operations sont disponibles sur le choix de la première matrice de transformation utilisée dans l'itération.
Dans un mode opératoire 1, aucune valeur précédente n'est utilisée et aucun capteur externe ne donne d'apriori sur la matrice à calculer. On part donc d'une matrice dite identité, où rotations et translations sont nulles.
Dans un mode opératoire 2, on utilise la matrice de transformation calculée sur l'ancienne paire d'image et on prédit la nouvelle matrice de transformation à entrer dans le processus itératif, en utilisant un filtre dit « prédictif ». Par exemple, on pourra utiliser un filtre de Kalman ou bien un filtre particulaire qui utilise les méthodes de Monte-Carlo pour prédire la position suivante.
Dans un mode opératoire 3, on utilise les valeurs de rotation donnée par la centrale inertielle pour créer une première matrice de transformation dans le processus itératif.
Dans un mode opératoire 4, on fusionne les valeurs estimées par le mode 2 et les valeurs de la centrale inertielle (mode 3), afin de créer une première matrice de transformation dans le processus itératif. La fusion peut être une simple moyenne, une séparation de valeur (rotation issue de la centrale inertielle, translation issue de la méthode prédictive 2), ou une autre forme de combinaison (sélection des minimums).
Les images n et n-1 (n-X) sont sélectionnées de la manière suivante. L'image n est dans chaque cas d'utilisation l'image courante qui vient d'être « acquise » et traitée par le module de rectification et d'estimation de la profondeur.
Il y deux possibilités pour la sélection de l'image n-1 (n-X) : - Dans un premier cas, l'image n-1 peut être l'ancienne image courante traitée par le module. La carte de profondeur utilisée est donc la carte n-1 estimée par le module d'estimation de la carte de profondeur. - Dans un second cas, on introduit la notion de « keyframe » ou « image de référence » comme image n-1. Cela peut être une image précédente à l'image n-1, que nous appelons n-X ou X peut varier lors de l'utilisation et doit être inférieur à une valeur fixée par l'utilisateur ou bien laissée à une valeur de défaut.
La carte de profondeur utilisée est la carte « sauvegardée » associée à l'image n-X.
Dans le premier cas, la valeur X reste constante à la valeur 1. On considère alors que chaque image est une image de référence.
Le mode préférentiel d'utilisation est le second cas, avec image de référence n-X. Le choix de l'image de référence dans ce second cas peut être fait de différentes façons : - L'image est choisie quand le changement de position de la caméra dépasse une certaine valeur par défaut, modifiable par l'utilisateur. On estime notamment par cette méthode que le mouvement de la caméra n'est pas dû à un biais de calcul (« drift »). - L'image est choisie quand l'erreur finale de calcul de la matrice de transformation est inférieure à une certaine valeur par défaut, modifiable par l'utilisateur. On considère que l'estimation de la position de la caméra est suffisamment bonne pour être considérée comme une « image de référence ». - L'image est choisie quand sa qualité est considérée comme suffisante notamment en termes de niveau de luminosité ou de flou de bougé faible.
En référence à la figure 1, on visualise tout d'abord l'initialisation 100 du calcul de suivi de la position R, T (pour rotation et translation). Cette initialisation est faite à l'aide de la fusion de données externes, provenant du capteur et d'une centrale inertieile, et des données de suivi de la position prédite sur la base des données calculées aux instants précédents.
Le calcul de l'estimation 110 de la position en rotation et en translation R et T est ensuite mené à l'aide de l'image courante et du résultat de la détection 120 de points en 3D effectuées menée à sur l'image n-X et la carte de profondeur N-X. À l'issue du calcul de l'estimation 110 de la position, on fournit des données complètes dites de tracking (données de suivi, ou données d'estimation de la position en rotation et translation R,T), ainsi que des éléments pour définir la matrice d'initialisation du calcul de suivi de position pour l'étape suivante, ainsi que des éléments pour sélection d'une nouvelle référence N-X.
En référence à la figure 2, on va maintenant décrire l'architecture complète de l'invention.
Les images droites et gauches sont acquises simultanément depuis une caméra stéréoscopique intégrée au casque de réalité virtuelle, à l'aide du module A.
On mène avec un module B un calcul de la carte de disparité sur l'image gauche puis un calcul de la carte de profondeur métrique avec les paramètres du système stéréo. L'algorithme calcule une carte de disparité dense.
On mène avec un module C un calcul de la matrice de transformation entre la caméra gauche courante (t) et précédente (t-x) à l'aide des images gauches et de la carte de profondeur associées. Les matrices de transformations sont intégrées à chaque image pour garder le repère de référence, à savoir la position de la caméra au lancement du système.
On détermine, à l'aide d'un module D la position absolue de la caméra virtuelle dans le monde réel. Elle permet de faire le lien entre le repère du monde réel et le repère du monde virtuel.
Le module F1/F2 en parallèle du module C prend en entrée la carte de disparité gauche issue de B, et en déduit la carte de disparité associée à l'image droite dans un sous-module Fl. La carte de disparité étant une correspondance entre les pixels de l'image droite avec les pixels de l'image gauche, il est possible par une opération d'inverser la référence sans recalculer la carte complète.
Le module F2 permet d'interpoler les zones manquantes de la carte et d'obtenir une carte complètement remplie, sans pixel « noir ».
Le module de rendu E permet le rendu visuel des éléments virtuels ajoutés à la scène. Celui-ci est calculé avec une caméra virtuelle définie grâce à la position obtenue par le module D. Deux images doivent être rendues : une pour chaque œil. La caméra virtuelle de la scène pour l'image gauche est identique à la position calculée par le module D, celle pour l'image droite est calculée à partir des paramètres extrinsèques du système et de la matrice de position. Concrètement il s'agit d'une translation en x correspondant à la distance inter-caméra.
Le module de rendu de la scène H effectue l'intégration des objets virtuels placés derrière des objets réels. La gestion des occlusions utilise les cartes calculées par le module F1/F2 et la carte de profondeur implicitement calculée par le module E. L'intégration est ainsi cohérente et réaliste, l'utilisateur est alors capable de comprendre l'emplacement de l'objet virtuel dans le monde réel.
Les deux images sont ensuite envoyées à l'écran, pour la visualisation par l'utilisateur qui porte le dispositif sur sa tête, avec l'écran devant les yeux, une optique adaptée permettant une vision stéréoscopique.

Claims (6)

  1. REVENDICATIONS
    1. Dispositif individuel d'immersion visuelle pour personne en mouvement comprenant un moyen pour placer le dispositif sur la personne et un moyen pour afficher devant les yeux de la personne des images immersives, caractérisé en ce qu'il comprend de plus un capteur d'images stéréoscopique (A) pour générer deux flux synchronisés d'images d'une même scène prises sous deux angles distincts, un moyen de calcul d'une information de disparité entre tes images de paires d'images synchronisées des deux flux (B, Fl, F2), un moyen de calcul des caractéristiques du mouvement courant du dispositif (C, 110) à partir de l'information de disparité, et des moyens de composition d'un flux d'images immersives {D, E, H) cohérentes avec les caractéristiques du mouvement, l'information de disparité entre les images synchronisées des deux flux étant densifiée (F2) en effectuant une détection de contours dans les images et en estimant des valeurs de disparité inconnues en fonction des contours ou en interpolant des valeurs de disparité connues.
  2. 2. Dispositif individuel d'immersion visuelle selon la revendication 1, dans lequel le moyen de calcul des caractéristiques du mouvement courant du dispositif (C, 110) utilise aussi au moins l'un des flux d'images.
  3. 3. Dispositif individuel d'immersion visuelle selon la revendication 1 ou la revendication 2, dans lequel les moyens de composition (D, E, H) créent des images Immersives de réalité augmentée en utilisant les images issues du capteur et l’information de disparité pour choisir les éléments de ia scène à masquer avec des éléments virtuels,
  4. 4. Dispositif individuel d'immersion visuelle selon la revendication 1 ou ia revendication 2, dans lequel les moyens de composition (H) créent des images immersives de réalité virtuelle.
  5. 5. Dispositif individuel d'immersion visuelle selon l'une des revendications 1 à 4, comprenant de plus une centrale inertieile et dans lequel le moyen de calcul des caractéristiques du mouvement courant du dispositif (C, 110) utilise les informations fournies par la centrale inertieile.
  6. 6. Dispositif individuel d'immersion visuelle selon l'une des revendications 1 à5, dans lequel le moyen de calcul des caractéristiques du mouvement courant du dispositif (C, 110) à partir de l'information de disparité évalue le mouvement à partir d'une image de référence choisie en fonction de sa luminosité ou sa netteté, ou quand la position de la caméra a dépassé un seuil prédéfini de déplacement global, ou quand il est possible d'évaluer avec une précision atteignant un seuil prédéfini l'ensemble des composantes du déplacement.
FR1655388A 2016-06-10 2016-06-10 Dispositif individuel d'immersion visuelle pour personne en mouvement Active FR3052565B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1655388A FR3052565B1 (fr) 2016-06-10 2016-06-10 Dispositif individuel d'immersion visuelle pour personne en mouvement
PCT/FR2017/000116 WO2017212130A1 (fr) 2016-06-10 2017-06-09 Dispositif individuel d'immersion visuelle pour personne en mouvement
US16/306,545 US20190297319A1 (en) 2016-06-10 2017-06-09 Individual visual immersion device for a moving person

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1655388 2016-06-10
FR1655388A FR3052565B1 (fr) 2016-06-10 2016-06-10 Dispositif individuel d'immersion visuelle pour personne en mouvement

Publications (2)

Publication Number Publication Date
FR3052565A1 FR3052565A1 (fr) 2017-12-15
FR3052565B1 true FR3052565B1 (fr) 2019-06-28

Family

ID=56557825

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1655388A Active FR3052565B1 (fr) 2016-06-10 2016-06-10 Dispositif individuel d'immersion visuelle pour personne en mouvement

Country Status (3)

Country Link
US (1) US20190297319A1 (fr)
FR (1) FR3052565B1 (fr)
WO (1) WO2017212130A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11681488B2 (en) * 2021-02-24 2023-06-20 International Datacasting Corp. Collaborative distributed workspace using real-time processing network of video projectors and cameras
US11948257B2 (en) * 2022-05-09 2024-04-02 Rovi Guides, Inc. Systems and methods for augmented reality video generation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213405B2 (en) * 2010-12-16 2015-12-15 Microsoft Technology Licensing, Llc Comprehension and intent-based content for augmented reality displays
WO2015123774A1 (fr) * 2014-02-18 2015-08-27 Sulon Technologies Inc. Système et procédé pour des applications de réalité augmentée et de réalité virtuelle
WO2015123775A1 (fr) * 2014-02-18 2015-08-27 Sulon Technologies Inc. Systèmes et procédés pour incorporer un train d'images réelles dans un train d'images virtuelles
GB201404134D0 (en) * 2014-03-10 2014-04-23 Bae Systems Plc Interactive information display
US20160027218A1 (en) * 2014-07-25 2016-01-28 Tom Salter Multi-user gaze projection using head mounted display devices

Also Published As

Publication number Publication date
US20190297319A1 (en) 2019-09-26
WO2017212130A1 (fr) 2017-12-14
FR3052565A1 (fr) 2017-12-15
WO2017212130A8 (fr) 2018-12-13

Similar Documents

Publication Publication Date Title
US11665427B2 (en) Still image stabilization/optical image stabilization synchronization in multi-camera image capture
US10540806B2 (en) Systems and methods for depth-assisted perspective distortion correction
US10015469B2 (en) Image blur based on 3D depth information
US9094675B2 (en) Processing image data from multiple cameras for motion pictures
Hu et al. Image deblurring using smartphone inertial sensors
CN110675348A (zh) 增强现实图像显示方法、装置及图像处理设备
KR20140030138A (ko) 입체 화상 및 비디오를 생성하는 방법, 시스템, 장치 및 관련 프로세스 로직
JP2014502818A (ja) 画像処理のための一次像および二次像画像取込装置およびその方法
EP3547672A1 (fr) Procédé, dispositif et appareil de traitement de données
CN109584358A (zh) 一种三维人脸重建方法及装置、设备和存储介质
Schmeing et al. Depth image based rendering: A faithful approach for the disocclusion problem
FR2775813A1 (fr) Procede et dispositif de remplacement de panneaux cibles dans une sequence video
Ceulemans et al. Robust multiview synthesis for wide-baseline camera arrays
US20150271467A1 (en) Capture of three-dimensional images using a single-view camera
FR3052565B1 (fr) Dispositif individuel d'immersion visuelle pour personne en mouvement
KR101470833B1 (ko) 전달률 하한치를 이용한 안개영상 개선 장치
Köppel et al. Filling disocclusions in extrapolated virtual views using hybrid texture synthesis
FR2925705A1 (fr) Dispositif d'aide a la capture d'images
CN106713893B (zh) 手机3d立体拍照方法
EP1847958B1 (fr) Segmentation d'image numérique d'une zone d'observation en temps réel
CN108550183A (zh) 3d模型制作方法及模型生成装置
WO2023062996A1 (fr) Dispositif de traitement d'informations, procédé de traitement d'informations et programme
Anthes Smarter photography
Mori et al. Augmented visualization: Observing as desired
WO2015150711A1 (fr) Procédé de transmission d'informations via un canal vidéo entre deux terminaux

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20171215

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9