FR3135811A1 - Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire - Google Patents

Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire Download PDF

Info

Publication number
FR3135811A1
FR3135811A1 FR2204663A FR2204663A FR3135811A1 FR 3135811 A1 FR3135811 A1 FR 3135811A1 FR 2204663 A FR2204663 A FR 2204663A FR 2204663 A FR2204663 A FR 2204663A FR 3135811 A1 FR3135811 A1 FR 3135811A1
Authority
FR
France
Prior art keywords
scene
image
depth
depth map
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR2204663A
Other languages
English (en)
Inventor
Ahmed Nasreddinne BENAICHOUCHE
Michel MOUKARI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Safran SA
Original Assignee
Safran SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Safran SA filed Critical Safran SA
Priority to FR2204663A priority Critical patent/FR3135811A1/fr
Priority to PCT/FR2023/050691 priority patent/WO2023222970A1/fr
Publication of FR3135811A1 publication Critical patent/FR3135811A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Vascular Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

L’invention porte sur un dispositif d’aide à la navigation destiné à être embarqué sur un système mobile. Ce dispositif comprend : une caméra monoculaire apte à acquérir simultanément une première image d’une scène (In) avec une première profondeur de champ et au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ, une unité d’estimation de profondeur (23) configurée pour déterminer une carte de profondeur (Dm) de la scène à partir de la première image de la scène et de l’au moins une deuxième image de la scène ; une unité de vision par ordinateur (24) configurée pour calculer une trajectoire de navigation à partir de la première image d’une scène et de la carte de profondeur de la scène. Figure pour l’abrégé : Figure 2

Description

Dispositif et procédé d’aide à la navigation basé sur l’imagerie monoculaire
Le domaine de l’invention est celui de l’aide à la navigation d’un système mobile du type robot ou véhicule autonome. L’invention concerne plus particulièrement le calcul d’une trajectoire de navigation pour le système mobile à partir d’une image RGB-D d’une scène, à savoir la combinaison d’une image couleur de la scène et d’une carte de profondeur caractérisant la distance des objets vus dans l'image.
Le calcul d’une trajectoire de navigation peut être mis en œuvre au moyen de différents algorithmes de vision par ordinateur qui prennent en entrée une image d’une scène et une carte de profondeur de la même scène pour fournir en sortie une solution de navigation par exemple avec évitement d’obstacle et/ou de collision.
Les méthodes d’estimation d’une carte de profondeur sont généralement divisées en deux catégories : les méthodes actives où une source de lumière est projetée dans la scène et les méthodes passives qui ne se basent que sur l’acquisition d’images de la scène éclairée par la lumière ambiante.
Parmi les méthodes passives, on distingue les approches basées sur la géométrie multi-vues (par exemple la stéréovision dans le cas de deux vues) et des approches basées sur des images monoculaires.
L’une des difficultés majeures des systèmes multi-vues concerne la complexité d’appariement des points entre les images provenant des différentes vues dans le cas de scènes faiblement texturées. De plus, la précision de ce type de système dépend fortement de la distance entre les points d’acquisition des différentes images (base stéréo).
Dans les approches basées sur des images monoculaires, on considère qu’une vue unique de la scène contient suffisamment d’indices permettant d’estimer la carte de profondeur. D’un côté, ces indices de profondeur ne sont pas accessibles de manière directe dans l’image et d’un autre coté la transformation entre ces mesures et la carte de profondeur n’est pas triviale. Ainsi, les réseaux de neurones ont été utilisés afin de résoudre ces deux tâches.
Il a été démontré que les performances de cette approche monoculaire sont améliorées dans le cas d’utilisation d’un indice de flou produit par l’optique de la caméra. Cependant, l’utilisation d’une caméra qui focalise en un plan donné pour acquérir une image présentant un flou de défocalisation par profondeur ne permet pas d’avoir une image nette en tout point (image également dite all-in-focus en anglais) pouvant être exploitée dans les autres tâches de vision. De plus, l’utilisation d’une autre caméra all-in-focus pour les autres tâches pose le problème d’alignement. Une autre solution consiste à utiliser plusieurs images qui focalisent en différents plans. L’inconvénient de ces méthodes réside dans l’acquisition de ces images qui nécessite un alignement. En effet, dans le cas d’utilisation d’une seule caméra à focale variable, les images ne peuvent être alignées lorsque la caméra est embarquée dans un système mobile. Le cas d’utilisation de plusieurs caméras pose lui le problème de la présence de parallaxe.
De plus, dans ce type d’approches, l’image all-in-focus est estimée et non acquise par la caméra, ce qui est une source d’erreur dans le cas de zones faiblement texturées. Il existe d’autres approches qui se basent sur la différence de flou entre deux (ou plusieurs) images. L’inconvénient de ce type d’approches est l’absence d’utilisation des autres indices de profondeurs qui permettent d’améliorer les performances d’estimation de profondeur en plus de l’absence d’images all-in-focus. Ces indices peuvent être, comme le flou, de nature géométriques (la perspective dans l’image, ou la distance des objets par rapport à la ligne d’horizon) ainsi que de nature sémantique (les textures, la taille relative des objets, les occultations).
En résumé, il est démontré que le flou de mise au point d’une caméra constitue un indice permettant d’améliorer significativement les performances de l’estimation de profondeur. Cependant, une image contenant le flou dégrade les performances des autres tâches de vision par ordinateur (segmentation, détection, etc.) nécessaires au calcul de la trajectoire de navigation. L’utilisation de deux caméras pour acquérir deux images, une présentant un flou de mise au point et l’autre nette partout n’offre pas une solution pertinente car l’alignement de deux images présentant un effet de parallaxe entre elles dont l’une floue, constitue une tâche difficile qui est source d’erreur. L’autre solution qui consiste à acquérir par la même caméra deux images en changeant les paramètres de la focale, ne peut être envisagée dans les systèmes mobiles, car les deux images ne seront pas acquises au même instant et donc pas alignées.
L’invention a pour objectif de proposer une solution reposant sur une seule caméra montée sur un système mobile qui puisse permettre d’améliorer les performances de l’estimation de profondeur sans pour autant dégrader les tâches de vision nécessaires au calcul de la trajectoire de navigation du système mobile.
A cet effet, l’invention propose un dispositif d’aide à la navigation destiné à être embarqué sur un système mobile, comprenant une unité de vision par ordinateur configurée pour calculer une trajectoire de navigation à partir d’une première image d’une scène et d’une carte de profondeur de la scène. Ce dispositif comporte en outre une caméra monoculaire apte à acquérir simultanément la première image de la scène avec une première profondeur de champ et au moins une deuxième image de la scène avec une deuxième profondeur de champ inférieure à la première profondeur de champ. Ce dispositif comporte également une unité d’estimation de profondeur configurée pour déterminer la carte de profondeur de la scène à partir de la première image de la scène et de l’au moins une deuxième image de la scène.
Certains aspects préférés mais non limitatifs de ce dispositif sont les suivants :
  • pour déterminer la carte de profondeur de la scène l’unité d’estimation de profondeur utilise un modèle d’apprentissage automatique, par exemple un réseau de neurones pré-entrainé ;
  • l’unité d’estimation de profondeur comprend deux branches d'extraction de caractéristiques différentes pour calculer des cartes de caractéristiques respectivement de la première image et de l’au moins une deuxième image et un encodeur-décodeur prenant en entrée les cartes de caractéristiques calculées par les deux branches d’extraction de caractéristiques pour déterminer la carte de profondeur ;
  • la caméra monoculaire comprend une lentille présentant une première focale, une lentille présentant une deuxième focale supérieure à la première focale et un séparateur apte à diriger un flux lumineux d’entrée vers chacune de la lentille présentant la première focale et de la lentille présentant la deuxième focale ;
  • pour calculer la trajectoire de navigation l’unité de vision par ordinateur utilise également l’au moins une deuxième image de la scène acquise par la caméra monoculaire ;
  • la caméra monoculaire est apte à acquérir simultanément la première image de la scène et une pluralité de deuxièmes images de la scène, les deuxièmes images présentant une mise au point en différents plans de la scène ;
  • la première image est une image nette en tout point et l’au moins une deuxième image présente un flou de défocalisation par profondeur.
L’invention porte également sur un procédé d’aide à la navigation d’un système mobile, comprenant une étape de calcul d’une trajectoire de navigation à partir d’une première image d’une scène et d’une carte de profondeur de la scène. Ce procédé comporte en outre une étape d’acquisition simultanée de la première image de la scène avec une première profondeur de champ et d’au moins une deuxième image de la scène avec une deuxième profondeur de champ inférieure à la première profondeur de champ. Ce procédé comporte également une étape de détermination de la carte de profondeur de la scène à partir de la première image de la scène et de l’au moins une deuxième image de la scène.
Certains aspects préférés mais non limitatifs de ce dispositif sont les suivants :
  • l’étape de détermination de la carte de profondeur est exécutée au moyen d’un modèle d’apprentissage automatique prenant en entrée la première image de la scène et l’au moins une deuxième image de la scène et fournissant en sortie la carte de profondeur de la scène ;
  • le modèle d’apprentissage automatique comprend deux branches d'extraction de caractéristiques différentes pour calculer des cartes de caractéristiques respectivement de la première image et de l’au moins une deuxième et un encodeur-décodeur prenant en entrée les cartes de caractéristiques calculées par les deux branches d’extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
L’invention s’étend à un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé ci-dessus mentionné de de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
L’invention concerne également un procédé d’entraînement d’un modèle d’apprentissage automatique prenant en entrée une paire d’images et fournissant en sortie une carte de profondeur, comprenant :
  • l’acquisition, par la caméra monoculaire du dispositif susmentionné, d’une paire d’images d’entraînement consistant en des images simultanément acquises d’une scène;
  • la réception d’une carte de profondeur de la scène imagée par la paire d’images d’entraînement ;
  • le traitement de la paire d’images d’entraînement par le modèle d’apprentissage automatique ;
  • le calcul d’un valeur représentative de la performance du modèle d’apprentissage automatique par comparaison de la carte de profondeur de la scène fournie en sortie du modèle d’apprentissage automatique et de la carte de profondeur de la scène associée à la paire d’images d’entraînement.
L’invention vise également un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre les étapes de traitement et de calcul du procédé d’entraînement
D'autres aspects, buts, avantages et caractéristiques de l’invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels :
- la est un schéma illustrant le dispositif selon l’invention monté sur un système mobile ;
- la est un schéma d’un dispositif selon l’invention ;
- la est un schéma illustrant en quoi l’indice de flou permet de réaliser une estimation de profondeur ;
- la est un schéma d’un premier exemple de réalisation de la caméra monoculaire du dispositif selon l’invention ;
- la est un schéma d’un second exemple de réalisation de la caméra monoculaire du dispositif selon l’invention ;
- la est un schéma d’un mode de réalisation possible de l’unité d’estimation de profondeur.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS
En référence à la , l’invention porte sur un dispositif d’aide à la navigation destiné à être embarqué sur un système mobile 20, par exemple un système de type robot ou un drone dédié à la reconnaissance d’une zone, à l’exploration de bâtiments ou au transport de matériels. Le dispositif d’aide à la navigation comprend une caméra monoculaire 21 et un module de traitement de données 22 configuré pour prendre comme entrées les images acquises par la caméra monoculaire.
En référence à la , le module de traitement de données comprend une unité de vision par ordinateur 24 configurée pour calculer une trajectoire de navigation à partir d’une première image In d’une scène imagée par la caméra monoculaire 21 et d’une carte de profondeur de la scène Dm. La trajectoire de navigation peut intégrer un évitement d’obstacles ou de collisions.
Le module de traitement de données comprend par ailleurs une unité d’estimation de profondeur 23 configurée pour déterminer la carte de profondeur Dm de la scène.
Selon l’invention, la caméra monoculaire 21 est apte à acquérir simultanément la première image de la scène In avec une première profondeur de champ et au moins une deuxième image de la scène If avec une deuxième profondeur de champ inférieure à la première profondeur de champ. La première image de la scène et l’au moins une deuxième image de la scène étant simultanément acquises par une caméra monoculaire, elles imagent la scène selon un même point de vue.
L’unité d’estimation de profondeur 23 est quant à elle configurée pour déterminer la carte de profondeur Dm de la scène à partir de la première image de la scène In et de l’au moins une deuxième image de la scène If. Dans un mode de réalisation possible, l’unité de vision par ordinateur 24 utilise également l’au moins une deuxième image de la scène If pour calculer la trajectoire de navigation.
Avec une deuxième profondeur de champ inférieure à la première profondeur de champ, la deuxième image If forme une image floue de la scène tandis que la première image In forme une image nette de la scène.
La première profondeur de champ est de préférence sélectionnée de manière à ce que la première image forme une image all-in-focus nette en tout point. En particulier, pour l’acquisition de la première image, la caméra monoculaire peut être adaptée pour réaliser une mise au point à la distance hyperfocale. De telle manière, la première image présente une plage de netteté qui s’étend de la moitié de cette distance hyperfocale à l’infini. La deuxième profondeur de champ est quant à elle telle que la deuxième image présente un flou de défocalisation par profondeur.
La caméra monoculaire 21 permet ainsi d’acquérir une paire d’images de la scène dont l’une est nette et l’autre présente un flou de mise au point. En outre, les deux images étant acquises d’un même point de vue et en même temps, l’alignement entre les deux images est obtenu de manière directe. Les images In, If acquises par la caméra sont typiquement des images RGB de la scène. Le dispositif est alors fonctionnel en lumière visible. Dans une variante de réalisation, la fonctionnalité du dispositif est étendue à un fonctionnement nocturne en exploitant une autre plage de longueur d’onde (infrarouge typiquement).
La première image In est utilisée pour diverses tâches de vision nécessitant une image de bonne qualité telles que la localisation et la cartographie, la segmentation sémantique ou la détection et le suivi. La première image In est ainsi exploitée par l’unité de vision par ordinateur 24 afin d’élaborer la trajectoire de navigation.
La deuxième image, qui focalise en un plan et contient le flou qui varie en fonction de la profondeur, permet d’améliorer significativement les performances de l’estimation de profondeur. Par ailleurs, selon l’invention, l’image nette est également utilisée dans l’estimation de profondeur. La combinaison de l’indice de flou présent dans la deuxième image présentant le flou de focalisation avec les indices de profondeurs présents dans l’image nette (qui sont d’ordre géométrique comme la perspective ou l’élévation des objets par rapport à la ligne d’horizon de l’image, ou d’ordre sémantique comme les indices de niveau de détail des textures en fonction de la distance, de taille relative des objets dans la scène par rapport à leur éloignement à la caméra ou encore d’occultations des objets entre eux) permet d’améliorer significativement les performances de la tâche d’estimation de profondeur.
La illustre l’effet de flou de mise au point. On remarque que des points 11 et 12 situés à des distances différentes d’une optique 9 produisent des tâches optiques de différents diamètres 13 et 14 sur un capteur photosensible 10. Ainsi le diamètre de flou d’un point sur le capteur 10 contient une importante indication sur la profondeur de ce point dans la scène. Néanmoins, la relation entre le diamètre de flou et la distance d’un point n’est pas bijective. En effet, il existe deux points, l’un devant le plan de focalisation et l’autre derrière le plan de focalisation, qui produisent deux tâches de flou du même diamètre. Cette ambiguïté est levée de manière implicite par l’unité d’estimation de profondeur 23.
La est un schéma illustrant un mode de réalisation possible de la caméra monoculaire du dispositif d’aide à la navigation selon l’invention. La caméra 1 comprend un système d’acquisition qui comporte une optique d’entrée 3 permettant d’imager la surface d’un objet 2 de la scène à l’intérieur du système d’acquisition, un séparateur 4 (par exemple un miroir semi-réfléchissant) qui permet de diriger un flux lumineux d’entrée vers deux lentilles 5 et 7 dont l’une présente une plus courte focale que l’autre. Le flux de lumière est ensuite intégré par les deux capteurs photosensibles 6 et 8 permettant ainsi de fournir l’image nette In et l’image floue If. L’avantage de ce système d’acquisition est qu’il permet de produire deux images de la même scène capturées au même moment et sans effet parallaxe entre elles.
La est un schéma illustrant un autre mode de réalisation possible de la caméra monoculaire 1 du dispositif d’aide à la navigation selon l’invention. Dans ce mode de réalisation, le système d’acquisition est configuré pour permettre l’acquisition simultanée de N images de la scène dont une image nette et N-1 images floues qui présentent une mise au point en différents plans de la scène. Ce mode de réalisation s’avère avantageux en ce qu’il permet d’obtenir plus de mesures de gradient de flou et par conséquent d’améliorer encore la précision des résultats obtenus pour l’estimation de la carte de profondeur. De plus cette configuration permet de lever de manière directe l’ambiguïté de profondeur en fonction du rayon de la tâche de floue. Avec des images floues de diverses mises au point et une image nette, l’unité d’estimation de profondeur est en effet en mesure d’estimer la relation d’ordre entre les différents plans nets d’une image et le plan flou de cette même image.
Dans un mode de réalisation possible, l’unité d’estimation de profondeur 24 utilise un modèle d’apprentissage automatique, par exemple un réseau de neurones pré-entrainé tel qu’un réseau de neurones convolutif (en anglais CNN pourConvolutional Neural Networks).
Ce modèle d’apprentissage automatique prend en entrée la première image de la scène et l’au moins une deuxième image de la scène et fournit en sortie la carte de profondeur de la scène. L’architecture du modèle d’apprentissage automatique est de préférence adaptée à la réalisation d’une tâche de régression pixel à pixel, en l’occurrence le calcul, pour chaque pixel, de la distance de l’objet qui est représenté en ce pixel à la caméra.
En référence à la , le modèle d’apprentissage automatique peut comprendre deux branches d'extraction de caractéristiques EXn, EXf différentes pour calculer des cartes de caractéristiques respectivement de l'image nette In et de la ou des images floues If. Ces branches d'extraction de caractéristiques d’images comprennent des couches de convolutions successives suivies de non linéarités telles que des fonctions de normalisation de données, des fonctions de réduction de dimension ou des fonctions de reprojection non linéaire comme, entre autres, la sigmoïde ou l'unité linéaire rectifiée. Les caractéristiques extraites de l’image nette et de la ou des images floues par chacune des branches EXn et EXf sont ensuite délivrées à un encodeur-décodeur qui comprend un encodeur ENC, typiquement un réseau de neurones convolutif, chargé de réduire la dimension des données et un décodeur DEC qui prend en entrée les caractéristiques de dimension réduite produites par l’encodeur afin de prédire la carte de profondeur de la scène Dm. Ce décodeur est lui aussi typiquement un réseau de neurones convolutif dont le but est de recouvrer la dimension spatiale en entrée de l’auto-encodeur tout en calculant les caractéristiques nécessaires au décodage des caractéristiques.
L’invention n’est pas limitée au dispositif tel que décrit précédemment, mais s’étend également à un procédé d’aide à la navigation d’un système mobile. En référence à la , ce procédé comprend :
  • une étape d’acquisition simultanée ACQ d’une première image d’une scène In avec une première profondeur de champ et d’au moins une deuxième image de la scène If avec une deuxième profondeur de champ inférieure à la première profondeur de champ,
  • une étape de détermination EST-D d’une carte de profondeur de la scène Dm à partir de la première image de la scène In et de l’au moins une deuxième image de la scène If, et
  • une étape de calcul NAV d’une trajectoire de navigation à partir de la première image d’une scène In et de la carte de profondeur de la scène Dm.
L’invention s’étend également à un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes suscitées de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
L’invention concerne par ailleurs un procédé d’entraînement d’un modèle d’apprentissage automatique prenant en entrée une paire d’images et fournissant en sortie une carte de profondeur. Ce procédé suit un processus itératif qui comprend :
  • l’acquisition, par la caméra monoculaire du dispositif selon l’invention, d’une paire d’images d’entraînement consistant en des images simultanément acquises d’une scène;
  • la réception d’une carte de profondeur de la scène imagée par la paire d’images d’entraînement, ladite carte ayant été obtenue par une méthode tierce, par exemple une carte de profondeur acquise par un Lidar, au moyen d’une lumière structurée, par une caméra temps de vol, par stéréovision, etc. ;
  • le traitement de la paire d’images d’entraînement par le modèle d’apprentissage automatique ;
  • le calcul d’une valeur représentative de la performance du modèle d’apprentissage automatique par comparaison de la carte de profondeur de la scène fournie en sortie du modèle d’apprentissage automatique et de la carte de profondeur de la scène associée à la paire d’images d’entraînement.
Les paramètres du modèle d’apprentissage, par exemple les poids des connexions dans le cas d’un réseau de neurones, sont alors ajustés de sorte à réduire l’erreur de prédiction de la carte de profondeur. Par exemple, le gradient de l’erreur peut être calculé afin d’en déterminer une direction de variation et un déplacement dans une direction opposée au gradient est alors réalisé.
Cet entraînement peut être effectué au moyen d’une base de données de paires d’images, chacune associée à une carte de profondeur, divisées en des paires d’images d’entrainement et des paires d’images de test. Comme indiqué précédemment, l’entraînement d’un réseau de neurones consiste à déterminer la valeur de chacun de ses poids. Le réseau de neurones traite une paire d’images d’entrainement et en sortie il fait une prédiction. Sachant que l’on a connaissance de la profondeur pixel à pixel de chacune des images d’entraînement, il est possible de vérifier si cette prédiction est correcte. En fonction de la véracité de cette prédiction, les poids du réseau sont mis à jour par exemple selon l’algorithme de rétropropagation du gradient de l’erreur. Ce processus est répété avec la totalité des paires d’images d’entrainement. Une fois l’entrainement terminée, il est possible d’évaluer le modèle ainsi entrainé en lui présentant les paires d’images de test et en confrontant les sorties du modèle avec les cartes de profondeur associées aux paires d’images de test.
L’invention s’étend également à un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes de traitement et de calcul du procédé d’entraînement du modèle d’apprentissage automatique.
L’invention offre les avantages suivants :
  • un faible coût par rapport à un système actif de détermination d’une carte de profondeur, comme par exemple un système exploitant un Lidar, Le faible coût par rapport au système basé Lidar ;
  • de meilleurs performances d’estimation en utilisant un indice de profondeur monoculaire clé, à savoir le flou,
  • l’utilisation de l’ensemble des indices de profondeur combinés, grâce à l’image nette ;
  • La suppression de l’étape d’alignement des images grâce au système d’acquisition (images acquises au même instant et sans effet de parallaxe) ;
  • L’acquisition, et non l’estimation, d’une image all-in-focus exploitable dans les autres tâches de vision.

Claims (13)

  1. Dispositif d’aide à la navigation destiné à être embarqué sur un système mobile, comprenant une unité de vision par ordinateur (24) configurée pour calculer une trajectoire de navigation à partir d’une première image d’une scène (In) et d’une carte de profondeur de la scène (Dm), caractérisé en ce qu’il comporte en outre :
    une caméra monoculaire apte à acquérir simultanément la première image de la scène (In) avec une première profondeur de champ et au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ, et
    une unité d’estimation de profondeur (23) configurée pour déterminer la carte de profondeur de la scène (Dm) à partir de la première image de la scène et de l’au moins une deuxième image de la scène.
  2. Dispositif selon la revendication 1, dans lequel pour déterminer la carte de profondeur de la scène l’unité d’estimation de profondeur (23) utilise un modèle d’apprentissage automatique, par exemple un réseau de neurones pré-entrainé.
  3. Dispositif selon la revendication 2, dans lequel l’unité d’estimation de profondeur comprend deux branches d'extraction de caractéristiques (EXn, EXf) différentes pour calculer des cartes de caractéristiques respectivement de la première image (In) et de l’au moins une deuxième image (If) et un encodeur-décodeur (ENC, DEC) prenant en entrée les cartes de caractéristiques calculées par les deux branches d’extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
  4. Dispositif selon l’une des revendications 1 à 3, dans lequel la caméra monoculaire comprend une lentille (5) présentant une première focale, une lentille (7, 15, N) présentant une deuxième focale supérieure à la première focale et un séparateur (4) apte à diriger un flux lumineux d’entrée vers chacune de la lentille présentant la première focale et de la lentille présentant la deuxième focale.
  5. Dispositif selon l’une des revendications 1 à 4, dans lequel pour calculer la trajectoire de navigation l’unité de vision par ordinateur (24) exploite également l’au moins une deuxième image de la scène acquise par la caméra monoculaire.
  6. Dispositif selon l’une des revendications 1 à 5, dans lequel la caméra monoculaire est apte à acquérir simultanément la première image de la scène et une pluralité de deuxièmes images de la scène, les deuxièmes images présentant une mise au point en différents plans de la scène.
  7. Dispositif selon l’une des revendications 1 à 6, dans lequel la première image est une image nette en tout point et l’au moins une deuxième image présente un flou de défocalisation par profondeur.
  8. Procédé d’aide à la navigation d’un système mobile, comprenant une étape de calcul (NAV) d’une trajectoire de navigation à partir d’une première image d’une scène (In) et d’une carte de profondeur de la scène (Dm), caractérisé en ce qu’il comporte en outre une étape d’acquisition simultanée (ACQ) de la première image de la scène (In) avec une première profondeur de champ et d’au moins une deuxième image de la scène (If) avec une deuxième profondeur de champ inférieure à la première profondeur de champ et une étape de détermination de la carte de profondeur de la scène (EST-D) à partir de la première image de la scène (In) et de l’au moins une deuxième image de la scène (If).
  9. Procédé selon la revendication 8, dans lequel l’étape de détermination de la carte de profondeur est exécutée au moyen d’un modèle d’apprentissage automatique prenant en entrée la première image de la scène (In) et l’au moins une deuxième image de la scène (If) et fournissant en sortie la carte de profondeur de la scène.
  10. Procédé selon la revendication 9, dans lequel le modèle d’apprentissage automatique comprend deux branches d'extraction de caractéristiques (EXn, EXf) différentes pour calculer des cartes de caractéristiques respectivement de la première image (In) et de l’au moins une deuxième image (If) et un encodeur-décodeur (ENC, DEC) prenant en entrée les cartes de caractéristiques calculées par les deux branches d’extraction de caractéristiques pour déterminer la carte de profondeur (Dm).
  11. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon l’une des revendications 8 à 10 de détermination de la carte de profondeur et de calcul de la trajectoire de navigation.
  12. Procédé d’entraînement d’un modèle d’apprentissage automatique prenant en entrée une paire d’images et fournissant en sortie une carte de profondeur, comprenant :
    • l’acquisition, par la caméra monoculaire du dispositif selon l’une des revendications 1 à 7, d’une paire d’images d’entraînement consistant en des images simultanément acquises d’une scène;
    • la réception d’une carte de profondeur de la scène imagée par la paire d’images d’entraînement ;
    • le traitement de la paire d’images d’entraînement par le modèle d’apprentissage automatique ;
    • le calcul d’un valeur représentative de la performance du modèle d’apprentissage automatique par comparaison de la carte de profondeur de la scène fournie en sortie du modèle d’apprentissage automatique et de la carte de profondeur de la scène associée à la paire d’images d’entraînement.
  13. Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre les étapes de traitement et de calcul du procédé selon la revendication 12.
FR2204663A 2022-05-17 2022-05-17 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire Pending FR3135811A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR2204663A FR3135811A1 (fr) 2022-05-17 2022-05-17 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire
PCT/FR2023/050691 WO2023222970A1 (fr) 2022-05-17 2023-05-15 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2204663A FR3135811A1 (fr) 2022-05-17 2022-05-17 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire
FR2204663 2022-05-17

Publications (1)

Publication Number Publication Date
FR3135811A1 true FR3135811A1 (fr) 2023-11-24

Family

ID=82850602

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2204663A Pending FR3135811A1 (fr) 2022-05-17 2022-05-17 Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire

Country Status (2)

Country Link
FR (1) FR3135811A1 (fr)
WO (1) WO2023222970A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226419A1 (en) * 2019-01-11 2020-07-16 Google Llc Depth Prediction from Dual Pixel Images
US20200242788A1 (en) * 2017-10-04 2020-07-30 Google Llc Estimating Depth Using a Single Camera
US20220046219A1 (en) * 2020-08-07 2022-02-10 Owl Autonomous Imaging, Inc. Multi-aperture ranging devices and methods
US20220101546A1 (en) * 2020-09-25 2022-03-31 Industrial Technology Research Institute Automated guided vehicle navigation device and method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200242788A1 (en) * 2017-10-04 2020-07-30 Google Llc Estimating Depth Using a Single Camera
US20200226419A1 (en) * 2019-01-11 2020-07-16 Google Llc Depth Prediction from Dual Pixel Images
US20220046219A1 (en) * 2020-08-07 2022-02-10 Owl Autonomous Imaging, Inc. Multi-aperture ranging devices and methods
US20220101546A1 (en) * 2020-09-25 2022-03-31 Industrial Technology Research Institute Automated guided vehicle navigation device and method thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO QI ET AL: "Compact single-shot metalens depth sensors inspired by eyes of jumping spiders", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, vol. 116, no. 46, 28 October 2019 (2019-10-28), pages 22959 - 22965, XP093006566, ISSN: 0027-8424, DOI: 10.1073/pnas.1912154116 *
SONG GWANGMO ET AL: "Depth Estimation Network for Dual Defocused Images with Different Depth-of-Field", 2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), IEEE, 7 October 2018 (2018-10-07), pages 1563 - 1567, XP033454774, DOI: 10.1109/ICIP.2018.8451201 *

Also Published As

Publication number Publication date
WO2023222970A1 (fr) 2023-11-23

Similar Documents

Publication Publication Date Title
EP1431907B1 (fr) Evaluation de la netteté d'une image d'iris d'oeil
EP3614306B1 (fr) Procédé de localisation et d'identification de visage et de détermination de pose, à partir d'une vue tridimensionnelle
FR3054897A1 (fr) Procede d'elaboration d'une image numerique, produit programme d'ordinateur et systeme optique associes
EP3901794A1 (fr) Procédé d'authentification ou d'identification d'un individu
EP3866064A1 (fr) Procede d'authentification ou d'identification d'un individu
EP2909671B1 (fr) Procede de conception d'un imageur monovoie passif capable d'estimer la profondeur de champ
TW201740083A (zh) 光電系統
FR3057095B1 (fr) Procede de construction d'une carte de profondeur d'une scene et/ou d'une image entierement focalisee
FR3135811A1 (fr) Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire
EP3384462A1 (fr) Procede de caracterisation d'une scene par calcul d'orientation 3d
EP1431906A1 (fr) Détermination d'un indice de netteté d'une image numérique
EP3274913B1 (fr) Dispositif et procede pour l'acquisition biometrique de l'iris
EP2877979B1 (fr) Methode monocamera de determination d'une direction d'un solide
WO2018189627A1 (fr) Procédé automatisé de reconnaissance d'un objet
EP3757943B1 (fr) Procédé et dispositif de télémétrie passive par traitement d'image et utilisation de modeles en trois dimensions
EP3072110B1 (fr) Procédé d'estimation du mouvement d'un objet
EP4174779A1 (fr) Procédé de calibration automatique des paramètres extrinsèques d'un réseau de caméras optiques; produit programme d'ordinateur, système de vision par ordinateur et véhicule automobile associés
EP1371958A1 (fr) Procédé et dispositif d'extraction de signature spectrale d'une cible ponctuelle
BE1015708A3 (fr) Procede pour mesurer la hauteur de spheres ou d'hemispheres.
WO2017187059A1 (fr) Methode de reglage d'un appareil de prise de vue stereoscopique
EP3757942A1 (fr) Procédé et dispositif de télémétrie passive par traitement d'image
EP3394795B1 (fr) Procédé de détection d'un timon d'attelage et produit programme d'ordinateur associé
FR3054678B1 (fr) Kit pour dispositif imageur
FR3141763A1 (fr) Système et procédé d’aide à la navigation d’un système mobile
FR3054347A1 (fr) Procede et dispositif d'aide a la navigation d'un vehicule

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20231124

PLFP Fee payment

Year of fee payment: 3