FR3141763A1 - Système et procédé d’aide à la navigation d’un système mobile - Google Patents
Système et procédé d’aide à la navigation d’un système mobile Download PDFInfo
- Publication number
- FR3141763A1 FR3141763A1 FR2211564A FR2211564A FR3141763A1 FR 3141763 A1 FR3141763 A1 FR 3141763A1 FR 2211564 A FR2211564 A FR 2211564A FR 2211564 A FR2211564 A FR 2211564A FR 3141763 A1 FR3141763 A1 FR 3141763A1
- Authority
- FR
- France
- Prior art keywords
- map
- convolution
- depth
- succession
- rank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000003287 optical effect Effects 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 102100033620 Calponin-1 Human genes 0.000 abstract description 3
- 102100033591 Calponin-2 Human genes 0.000 abstract description 3
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 abstract description 3
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000012550 audit Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000021183 entrée Nutrition 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3807—Creation or updating of map data characterised by the type of data
- G01C21/3826—Terrain data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/38—Electronic maps specially adapted for navigation; Updating thereof
- G01C21/3804—Creation or updating of map data
- G01C21/3833—Creation or updating of map data characterised by the source of data
- G01C21/3848—Data obtained from both position sensors and additional sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
- Navigation (AREA)
Abstract
L’invention concerne un procédé mis en œuvre par ordinateur d’aide à la navigation d’un système mobile, comprenant : l’obtention (RGB) d’une image optique d’une scène acquise par une caméra embarquée à bord du système mobile ; l’obtention (LiDAR) de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile ; la projection, en 2D dans le repère de la caméra, des points 3D et d’une incertitude portant sur chacun des points 3D pour fournir respectivement une image de profondeur et un masque d’incertitude ; la détermination (CNN1) d’une carte sémantique de la scène (MS), d’une carte de profondeur de la scène (MD) et d’une carte de confiance (MT) de la carte de profondeur à partir de l’image optique, de l’image de profondeur et du masque d’incertitude ; la détermination (CNN2) d’une carte de traversabilité (CT) de la scène par le système mobile par fusion de la carte sémantique (MS), de la carte de profondeur (MD) et de la carte de confiance (MT) de la carte de profondeur. Figure pour l’abrégé : figure 1
Description
Le domaine de l’invention est celui de l’aide à la navigation d’un système mobile du type robot ou véhicule autonome en déplacement sur un terrain, et plus particulièrement celui de la génération d’une trajectoire navigable par le système mobile sur le terrain.
Dans le domaine de la navigation de systèmes mobiles, on connait des méthodes qui ont pour but de trouver la présence d’une route dans des images acquises par une caméra embarquée sur un système mobile. Ces méthodes utilisent des indices visuels comme les points de fuite, les textures ou encore le relief pour délimiter les contours d’une route sur une image, ou posent le problème directement comme un problème de segmentation de la route dans l’image. Cependant, ces méthodes ne s’intéressent pas aux chemins au sens le plus large du terme, qui peuvent notamment être des chemins hors-pistes non forcément goudronnés ni correctement délimités, et encore moins au thème plus général de la traversabilité correspondant à l’identification dans les images acquises de zones du terrain sur lesquelles le système mobile serait apte à se déplacer.
On trouve d’autre part des méthodes basées sur des modèles de réseaux de neurones qui identifient le type de sol sur lequel le véhicule évolue. Par exemple, le document WO 2019/241022 A1 décrit une solution utilisant un réseau de neurones profond pré-entrainé pour réaliser la détection d’une voie navigable qui n’est pas nécessairement délimitée par des marquages au sol.
L’invention a pour objectif de proposer une solution de génération d’une trajectoire traversable pour un système mobile en déplacement sur un terrain qui soit à la fois fiable et performante.
A cet effet, l’invention propose un procédé mis en œuvre par ordinateur d’aide à la navigation d’un système mobile, comprenant :
- l’obtention d’une image optique d’une scène acquise par une caméra embarquée à bord du système mobile ;
- l’obtention d’un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile ;
- la projection, en 2D dans le repère de la caméra, des points 3D du nuage et d’une incertitude portant sur chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d’incertitude de l’image de profondeur ;
- la détermination d’une carte sémantique de la scène, d’une carte de profondeur de la scène et d’une carte de confiance de la carte de profondeur à partir de l’image optique, de l’image de profondeur et du masque d’incertitude de l’image de profondeur ;
- la détermination d’une carte de traversabilité de la scène par le système mobile par fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur.
Certains aspects préférés mais non limitatifs de ce procédé sont les suivants :
- la détermination de la carte sémantique de la scène, de la carte de profondeur de la scène et de la carte de confiance de la carte de profondeur comprend le traitement de l’image optique, de l’image de profondeur et du masque d’incertitude de l’image de profondeur par un premier réseau de neurones convolutif qui comprend une succession de couches convolutives, chaque couche convolutive comprenant un premier bloc de convolution apte à estimer une carte d’attributs sémantiques, un deuxième bloc de convolution apte à estimer une carte d’attributs de profondeur et un troisième bloc de convolution apte à estimer une carte d’attributs de confiance ;
- le deuxième bloc de convolution d’une couche convolutive de rang N+1 dans la succession de couches convolutives est configuré pour :
- calculer le produit de la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d’attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application d’un noyau de convolution audit produit ;
- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;
- calculer le ratio du premier et du deuxième résultat de corrélation ;
- le deuxième bloc de convolution d’une couche convolutive de rang N+1 dans la succession de couches convolutives est configuré pour :
- calculer le produit de la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d’attributs sémantiques estimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d’attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application d’un noyau de convolution audit produit ;
- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;
- calculer le ratio du premier et du deuxième résultat de corrélation ;
- le deuxième bloc de convolution de la couche convolutive de rang N+1 dans la succession de couches convolutives est en outre configuré pour ajouter un biais au ratio du premier et du deuxième résultat de corrélation ;
- le premier bloc de convolution d’une couche convolutive de rang N+1 dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation de la carte d’attributs sémantiques estimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d’attributs de profondeur estimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;
- la fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur comprend la détermination d’une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par un deuxième réseau de neurones convolutif.
L’invention porte également sur un produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon l’invention. L’invention s’étend aussi à un dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, comprenant un processeur configuré pour mettre en œuvre les étapes du procédé selon l’invention.
D'autres aspects, buts, avantages et caractéristiques de l’invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels :
- la est un schéma illustrant un mode de réalisation possible d’un procédé selon l’invention ;
- la représente les opérations réalisées par une couche convolutive d’un premier réseau de neurones convolutif pouvant être utilisé par l’invention ;
- la représente plus particulièrement les opérations réalisées par le deuxième et le troisième bloc de convolution d’une couche convolutive d’un premier réseau de neurones convolutif pouvant être utilisé par l’invention.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS
L’invention porte notamment sur un dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, par exemple un système mobile terrestre type tout-terrain tel qu’un robot, un drone ou un véhicule autonome.
Ce dispositif comprend une unité d’estimation de traversabilité configurée pour générer une trajectoire traversable par le système mobile à partir d’un flux d’images provenant d’une caméra ainsi que des mesures de profondeur issues d’un télémètre.
La génération d’une trajectoire fiable nécessitant une perception de la géométrie et de la sémantique du terrain, l’unité d’estimation de traversabilité vient avantageusement réaliser la fusion d’une solution géométrique d’estimation de la 3D du terrain (sa profondeur en l’occurrence) avec une solution de segmentation sémantique du terrain. L’unité d’estimation de traversabilité vient en outre exploiter une carte de confiance associée à la fiabilité de la prédiction de la solution géométrique, ce qui permet d’améliorer grandement les performances.
L’unité d’estimation de traversabilité délivre une carte de traversabilité, par exemple une carte binaire dans laquelle chaque point du terrain imagé par la caméra est identifié comme étant traversable ou non par le système mobile ou encore une carte dans laquelle une probabilité de traversabilité est associée à chaque point du terrain.
L’unité d’estimation de traversabilité est configurée pour mettre en œuvre le procédé qui sera décrit ci-après en référence à la .
Ce procédé comprend l’obtention RGB d’une image optique d’une scène (en l’occurrence un terrain sur lequel se déplace le système mobile), acquise par une caméra embarquée à bord du système mobile. La caméra est par exemple une caméra monoculaire. Les images successivement acquises par la caméra sont typiquement des images RGB du terrain, assurant une fonctionnalité en lumière visible. Dans une variante de réalisation, un fonctionnement nocturne est assuré en exploitant une autre plage de longueur d’onde (infrarouge par exemple).
Le procédé comprend par ailleurs une étape LiDAR d’obtention d’un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile. Le télémètre est par exemple un télémètre laser, tel qu’un LiDAR. Le procédé comprend ensuite une étape de projection, en 2D dans le repère de la caméra, des points 3D du nuage et d’une incertitude portant sur chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d’incertitude de l’image de profondeur (i.e., une carte dans laquelle une incertitude portant sur la détermination de la profondeur est associée à chaque point du terrain).
Le télémètre fournit des mesures de profondeur éparses qui sont généralement densifiés artificiellement en encodant les pixels non observés. Par ailleurs, en utilisant la puissance (amplitude) du signal reçu par le télémètre, qui correspond par exemple à la quantité de lumière qui revient au capteur après un tir, il est possible de déduire une incertitude sur les mesures de profondeur. En effet, la quantité de lumière reçue en retour par le capteur est directement corrélée au matériau sur lequel elle est projetée et donne une information sur la fiabilité de la distance calculée en ce point.
Le procédé comprend ensuite une étape consistant à déterminer une carte sémantique MS de la scène, une carte de profondeur MD de la scène et une carte de confiance MT de la carte de profondeur à partir de l’image optique, de l’image de profondeur et du masque d’incertitude de l’image de profondeur. Cette étape est par exemple mise en œuvre par un premier réseau de neurones convolutif CNN1 convenablement pré-entrainé à cette fin.
Cette étape vient réaliser l’inférence simultanée de la 3D (la carte de profondeur) et de la sémantique de l’image (la carte sémantique). Il en découle une meilleure prédiction de ces deux modalités, et ce avec un temps de calcul minimisé. Par ailleurs, cette étape exploite une incertitude déterminée a priori à partir des données de télémétrie pour estimer une fiabilité (la carte de confiance) sur les prédictions.
Le procédé se poursuit avec une étape consistant à déterminer une carte de traversabilité CT de la scène par le système mobile par fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur. Cette étape est par exemple mise en œuvre par un deuxième réseau de neurones convolutif CNN2 convenablement pré-entrainé à cette fin. Cette étape tire partie des deux modalités (3D et sémantique) et les fusionne en utilisant la confiance comme pondération.
En référence à la , le premier réseau de neurones convolutif CNN1 comprend une succession de couches convolutives CN, CN+1et chaque couche convolutive peut comprendre un premier bloc de convolution B1N, B1N+1apte à estimer une carte d’attributs sémantiques FMSN, FMSN+1, un deuxième bloc de convolution B2N, B2N+1apte à estimer une carte d’attributs de profondeur FMDN, FMDN+1 et un troisième bloc de convolution B3N, B3N+1apte à estimer une carte d’attributs de confiance FMTN, FMTN+1.
Dans une réalisation possible, le premier bloc de convolution B1N+1de la couche convolutive de rang N+1 dans la succession de couches convolutives prend en entrée la carte d’attributs sémantiques FMSNestimée par le premier bloc de convolution B1Nde la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le premier bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée l’image optique.
Dans une réalisation alternative représentée sur la , le premier bloc de convolution B1N+1de la couche convolutive de rang N+1 dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation, identifiée par la référence ct sur la fifure 2, de la carte d’attributs sémantiques FMSNestimée par le premier bloc de convolution B1Nde la couche convolutive de rang N dans la succession de couches convolutives et de la carte d’attributs de profondeur FMDNestimée par le deuxième bloc de convolution B2Nde la couche convolutive de rang N. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le premier bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée la concaténation de l’image optique et de l’image de profondeur.
Dans cette réalisation alternative, le premier réseau de neurones convolutif comprend ainsi une première branche (la succession des premiers blocs de convolution) qui travaille sur l’estimation de la sémantique de la scène en tirant parti des informations optiques issues de la caméra mais aussi des informations de profondeur issues du télémètre. La segmentation sémantique s’en trouve améliorée.
Dans une réalisation possible, le deuxième bloc de convolution B2N+1de la couche convolutive de rang N+1 dans la succession de couches convolutives prend en entrée la carte d’attributs de profondeur FMDNestimée par le deuxième bloc de convolution B2Nde la couche convolutive de rang N dans la succession de couches convolutives et la carte d’attributs de confiance FMSNestimée par le troisième bloc de convolution B3Nde la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le deuxième bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée l’image de profondeur et le masque d’incertitude de la carte de profondeur.
Dans une réalisation alternative représentée sur la , le deuxième bloc de convolution B2N+1de la couche convolutive de rang N+1 dans la succession de couches convolutives prend en entrée, d’une part la carte de concaténation résultant de la concaténation, identifiée par la référence ct, de la carte d’attributs sémantiques FMSNestimée par le premier bloc de convolution B1Nde la couche convolutive de rang N dans la succession de couches convolutives et de la carte d’attributs de profondeur FMDNestimée par le deuxième bloc de convolution B2Nde la couche convolutive de rang N et, d’autre part, la carte d’attributs de confiance FMSNestimée par le troisième bloc de convolution B3Nde la couche convolutive de rang N dans la succession de couches convolutives. Ceci est vrai pour N entier supérieur ou égale à 1, tandis le deuxième bloc de convolution de la première couche convolutive dans la succession de couches convolutives prend en entrée, d’une part, la concaténation de l’image optique et de l’image de profondeur et, d’autre part, le masque d’incertitude de la carte de profondeur.
Dans cette réalisation alternative, le premier réseau de neurones convolutif comprend ainsi une deuxième branche (la succession des deuxièmes blocs de convolution) qui travaille sur l’estimation de la profondeur de la scène en tirant parti des informations de profondeur issues du télémètre mais aussi des informations optiques issues de la caméra. L’estimation de profondeur sémantique s’en trouve améliorée.
Par ailleurs dans les deux réalisations précédemment évoquées, une incertitude a priori sur les mesures du télémètre est propagée tout au long de la succession des couches convolutives, ce qui permet d’obtenir une confiance sur la qualité et la fiabilité des prédictions en sortie.
La figure 3 représente une réalisation possible d’opérations mises en œuvre par le deuxième et le troisième bloc de convolution d’une couche convolutive du premier réseau de neurones convolutif. Sur cette figure 3, • correspond à une multiplication point par point, à une convolution, / à une division et + à une addition. (W) représente le noyau de la convolution.
On considère X un tenseur représentant un signal d'entrée, C une fonction scalaire positive représentant la confiance (ou certitude) pour chaque valeur de X, B un tenseur représentant la base d’un opérateur de filtrage et B* son conjugué et A une fonction scalaire positive représentant l'applicabilité pour chaque valeur de B. La convolution normalisée peut être écrite comme suit :
où
Dans l'équation (1), N est le facteur de normalisation. Par exemple, en considérant le cas où la confiance C est constante et B=1, l'équation (1) devient :
où les paramètres de convolution A' sont la version normalisée de A.
Dans le cadre de l’invention, l’apprentissage du premier réseau de neurones est réalisé de manière à déterminer les paramètres correspondant au produit AB pour une tâche de génération de la carte de profondeur à partir de données d’entrée éparses associées à une confiance a priori. Plus particulièrement, la base B est fixée pour être égale à un tenseur de 1 et la fonction d'applicabilité A est apprise lors de la phase d'apprentissage du réseau.
En référence à la figure 3, la fonction d'applicabilité A correspond aux paramètres de convolution. Parce que l'applicabilité doit rester une fonction positive, la positivité des poids de la convolution doit être garantie. Ainsi, une fonction softplus peut être appliquées sur les poids W de la convolution. Si l'on se base sur l'équation (1), la propagation de profondeur devient :
Ainsi, le deuxième bloc de convolution B2N+1d’une couche convolutive de rang N+1 dans la succession de couches convolutives peut être configuré pour :
- calculer le produit (au moyen de la multiplication point par point •) de la carte d’attributs de confiance FMTNestimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d’attributs sémantiques FMSNestimée par le premier bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives et de la carte d’attributs de profondeur FMDNestimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application du noyau de convolution
- calculer un deuxième résultat de convolution par application du noyau de convolution
- calculer le ratio, au moyen de la division /, du premier et du deuxième résultat de corrélation.
Comme on l’a vu précédemment, dans une autre réalisation possible, les deuxièmes blocs de convolution prennent en entrée les seuls attributs de profondeur de profondeur FMDN et non le résultat de leur concaténation avec les attributs sémantiques FMSN. Cette autre réalisation possible est illustrée sur la et selon celle-ci le deuxième bloc de convolution B2N+1d’une couche convolutive de rang N+1 dans la succession de couches convolutives est configuré pour :
- calculer le produit (au moyen de la multiplication point par point •) de la carte d’attributs de confiance FMTNestimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives avec la carte d’attributs de profondeur FMDNestimée par le deuxième bloc de convolution de la couche convolutive de rang N dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application du noyau de convolution
- calculer un deuxième résultat de convolution par application du noyau de convolution
calculer le ratio, au moyen de la division /, du premier et du deuxième résultat de corrélation.
Par ailleurs, dans l’un ou l’autre des réalisations mentionnées ci-dessus, et comme est également représenté sur la , chaque deuxième bloc de convolution peut en outre être configuré pour ajouter un terme de biais BS au résultat du ratio du premier et du deuxième résultat de corrélation. Ce terme de biais permet d’augmenter la capacité du premier réseau de neurones.
La illustre par ailleurs un troisième bloc de convolution B3N+1. Ce bloc réalise une convolution conventionnelle pour la propagation de la confiance. Ce bloc peut inclure une fonction d’activation ReLU (Rectifier Linear Unit désignant une unité linéaire rectifiée) pour garantir la positivité et conserver la dimension entre les cartes d’attributs de confiance et les cartes d’attributs de profondeur.
De la même manière, les premiers blocs de convolution qui viennent déterminer les cartes d’attributs sémantiques peuvent prendre la forme de blocs de convolution conventionnels.
Une réalisation possible de l’apprentissage du premier réseau de neurones convolutif exploite la fonction de coût suivante pour apprendre à régresser la profondeur et à modéliser l'inverse de l'incertitude (i.e., la confiance). Soit S un jeu de coordonnées où la valeur de profondeur est renseignée dans la vérité terrain, la log-confiance prédite, la vérité terrain de profondeur et la profondeur prédite. La fonction de coût peut être définie comme suit :
Dans l’équation (8), est un hyperparamètre, est l'erreur de régression définie par l’équation (6) et est un terme de pénalisation définie par l’équation (7) qui permet prévenir le cas où les confiances en sortie sont égales à 0. Dans cette équation (8), le terme de gauche est le produit de l'erreur de régression par la confiance. La est à remplacer par l'erreur de régression souhaitée.
A travers cette multiplication, la confiance agit comme une pondération sur l'erreur de régression et impacte donc la vitesse d'apprentissage, à la fois globalement et relativement. D'abord globalement, parce que lorsque décroit, la valeur de la confiance moyenne décroit également donc la vitesse d'apprentissage diminue globalement. Et relativement parce que plus l'entropie de la distribution de la confiance est grande, plus l'impact sur la vitesse d'apprentissage va être varié en fonction des localisations spatiales. Le choix de contrôle donc la confiance moyenne et l'entropie de la distribution, impactant ainsi l'apprentissage.
En pratique, une prédiction de la log confiance peut être réalisée pour améliorer la stabilité de l’apprentissage. Aussi, afin de maintenir les sorties de confiance dans l’intervalle [0, 1] pour faciliter l’interprétation des résultats, une activation (−1) × ReLU peut être réalisée sur la dernière couche pour obtenir une log confiance négative, ce qui permet de produire une sortie finale de confiance dans l’intervalle [0, 1].
Le premier réseau de neurones convolutif fournit en sortie une carte sémantique MS, une carte de profondeur MD et une carte de confiance MT de la carte de profondeur. La détermination de la carte de traversabilité CT de la scène par le système mobile peut comprendre la détermination d’une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par le deuxième réseau de neurones convolutif CNN2. Ce deuxième réseau peut être un réseau convolutif d’architecture conventionnelle.
Claims (9)
- Procédé mis en œuvre par ordinateur d’aide à la navigation d’un système mobile, comprenant :
- l’obtention (RGB) d’une image optique d’une scène acquise par une caméra embarquée à bord du système mobile ;
- l’obtention (LiDAR) d’un nuage de points 3D de la scène acquis par un télémètre embarqué à bord du système mobile ;
- la projection, en 2D dans le repère de la caméra, des points 3D du nuage et d’une incertitude portant sur chacun des points 3D du nuage pour fournir respectivement une image de profondeur et un masque d’incertitude de l’image de profondeur ;
- la détermination d’une carte sémantique de la scène (MS), d’une carte de profondeur de la scène (MD) et d’une carte de confiance (MT) de la carte de profondeur à partir de l’image optique, de l’image de profondeur et du masque d’incertitude de l’image de profondeur ;
- la détermination d’une carte de traversabilité (CT) de la scène par le système mobile par fusion de la carte sémantique (MS), de la carte de profondeur (MD) et de la carte de confiance (MT) de la carte de profondeur.
- Procédé selon la revendication 1, dans lequel la détermination de la carte sémantique de la scène, de la carte de profondeur de la scène et de la carte de confiance de la carte de profondeur comprend le traitement de l’image optique, de l’image de profondeur et du masque d’incertitude de l’image de profondeur par un premier réseau de neurones convolutif (CNN1) qui comprend une succession de couches convolutives, chaque couche convolutive comprenant un premier bloc de convolution (B1N, B1N+1) apte à estimer une carte d’attributs sémantiques (FMSN, FMSN+1), un deuxième bloc de convolution (B2N, B2N+1) apte à estimer une carte d’attributs de profondeur (FMDN, FMDN+1) et un troisième bloc de convolution (B3N, B3N+1) apte à estimer une carte d’attributs de confiance (FMTN, FMTN+1).
- Procédé selon la revendication 2, dans lequel le deuxième bloc de convolution (B2N+1) d’une couche convolutive de rang N+1 (CN+1) dans la succession de couches convolutives est configuré pour :
- calculer le produit de la carte d’attributs de confiance (FMTN) estimée par le troisième bloc de convolution (B3N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives avec la carte d’attributs de profondeur (FMDN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application d’un noyau de convolution audit produit ;
- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;
- calculer le ratio du premier et du deuxième résultat de corrélation.
- Procédé selon la revendication 2, dans lequel le deuxième bloc de convolution (B2N+1) d’une couche convolutive de rang N+1 (CN+1) dans la succession de couches convolutives est configuré pour :
- calculer le produit de la carte d’attributs de confiance (FMTN) estimée par le troisième bloc de convolution (B3N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives avec une carte de concaténation résultant de la concaténation de la carte d’attributs sémantiques (FMSN) estimée par le premier bloc de convolution (B1N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives et de la carte d’attributs de profondeur (FMDN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N (CN) dans la succession de couches convolutives ;
- calculer un premier résultat de convolution par application d’un noyau de convolution audit produit ;
- calculer un deuxième résultat de convolution par application du noyau de convolution à la carte d’attributs de confiance estimée par le troisième bloc de convolution de la couche convolution de rang N dans la succession de couches convolutives ;
- calculer le ratio du premier et du deuxième résultat de corrélation.
- Procédé selon l’une des revendications 3 et 4, dans lequel le deuxième bloc de convolution (B2N +1) de la couche convolutive de rang N+1 (CN +1) dans la succession de couches convolutives est en outre configuré pour ajouter un biais (BS) au ratio du premier et du deuxième résultat de corrélation.
- Procédé selon la revendication 2, dans lequel le premier bloc de convolution (B1N +1) d’une couche convolutive de rang N+1 (CN +1) dans la succession de couches convolutives prend en entrée une carte de concaténation résultant de la concaténation de la carte d’attributs sémantiques (FMSN) estimée par le premier bloc de convolution (B1N) de la couche convolutive de rang N dans la succession de couches convolutives avec la carte d’attributs de profondeur (FMDN) estimée par le deuxième bloc de convolution (B2N) de la couche convolutive de rang N dans la succession de couches convolutives.
- Procédé selon l’une des revendications 2 à 6, dans lequel la fusion de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur comprend la détermination d’une carte de concaténation par concaténation de la carte sémantique, de la carte de profondeur et de la carte de confiance de la carte de profondeur et le traitement de la carte de concaténation par un deuxième réseau de neurones convolutif (CNN2).
- Produit programme d’ordinateur comprenant des instructions qui, lorsque le programme est exécuté par un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon l’une des revendications 1 à 7.
- Dispositif de cartographie de terrain destiné à être embarqué sur un système mobile, comprenant un processeur configuré pour mettre en œuvre les étapes du procédé selon l’une des revendications 1 à 7.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2211564A FR3141763A1 (fr) | 2022-11-07 | 2022-11-07 | Système et procédé d’aide à la navigation d’un système mobile |
PCT/FR2023/051741 WO2024100349A1 (fr) | 2022-11-07 | 2023-11-07 | Système et procédé d'aide à la navigation d'un système mobile |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2211564 | 2022-11-07 | ||
FR2211564A FR3141763A1 (fr) | 2022-11-07 | 2022-11-07 | Système et procédé d’aide à la navigation d’un système mobile |
Publications (1)
Publication Number | Publication Date |
---|---|
FR3141763A1 true FR3141763A1 (fr) | 2024-05-10 |
Family
ID=85222201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR2211564A Pending FR3141763A1 (fr) | 2022-11-07 | 2022-11-07 | Système et procédé d’aide à la navigation d’un système mobile |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR3141763A1 (fr) |
WO (1) | WO2024100349A1 (fr) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241022A1 (fr) | 2018-06-13 | 2019-12-19 | Nvidia Corporation | Détection de chemin pour machines autonomes utilisant des réseaux neuronaux profonds |
EP3945349A1 (fr) * | 2020-07-31 | 2022-02-02 | Continental Automotive GmbH | Procédé et système permettant de déterminer des informations d'image 3d |
-
2022
- 2022-11-07 FR FR2211564A patent/FR3141763A1/fr active Pending
-
2023
- 2023-11-07 WO PCT/FR2023/051741 patent/WO2024100349A1/fr unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241022A1 (fr) | 2018-06-13 | 2019-12-19 | Nvidia Corporation | Détection de chemin pour machines autonomes utilisant des réseaux neuronaux profonds |
EP3945349A1 (fr) * | 2020-07-31 | 2022-02-02 | Continental Automotive GmbH | Procédé et système permettant de déterminer des informations d'image 3d |
Non-Patent Citations (2)
Title |
---|
CHEN LIANG ET AL: "Lidar-histogram for fast road and obstacle detection", 2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), IEEE, 29 May 2017 (2017-05-29), pages 1343 - 1348, XP033126901, DOI: 10.1109/ICRA.2017.7989159 * |
GU SHUO ET AL: "3-D LiDAR + Monocular Camera: An Inverse-Depth-Induced Fusion Framework for Urban Road Detection", IEEE TRANSACTIONS ON INTELLIGENT VEHICLES, IEEE, vol. 3, no. 3, 1 September 2018 (2018-09-01), pages 351 - 360, XP011689287, ISSN: 2379-8858, [retrieved on 20180824], DOI: 10.1109/TIV.2018.2843170 * |
Also Published As
Publication number | Publication date |
---|---|
WO2024100349A1 (fr) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2828825B1 (fr) | Procédé de détermination d'un plan du sol à partir d'une image de profondeur | |
FR2960082A1 (fr) | Procede et systeme pour fusionner des donnees issues de capteurs d'images et de capteurs de mouvement ou de position | |
EP2724203A1 (fr) | Génération de données de carte | |
FR2991090A1 (fr) | Systemes et procedes de topographie et de reconstruction tridimensionnelle a partir d'un nuage de points et supports de stockage informatique pour ces systemes et procedes | |
EP3435332A1 (fr) | Dispositif électronique et procédé de génération, à partir d'au moins une paire d'images successives d'une scène, d'une carte de profondeur de la scène, drone et programme d'ordinateur associés | |
FR3116640A1 (fr) | Procédé itératif d’estimation du mouvement d’un corps matériel par génération d’une grille de mouvement filtrée | |
CN115497061A (zh) | 一种基于双目视觉的道路可行驶区域识别方法及装置 | |
EP3126864A1 (fr) | Procédé de géo-localisation de l'environnement d'un porteur | |
FR3075433A1 (fr) | Procede de determination des bords saillants d'une cible sur une image | |
WO2022117765A1 (fr) | Procédé et dispositif de génération de trajectoire d'un appareil mobile respectant une contrainte temporelle prédéterminée | |
WO2020165544A1 (fr) | Identification de zones roulables avec prise en compte de l'incertitude par une méthode d'apprentissage profond | |
FR3141763A1 (fr) | Système et procédé d’aide à la navigation d’un système mobile | |
EP3915040A1 (fr) | Procédé de détermination d'un score de confiance d'une cible d'un environnement d'un véhicule | |
WO2023086170A1 (fr) | Adaptation de domaine non supervisé pour une segmentation lidar via des techniques de pseudo-marquage améliorées | |
WO2021165237A1 (fr) | Procédé et dispositif de détermination d'obstacles d'altitude | |
EP3488383B1 (fr) | Procede et dispositif d'aide a la navigation d'un vehicule | |
CN110599542A (zh) | 面向几何区域的自适应vslam局部建图的方法和装置 | |
FR3065097B1 (fr) | Procede automatise de reconnaissance d'un objet | |
EP3072110B1 (fr) | Procédé d'estimation du mouvement d'un objet | |
EP3757943B1 (fr) | Procédé et dispositif de télémétrie passive par traitement d'image et utilisation de modeles en trois dimensions | |
US20230152465A1 (en) | UNSUPERVISED DOMAIN ADAPTATION FOR LiDAR SEGMENTATION VIA ENHANCED PSEUDO-LABELING TECHNIQUES | |
FR3138944A1 (fr) | Dispositif et procédé d'estimation de la traversabilité d'un terrain par un système mobile | |
EP4386425A1 (fr) | Procédé de caractérisation de l'environnement d'un dispositif mobile, produisant une grille d'espace statique et/ou une grille d'espace libre | |
WO2023222970A1 (fr) | Dispositif et procédé d'aide à la navigation basé sur l'imagerie monoculaire | |
FR3146534A1 (fr) | Procede d’estimation d’une carte de profondeur d’une image monoculaire et dispositifs associes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 2 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20240510 |