FR3088465A1

FR3088465A1 - Estimation d'une carte de disparite a partir d'une image monoscopique par apprentissage profond

Info

Publication number: FR3088465A1
Application number: FR1860282A
Authority: FR
Inventors: Bertrand Godreau; Sonia Yousfi; Gatien Ferret; Lucien Garcia
Original assignee: Continental Automotive GmbH; Continental Automotive France SAS
Current assignee: Continental Autonomous Mobility Germany GmbH; Continental Automotive France SAS
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-05-15
Anticipated expiration: 2038-11-08
Also published as: FR3088465B1

Abstract

La présente invention a pour objet des procédés (400) d'entrainement de modèles d'apprentissage profond, des procédés d'estimation de carte de disparité, un ensemble de programmes informatiques permettant de mettre en œuvre les procédés et des dispositifs (100) pour l'estimation de cartes de disparité. Le principe général de l'invention est basé sur l'utilisation de l'apprentissage automatique (« machine learning », en langue anglaise). Pour cela, dans l'invention, on entraine un modèle statistique d'apprentissage profond (« deep learning », en langue anglaise) selon une démarche d'apprentissage automatique dite supervisée pour estimer une carte de disparité à partir d'une seule image monoscopique. Par la suite, le modèle statistique d'apprentissage profond pré-entrainé est utilisé pour estimer une carte de disparité à partir d'une seule image monoscopique.

Description

La présente invention concerne le domaine de la stéréovision. Plus précisément, elle concerne des procédés d’entrainement de modèles d’apprentissage profond, des procédés d’estimation de cartes de disparité, un ensemble de programmes informatiques permettant de mettre en œuvre les procédés et des dispositifs pour l’estimation de cartes de disparité.

Il est connu que les scènes routières sont des images de la route et de son environnement proche, acquises par un véhicule routier en circulation.

Dans le domaine des systèmes d’aide à la conduite, les scènes routières sont acquises à cadence vidéo. En outre, leur interprétation, en temps réel, permet de fournir des informations, concernant la structure tridimensionnelle des scènes routières, qui sont utilisables, par exemple, par les systèmes d’assistance au guidage de véhicule ou de détection des obstacles sur la chaussée.

Il est connu de recouvrer l’information tridimensionnelle seulement à partir d’au moins deux vues prises à des positions relative connues d’une même scène routière. C’est le cas avec les méthodes utilisant des caméras stéréoscopiques et également avec les méthodes utilisant des caméras monoscopiques en mouvement.

Or, bien qu’efficaces, les méthodes utilisant des caméras stéréoscopiques sont trop onéreuses et sont donc peu utilisées. Par ailleurs, les méthodes utilisant des caméras monoscopiques en mouvement ne permettent pas d’estimer correctement la structure tridimensionnelle des scènes routières, notamment à cause du mouvement des objets dynamiques de la scène routière, ou en l’absence de mouvement.

Ainsi, à ce jour, il n’existe pas de méthodes efficaces pour obtenir la structure tridimensionnelle des scènes routières à partir d’une seule vue d’une caméra monoscopique.

La présente invention vise donc à pallier les inconvénients précités. Pour cela, dans un premier aspect de l’invention, l’invention propose un procédé d’entrainement d’un modèle d’apprentissage profond entraîné pour générer une carte de disparité à partir d’une image monoscopique d’une scène routière.

Dans un deuxième aspect de l’invention, l’invention concerne un procédé d’estimation d’une carte de disparité à partir d’une image monoscopique d’une scène routière et du modèle d’apprentissage automatique pré-entrainé selon le premier aspect de l’invention.

Dans un troisième aspect de l’invention, l’invention concerne un programme d'ordinateur avec un code de programme pour exécuter les étapes des procédés selon les premier et deuxième aspects de l’invention, lorsque le programme d'ordinateur est chargé dans l'ordinateur ou exécuté dans l'ordinateur.

Ensuite, dans un quatrième aspect de l’invention, l’invention concerne un support de stockage non transitoire sur lequel un programme d'ordinateur selon le troisième aspect de l’invention est stocké.

Enfin, dans un cinquième aspect de l’invention, l’invention concerne un dispositif pour l’estimation d’une carte de disparité.

Ainsi, l’invention se rapporte à un procédé d’entrainement d’un modèle d’apprentissage profond pour générer une carte de disparité à partir d’une image monoscopique d’une scène routière. Le procédé d’entrainement comprend les étapes suivantes :

• une étape d’acquisition durant laquelle, on acquiert, une pluralité d’images stéréoscopiques représentatives d’une scène routière, à partir d’au moins une caméra stéréoscopique associée à chacun parmi une pluralité de véhicules routiers d’entrainement en circulation, chaque image stéréoscopique comprenant une paire d’images, • une étape de calcul durant laquelle, on calcule, pour chaque image stéréoscopique, une carte de disparité à partir de la paire d’images correspondante, la carte de disparité étant indicative de l’ensemble des mises en correspondance de pixels de l’une de la paire images, dite image d’alignement, avec des pixels homologues dans l’autre de la paire d’images, et • une étape d’entrainement durant laquelle, on présente, pour chacun parmi tout ou partie de la pluralité d’images stéréoscopiques, l’image d’alignement associée et la carte de disparité associée, respectivement à l’entrée et à la sortie du modèle d’apprentissage profond, et dans laquelle on applique un algorithme d’apprentissage supervisé au modèle d’apprentissage profond. Selon un premier mode de réalisation, le modèle d’apprentissage profond est un réseau de neurones à convolution.

Selon un second mode de réalisation, avant l’étape de calcul, le procédé d’entrainement comprend en outre une première étape de rectification durant laquelle on rectifie au moins une partie de la paire d’images.

Dans un exemple du second mode de réalisation, après l’étape de calcul, le procédé comprend en outre une deuxième étape de rectification durant laquelle on rectifie la carte de disparité selon une opération inverse de la première étape de rectification.

Selon un troisième mode de réalisation, entre l’étape de calcul et l’étape d’entrainement, le procédé comprend en outre une étape de remplissage durant laquelle on remplit la carte de disparité pour les pixels dont le correspondant est inconnu.

Dans une variante, dans l’étape d’entrainement, l’algorithme d’apprentissage supervisé est configuré pour minimiser une fonction de coût qui est définie à partir d’une métrique d’erreur quadratique et d’une métrique de dissimilarité structurelle. Par exemple, la fonction de coût(L) est définie selon la formule suivante : L = ax (X2i-i^DSSJMt) + β x MSE, dans laquelle, a et β sont des facteurs de pondération, MSEï est la métrique d’erreur quadratique et DSSIMi est la métrique de dissemblance appliquée à une fenêtre de i pixels.

L’invention couvre également un procédé d’estimation d’une carte de disparité à partir d’une image monoscopique d’une scène routière. Le procédé d’estimation comprend une étape d’estimation durant laquelle, on estime la carte de disparité, à partir de l’image monoscopique et d’un modèle d’apprentissage profond pré-entrainé selon le procédé d’entrainement.

Par ailleurs, l’invention couvre un programme d'ordinateur avec un code de programme pour exécuter les étapes des procédés d’entrainement et d’estimation, lorsque le programme d'ordinateur est chargé dans l'ordinateur ou exécuté dans l'ordinateur.

L’invention couvre également un de support de stockage non transitoire sur lequel le programme d'ordinateur, ci-dessus, est stocké.

Enfin, l’invention couvre un dispositif pour l’estimation d’une carte de disparité. Le dispositif comprend un processeur comprenant :

• un module d’acquisition pour acquérir une image monoscopique d’une scène routière, le module d’acquisition étant configuré pour être couplé à un véhicule routier, et • un module d’estimation pour estimer une carte de disparité à partir de l’image monoscopique et d’un modèle d’apprentissage profond pré-entrainé selon le procédé d’entrainement.

D’autres caractéristiques et avantages de l'invention seront mieux compris à la lecture de la description qui va suivre et en référence aux dessins annexés, donnés à titre illustratif et nullement limitatif.

- La figure 1 représente un dispositif pour l’estimation d’une carte de disparité selon l’invention.

- La figure 2 représente une image monoscopique acquise par un module d’acquisition du dispositif de la figure 1.

- Les figures 3A et 3B représentent une image stéréoscopique acquise par une caméra stéréoscopique.

- La figure 3C représente une carte de disparité obtenue à partir des images des figures 3A et 3B.

- La figure 4 représente un procédé d’entrainement d’un modèle d’apprentissage profond pour générer une carte de disparité à partir d’une image monoscopique, selon l’invention.

- La figure 5 représente un réseau de neurones à convolution, selon l’invention.

Pour des raisons de clarté, les éléments représentés ne sont pas nécessairement représentés à la même échelle, les uns par rapport aux autres, sauf mention contraire.

Le principe général de l’invention est basé sur l’utilisation de l’apprentissage automatique (« machine learning », en langue anglaise) pour estimer une carte de disparité à partir d’une seule image monoscopique. On rappelle que l’art antérieur nécessite au moins deux images pour obtenir une carte de disparité. Pour cela, dans l’invention, on entraîne un modèle statistique d’apprentissage profond (« deep learning », en langue anglaise) selon une démarche d’apprentissage automatique dite supervisée dans laquelle les observations passées sont labélisées. En pratique, des observations sont dites labélisées lorsque chacune d’entre elles est accompagnée d’un label qui identifie le phénomène à estimer. Par la suite, le modèle statistique d’apprentissage profond pré-entrainé est utilisé pour estimer une carte de disparité à partir d’une seule image monoscopique.

La figure 1 illustre un dispositif 100 pour l’estimation d’une carte de disparité selon l’invention.

Le dispositif 100 comprend un module d’acquisition 110 et un module d’estimation 120 qui sont fonctionnellement couplées l’une à l’autre. Dans une mise en œuvre particulière, le module d’acquisition 110 et le module d’estimation 120 sont compris dans un seul module de traitement de type processeur.

Dans la figure 1, le module d’acquisition 110 est configuré pour acquérir une image monoscopique Mo d’une scène routière. Dans un exemple, le module d’acquisition est une caméra monoscopique de type connu. Dans un autre exemple, l’image monoscopique Mo est une image couleur ou une image monochrome. Dans une mise en œuvre de cet exemple, l’image monoscopique Mo est déterminée selon un modèle de couleur YUV.

La figure 2 illustre, une image 200 représentant une scène routière acquise par le module d’acquisition 110 embarqué dans un véhicule routier (non représenté) circulant sur une portion d’un réseau routier 210 dans le sens de circulation 220. On entend par véhicule routier, tout véhicule doté d’un moteur (généralement à explosion ou électrique) destiné à le mouvoir sur la route et capable de transporter des personnes ou des charges (par exemple, une voiture ou une motocyclette).

Dans l’exemple de la figure 2, l’image 200 comprend un objet routier 230 associé à la portion de réseau routier 210. Dans une mise en œuvre particulière, la scène routière comprend une pluralité d'objets routiers 230. On entend par objet routier 230, tout objet associé à une portion d’un réseau routier, et ce, de manière permanente ou temporaire. Il peut s’agir par exemple, d’objets de signalisation verticaux (par ex. un panneau de signalisation) et horizontaux (par ex. un marquage au sol, un ralentisseur, un rond-point). Il peut également s’agir d’irrégularités de la chaussée (par ex. un nid-depoule, une zone de verglas) ou d’un évènement associé à la portion du réseau routier (par ex. un accident). Enfin, il peut également s’agir d’un), la scène routière comprend une pluralité d’objets véhicule routier. Dans une autre mise en œuvre particulière (non représentée environnant à la portion du réseau routier 210. Par exemple, il peut s’agir d’immeubles, de monuments ou d’êtres vivants.

De retour à la figure 1, le module d’estimation 120 est configuré pour estimer une carte de disparité Cd à partir d’une image monoscopique Mo telle que l’image monoscopique 200.

On entend par carte de disparité, le résultat de la mise en correspondance stéréoscopique de deux images d'une même scène routière qui sont prises, par exemple par une caméra stéréoscopique, depuis deux points de vue différents. Les deux images sont classiquement désignées par image droite et image gauche. La mise en correspondance stéréoscopique consiste à retrouver dans les images gauche et droite, des pixels homologues, c'est-à-dire des pixels qui sont la projection de la même entité de la scène routière. La carte de disparité est une façon de représenter visuellement les résultats de cette mise en correspondance : chaque pixel de la carte de disparité représente l'amplitude de la disparité, c'est-à-dire la distance entre la position du pixel de l'image gauche et celle de son correspondant dans l'image droite. Lorsque la mise en correspondance est réalisée par rapport à l’image gauche, alors l’image est qualifiée d’image d’alignement. Il en va de même pour l’image droite si elle sert de référence pour réaliser la mise en correspondance. Ainsi, chaque pixel de la carte de disparité est associé à une valeur représentative d'une couleur caractéristique de l'amplitude de la disparité. De manière classique, on utilise des nuances de gris : par exemple, plus le pixel est sombre et plus la disparité est faible, les pixels complètement blancs représentant, par exemple, les pixels sans correspondant dans l'une des deux images ou bien des pixels hors du champ de vue de la caméra de référence. De manière connue, on peut obtenir une carte de disparité en utilisant, par exemple, des méthodes d’optimisation à variables discrètes comme la programmation dynamique ou les coupures de graphes, ou, par exemple, des méthodes d’optimisation à variables continues, comme les approches variationnelles.

Les figures 3A et 3B illustrent, respectivement une image gauche 310 et une image droite 320 représentant une scène routière acquise par une caméra stéréoscopique (non représentée) embarqué dans un véhicule routier (non représenté) circulant sur une portion d’un réseau routier 10 dans le sens de circulation 20. Dans l’exemple des figures 3A et 3B, l’image gauche 310 et l’image droite 320 comprennent plusieurs objets routiers 30 (par exemple, lignes blanches de signalisation et véhicule routier) associés à la portion de réseau routier 10. La figure 3C illustre une carte de disparité 330 obtenue à partir de l’image gauche 310 et l’image droite 320. De préférence, la carte de disparité 330 est une carte de disparité dense obtenue par exemple, par des méthodes de type SGM (« Semi-Global Matching », en langue anglaise).

De retour à la figure 1, le module d’estimation 120 utilise un modèle d’apprentissage profond pré-entrainé pour estimer une carte de disparité Cd à partir d’une image monoscopique Mo.

La figure 4 illustre un procédé 400 d’entrainement d’un modèle d’apprentissage profond 500 pour estimer la carte de disparité Cd à partir de l’image monoscopique Mo.

Le procédé 400 nécessite une pluralité (non représentée) de véhicules routiers d’entrainement en mouvement qui sont utilisés pour l’entrainement du modèle d’apprentissage profond 500. Chaque véhicule routier embarque au moins un capteur d’image stéréoscopique (non représenté) de type connu. Dans un exemple, le capteur d’image stéréoscopique est une caméra stéréovision binoculaire configurée pour détecter au moins une scène routière, chaque image stéréoscopique comprenant une paire d’images comprenant une image droite et image gauche, comme mentionné plus haut.

Ainsi, l’invention se base sur le fait que certains acteurs du secteur de l’automobile disposent ou sont capables de disposer de larges banques de données d’images stéréoscopiques acquises, notamment, dans le cadre d’études de sécurité routière ou lors du développement ou de la validation de caméras stéréoscopiques.

Dans l’exemple de la figure 4, le procédé 400 consiste tout d’abord à acquérir à l’étape d’acquisition 410, une pluralité d'images stéréoscopiques Sti, St2,..., St, d’une scène routière à partir de la caméra stéréoscopique associée.

Ensuite, à l’étape de calcul 420, on calcule, pour chaque image stéréoscopique Sti, St2,..., St,, une carte de disparité à partir de la paire d’images correspondante. Comme indiqué plus haut, la carte de disparité est indicative de l’ensemble des mises en correspondance de pixels de l’une de la paire images, dite image d’alignement, avec des pixels homologues dans l’autre de la paire d’images.

Enfin, à l’étape d’entrainement 430, on présente, pour chacun parmi tout ou partie de la pluralité d’images stéréoscopiques Sti, St2,..., St,, l’image d’alignement associée et la carte de disparité associée, respectivement à l’entrée et à la sortie du modèle d’apprentissage profond 500. En outre, on applique un algorithme d’apprentissage supervisé au modèle d’apprentissage profond 500.

Dans l’étape d’entrainement 430, on réalise l’apprentissage du modèle d’apprentissage profond en fournissant au modèle d’apprentissage profond un jeu de données d’apprentissage (« training set », en langue anglaise) sous forme de couples (X, Y), dans lesquels X correspond à un ensemble de variables estimatives (« input features », en langue anglaise) et Y correspond à une variable à classer (« output » ou « target », en langue anglaise). Dans l’invention, un couple (X, Y) est défini de telle sorte que la variable estimative X correspond à tout ou partie de l’ensemble des images d’alignement et la variable à estimer Y correspond aux cartes de disparité associées à la variable estimative X.

Dans une mise en œuvre de l’invention, le modèle d’apprentissage profond est un réseau de neurones à convolution.

La figure 5 illustre un exemple de réseau de neurones à convolution 510, qui est adapté pour fonctionner avec l’invention. Le réseau de neurones à convolution 510 utilise des connexions résiduelles entre couches (« residual layers », en langue anglaise) et comprenant des couches connues de type couches de convolution 5x5 C5, couches de convolution 3x3 C3, des couches de sous-échantillonnage MP (« max pooling », en langue anglaise) et des couches de sur-échantillonnage réalisées par des couches de déconvolution CT. Le réseau de neurones à convolution 510 comprend en outre, des couches connues de type GoogLeNet inception comprenant les modules B1, B3 et B5 qui réalisent respectivement, en parallèle, des opérations de convolution 1x1, 3x3 et 5x5. On trouve également dans le réseau de neurones à convolution 510, des couches de concaténation CCT pour réaliser la concaténation de blocs de réduction de résolution (« grid reduction blocks », en langue anglaise). Dans la figure 5, un bloc de réduction de résolution comprend une couche de sous-échantillonnage MP et une couche de convolution C3.

Plus précisément, dans la figure 5, le réseau de neurones à convolution 510 se compose d’une première partie 511 et d’une deuxième partie 512. La première partie 511 correspond à une fonction d’encodage tandis que la deuxième partie correspond à une fonction de décodage. La fonction d’encodage est configurée pour extraire les caractéristiques pertinentes de l’image d’entrée du réseau de neurones à convolution 510, dans des cartes de caractéristiques (« feature maps», en langue anglaise). Pour cela, la fonction d’encodage utilise des couches de convolution et de sous-échantillonnage. En outre, la fonction d’encodage est configurée de sorte que la résolution des cartes de caractéristiques diminue d’une couche à une autre du réseau de neurones à convolution 210. La fonction de décodage est configurée pour décoder l’information apprise par la fonction d’encodage et sur-échantillonne les cartes de caractéristiques pour revenir à la résolution initiale. Pour cela, la fonction de décodage utilise des couches de déconvolution CT. Enfin, des connections résiduelles sont ajoutées depuis certaines des couches de la fonction d’encodage vers certaines des couches de la fonction de décodage. Dans la figure 5, on note que le parallélisme n’existe que pour les blocs d’inception ou les blocs de réduction de résolution.

Dans cette mise en œuvre, les poids synaptiques sont mis à jour par un algorithme d’apprentissage supervisé. Il existe une multitude d’algorithmes d'apprentissage supervisé telle que la méthode de rétropropagation du gradient (« backpropagation », en langue anglaise). Le principe de cet algorithme consiste, à partir d'un stimulus en entrée d’un réseau de neurones, à calculer la sortie du réseau de neurones, la comparer à la sortie attendue et rétropropager un signal d'erreur dans le réseau de neurones, qui vient modifier les poids synaptiques par une méthode de descente du gradient.

Dans un autre exemple de cette mise en œuvre, l’algorithme d’apprentissage supervisé est configuré pour minimiser le signal d’erreur représenté par une fonction de coût. Dans l’invention, la fonction de coût est définie à partir d’une métrique d’erreur quadratique (MSE pour « Mean Square Error », en langue anglaise) et d’une métrique de dissimilarité structurelle (DSSIM pour « structural dissimilarity », en langue anglaise).

La métrique MSE mesure la moyenne des carrés des erreurs entre une image référence (l'image d'origine) et une image dégradée (l'image reconstituée après compression). La métrique MSE est calculée pixel par pixel en ajoutant les carrés des différences de valeur entre pixels et en divisant le résultat par le nombre total de pixels. Dans le cas d’une image en couleur, une moyenne des métriques MSE par canal est réalisée.

La métrique DSSIM est une métrique dérivée de la métrique connue de similarité structurelle (SSIM pour « structural similarity », en langue anglaise). La métrique SSIM trouve son fondement dans la supposition que la vision humaine est fortement adaptée à l'analyse d'information structurelle et a donc pour vocation de mesurer efficacement les altérations de cette information entre l'image source et l'image reconstituée. Ainsi, la métrique SSIM permet de mesurer la similarité entre deux images d'une manière assez proche de la perception subjective humaine. La métrique SSIM est le produit de trois composantes : un terme de luminance (variations diverses de luminance, normalisation), un terme de contraste (changements de contraste, distorsion de gamma), et un terme de structure (flou, bruit, postérisation, accentuation). Dans l’invention, la métrique DSSIM est déterminée selon la formule (1) suivante : DSSIM = d).

Enfin, la fonction de coût L selon l’invention est définie selon la formule (2) suivante : L = a x (Σ” OSSlM_2i_f> + β x MSE (2) dans laquelle, a et β sont des facteurs de pondération et DSSIMi est la métrique de dissemblance appliquée à une fenêtre de i pixels. Dans un exemple, a est compris dans un l’intervalle [0,65 - 0,90] et β est compris dans un l’intervalle [0,10 - 0,35],

Avec la fonction de coût selon l’invention, les erreurs sur la position des objets d'une image, qui sont considérés comme les plus proches en profondeur, ont un impact plus fort sur la descente du gradient que les objets dont la position est plus éloignée en profondeur.

Dans un exemple de la formule (2) on peut utiliser la formule (3) suivante avec i = 2 et n = 4 L = ax&iDSSIMzt-J + β X MSE = a X (DSSIM₃ + DSSIM₅ + DSSIM₇) + β X MSE (3).

À la fin de l’étape d’entrainement 430, le modèle d’apprentissage profond 500 est alors entraîné pour estimer une carte de disparité Cd à partir d’une image monoscopique Mo.

Dans une mise en œuvre du procédé 400, avant l’étape de calcul 420, le procédé 400 comprend en outre une première étape de rectification 440 durant laquelle on rectifie au moins une partie de la paire d’images. Étant donné une paire d’image, la première étape de rectification consiste à réorienter les paires de lignes épipolaires de façon à les rendre alignées. Par ailleurs, la rectification peut consister également à rectifier la distorsion et/ou les rotations entre la paire d’images. Dans cette mise en œuvre, des méthodes de rectification connues peuvent être utilisées.

Dans un exemple de cette mise en œuvre, après l’étape de calcul 420, le procédé 400 comprend en outre une autre étape de rectification 450 durant laquelle on rectifie la carte de disparité selon une opération inverse de la première étape de rectification. Ainsi, étant donné la carte de disparité, la deuxième étape de rectification consiste à désorienter les lignes épipolaires, appliquer de la distorsion et/ou appliquer des rotations de la carte de disparité. Dans cette mise en œuvre, des méthodes de rectification connues peuvent être utilisées.

Dans une autre mise en œuvre du procédé 400, entre l’étape de calcul 420 et l’étape d’entrainement 430, le procédé 400 comprend en outre une étape de remplissage 460 durant laquelle on remplit la carte de disparité pour les pixels dont le correspondant est inconnu. Dans cette mise en œuvre, des méthodes de remplissage connues, comme l’interpolation ou la méthode de colorisation de Levin, Lischinski et Weiss, peuvent être utilisées.

Dans un mode particulier de réalisation de l’invention, les différentes étapes du procédé 400 sont déterminées par des instructions de programmes d’ordinateurs. Par conséquent, l’invention vise aussi un programme avec un code de programme d’ordinateur fixé sur un support de stockage non transitoire, de code de programme étant 5 susceptible d’exécuter les étapes du procédé 400 lorsque le programme d’ordinateur est chargé dans l’ordinateur ou exécuté dans l’ordinateur.

On notera qu’il est envisagé d’entrainer une pluralité de modèles d’apprentissage profond 500 afin d’estimer une carte de disparité selon que le jeu de données d’apprentissage comprend des images stéréoscopiques en couleur ou 10 monochromes. Ainsi, par exemple, on pourra obtenir un premier modèle d’apprentissage profond 500 pour un jeu de données d’apprentissage comprenant des images stéréoscopiques en couleur et un second modèle d’apprentissage profond 500 pour un jeu de données d’apprentissage comprenant des images stéréoscopiques monochromes.

La présente invention a été décrite et illustrée dans la présente description détaillée et dans les figures. Toutefois, la présente invention ne se limite pas aux formes de réalisation présentées. Ainsi, d’autres variantes et modes de réalisation peuvent être déduits et mis en œuvre par la personne du métier à la lecture de la présente description et des figures annexées.

Claims

REVENDICATIONS

1. Procédé (400) d’entrainement d’un modèle d’apprentissage profond (500) pour générer une carte de disparité (St) à partir d’une image monoscopique (Mo) d’une scène routière, le procédé comprenant les étapes suivantes :

• une étape d’acquisition (410) durant laquelle, on acquiert, une pluralité de d’images stéréoscopiques (Sti, St2,..., St) représentatives d’une scène routière, à partir d’au moins une caméra stéréoscopique associée à chacun parmi une pluralité de véhicules routiers d’entrainement en circulation, chaque image stéréoscopique comprenant une paire d’images (310, 320), • une étape de calcul (420) durant laquelle, on calcule, pour chaque image stéréoscopique, une carte de disparité (330) à partir de la paire d’images correspondante, la carte de disparité étant indicative de l’ensemble des mises en correspondance de pixels de l’une de la paire images, dite image d’alignement, avec des pixels homologues dans l’autre de la paire d’images, et • une étape d’entrainement (430) durant laquelle, on présente, pour chacun parmi tout ou partie de la pluralité d’images stéréoscopiques, l’image d’alignement associée et la carte de disparité associée, respectivement à l’entrée et à la sortie du modèle d’apprentissage profond, et dans laquelle on applique un algorithme d’apprentissage supervisé au modèle d’apprentissage profond.
2. Procédé d’entrainement selon la revendication 1, dans lequel le modèle d’apprentissage profond est un réseau de neurones à convolution.
3. Procédé d’entrainement selon l’une quelconque des revendications 1 à 2, dans lequel, avant l’étape de calcul, le procédé comprend en outre une première étape de rectification (440) durant laquelle on rectifie au moins une partie de la paire d’images.
4. Procédé d’entrainement selon la revendication 3, dans lequel, après l’étape de calcul, le procédé comprend en outre une deuxième étape de rectification (450) durant laquelle on rectifie la carte de disparité selon une opération inverse de la première étape de rectification.
5. Procédé d’entrainement selon l’une quelconque des revendications 1 à 4, dans lequel, entre l’étape de calcul et l’étape d’entrainement, le procédé comprend en outre une étape de remplissage (460) durant laquelle on remplit la carte de disparité pour les pixels dont le correspondant est inconnu.
6. Procédé d’entrainement selon l’une quelconque des revendications 1 à 5, dans lequel, dans l’étape d’entrainement, l’algorithme d’apprentissage supervisé est configuré pour minimiser une fonction de coût qui est définie à partir d’une métrique d’erreur quadratique et d’une métrique de dissimilarité structurelle.
7. Procédé d’entrainement selon la revendication 6, dans lequel, la fonction de coût (L) est définie selon la formule suivante : L = αχ (Σ” DSSiM₂i.-i) + β x MSE, dans laquelle, a et β sont des facteurs de pondération, MSE est la métrique d’erreur quadratique et DSSIMi est la métrique de dissemblance appliquée à une fenêtre de i pixels.
8. Procédé d’estimation d’une carte de disparité à partir d’une image monoscopique d’une scène routière, le procédé comprenant une étape d’estimation durant laquelle, on estime la carte de disparité, à partir de l’image monoscopique et d’un modèle d’apprentissage profond pré-entrainé selon l’une quelconque des revendications 1 à 7.
9. Programme d'ordinateur avec un code de programme pour exécuter les étapes de procédé d'un procédé selon l’une quelconque des revendications 1 à 8 lorsque le programme d'ordinateur est chargé dans l'ordinateur ou exécuté dans l'ordinateur.
10. Dispositif (100) pour l’estimation d’une carte de disparité, le dispositif comportant un processeur comprenant :

• un module d’acquisition (110) pour acquérir une image monoscopique d’une scène routière, le module d’acquisition étant configuré pour être couplé à un véhicule routier, et • un module d’estimation (120) pour estimer une carte de disparité à partir de l’image monoscopique et d’un modèle d’apprentissage profond pré-entrainé selon l’une quelconque des revendications 1 à 7.