FR3104291A1

FR3104291A1 - Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés

Info

Publication number: FR3104291A1
Application number: FR1913747A
Authority: FR
Inventors: Thomas Hannagan; Thibault Fouqueray
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-06-11
Anticipated expiration: 2039-12-04
Also published as: FR3104291B1

Abstract

Le procédé comprend une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IMn,i capturées par les capteurs Cn, comportant un processus itératif comprenant, pour chaque itération i :A) fourniture, à chaque réseau RNen, d’une image IMn,i ;B) codage lors duquel chaque réseau RNen fournit en sortie un code descripteur CDn,i à partir de l’image IMn,i fournie;C) pour chaque paire de capteurs Cn et Cm, test pour déterminer si les deux images IMn,i et IMm,i correspondent à une même scène, en utilisant les deux codes descripteurs CDn,i et CDm,i fournis en sortie par les deux réseaux RNen et RNem ;D) ajustement des poids de connexion entre neurones des réseaux RNen et RNem, en fonction d’un résultat du test et d’un résultat cible d’une comparaison des images IMn,i et IMm,i basée sur des données d’horodatage des images. Figure à publier avec l’abrégé : Fig. 1

Description

Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés

La présente invention concerne de manière générale un procédé de configuration d’une architecture de détection d’un véhicule automobile comportant une pluralité de capteurs et des réseaux de neurones dédiés, respectivement associés aux capteurs.

ART ANTÉRIEUR

Dans le domaine de l’automobile, différents types de capteurs peuvent être utilisés pour percevoir l’environnement, par exemple des caméras, des radars et/ou des lidars.

Les caméras fournissent des données d’image de l’environnement du véhicule. Certaines caméras, dites «intelligentes», utilisent des réseaux de neurones pour la détection et la reconnaissance d’objets. Ces réseaux de neurones sont de type "profonds" : ils possèdent de nombreuses couches de neurones, et sont entraînés sur des millions de paires d’entrée-sortie, destinées à l’apprentissage, afin de développer les performances jugées suffisantes pour réaliser une tâche souhaitée, par exemple la reconnaissance générique d’un objet tel qu’un piéton. Actuellement, la reconnaissance générique d’objet utilise des réseaux de neurones à convolution dits résiduels, tel que ResNeXt101 (Xie, Girshick, Dollár, Tu, & He (2017) Aggregated Residual Transformations for Deep Neural Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)).

Les capteurs lidar (de l’anglais "light detection and ranging") sont complémentaires des caméras et utilisés notamment par certains systèmes ADAS d’aide à la conduite automobile pour réaliser une carte tridimensionnelle précise de l’environnement du véhicule, même en conditions visuelles réduites (par exemple mauvais éclairage et/ou conditions météorologiques difficiles).

Les radars fournissent des données de même type que les capteurs lidars avec une moins grande portée et une précision moindre. Toutefois, le radar peut être préféré au lidar pour une raison de coût. Il peut également être utilisé pour une recherche de redondance de l’information, en complément d’un autre capteur.

Il est possible de fusionner les données capturées par différents types de capteurs (caméras, radars et/ou lidars), à l’aide d’un algorithme de fusion, et de générer un modèle intégré de l’environnement autour du véhicule, dans lequel les objets d’intérêt pour la conduite sont localisés et identifiés. Ce modèle de l’environnement peut être utilisé pour prendre une décision de conduite. La variété des capteurs impliqués dans la fusion des données est déterminante pour la richesse et la robustesse du modèle de l’environnement. Les approches de l’état de l’art, comme «AVOD» [Arandjelovic & Zisserman (2018) Objects that sound. European Conference on Computer Vision (ECCV)] ou «MV3D» [Kingma & Ba (2015) Adam: A Method for Stochastic Optimization. Proceedings of the International Conference for Learning Representations, San Diego (ICLR)], présentent une diversité d’architectures faisant intervenir la fusion de données plus ou moins tôt et à différents endroits dans la chaine de traitement. Ces différentes approches ont toutes en commun d’utiliser des réseaux de neurones profonds et de chercher à optimiser un unique critère de performance, qui est dicté par une tâche à effectuer.

Un véhicule automobile peut donc disposer de différents types de capteurs, tels que des caméras, des lidars et/ou des radars, correspondant à différentes manières de percevoir l’environnement. Une fusion des données issues de ces différents types de capteurs permet de créer un modèle de l’environnement autour du véhicule, adapté pour prendre une décision adéquate de conduite, notamment dans le cas d’un véhicule autonome. La fusion des données provenant des différents types de capteurs permet d’obtenir un modèle de l’environnement plus riche que si les informations provenaient de capteurs d’un même type.

Il existe différentes techniques pour modéliser l’environnement autour du véhicule, notamment des techniques basées sur l’utilisation de réseaux de neurones. Ces réseaux de neurones doivent être préalablement entraînés, lors d’une phase d’apprentissage. Généralement, cet apprentissage est réalisé de manière supervisée.

L'idée de l'apprentissage supervisé d’un réseau de neurones est de fournir de nombreuses paires d’entraînement, ou paires d’entrée-sortie, chaque paire d’entraînement contenant des données d’entrée et des données de sortie connues, et d’ajuster les poids de connexions entre neurones afin de minimiser l'expression de l'erreur en sortie du réseau de neurones. Dans un apprentissage supervisé, le réseau de neurones est ainsi entraîné et formé en fournissant des paires de données d'entrée et de données de sortie adaptées, dans le but que le réseau de neurones fournisse une sortie souhaitée pour une entrée donnée.

L’apprentissage supervisé d’un réseau de neurones est très puissant mais également très coûteux en temps humain d’analyse, d’annotation et de vérification des données. Il nécessite la production d’une gigantesque base de données contenant des paires d’entrée-sortie connues, analysées et annotées par un expert humain.

Dans le cas d’un véhicule doté d’une architecture comportant une pluralité de capteurs et des réseaux de neurones dédiés respectifs, le but de l’invention est de faciliter l’apprentissage des réseaux de neurones.

Dans ce but et dans un premier aspect, la présente invention concerne un procédé de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n variant entre 1 et N, comprenant une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IMn,i capturées par les capteurs Cn, ladite phase d’entraînement conjoint comportant un processus itératif comprenant, pour chaque itération d’indice i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IM_n,ipréalablement capturée par le capteur Cn associé ;
B) codage de l’image IM_n,ifournie en un code descripteur CD_n,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CD_n,iet CD_m,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IM_n,iet IM_m,ide la paire, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IM_n,iet IM_m,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.

Grâce à cela, les réseaux de neurones encodeurs associés aux différents capteurs sont entraînés par auto-supervision et de façon conjointe et collaborative. La présente invention ne nécessite donc pas l’utilisation d’une large base de données d’images dans laquelle les images ont été préalablement analysées et labélisées par un expert humain.

Avantageusement, lors de l’étape C), on calcule une distance euclidienne entre les deux codes descripteurs CD_n,iet CD_m,i.

Le procédé peut comprendre une étape de génération d’une base de données d’apprentissage comportant les sous-étapes de
- capture d’images par les N capteurs, lors d’au moins une opération de roulage d’un véhicule d’acquisition d’images,
- génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et, pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes,
lesdites sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes étant mises en œuvre à partir de données d’horodatage associées aux images.

Le dispositif d’imagerie du véhicule automobile comporte avantageusement un décodeur pour réaliser une tâche de décodage spécifique, et il est prévu une autre phase d’entraînement dans laquelle ledit décodeur est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen entraînés lors de la phase d’entraînement conjoint.

Le décodeur comporte par exemple un réseau de neurones pour réaliser ladite tâche de décodage spécifique.

Le dispositif d’imagerie comporte par exemple trois capteurs qui sont une caméra, un lidar et un radar, positionnés pour avoir une perception commune d’au moins une partie de l’environnement du véhicule.

La phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est avantageusement réalisée en débarqué.

Un deuxième aspect de l’invention concerne un système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IM_n,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre d’un processus itératif comprenant, pour chaque indice d’itération i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IM_n,icapturée par le capteur Cn associé ;
B) codage de l’image IM_n,ifournie en un code descripteur CD_n,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CD_n,iet CD_m,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IM_n,iet IM_m,i, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IM_n,iet IM_m,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.

Le dispositif d’imagerie du véhicule automobile comportant un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte avantageusement un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.

BRÈVE DESCRIPTION DES FIGURES

D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description détaillée qui va suivre et qui présente différents modes de réalisation de l’invention donnés à titre d’exemples nullement limitatifs et illustrés par les figures annexées dans lesquelles :

représente un dispositif d’imagerie d’un véhicule automobile;

représente de façon schématique une première phase d’entraînement conjoint de plusieurs réseaux de neurones dédiés, dits «encodeurs», associés à plusieurs capteurs différents;

représente de façon schématique une deuxième phase d’entraînement d’un réseau de neurones dit de «décodage» destiné à la réalisation d’une tâche de décodage spécifique;

représente un organigramme d’un procédé de configuration du dispositif d’imagerie de la figure 1, utilisant les première et deuxième phases d’entraînement des figures 2 et 3.

DESCRIPTION DÉTAILLÉE

La présente invention concerne un procédé et un système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs différents Cn avec n= 1, …, N et un module de traitement 40 capable de fusionner les données capturées par ces N capteurs afin de réaliser une tâche cible, par exemple identifier un piéton.

Les N capteurs peuvent être de différents types, notamment de type caméra, lidar et/ou radar.

Le module de traitement comprend N réseaux de neurones dédiés, dits «encodeurs» et notés RNe_n, respectivement associés aux N capteurs Cn avec n= 1, …, N. Chaque réseau de neurone dédié est lié à un capteur donné et configuré pour recevoir en entrée image capturée fournie par le capteur et fournir en sortie un code descripteur, représentatif d’au moins une partie de l’environnement du véhicule telle que capturée par le capteur. Le module de traitement 40 comprend également au moins un décodeur DCD spécifique à une tâche cible donnée, également doté d’un réseau de neurones de décodage RNd. Le module de traitement 40 peut comprendre plusieurs décodeurs spécifiques pour la réalisation de plusieurs tâches cibles, par exemple identifier un piéton, identifier un véhicule, identifier un vélo, etc.. Chacun de ces décodeurs spécifiques est basé sur un réseau de neurones de décodage et utilise les N réseaux de neurones encodeurs RNe_ndédiés.

Dans un exemple de réalisation particulier, donné à titre purement illustratif, le dispositif d’imagerie comporte trois capteurs: une caméra, un radar et un lidar.

La figure 1 représente un dispositif d’imagerie 1 d’un véhicule automobile, comportant trois capteurs (N=3): un capteur caméra C1, un capteur lidar C2 et un capteur radar C3. Les trois capteurs sont embarqués sur le véhicule.

Le capteur caméra C1 est par exemple une caméra optique monoculaire C1 dotée d’un capteur d’images bidimensionnelles 11, par exemple de type CCD (de l’anglais « Charge-Coupled Device » se traduisant en français par «dispositif à transfert de charge») ou CMOS (de l’anglais « Complementary Metal-Oxide Semiconductor » se traduisant en français par «semi-conducteur à oxyde de métal complémentaire»). La caméra C1 comprend également un système optique 12, associé au capteur d’images 11, adapté pour former sur le capteur d’images 11 une image d'un environnement extérieur du véhicule visualisé par la caméra à travers une face externe du système optique 12.

Le capteur lidar C2 est doté d’un émetteur laser 21 et d’un récepteur laser 22, permettant de mesurer les coordonnées dans l’espace d’un nuage de points correspondant à des obstacles physiques rencontrés par le laser.

Le capteur radar C3 est doté d’un émetteur radar 31 et d’un récepteur 32, permettant également de mesurer les coordonnées dans l’espace d’un nuage de points correspondant à des obstacles physiques rencontrés par l’onde émise.

Les trois capteurs C1, C2 et C3 sont positionnés de manière à avoir une perception commune et simultanée d’au moins une partie de l’environnement. Plus précisément, les trois capteurs C1, C2 et C3 ont un champ de vision commun.

Le dispositif 1 comporte également le module de traitement 40 relié à la caméra C1, au capteur lidar C2, et au capteur radar C3, apte à fusionner en temps réel les données captées par ces différents capteurs C1, C2 et C3 par la mise en œuvre d’un processus de traitement.

Structurellement, le module de traitement 40 comporte un calculateur 41 et un module de stockage 42 comprenant de la mémoire non volatile de type EEPROM ou FLASH et de la mémoire vive. La mémoire non volatile stocke un module logiciel de traitement en temps réel des images capturées par la caméra C1, des données capturées par le capteur lidar C2, et des données capturées par le capteur radar C3.

Le module de traitement 40 comprend une architecture neuronale comportant plusieurs réseaux de neurones, tels que ceux représentés sur la figure 3. Plus précisément, cette architecture neuronale comporte trois réseaux de neurones encodeurs dédiés RNe1, RNe2, RNe3, respectivement associés aux capteurs C1, C2, C3, et au moins un décodeur DCD spécifique à une tâche cible, par exemple une tâche d’identification de piétons. Ce décodeur comprend par exemple un réseau de neurones décodeur RNd. Dans l’exemple décrit ici, par souci de simplicité, un seul réseau de neurones spécifique à une tâche cible est prévu. Toutefois, le système pourrait comprendre plusieurs décodeurs, comprenant par exemple plusieurs réseaux de neurones respectifs, pour réaliser plusieurs tâches spécifiques respectives.

Plus précisément, en référence à la figure 3, chaque capteur C1, C2, C3 est associé et relié à un réseau de neurones encodeur dédié RNe1, RNe2, RNe3. Chacun des trois réseaux de neurones encodeur RNe1, RNe2, RNe3 est dédié au traitement des données d’un capteur associé C1, C2, C3. Les réseaux de neurones RNe1, RNe2 et RNe3 sont ici des réseaux à convolutions.

Chaque réseau de neurones dédié RNe1, RNe2, RNe3 possède plusieurs niveaux de traitement, par exemple entre cinq et dix, ce nombre n’étant pas nécessairement identique pour les trois réseaux. Suivant l’architecture présentée dans le document Arandjelovic & Zisserman (2018) Objects that sound. European Conference on Computer Vision (ECCV), chaque niveau de traitement est lui-même composé de sept opérations : convolution, normalisation par lot (ou «batch» en anglais), rectification linéaire, convolution, normalisation par lot, rectification linéaire, et mise en commun («pooling» en anglais, sous-échantillonnage par opération "Max"). Dans chaque réseau, les niveaux successifs comprennent un nombre égal ou croissant de canaux (i.e. "feature maps"), partant de 64 canaux pour le premier niveau et arrivant à 512 canaux pour le dernier niveau. Dans ces niveaux successifs, chaque canal implémente un noyau de convolution de champ récepteur constant 3x3, avec un empiétement inférieur à deux unités à travers les niveaux. L’opérateur de pooling utilise un rayon constant de 2x2 unités pour tous les niveaux sauf le dernier, dont le rayon doit-être adapté au nombre de niveaux de traitement pour obtenir des canaux de dimension 1x1. La partie supérieure de chaque réseau à convolution consiste en deux couches pleinement connectées avec fonctions d’activation ReLu. Cette architecture est un exemple de réalisation particulier. D’autres architectures de réseau neuronal convolutif pourraient être utilisées.

Chaque réseau de neurones dédié RNe1, RNe2, RNe3 est un réseau dit «encodeur» qui reçoit en entrée une image capturée par le capteur associé C1, C2, C3 et fournit en sortie un code descripteur normalisé CD1, CD2, CD3, par exemple de 128 neurones, à partir de l’image fournie en entrée, issue du capteur associé. Ce code descripteur correspond à une représentation vectorielle de l’image fournie en entrée.

Le réseau de neurones décodeur RNd est destiné à réaliser de façon spécifique une tâche cible, par exemple l’identification de piétons. Il utilise les réseaux de neurones encodeurs dédiés RNe1, RNe2, RNe3 qui lui fournissent en entrée les codes descripteurs produits.

Le procédé de configuration du dispositif d’imagerie 1 comprend ici une première phase Ph1 d’entraînement conjoint des différents réseaux de neurones dédiés RNe1, RNe2, RNe3 et une deuxième phase Ph2 d’entraînement du réseau de neurones RNd spécifique à la tâche cible.

La première phase Ph1 d’entraînement conjoint des trois réseaux de neurones dédiés RNe1, RNe2, RNe3, associés aux trois capteurs C1, C2, C3, va d’abord être décrite. Elle comprend un processus d’apprentissage itératif. On note «i» un indice d’itération, initialement également à 1. A chaque itération d’indice i, des étapes A, B, C et D, décrites ci-après, sont réalisées.

La phase d’entraînement conjoint Ph1 comporte une étape A de fourniture, à chacun des trois réseaux de neurones dédiés RNe1, RNe2, RNe3, d’une image IM_1,iIM_2,iIM_3,icapturée par le capteur associé C1, C2, C3. Le triplet d’apprentissage { IM_1,iIM_2,iIM_3,i} est un échantillon d’apprentissage qui peut avoir été préalablement capturé et stocké dans une base de données d’apprentissage. Les images IM_1,iIM_2,iIM_3,idu triplet d’apprentissage peuvent correspondre soit à une même scène, soit ici à trois scènes respectives différentes. Dans le premier cas, les différentes images IM_1,iIM_2,iIM_3,iont été capturées au même moment (ou durant un intervalle ou laps de temps limité d’une durée inférieure à 50 millisecondes) par les différents capteurs C1, C2, C3. Dans le deuxième cas, elles ont été capturées à des instants différents (séparés par une durée supérieure à cet intervalle de temps de 50 millisecondes).

De façon alternative, on pourrait aussi éventuellement envisager que, dans un triplet d’apparentissage, deux images correspondent à une même scène et la troisième à une scène différente.

Le processus d’apprentissage comprend ensuite une étape B de codage lors de laquelle chaque réseau de neurones dédié RNe1, RNe2, RNe3 calcule et fournit en sortie un code descripteur CD₁ _,i, CD_2,i, CD_3,i, correspondant à une représentation d’au moins une partie de l’environnement du véhicule, à partir de l’image IM_1,iIM_2,iIM_3,ifournie en entrée.

Le processus comprend ensuite une étape C, lors de laquelle les codes descripteurs CD_1,i, CD_2,i, CD_3,isont comparés deux à deux. En d’autres termes, pour chacune des paires de capteurs (différents) possibles, à savoir les paires (caméra, lidar), (caméra, radar) et (lidar, radar), les deux codes descripteurs correspondants, fournis par les deux réseaux de neurones dédiés associés, sont comparés entre eux afin de déterminer si les deux images respectivement capturées par ces deux capteurs, correspondent à une même scène. Autrement dit, pour chaque paire d’images (IM_1,iIM_2,i), (IM_1,iIM_3,i) et (IM_2,iIM_3,i) correspondant à chacune des paires de capteurs possibles (caméra, lidar), (caméra, radar) et (lidar, radar), on détermine si les deux images appairées, respectivement capturées par deux capteurs différents (C1, C2), (C1, C3) et (C2, C3) et fournies aux deux réseaux de neurones encodeurs dédiés correspondants (RNe1, RNe2), (RNe1, RNe3) et (RNe2, RNe3), correspondent à une même scène ou à des scènes différentes, sur la base d’une comparaison des deux codes descripteurs (CD_1,iCD_2,i), (CD_1,iCD_3,i) et (CD_2,iCD_3,i) entre eux.

Pour comparer deux codes descripteurs CD_n,iet CD_m,icorrespondant aux deux images IM_n,iet IM_m,i,
- on calcule la distance «d(n,m)» entre les deux codes descripteurs CD_n,iet CD_m,i, lors d’une sous-étape C-1;
- puis, par classification binaire de ladite distance, on prédit une classe, représentative d’une information de correspondance ou de non-correspondance des deux images correspondantes IM_n,iet IM_m,i(à partir desquelles les codes CD_n,iet CD_m,iont été générés), lors d’une sous-étape C-2.

La distance d(n,m) entre les deux codes CD_n,iet CD_m,iest par exemple la distance euclidienne entre deux codes de type vectoriel. Elle est avantageusement calculée par un neurone de distance.

La classification binaire consiste à attribuer à la paire d’images (IM_n,i, IM_m,i) soit la classe 1, soit la classe 0, en tant que classe prédite, selon la distance calculée. Par exemple, si la distance calculée est égale à zéro, la classe prédite attribuée est 1, et si la distance calculée est différente de zéro, la classe prédite attribuée est 0. Pour effectuer la classification, chaque neurone de distance est connecté à deux neurones de sortie, avec fonction d’activation «softmax», les deux neurones de sortie correspondant respectivement à la classe 1 et à la classe 0 (autrement dit aux deux alternatives d’une même scène et de deux scènes différentes). Le réseau apprend ainsi à catégoriser la paire d’images en identique/différente, sur la seule base de la distance calculée entre les deux codes. Ces connexions constituent un réseau de perceptron avec biais, dont les poids sont appris pendant l’entraînement.

Lors d’une sous-étape C-3, le système calcule une erreur de prédiction entre la classe prédite et une classe réelle donnée par l’étiquette associée à l’échantillon contenant ladite paire d’images IM_n,iet IM_m,i.

Lors d’une sous-étape C-4, l’erreur de prédiction est vérifiée. Si l’erreur de prédiction est significative (c’est-à-dire qu’elle ne satisfait pas un critère d’arrêt prédéfini, explicité plus loin), le procédé passe à l’étape D. Si l’erreur de prédiction est non significative (c’est-à-dire qu’elle satisfait le critère d’arrêt), le procédé interrompt la boucle (pour le réseau de neurones concerné RNe_n) pour passer ensuite à la deuxième phase d’entraînement Ph2, décrite plus loin.

L’étape suivante D d’ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNe1, RNe2, RNe3, en fonction de l’erreur de prédiction calculée lors de l’étape C. Une telle opération d’ajustement ou de mise à jour des poids de connexion des réseaux de neurones est bien connue de l’homme du métier. Les poids de connexion sont ajustés de sorte à réduire une erreur de prédiction faite par le réseau de neurones dans son état actuel. Pour cela, un algorithme de descente de gradient peut être utilisé. Par exemple, on utilise l’algorithme supervisé ADAM de descente de gradient [Kingma & Ba (2015) Adam: A Method for Stochastic Optimization. Proceedings of the International Conference for Learning Representations, San Diego (ICLR)] avec un paramètre de décroissance des poids de 10^-5et un paramètre de taux d’apprentissage à déterminer par recherche par quadrillage. Une fonction de coût, ou fonction d’erreur, est utilisée. Par exemple, on utilise une fonction de type "binary cross-entropy", ou d’entropie croisée, avec logits, définie par l’équation suivante:
où
- y_ireprésente la classe prédite lors de l’étape C;
- t_ireprésente la classe réelle donnée par l’étiquette associée à l’échantillon d’apprentissage utilisé.

Le label (ou étiquette) t_iest stocké dans la base de données d’apprentissage.

La première phase d’entraînement Ph1 (comportant les étapes A, B, C et D répétées de façon itérative) est mise en œuvre jusqu’à ce que les fonctions d’erreur n’indiquent plus d’erreur significative, c’est-à-dire lorsque jusqu’à ce que les erreurs de prédiction (sous-étape C-3) satisfassent un critère d’arrêt, pour tous les réseaux de neurones. En pratique, on cherche à réduire l'erreur au maximum. Un critère d'arrêt classique peut être le suivant: pas de changement à x décimales de la fonction d'erreur sur les n dernières évaluations, avec par exemple x = 4 décimales et n = 10 itérations. Les poids des connexions entre neurones de ces réseaux encodeurs RNe₁à RNe_Nsont alors figés.

La base de données d’apprentissage ou d’entraînement contient un ensemble d’images préalablement prises par les N capteurs C1 à CN, ou par des capteurs similaires (également notés C1 à CN par souci de simplicité) équipant un véhicule d’acquisition d’images. Pour chaque image, la base de données stocke des données d’image et des données d’horodatage correspondant à une information temporelle de capture de l’image. La base de données d’apprentissage contient des échantillons d’apprentissage comportant chacun N images d’apprentissage, capturés par les N capteurs respectivement, destinés à être fournis aux N réseaux de neurones. Dans l’exemple décrit ici, ces échantillons d’apprentissage sont des triplets d’images capturées par les capteurs C1, C2, C3. En outre, à chaque échantillon d’apprentissage est associée à une étiquette ou «label», indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes. Cette étiquette est déterminée sur la base des données d’horodatage associées aux images. Plus précisément, si les données d’horodatage de deux images indiquent que ces deux images ont été prises au même moment, il est déterminé qu’elles correspondent à une même scène. A l’inverse, si les données d’horodatage des deux images indiquent que ces deux images ont été prises à deux instants différents, il est déterminé qu’elles correspondent à deux scènes différentes. La base d’apprentissage est réalisée lors d’une étape préalable de génération.

Plus précisément, l’étape de génération de la base de données d’apprentissage comporte les sous-étapes de
- capture d’images par les N capteurs C1 à CN du véhicule d’acquisition d’images, lors d’au moins une opération de roulage du véhicule,
- génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et
- pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant la classe réelle de l’échantillon, c’est-à-dire si les N images correspondent à une même scène ou à des scènes respectives différentes.

Les sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes sont mises en œuvre à partir de données d’horodatage associées aux images.

Lorsque la phase d’entraînement conjoint des réseaux de neurones encodeurs RNe1, RNe2, RNe3 est terminée, les poids des connexions entre neurones de ces réseaux encodeurs sont alors figés.

La première phase Ph1 d’entraînement conjoint est suivie d’une deuxième phase Ph2 d’entraînement du réseau de neurones de décodage RNd. Lors de cette deuxième phase d’entraînement, Ph2, le réseau de neurones décodeur RNd est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNe1, RNe2, RNe3 entraînés lors de la première phase d’entraînement conjoint Ph1. Les représentations obtenues dans les codes descripteurs en sortie des réseaux de neurones encodeurs RNe1, RNe2, RNe3 sont utilisées pour entrainer de manière supervisée le réseau de neurones décodeur spécifique RNd selon la tâche cible à réaliser (par exemple identification de piéton). Autrement dit, l’architecture neuronale qui réalise la tâche cible de décodage réutilise les réseaux de neurones dédiés RNe1, RNe2, RNe3 préalablement entrainés à la phase d’entraînement précédente Ph1, dont les connexions sont désormais figées, comme illustré sur la figure 3.

Par exemple, le décodeur DCD intégrant le réseau de neurones RNd est entrainé par un algorithme supervisé de descente de gradient tel que ADAM. Dans un exemple de réalisation, ce décodeur DCD est un réseau de neurones de type perceptron multicouches, doté de fonctions d’activation ReLu. Pour une tâche de classification, la fonction de coût ou d’erreur utilisée par le décodeur DCD est de type "cross-entropy", ou d’entropie croisée, définie par l’équation suivante :

Le paramètre y_iest la classe prédite par le réseau de neurones RNd pour l’entrée i de la base d’apprentissage.

Le paramètre t_iest la classe réelle pour cette même entrée i de la base d’apprentissage. Selon la tâche, t_iconsiste en un label de classe différent.

De façon alternative, le décodeur DCD peut aussi être implémenté par une machine à supports de vecteurs. Comme précédemment, le décodeur DCD est avantageusement entrainé sur un large volume de codes, obtenus en présentant aux trois réseaux de neurones encodeurs RNe1, RNe2, RNe3 un grand nombre d’images perçues par les trois capteurs caméra C1, lidar C2 et radar C3.

L’acquisition des images d’apprentissage utilisées lors chaque phase d’entraînement peut se faire lors d’une campagne de roulage avec véhicule d’acquisition d’images équipé des capteurs adéquats, identiques ou analogues à C1, C2, C3. Les images d’apprentissage utilisées lors de la deuxième phase d’entraînement du décodeur DCD nécessitent une labélisation par un expert humain, selon la tâche à accomplir. Par exemple, la base de données possède plusieurs dizaines de milliers de vues (images) provenant de dizaines de séquences de roulage différentes. Des groupes d’apprentissage positifs (N images correspondant à une même scène) et négatifs (groupes de N images correspondant à N scènes différentes) sont obtenus en sélectionnant des vues provenant de la même scène capturée par les différents capteurs dans un intervalle de temps réduit, ou provenant de scènes différentes capturées à des instants différents (en dehors de cet intervalle de temps réduit).

L’architecture illustrée sur la figure 3, après entrainement des réseaux de neurones RNe1, RNe2, RNe3 (dont toutes les connexions entre neurones sont figées) et du décodeur DCD, correspond au système final embarqué dans le véhicule.

L’invention présente un intérêt par rapport aux méthodes pleinement supervisée, soit en diminuant la base d’apprentissage pour obtenir des performances équivalentes à moindre coût de labélisation, soit en gardant la même base d’apprentissage mais en obtenant des performances supérieures à coût égal de labélisation.

La présente invention concerne aussi un système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec N supérieur ou égal à 2 et n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IM_n,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre du processus itératif précédemment décrit d’entraînement conjoint des N capteurs Cn.

Le dispositif d’imagerie du véhicule automobile comportant également un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.

La phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est réalisée en débarqué, ou «offline». Cela signifie que les réseaux sont construits et entrainés sur des ordinateurs externes, hors du véhicule final, avant d’y être intégrés. Les réseaux n’évoluent plus une fois qu’ils sont dans le véhicule final.

Bien que les objets de la présente invention aient été décrits en référence à des exemples spécifiques, diverses modifications et/ou améliorations évidentes pourraient être apportées aux modes de réalisation décrits sans s’écarter de l’esprit et de l’étendue de l’invention.

Claims

Procédé de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n variant entre 1 et N, comprenant une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IM_n,icapturées par les capteurs Cn, ladite phase d’entraînement conjoint comportant un processus itératif comprenant, pour chaque itération d’indice i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IM_n,ipréalablement capturée par le capteur Cn associé ;
B) codage de l’image IM_n,ifournie en un code descripteur CD_n,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CD_n,iet CD_m,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IM_n,iet IM_m,ide la paire, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IM_n,iet IM_m,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
Procédé selon la revendication 1, caractérisé en ce que, lors de l’étape C), on calcule une distance euclidienne entre les deux codes descripteurs CD_n,iet CD_m,i.
Procédé selon l’une des revendications 1 et 2, caractérisé en ce qu’il comprend une étape de génération d’une base de données d’apprentissage comportant les sous-étapes de
- capture d’images par les N capteurs, lors d’au moins une opération de roulage d’un véhicule d’acquisition d’images,
- génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et, pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes,
lesdites sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes étant mises en œuvre à partir de données d’horodatage associées aux images.
Procédé selon l’une des revendications 1 à 3, caractérisé en ce que, le dispositif d’imagerie du véhicule automobile comporte un décodeur pour réaliser une tâche de décodage spécifique, et il est prévu une autre phase d’entraînement dans laquelle ledit décodeur est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen entraînés lors de la phase d’entraînement conjoint.
Procédé selon la revendication 4, caractérisé en ce que le décodeur comporte un réseau de neurones pour réaliser ladite tâche de décodage spécifique.
Procédé selon l’une des revendications 1 à 5, caractérisé en ce que le dispositif d’imagerie comporte trois capteurs qui sont une caméra, un lidar et un radar, positionnés pour avoir une perception commune d’au moins une partie de l’environnement du véhicule.
Procédé selon l’une des revendications 1 à 6, caractérisé en ce que la phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est réalisée en débarqué.
Système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IM_n,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre d’un processus itératif comprenant, pour chaque indice d’itération i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IM_n,icapturée par le capteur Cn associé ;
B) codage de l’image IM_n,ifournie en un code descripteur CD_n,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CD_n,iet CD_m,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IM_n,iet IM_m,i, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IM_n,iet IM_m,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
Système selon la revendication 8, caractérisé en ce que, le dispositif d’imagerie du véhicule automobile comportant un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.