FR3104291A1 - Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés - Google Patents

Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés Download PDF

Info

Publication number
FR3104291A1
FR3104291A1 FR1913747A FR1913747A FR3104291A1 FR 3104291 A1 FR3104291 A1 FR 3104291A1 FR 1913747 A FR1913747 A FR 1913747A FR 1913747 A FR1913747 A FR 1913747A FR 3104291 A1 FR3104291 A1 FR 3104291A1
Authority
FR
France
Prior art keywords
sensors
images
rnen
neural networks
encoder neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1913747A
Other languages
English (en)
Other versions
FR3104291B1 (fr
Inventor
Thomas Hannagan
Thibault Fouqueray
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSA Automobiles SA
Original Assignee
PSA Automobiles SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSA Automobiles SA filed Critical PSA Automobiles SA
Priority to FR1913747A priority Critical patent/FR3104291B1/fr
Publication of FR3104291A1 publication Critical patent/FR3104291A1/fr
Application granted granted Critical
Publication of FR3104291B1 publication Critical patent/FR3104291B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Le procédé comprend une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IMn,i capturées par les capteurs Cn, comportant un processus itératif comprenant, pour chaque itération i :A) fourniture, à chaque réseau RNen, d’une image IMn,i ;B) codage lors duquel chaque réseau RNen fournit en sortie un code descripteur CDn,i à partir de l’image IMn,i fournie;C) pour chaque paire de capteurs Cn et Cm, test pour déterminer si les deux images IMn,i et IMm,i correspondent à une même scène, en utilisant les deux codes descripteurs CDn,i et CDm,i fournis en sortie par les deux réseaux RNen et RNem ;D) ajustement des poids de connexion entre neurones des réseaux RNen et RNem, en fonction d’un résultat du test et d’un résultat cible d’une comparaison des images IMn,i et IMm,i basée sur des données d’horodatage des images. Figure à publier avec l’abrégé : Fig. 1

Description

Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés
La présente invention concerne de manière générale un procédé de configuration d’une architecture de détection d’un véhicule automobile comportant une pluralité de capteurs et des réseaux de neurones dédiés, respectivement associés aux capteurs.
ART ANTÉRIEUR
Dans le domaine de l’automobile, différents types de capteurs peuvent être utilisés pour percevoir l’environnement, par exemple des caméras, des radars et/ou des lidars.
Les caméras fournissent des données d’image de l’environnement du véhicule. Certaines caméras, dites «intelligentes», utilisent des réseaux de neurones pour la détection et la reconnaissance d’objets. Ces réseaux de neurones sont de type "profonds" : ils possèdent de nombreuses couches de neurones, et sont entraînés sur des millions de paires d’entrée-sortie, destinées à l’apprentissage, afin de développer les performances jugées suffisantes pour réaliser une tâche souhaitée, par exemple la reconnaissance générique d’un objet tel qu’un piéton. Actuellement, la reconnaissance générique d’objet utilise des réseaux de neurones à convolution dits résiduels, tel que ResNeXt101 (Xie, Girshick, Dollár, Tu, & He (2017) Aggregated Residual Transformations for Deep Neural Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR)).
Les capteurs lidar (de l’anglais "light detection and ranging") sont complémentaires des caméras et utilisés notamment par certains systèmes ADAS d’aide à la conduite automobile pour réaliser une carte tridimensionnelle précise de l’environnement du véhicule, même en conditions visuelles réduites (par exemple mauvais éclairage et/ou conditions météorologiques difficiles).
Les radars fournissent des données de même type que les capteurs lidars avec une moins grande portée et une précision moindre. Toutefois, le radar peut être préféré au lidar pour une raison de coût. Il peut également être utilisé pour une recherche de redondance de l’information, en complément d’un autre capteur.
Il est possible de fusionner les données capturées par différents types de capteurs (caméras, radars et/ou lidars), à l’aide d’un algorithme de fusion, et de générer un modèle intégré de l’environnement autour du véhicule, dans lequel les objets d’intérêt pour la conduite sont localisés et identifiés. Ce modèle de l’environnement peut être utilisé pour prendre une décision de conduite. La variété des capteurs impliqués dans la fusion des données est déterminante pour la richesse et la robustesse du modèle de l’environnement. Les approches de l’état de l’art, comme «AVOD» [Arandjelovic & Zisserman (2018) Objects that sound. European Conference on Computer Vision (ECCV)] ou «MV3D» [Kingma & Ba (2015) Adam: A Method for Stochastic Optimization. Proceedings of the International Conference for Learning Representations, San Diego (ICLR)], présentent une diversité d’architectures faisant intervenir la fusion de données plus ou moins tôt et à différents endroits dans la chaine de traitement. Ces différentes approches ont toutes en commun d’utiliser des réseaux de neurones profonds et de chercher à optimiser un unique critère de performance, qui est dicté par une tâche à effectuer.
Un véhicule automobile peut donc disposer de différents types de capteurs, tels que des caméras, des lidars et/ou des radars, correspondant à différentes manières de percevoir l’environnement. Une fusion des données issues de ces différents types de capteurs permet de créer un modèle de l’environnement autour du véhicule, adapté pour prendre une décision adéquate de conduite, notamment dans le cas d’un véhicule autonome. La fusion des données provenant des différents types de capteurs permet d’obtenir un modèle de l’environnement plus riche que si les informations provenaient de capteurs d’un même type.
Il existe différentes techniques pour modéliser l’environnement autour du véhicule, notamment des techniques basées sur l’utilisation de réseaux de neurones. Ces réseaux de neurones doivent être préalablement entraînés, lors d’une phase d’apprentissage. Généralement, cet apprentissage est réalisé de manière supervisée.
L'idée de l'apprentissage supervisé d’un réseau de neurones est de fournir de nombreuses paires d’entraînement, ou paires d’entrée-sortie, chaque paire d’entraînement contenant des données d’entrée et des données de sortie connues, et d’ajuster les poids de connexions entre neurones afin de minimiser l'expression de l'erreur en sortie du réseau de neurones. Dans un apprentissage supervisé, le réseau de neurones est ainsi entraîné et formé en fournissant des paires de données d'entrée et de données de sortie adaptées, dans le but que le réseau de neurones fournisse une sortie souhaitée pour une entrée donnée.
L’apprentissage supervisé d’un réseau de neurones est très puissant mais également très coûteux en temps humain d’analyse, d’annotation et de vérification des données. Il nécessite la production d’une gigantesque base de données contenant des paires d’entrée-sortie connues, analysées et annotées par un expert humain.
Dans le cas d’un véhicule doté d’une architecture comportant une pluralité de capteurs et des réseaux de neurones dédiés respectifs, le but de l’invention est de faciliter l’apprentissage des réseaux de neurones.
Dans ce but et dans un premier aspect, la présente invention concerne un procédé de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n variant entre 1 et N, comprenant une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IMn,i capturées par les capteurs Cn, ladite phase d’entraînement conjoint comportant un processus itératif comprenant, pour chaque itération d’indice i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IMn,ipréalablement capturée par le capteur Cn associé ;
B) codage de l’image IMn,ifournie en un code descripteur CDn,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CDn,iet CDm,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IMn,iet IMm,ide la paire, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IMn,iet IMm,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
Grâce à cela, les réseaux de neurones encodeurs associés aux différents capteurs sont entraînés par auto-supervision et de façon conjointe et collaborative. La présente invention ne nécessite donc pas l’utilisation d’une large base de données d’images dans laquelle les images ont été préalablement analysées et labélisées par un expert humain.
Avantageusement, lors de l’étape C), on calcule une distance euclidienne entre les deux codes descripteurs CDn,iet CDm,i.
Le procédé peut comprendre une étape de génération d’une base de données d’apprentissage comportant les sous-étapes de
- capture d’images par les N capteurs, lors d’au moins une opération de roulage d’un véhicule d’acquisition d’images,
- génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et, pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes,
lesdites sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes étant mises en œuvre à partir de données d’horodatage associées aux images.
Le dispositif d’imagerie du véhicule automobile comporte avantageusement un décodeur pour réaliser une tâche de décodage spécifique, et il est prévu une autre phase d’entraînement dans laquelle ledit décodeur est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen entraînés lors de la phase d’entraînement conjoint.
Le décodeur comporte par exemple un réseau de neurones pour réaliser ladite tâche de décodage spécifique.
Le dispositif d’imagerie comporte par exemple trois capteurs qui sont une caméra, un lidar et un radar, positionnés pour avoir une perception commune d’au moins une partie de l’environnement du véhicule.
La phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est avantageusement réalisée en débarqué.
Un deuxième aspect de l’invention concerne un système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IMn,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre d’un processus itératif comprenant, pour chaque indice d’itération i, les étapes de :
A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IMn,icapturée par le capteur Cn associé ;
B) codage de l’image IMn,ifournie en un code descripteur CDn,i, par chaque réseau de neurones encodeur RNen;
C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
- calcul de la distance entre les deux codes descripteurs correspondants CDn,iet CDm,i,
- prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IMn,iet IMm,i, par classification binaire de ladite distance, et
- calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IMn,iet IMm,iet préalablement connue;
D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
Le dispositif d’imagerie du véhicule automobile comportant un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte avantageusement un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.
BRÈVE DESCRIPTION DES FIGURES
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description détaillée qui va suivre et qui présente différents modes de réalisation de l’invention donnés à titre d’exemples nullement limitatifs et illustrés par les figures annexées dans lesquelles :
représente un dispositif d’imagerie d’un véhicule automobile;
représente de façon schématique une première phase d’entraînement conjoint de plusieurs réseaux de neurones dédiés, dits «encodeurs», associés à plusieurs capteurs différents;
représente de façon schématique une deuxième phase d’entraînement d’un réseau de neurones dit de «décodage» destiné à la réalisation d’une tâche de décodage spécifique;
représente un organigramme d’un procédé de configuration du dispositif d’imagerie de la figure 1, utilisant les première et deuxième phases d’entraînement des figures 2 et 3.
DESCRIPTION DÉTAILLÉE
La présente invention concerne un procédé et un système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs différents Cn avec n= 1, …, N et un module de traitement 40 capable de fusionner les données capturées par ces N capteurs afin de réaliser une tâche cible, par exemple identifier un piéton.
Les N capteurs peuvent être de différents types, notamment de type caméra, lidar et/ou radar.
Le module de traitement comprend N réseaux de neurones dédiés, dits «encodeurs» et notés RNen, respectivement associés aux N capteurs Cn avec n= 1, …, N. Chaque réseau de neurone dédié est lié à un capteur donné et configuré pour recevoir en entrée image capturée fournie par le capteur et fournir en sortie un code descripteur, représentatif d’au moins une partie de l’environnement du véhicule telle que capturée par le capteur. Le module de traitement 40 comprend également au moins un décodeur DCD spécifique à une tâche cible donnée, également doté d’un réseau de neurones de décodage RNd. Le module de traitement 40 peut comprendre plusieurs décodeurs spécifiques pour la réalisation de plusieurs tâches cibles, par exemple identifier un piéton, identifier un véhicule, identifier un vélo, etc.. Chacun de ces décodeurs spécifiques est basé sur un réseau de neurones de décodage et utilise les N réseaux de neurones encodeurs RNendédiés.
Dans un exemple de réalisation particulier, donné à titre purement illustratif, le dispositif d’imagerie comporte trois capteurs: une caméra, un radar et un lidar.
La figure 1 représente un dispositif d’imagerie 1 d’un véhicule automobile, comportant trois capteurs (N=3): un capteur caméra C1, un capteur lidar C2 et un capteur radar C3. Les trois capteurs sont embarqués sur le véhicule.
Le capteur caméra C1 est par exemple une caméra optique monoculaire C1 dotée d’un capteur d’images bidimensionnelles 11, par exemple de type CCD (de l’anglais « Charge-Coupled Device » se traduisant en français par «dispositif à transfert de charge») ou CMOS (de l’anglais « Complementary Metal-Oxide Semiconductor » se traduisant en français par «semi-conducteur à oxyde de métal complémentaire»). La caméra C1 comprend également un système optique 12, associé au capteur d’images 11, adapté pour former sur le capteur d’images 11 une image d'un environnement extérieur du véhicule visualisé par la caméra à travers une face externe du système optique 12.
Le capteur lidar C2 est doté d’un émetteur laser 21 et d’un récepteur laser 22, permettant de mesurer les coordonnées dans l’espace d’un nuage de points correspondant à des obstacles physiques rencontrés par le laser.
Le capteur radar C3 est doté d’un émetteur radar 31 et d’un récepteur 32, permettant également de mesurer les coordonnées dans l’espace d’un nuage de points correspondant à des obstacles physiques rencontrés par l’onde émise.
Les trois capteurs C1, C2 et C3 sont positionnés de manière à avoir une perception commune et simultanée d’au moins une partie de l’environnement. Plus précisément, les trois capteurs C1, C2 et C3 ont un champ de vision commun.
Le dispositif 1 comporte également le module de traitement 40 relié à la caméra C1, au capteur lidar C2, et au capteur radar C3, apte à fusionner en temps réel les données captées par ces différents capteurs C1, C2 et C3 par la mise en œuvre d’un processus de traitement.
Structurellement, le module de traitement 40 comporte un calculateur 41 et un module de stockage 42 comprenant de la mémoire non volatile de type EEPROM ou FLASH et de la mémoire vive. La mémoire non volatile stocke un module logiciel de traitement en temps réel des images capturées par la caméra C1, des données capturées par le capteur lidar C2, et des données capturées par le capteur radar C3.
Le module de traitement 40 comprend une architecture neuronale comportant plusieurs réseaux de neurones, tels que ceux représentés sur la figure 3. Plus précisément, cette architecture neuronale comporte trois réseaux de neurones encodeurs dédiés RNe1, RNe2, RNe3, respectivement associés aux capteurs C1, C2, C3, et au moins un décodeur DCD spécifique à une tâche cible, par exemple une tâche d’identification de piétons. Ce décodeur comprend par exemple un réseau de neurones décodeur RNd. Dans l’exemple décrit ici, par souci de simplicité, un seul réseau de neurones spécifique à une tâche cible est prévu. Toutefois, le système pourrait comprendre plusieurs décodeurs, comprenant par exemple plusieurs réseaux de neurones respectifs, pour réaliser plusieurs tâches spécifiques respectives.
Plus précisément, en référence à la figure 3, chaque capteur C1, C2, C3 est associé et relié à un réseau de neurones encodeur dédié RNe1, RNe2, RNe3. Chacun des trois réseaux de neurones encodeur RNe1, RNe2, RNe3 est dédié au traitement des données d’un capteur associé C1, C2, C3. Les réseaux de neurones RNe1, RNe2 et RNe3 sont ici des réseaux à convolutions.
Chaque réseau de neurones dédié RNe1, RNe2, RNe3 possède plusieurs niveaux de traitement, par exemple entre cinq et dix, ce nombre n’étant pas nécessairement identique pour les trois réseaux. Suivant l’architecture présentée dans le document Arandjelovic & Zisserman (2018) Objects that sound. European Conference on Computer Vision (ECCV), chaque niveau de traitement est lui-même composé de sept opérations : convolution, normalisation par lot (ou «batch» en anglais), rectification linéaire, convolution, normalisation par lot, rectification linéaire, et mise en commun («pooling» en anglais, sous-échantillonnage par opération "Max"). Dans chaque réseau, les niveaux successifs comprennent un nombre égal ou croissant de canaux (i.e. "feature maps"), partant de 64 canaux pour le premier niveau et arrivant à 512 canaux pour le dernier niveau. Dans ces niveaux successifs, chaque canal implémente un noyau de convolution de champ récepteur constant 3x3, avec un empiétement inférieur à deux unités à travers les niveaux. L’opérateur de pooling utilise un rayon constant de 2x2 unités pour tous les niveaux sauf le dernier, dont le rayon doit-être adapté au nombre de niveaux de traitement pour obtenir des canaux de dimension 1x1. La partie supérieure de chaque réseau à convolution consiste en deux couches pleinement connectées avec fonctions d’activation ReLu. Cette architecture est un exemple de réalisation particulier. D’autres architectures de réseau neuronal convolutif pourraient être utilisées.
Chaque réseau de neurones dédié RNe1, RNe2, RNe3 est un réseau dit «encodeur» qui reçoit en entrée une image capturée par le capteur associé C1, C2, C3 et fournit en sortie un code descripteur normalisé CD1, CD2, CD3, par exemple de 128 neurones, à partir de l’image fournie en entrée, issue du capteur associé. Ce code descripteur correspond à une représentation vectorielle de l’image fournie en entrée.
Le réseau de neurones décodeur RNd est destiné à réaliser de façon spécifique une tâche cible, par exemple l’identification de piétons. Il utilise les réseaux de neurones encodeurs dédiés RNe1, RNe2, RNe3 qui lui fournissent en entrée les codes descripteurs produits.
Le procédé de configuration du dispositif d’imagerie 1 comprend ici une première phase Ph1 d’entraînement conjoint des différents réseaux de neurones dédiés RNe1, RNe2, RNe3 et une deuxième phase Ph2 d’entraînement du réseau de neurones RNd spécifique à la tâche cible.
La première phase Ph1 d’entraînement conjoint des trois réseaux de neurones dédiés RNe1, RNe2, RNe3, associés aux trois capteurs C1, C2, C3, va d’abord être décrite. Elle comprend un processus d’apprentissage itératif. On note «i» un indice d’itération, initialement également à 1. A chaque itération d’indice i, des étapes A, B, C et D, décrites ci-après, sont réalisées.
La phase d’entraînement conjoint Ph1 comporte une étape A de fourniture, à chacun des trois réseaux de neurones dédiés RNe1, RNe2, RNe3, d’une image IM1,iIM2,iIM3,icapturée par le capteur associé C1, C2, C3. Le triplet d’apprentissage { IM1,iIM2,iIM3,i} est un échantillon d’apprentissage qui peut avoir été préalablement capturé et stocké dans une base de données d’apprentissage. Les images IM1,iIM2,iIM3,idu triplet d’apprentissage peuvent correspondre soit à une même scène, soit ici à trois scènes respectives différentes. Dans le premier cas, les différentes images IM1,iIM2,iIM3,iont été capturées au même moment (ou durant un intervalle ou laps de temps limité d’une durée inférieure à 50 millisecondes) par les différents capteurs C1, C2, C3. Dans le deuxième cas, elles ont été capturées à des instants différents (séparés par une durée supérieure à cet intervalle de temps de 50 millisecondes).
De façon alternative, on pourrait aussi éventuellement envisager que, dans un triplet d’apparentissage, deux images correspondent à une même scène et la troisième à une scène différente.
Le processus d’apprentissage comprend ensuite une étape B de codage lors de laquelle chaque réseau de neurones dédié RNe1, RNe2, RNe3 calcule et fournit en sortie un code descripteur CD1 ,i, CD2,i, CD3,i, correspondant à une représentation d’au moins une partie de l’environnement du véhicule, à partir de l’image IM1,iIM2,iIM3,ifournie en entrée.
Le processus comprend ensuite une étape C, lors de laquelle les codes descripteurs CD1,i, CD2,i, CD3,isont comparés deux à deux. En d’autres termes, pour chacune des paires de capteurs (différents) possibles, à savoir les paires (caméra, lidar), (caméra, radar) et (lidar, radar), les deux codes descripteurs correspondants, fournis par les deux réseaux de neurones dédiés associés, sont comparés entre eux afin de déterminer si les deux images respectivement capturées par ces deux capteurs, correspondent à une même scène. Autrement dit, pour chaque paire d’images (IM1,iIM2,i), (IM1,iIM3,i) et (IM2,iIM3,i) correspondant à chacune des paires de capteurs possibles (caméra, lidar), (caméra, radar) et (lidar, radar), on détermine si les deux images appairées, respectivement capturées par deux capteurs différents (C1, C2), (C1, C3) et (C2, C3) et fournies aux deux réseaux de neurones encodeurs dédiés correspondants (RNe1, RNe2), (RNe1, RNe3) et (RNe2, RNe3), correspondent à une même scène ou à des scènes différentes, sur la base d’une comparaison des deux codes descripteurs (CD1,iCD2,i), (CD1,iCD3,i) et (CD2,iCD3,i) entre eux.
Pour comparer deux codes descripteurs CDn,iet CDm,icorrespondant aux deux images IMn,iet IMm,i,
- on calcule la distance «d(n,m)» entre les deux codes descripteurs CDn,iet CDm,i, lors d’une sous-étape C-1;
- puis, par classification binaire de ladite distance, on prédit une classe, représentative d’une information de correspondance ou de non-correspondance des deux images correspondantes IMn,iet IMm,i(à partir desquelles les codes CDn,iet CDm,iont été générés), lors d’une sous-étape C-2.
La distance d(n,m) entre les deux codes CDn,iet CDm,iest par exemple la distance euclidienne entre deux codes de type vectoriel. Elle est avantageusement calculée par un neurone de distance.
La classification binaire consiste à attribuer à la paire d’images (IMn,i, IMm,i) soit la classe 1, soit la classe 0, en tant que classe prédite, selon la distance calculée. Par exemple, si la distance calculée est égale à zéro, la classe prédite attribuée est 1, et si la distance calculée est différente de zéro, la classe prédite attribuée est 0. Pour effectuer la classification, chaque neurone de distance est connecté à deux neurones de sortie, avec fonction d’activation «softmax», les deux neurones de sortie correspondant respectivement à la classe 1 et à la classe 0 (autrement dit aux deux alternatives d’une même scène et de deux scènes différentes). Le réseau apprend ainsi à catégoriser la paire d’images en identique/différente, sur la seule base de la distance calculée entre les deux codes. Ces connexions constituent un réseau de perceptron avec biais, dont les poids sont appris pendant l’entraînement.
Lors d’une sous-étape C-3, le système calcule une erreur de prédiction entre la classe prédite et une classe réelle donnée par l’étiquette associée à l’échantillon contenant ladite paire d’images IMn,iet IMm,i.
Lors d’une sous-étape C-4, l’erreur de prédiction est vérifiée. Si l’erreur de prédiction est significative (c’est-à-dire qu’elle ne satisfait pas un critère d’arrêt prédéfini, explicité plus loin), le procédé passe à l’étape D. Si l’erreur de prédiction est non significative (c’est-à-dire qu’elle satisfait le critère d’arrêt), le procédé interrompt la boucle (pour le réseau de neurones concerné RNen) pour passer ensuite à la deuxième phase d’entraînement Ph2, décrite plus loin.
L’étape suivante D d’ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNe1, RNe2, RNe3, en fonction de l’erreur de prédiction calculée lors de l’étape C. Une telle opération d’ajustement ou de mise à jour des poids de connexion des réseaux de neurones est bien connue de l’homme du métier. Les poids de connexion sont ajustés de sorte à réduire une erreur de prédiction faite par le réseau de neurones dans son état actuel. Pour cela, un algorithme de descente de gradient peut être utilisé. Par exemple, on utilise l’algorithme supervisé ADAM de descente de gradient [Kingma & Ba (2015) Adam: A Method for Stochastic Optimization. Proceedings of the International Conference for Learning Representations, San Diego (ICLR)] avec un paramètre de décroissance des poids de 10-5et un paramètre de taux d’apprentissage à déterminer par recherche par quadrillage. Une fonction de coût, ou fonction d’erreur, est utilisée. Par exemple, on utilise une fonction de type "binary cross-entropy", ou d’entropie croisée, avec logits, définie par l’équation suivante:

- yireprésente la classe prédite lors de l’étape C;
- tireprésente la classe réelle donnée par l’étiquette associée à l’échantillon d’apprentissage utilisé.
Le label (ou étiquette) tiest stocké dans la base de données d’apprentissage.
La première phase d’entraînement Ph1 (comportant les étapes A, B, C et D répétées de façon itérative) est mise en œuvre jusqu’à ce que les fonctions d’erreur n’indiquent plus d’erreur significative, c’est-à-dire lorsque jusqu’à ce que les erreurs de prédiction (sous-étape C-3) satisfassent un critère d’arrêt, pour tous les réseaux de neurones. En pratique, on cherche à réduire l'erreur au maximum. Un critère d'arrêt classique peut être le suivant: pas de changement à x décimales de la fonction d'erreur sur les n dernières évaluations, avec par exemple x = 4 décimales et n = 10 itérations. Les poids des connexions entre neurones de ces réseaux encodeurs RNe1à RNeNsont alors figés.
La base de données d’apprentissage ou d’entraînement contient un ensemble d’images préalablement prises par les N capteurs C1 à CN, ou par des capteurs similaires (également notés C1 à CN par souci de simplicité) équipant un véhicule d’acquisition d’images. Pour chaque image, la base de données stocke des données d’image et des données d’horodatage correspondant à une information temporelle de capture de l’image. La base de données d’apprentissage contient des échantillons d’apprentissage comportant chacun N images d’apprentissage, capturés par les N capteurs respectivement, destinés à être fournis aux N réseaux de neurones. Dans l’exemple décrit ici, ces échantillons d’apprentissage sont des triplets d’images capturées par les capteurs C1, C2, C3. En outre, à chaque échantillon d’apprentissage est associée à une étiquette ou «label», indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes. Cette étiquette est déterminée sur la base des données d’horodatage associées aux images. Plus précisément, si les données d’horodatage de deux images indiquent que ces deux images ont été prises au même moment, il est déterminé qu’elles correspondent à une même scène. A l’inverse, si les données d’horodatage des deux images indiquent que ces deux images ont été prises à deux instants différents, il est déterminé qu’elles correspondent à deux scènes différentes. La base d’apprentissage est réalisée lors d’une étape préalable de génération.
Plus précisément, l’étape de génération de la base de données d’apprentissage comporte les sous-étapes de
- capture d’images par les N capteurs C1 à CN du véhicule d’acquisition d’images, lors d’au moins une opération de roulage du véhicule,
- génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et
- pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant la classe réelle de l’échantillon, c’est-à-dire si les N images correspondent à une même scène ou à des scènes respectives différentes.
Les sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes sont mises en œuvre à partir de données d’horodatage associées aux images.
Lorsque la phase d’entraînement conjoint des réseaux de neurones encodeurs RNe1, RNe2, RNe3 est terminée, les poids des connexions entre neurones de ces réseaux encodeurs sont alors figés.
La première phase Ph1 d’entraînement conjoint est suivie d’une deuxième phase Ph2 d’entraînement du réseau de neurones de décodage RNd. Lors de cette deuxième phase d’entraînement, Ph2, le réseau de neurones décodeur RNd est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNe1, RNe2, RNe3 entraînés lors de la première phase d’entraînement conjoint Ph1. Les représentations obtenues dans les codes descripteurs en sortie des réseaux de neurones encodeurs RNe1, RNe2, RNe3 sont utilisées pour entrainer de manière supervisée le réseau de neurones décodeur spécifique RNd selon la tâche cible à réaliser (par exemple identification de piéton). Autrement dit, l’architecture neuronale qui réalise la tâche cible de décodage réutilise les réseaux de neurones dédiés RNe1, RNe2, RNe3 préalablement entrainés à la phase d’entraînement précédente Ph1, dont les connexions sont désormais figées, comme illustré sur la figure 3.
Par exemple, le décodeur DCD intégrant le réseau de neurones RNd est entrainé par un algorithme supervisé de descente de gradient tel que ADAM. Dans un exemple de réalisation, ce décodeur DCD est un réseau de neurones de type perceptron multicouches, doté de fonctions d’activation ReLu. Pour une tâche de classification, la fonction de coût ou d’erreur utilisée par le décodeur DCD est de type "cross-entropy", ou d’entropie croisée, définie par l’équation suivante :
Le paramètre yiest la classe prédite par le réseau de neurones RNd pour l’entrée i de la base d’apprentissage.
Le paramètre tiest la classe réelle pour cette même entrée i de la base d’apprentissage. Selon la tâche, ticonsiste en un label de classe différent.
De façon alternative, le décodeur DCD peut aussi être implémenté par une machine à supports de vecteurs. Comme précédemment, le décodeur DCD est avantageusement entrainé sur un large volume de codes, obtenus en présentant aux trois réseaux de neurones encodeurs RNe1, RNe2, RNe3 un grand nombre d’images perçues par les trois capteurs caméra C1, lidar C2 et radar C3.
L’acquisition des images d’apprentissage utilisées lors chaque phase d’entraînement peut se faire lors d’une campagne de roulage avec véhicule d’acquisition d’images équipé des capteurs adéquats, identiques ou analogues à C1, C2, C3. Les images d’apprentissage utilisées lors de la deuxième phase d’entraînement du décodeur DCD nécessitent une labélisation par un expert humain, selon la tâche à accomplir. Par exemple, la base de données possède plusieurs dizaines de milliers de vues (images) provenant de dizaines de séquences de roulage différentes. Des groupes d’apprentissage positifs (N images correspondant à une même scène) et négatifs (groupes de N images correspondant à N scènes différentes) sont obtenus en sélectionnant des vues provenant de la même scène capturée par les différents capteurs dans un intervalle de temps réduit, ou provenant de scènes différentes capturées à des instants différents (en dehors de cet intervalle de temps réduit).
L’architecture illustrée sur la figure 3, après entrainement des réseaux de neurones RNe1, RNe2, RNe3 (dont toutes les connexions entre neurones sont figées) et du décodeur DCD, correspond au système final embarqué dans le véhicule.
L’invention présente un intérêt par rapport aux méthodes pleinement supervisée, soit en diminuant la base d’apprentissage pour obtenir des performances équivalentes à moindre coût de labélisation, soit en gardant la même base d’apprentissage mais en obtenant des performances supérieures à coût égal de labélisation.
La présente invention concerne aussi un système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec N supérieur ou égal à 2 et n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IMn,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre du processus itératif précédemment décrit d’entraînement conjoint des N capteurs Cn.
Le dispositif d’imagerie du véhicule automobile comportant également un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.
La phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est réalisée en débarqué, ou «offline». Cela signifie que les réseaux sont construits et entrainés sur des ordinateurs externes, hors du véhicule final, avant d’y être intégrés. Les réseaux n’évoluent plus une fois qu’ils sont dans le véhicule final.
Bien que les objets de la présente invention aient été décrits en référence à des exemples spécifiques, diverses modifications et/ou améliorations évidentes pourraient être apportées aux modes de réalisation décrits sans s’écarter de l’esprit et de l’étendue de l’invention.

Claims (9)

  1. Procédé de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n variant entre 1 et N, comprenant une phase d’entraînement conjoint des N réseaux de neurones encodeurs RNen sur des images IMn,icapturées par les capteurs Cn, ladite phase d’entraînement conjoint comportant un processus itératif comprenant, pour chaque itération d’indice i, les étapes de :
    A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IMn,ipréalablement capturée par le capteur Cn associé ;
    B) codage de l’image IMn,ifournie en un code descripteur CDn,i, par chaque réseau de neurones encodeur RNen;
    C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
    - calcul de la distance entre les deux codes descripteurs correspondants CDn,iet CDm,i,
    - prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IMn,iet IMm,ide la paire, par classification binaire de ladite distance, et
    - calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IMn,iet IMm,iet préalablement connue;
    D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
  2. Procédé selon la revendication 1, caractérisé en ce que, lors de l’étape C), on calcule une distance euclidienne entre les deux codes descripteurs CDn,iet CDm,i.
  3. Procédé selon l’une des revendications 1 et 2, caractérisé en ce qu’il comprend une étape de génération d’une base de données d’apprentissage comportant les sous-étapes de
    - capture d’images par les N capteurs, lors d’au moins une opération de roulage d’un véhicule d’acquisition d’images,
    - génération d’échantillons d’apprentissage, chaque échantillon d’apprentissage comportant N images capturées par les N capteurs respectivement, lesdites N images correspondant soit à une même scène, soit à N scènes différentes, et, pour chaque échantillon d’apprentissage, création d’une étiquette associée indiquant si les N images correspondent à une même scène ou à des scènes respectives différentes,
    lesdites sous-étapes de génération d’échantillons d’apprentissage et de création d’étiquettes étant mises en œuvre à partir de données d’horodatage associées aux images.
  4. Procédé selon l’une des revendications 1 à 3, caractérisé en ce que, le dispositif d’imagerie du véhicule automobile comporte un décodeur pour réaliser une tâche de décodage spécifique, et il est prévu une autre phase d’entraînement dans laquelle ledit décodeur est entraîné, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen entraînés lors de la phase d’entraînement conjoint.
  5. Procédé selon la revendication 4, caractérisé en ce que le décodeur comporte un réseau de neurones pour réaliser ladite tâche de décodage spécifique.
  6. Procédé selon l’une des revendications 1 à 5, caractérisé en ce que le dispositif d’imagerie comporte trois capteurs qui sont une caméra, un lidar et un radar, positionnés pour avoir une perception commune d’au moins une partie de l’environnement du véhicule.
  7. Procédé selon l’une des revendications 1 à 6, caractérisé en ce que la phase d’entraînement conjoint des réseaux de neurones encodeurs dédiés est réalisée en débarqué.
  8. Système de configuration d’une architecture de détection d’un véhicule automobile comportant N capteurs Cn et N réseaux de neurones encodeurs RNen dédiés, respectivement associés aux N capteurs Cn, avec un nombre N supérieur ou égal à 2 et un indice n compris entre 1 et N, comprenant un dispositif d’entraînement conjoint des N réseaux de neurones encodeurs dédiés RNen sur des images IMn,icapturées par les capteurs Cn, le dispositif d’entraînement conjoint étant agencé pour contrôler la mise en œuvre d’un processus itératif comprenant, pour chaque indice d’itération i, les étapes de :
    A) fourniture, à chacun des N réseaux de neurones encodeur RNen dédié, d’une image IMn,icapturée par le capteur Cn associé ;
    B) codage de l’image IMn,ifournie en un code descripteur CDn,i, par chaque réseau de neurones encodeur RNen;
    C) pour chacune des paires de capteurs différents Cn et Cm possibles parmi les N capteurs, n et m étant différents et compris entre 1 et N,
    - calcul de la distance entre les deux codes descripteurs correspondants CDn,iet CDm,i,
    - prédiction d’une classe, représentative d’une information de correspondance ou de non-correspondance des images IMn,iet IMm,i, par classification binaire de ladite distance, et
    - calcul d’une erreur de prédiction entre la classe prédite et une classe réelle donnée par une étiquette associée à ladite paire d’images IMn,iet IMm,iet préalablement connue;
    D) ajustement des poids de connexion entre neurones des réseaux de neurones encodeurs RNen et RNem, en fonction de ladite erreur de prédiction.
  9. Système selon la revendication 8, caractérisé en ce que, le dispositif d’imagerie du véhicule automobile comportant un décodeur pour réaliser une tâche de décodage spécifique, ledit système comporte un autre dispositif d’entraînement du décodeur configuré pour entraîner ledit décodeur, de manière supervisée, sur des codes descripteurs fournis par les réseaux de neurones encodeurs RNen préalablement entraînés de façon conjointe.
FR1913747A 2019-12-04 2019-12-04 Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés Expired - Fee Related FR3104291B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1913747A FR3104291B1 (fr) 2019-12-04 2019-12-04 Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1913747A FR3104291B1 (fr) 2019-12-04 2019-12-04 Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés
FR1913747 2019-12-04

Publications (2)

Publication Number Publication Date
FR3104291A1 true FR3104291A1 (fr) 2021-06-11
FR3104291B1 FR3104291B1 (fr) 2022-03-04

Family

ID=69700123

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1913747A Expired - Fee Related FR3104291B1 (fr) 2019-12-04 2019-12-04 Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés

Country Status (1)

Country Link
FR (1) FR3104291B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516232A (zh) * 2021-08-10 2021-10-19 中国科学院空天信息创新研究院 一种基于自注意力机制的神经网络模型的训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US20190102668A1 (en) * 2017-10-04 2019-04-04 Hengshuai Yao Method of prediction of a state of an object in the environment using an action model of a neural network
US20190251395A1 (en) * 2018-02-13 2019-08-15 Alibaba Group Holding Limited Vehicle accident image processing method and apparatus
US20190279028A1 (en) * 2017-12-12 2019-09-12 TuSimple Method and Apparatus for Object Re-identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US20190102668A1 (en) * 2017-10-04 2019-04-04 Hengshuai Yao Method of prediction of a state of an object in the environment using an action model of a neural network
US20190279028A1 (en) * 2017-12-12 2019-09-12 TuSimple Method and Apparatus for Object Re-identification
US20190251395A1 (en) * 2018-02-13 2019-08-15 Alibaba Group Holding Limited Vehicle accident image processing method and apparatus

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ARANDJELOVICZISSERMAN: "Objects that sound", EUROPEAN CONFÉRENCE ON COMPUTER VISION (ECCV, 2018
KINGMABA: "Adam: A Method for Stochastic Opti-mization", PROCEEDINGS OF THE INTERNATIONAL CONFÉRENCE FOR LEARNING REPRESENTATIONS, SAN DIEGO (ICLR, 2015
KINGMABA: "Adam: A Methodfor Stochastic Opti-mization", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE FOR LEARNING REPRESENTATIONS, SAN DIEGO (ICLR), 2015
XIEGIRSHICKDOLLARTUHE: "Aggregated Residual Transformations for Deep Neural Networks", IEEE CONFÉRENCE ON COMPUTER VISION AND PATTERN RÉCOGNITION (CVPR, 2017

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516232A (zh) * 2021-08-10 2021-10-19 中国科学院空天信息创新研究院 一种基于自注意力机制的神经网络模型的训练方法
CN113516232B (zh) * 2021-08-10 2024-05-17 中国科学院空天信息创新研究院 一种基于自注意力机制的穿墙雷达人体姿态重构方法

Also Published As

Publication number Publication date
FR3104291B1 (fr) 2022-03-04

Similar Documents

Publication Publication Date Title
EP3707676B1 (fr) Procédé d'estimation de pose d'une caméra dans le référentiel d'une scène tridimensionnelle, dispositif, système de réalite augmentée et programme d'ordinateur associé
US20210227126A1 (en) Deep learning inference systems and methods for imaging systems
FR2882160A1 (fr) Procede de capture d'images comprenant une mesure de mouvements locaux
EP2930659B1 (fr) Procédé de détection de points d'intérêt dans une image numérique
WO2018185104A1 (fr) Procede d'estimation de pose, dispositif, systeme et programme d'ordinateur associes
EP3874404A1 (fr) Reconnaissance vidéo à l'aide de modalités multiples
EP4033399B1 (fr) Dispositif informatique et procédé pour l'estimation de la densité d'une foule
CN116157805A (zh) 利用神经嵌入的相机图像或视频处理流水线
CN110942097A (zh) 基于单像素探测器的免成像分类方法和系统
FR3104291A1 (fr) Procédé et système de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant N capteurs et N réseaux de neurones encodeurs dédiés
EP3070643B1 (fr) Procédé et système de reconnaissance d'objets par analyse de signaux d'image numérique d'une scène
CN116453086A (zh) 识别交通标志的方法、装置和电子设备
EP4099228A1 (fr) Apprentissage automatique sans annotation ameliore par regroupements adaptatifs en ensemble ouvert de classes
WO2022207573A1 (fr) Autoencodeur multimodal a fusion de donnees latente amelioree
FR3104292A1 (fr) Procédé de configuration d’un dispositif d’imagerie d’un véhicule automobile comportant un dispositif optique de capture d’images
WO2020157733A1 (fr) Procédé dynamique d'imagerie tridimensionnelle
de Carvalho Deep depth from defocus: Neural networks for monocular depth estimation
FR3089662A1 (fr) Procédé de reconnaissance d’objets tels que des panneaux de signalisation au moyen d’une caméra embarquée dans un véhicule automobile
WO2023031305A1 (fr) Procédé de mise en relation d'une image candidate avec une image de référence
EP4396789A1 (fr) Procédé de mise en relation d'une image candidate avec une image de référence
FR3127837A1 (fr) Procédé d’analyse de la surface d’un toit d’un bâtiment
FR3121110A1 (fr) Procédé et système de contrôle d’une pluralité de systèmes d’aide à la conduite embarqués dans un véhicule
Yang et al. Image-fusion-based object detection using a time-of-flight camera
FR3112228A1 (fr) Dispositif et procédé pour générer un masque de la silhouette du profil d’une structure
FR3130061A1 (fr) Procédé de localisation et cartographie simultanées intégrant un masquage temporel auto-supervisé et modèle d’apprentissage automatique pour générer un tel masquage.

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20210611

PLFP Fee payment

Year of fee payment: 3

ST Notification of lapse

Effective date: 20230808