FR3100910A1

FR3100910A1 - Détermination d’objets présents dans l’environnement d’un système par transformation de données d’environnement d’une vue de face dans une vue du ciel

Info

Publication number: FR3100910A1
Application number: FR1910135A
Authority: FR
Inventors: Emilien Lauret
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2019-09-13
Filing date: 2019-09-13
Publication date: 2021-03-19

Abstract

Un procédé de détection est mis en œuvre dans un système comportant un capteur délivrant des données d’environnement dans une vue de face, et comprend : - une première étape (10-60) où l’on construit, avec une base de données labélisées dans le référentiel du système, une première grille de cellules dans une vue du ciel contenant des informations sur des objets de l’environnement, puis on transforme la position de chaque objet en coordonnées dans sa cellule et on normalise ces coordonnées, puis on projette cette première grille dans une deuxième grille dans la vue de face, et on reporte les informations de cette première grille dans la deuxième grille, puis on effectue un apprentissage statistique d’un réseau de neurones, - une seconde étape (70) où le réseau de neurones prédit, pour chaque nouvel ensemble, une quatrième grille représentant la présence d’objets détectés et leurs positions dans la vue du ciel. Figure à publier avec l’abrégé : Fig. 2

Description

DÉTERMINATION D’OBJETS PRÉSENTS DANS L’ENVIRONNEMENT D’UN SYSTÈME PAR TRANSFORMATION DE DONNÉES D’ENVIRONNEMENT D’UNE VUE DE FACE DANS UNE VUE DU CIEL

Domaine technique de l’invention

L’invention concerne les systèmes acquérant des ensembles de données d’environnement représentatives d’une partie de leur environnement, et plus précisément la détection d’objets présents dans cette partie d’environnement.

Etat de la technique

Certains systèmes, comme par exemple certains véhicules ou certains robots (ou automates), comprennent au moins un capteur chargé d’acquérir des ensembles de données d’environnement représentatives d’une partie de leur environnement dans une vue du ciel (ou d’oiseau) ou dans une vue de face (ou caméra). Des images en vue du ciel sont généralement obtenues avec un lidar ou un radar, et des images en vue de face sont généralement obtenues avec une caméra.

Dans certains systèmes on utilise au moins des premier et second capteurs chargés d’acquérir respectivement des premiers et seconds ensembles de données d’environnement représentatives d’une partie de leur environnement respectivement dans des vue du ciel et vue de face, et l’on cherche à détecter des objets présents dans cette partie d’environnement en analysant ces premiers et seconds ensembles. On est donc contraint de projeter les données de l’un des premier et second ensembles dans le référentiel (ou repère) de l’autre ensemble. Généralement, c’est chaque second ensemble (vue de face) qui est projeté dans le référentiel du premier ensemble (vue du ciel). Ensuite, ces objets détectés et leurs positions relatives (par exemple dans la vue du ciel) sont utilisés dans le système considéré par au moins un dispositif d’assistance (ou d’aide) à la conduite (éventuellement de type ADAS (« Advanced Driver Assistance System »)). Plus les positions relatives sont précises, plus les fonctions d’assistance à la conduite exploitant ce modèle de l’environnement pour la prise de décision pourront être performantes, et donc plus la fonction assurée par un dispositif d’assistance à la conduite sera de qualité.

Habituellement, on fait fonctionner en parallèle des premier et deuxièmes algorithmes. Le premier algorithme détecte des premiers objets potentiels (et leurs positions relatives) dans les données d’environnement du premier ensemble (en vue du ciel). Le deuxième algorithme détecte des seconds objets potentiels (et leurs positions relatives) dans les données d’environnement du second ensemble (en vue de face) puis effectue une conversion vers la vue du ciel. Ensuite, un troisième algorithme réalise une fusion des sorties, désormais comparables, des premier et deuxième algorithmes pour déterminer parmi les premiers et seconds objets potentiels ceux qui peuvent être considérés comme effectivement présents.

Actuellement, le deuxième algorithme peut effectuer ses traitements à partir d’images en vue de face de deux façons.

Dans une première façon il peut détecter les objets dans des coordonnées caméra (par exemple par apprentissage statistique avec un réseau de neurones), puis projeter ces coordonnées en vue du ciel. Un inconvénient de cette première façon réside dans le fait qu’il n’y a pas de normalisation dans la profondeur de l’image (pour l’apprentissage) étant donné que l’on reste dans la vue de face (caméra), et donc les performances en termes d’estimation de profondeur sont limitées.

Dans une seconde façon il peut détecter les objets de la vue de face directement en coordonnées dans la vue du ciel par un apprentissage statistique englobant la détection des objets et la transformation de vue de face à vue du ciel de façon implicite. Un inconvénient de cette seconde façon réside dans le fait qu’elle induit une importante complexification du modèle du fait de l’apprentissage de la transformation d’une vue à l’autre.

L’invention a donc notamment pour but d’améliorer la situation.

Présentation de l’invention

Elle propose notamment à cet effet un procédé de détection destiné à être mis en œuvre dans un système comprenant au moins un capteur délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système dans une vue de face.

Ce procédé de détection se caractérise par le fait qu’il comprend :

- une première étape dans laquelle on obtient des ensembles venant d’être délivrés, puis on construit, à partir d’une base de données associées respectivement à des labels définis dans un référentiel dudit système, au moins une première grille de cellules dans une vue du ciel contenant des informations sur des objets présents dans la partie de l’environnement et déterminées dans ces ensembles obtenus, puis, pour chaque cellule comprenant un objet, on transforme la position de ce dernier dans le référentiel du système en coordonnées dans un référentiel de cette cellule, puis on normalise ces coordonnées selon deux dimensions de cette cellule, entre deux valeurs prédéfinies, puis on projette cette première grille de cellules dans une deuxième grille de cellules dans la vue de face et on reporte les informations contenues dans les cellules de cette première grille dans les cellules correspondantes de la deuxième grille, puis on effectue un apprentissage statistique d’un réseau de neurones en alimentant ce dernier avec chaque deuxième grille, et

- une seconde étape dans laquelle on prédit avec le réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une quatrième grille représentant la présence d’objets détectés et au moins la position dans la vue du ciel de chaque objet détecté.

Ainsi, on peut traiter des données d’environnement en vue de face (obtenues par une caméra et/ou un lidar « projeté » et/ou un radar « projeté ») et prédire des informations en vue du ciel de façon optimisée, ce qui permet de supprimer la problématique du changement de vue, et ainsi d’améliorer les performances d’estimation de profondeur (et donc de détection).

Le procédé de détection selon l’invention peut comporter d’autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment :

- dans sa première étape on peut effectuer l’apprentissage statistique du réseau de neurones en réduisant par itérations successives une erreur entre une troisième grille prédite par le réseau de neurones et la deuxième grille correspondante ;

- dans sa première étape l’erreur peut être égale à la distance quadratique moyenne entre la troisième grille prédite par le réseau de neurones et la deuxième grille correspondante ;

- dans sa première étape on peut transformer la position de chaque objet compris dans une cellule en coordonnées dans un référentiel situé au centre de cette cellule ;

- dans sa première étape on peut projeter les centres des cellules de la première grille de cellules dans les cellules correspondantes de la deuxième grille ;

- dans sa première étape on peut utiliser suivant chaque dimension d’une cellule des valeurs prédéfinies égales à +1 et -1 ;

- dans sa première étape on peut effectuer un apprentissage statistique d’un réseau de neurones à convolution, éventuellement après avoir initialisé ce dernier avec des paramètres aléatoires ;

- dans sa seconde étape on peut prédire avec le réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une autre quatrième grille représentant la présence d’objets détectés et une classe d’intérêt (par exemple un attribut) de chaque objet détecté.

L’invention propose également un produit programme d’ordinateur comprenant un jeu d’instructions qui, lorsqu’il est exécuté par des moyens de traitement, est propre à mettre en œuvre un procédé de détection du type de celui présenté ci-avant pour détecter des objets présents dans une partie de l’environnement d’un système comprenant au moins un capteur délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système dans une vue de face.

L’invention propose également un dispositif de détection destiné à équiper un système comprenant au moins un capteur délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système dans une vue de face.

Ce dispositif de détection se caractérise par le fait qu’il comprend au moins un processeur et au moins une mémoire qui sont agencés pour effectuer les opérations consistant :

- à obtenir des ensembles venant d’être délivrés, puis à construire, à partir d’une base de données associées respectivement à des labels définis dans un référentiel du système, au moins une première grille de cellules dans une vue du ciel contenant des informations sur des objets présents dans la partie de l’environnement et déterminées dans ces ensembles obtenus, puis, pour chaque cellule comprenant un objet, à transformer la position de ce dernier dans le référentiel du système en coordonnées dans un référentiel de cette cellule, puis à normaliser ces coordonnées selon deux dimensions de cette cellule, entre deux valeurs prédéfinies, puis à projeter cette première grille de cellules dans une deuxième grille de cellules dans la vue de face et à reporter les informations contenues dans les cellules de cette première grille dans les cellules correspondantes de la deuxième grille, puis à effectuer un apprentissage statistique d’un réseau de neurones en alimentant ce dernier avec chaque deuxième grille, et

- à prédire avec le réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une quatrième grille représentant la présence d’objets détectés et au moins la position dans la vue du ciel de chaque objet détecté.

L’invention propose également un système, éventuellement un véhicule, et comprenant, d’une part, au moins un capteur délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système dans une vue de face, et, d’autre part, un dispositif de détection du type de celui présenté ci-avant.

Brève description des figures

D’autres caractéristiques et avantages de l’invention apparaîtront à l’examen de la description détaillée ci-après, et des dessins annexés, sur lesquels :

illustre schématiquement et fonctionnellement un véhicule comprenant un dispositif d’assistance à la conduite, un dispositif de détection selon l’invention et des capteurs d’observation,

illustre schématiquement un exemple d’algorithme mettant en œuvre un procédé de détection selon l’invention, et

illustre schématiquement et fonctionnellement un exemple de réalisation d’un dispositif de détection selon l’invention.

Description détaillée de l’invention

L’invention a notamment pour but de proposer un procédé de détection, et un dispositif de détection DD associé, destinés à permettre la détection d’objets dans une partie de l’environnement d’un système S comprenant au moins un capteur C1 délivrant des ensembles de données d’environnement représentatives de cette partie de l’environnement dans une vue de face.

Dans ce qui suit, on considère, à titre d’exemple non limitatif, que le système S est un véhicule de type automobile. Il s’agit par exemple d’une voiture, comme illustré non limitativement sur la figure 1. Mais l’invention n’est pas limitée à ce type de système. Elle concerne en effet tout type de système pouvant être conduit de façon manuelle et/ou de façon automatisée (ou autonome), et comprenant au moins un capteur délivrant des ensembles de données d’environnement représentatives d’une partie de son environnement dans une vue de face. Ainsi, elle concerne tous les véhicules terrestres (et notamment les véhicules automobiles, les véhicules utilitaires, les motocyclettes (à au moins deux roues), les minibus, les cars, les camions, les engins de voirie et les engins agricoles), les bateaux, les aéronefs, les robots et les automates, et plus généralement les systèmes assurant une surveillance en temps réel.

Par ailleurs, on considère dans ce qui suit, à titre d’exemple non limitatif, que le véhicule S peut être conduit de façon automatisée (ou autonome) dans une phase de conduite automatisée et de façon manuelle dans une phase de conduite manuelle. On entend ici par « phase de conduite automatisée (ou autonome) » une phase pendant laquelle le conducteur du véhicule S n’intervient pas, la conduite étant entièrement contrôlée par un dispositif d’assistance (ou d’aide) à la conduite DA équipant le véhicule S, et par « phase de conduite manuelle » une phase pendant laquelle le conducteur du véhicule S intervient au moins sur le volant et/ou les pédales (ou leviers) et fait éventuellement l’objet d’une assistance partielle à la conduite. Mais le véhicule S pourrait être à conduite exclusivement automatisée ou bien à conduite exclusivement manuelle.

On a schématiquement représenté sur la figure 1 un exemple de réalisation d’un système (ici un véhicule) S comprenant un dispositif d’assistance (ou d’aide) à la conduite DA, un dispositif de détection DD selon l’invention, et un capteur C1. On notera que le système S pourrait comprendre au moins un autre capteur délivrant des ensembles de données d’environnement représentatives de la même partie d’environnement que celle observée par le capteur C1, dans une vue du ciel ou une vue de face.

Dans l’exemple illustré non limitativement sur la figure 1, le capteur C1 est installé dans une partie avant du système S. Mais il pourrait être installé dans une partie arrière du système S.

Par exemple, le capteur C1 comprend une caméra fonctionnant dans le domaine visible ou dans l’infrarouge et délivrant des ensembles de données d’environnement représentatives de cette partie d’environnement avant dans une vue de face. Mais ce capteur C1 pourrait comprendre un lidar projeté ou un radar projeté délivrant des ensembles de données d’environnement représentatives de la partie d’environnement avant du système S dans une vue de face.

Comme évoqué plus haut, l’invention propose notamment un procédé de détection destiné à permettre la détection d’objets dans une partie de l’environnement du système S.

Ce procédé (de détection) peut être mis en œuvre au moins partiellement par le dispositif de détection DD qui comprend à cet effet au moins un processeur PR, par exemple de signal numérique (ou DSP (« Digital Signal Processor »)), et au moins une mémoire MD, et donc qui peut être réalisé sous la forme d’une combinaison de circuits ou composants électriques ou électroniques (ou « hardware ») et de modules logiciels (ou « software »). La mémoire MD est vive afin de stocker des instructions pour la mise en œuvre par le processeur PR d’une partie au moins du procédé de détection d’environnement. Le processeur PR peut comprendre des circuits intégrés (ou imprimés), ou bien plusieurs circuits intégrés (ou imprimés) reliés par des connections filaires ou non filaires. On entend par circuit intégré (ou imprimé) tout type de dispositif apte à effectuer au moins une opération électrique ou électronique.

Dans l’exemple illustré non limitativement sur les figures 1 et 3, le dispositif de détection DD comprend son propre calculateur CD, qui comporte notamment son processeur PR et sa mémoire MD. Mais cela n’est pas obligatoire. En effet, le dispositif de détection DD pourrait faire partie d’un autre équipement électronique du système S (et notamment d’un calculateur, comme par exemple celui référencé CA sur la figure 1 et comprenant un dispositif d’assistance (ou d’aide) à la conduite DA sur lequel on reviendra plus loin).

Comme illustré non limitativement sur la figure 2, le procédé (de détection), selon l’invention, comprend des première 10-60 et seconde 70 étapes.

La première étape 10-60 débute dans une sous-étape 10 lorsque le capteur C1 commence à délivrer des ensembles de données d’environnement dans une vue de face, dans des intervalles de temps successifs.

Dans cette sous-étape 10 on (le dispositif de détection DD) obtient ces ensembles délivrés.

Puis, dans une sous-étape 20 de la première étape 10-60 on (le dispositif de détection DD) construit, à partir d’une base de données dans laquelle les données (d’images) sont associées respectivement à des labels définis dans un référentiel du système S, au moins une première grille de première cellules dans une vue du ciel contenant des informations sur des objets qui sont présents dans la partie de l’environnement observée et déterminées dans ces ensembles obtenus.

Puis, dans une sous-étape 30 de la première étape 10-60 on (le dispositif de détection DD) transforme, pour chaque première cellule de la première grille comprenant un objet, la position de ce dernier dans le référentiel du système S en coordonnées dans un référentiel de cette cellule.

Puis, dans une sous-étape 40 de la première étape 10-60 on (le dispositif de détection DD) normalise les coordonnées de chaque objet selon deux dimensions de sa première cellule de la première grille, entre deux valeurs (de normalisation) prédéfinies.

Puis, dans une sous-étape 50 de la première étape 10-60 on (le dispositif de détection DD) projette la première grille de cellules dans une deuxième grille de deuxièmes cellules dans la vue de face et reporte les informations contenues dans les premières cellules de cette première grille dans les deuxièmes cellules correspondantes de la deuxième grille.

La projection est faite au niveau de la construction des labels, pour que le réseau de neurones prédise les détections dans un format en vue de face mais contenant des informations d’un référentiel en vue du ciel.

Cette projection d’une vue à une autre est effectuée à partir des données de calibration du capteur C1. Ces données de calibration sont le positionnement et l’angle du capteur C1 par rapport au référentiel du système S.

Puis, dans une sous-étape 60 de la première étape 10-60 on (le dispositif de détection DD) effectue un apprentissage statistique d’un réseau de neurones en alimentant ce dernier avec chaque deuxième grille.

Cet apprentissage statistique est destiné à permettre la détection et la régression des informations sur les objets qui sont définis par les données d’entrée de chaque ensemble provenant du capteur C1.

Le réseau de neurones construit des troisièmes grilles (de cellules) qui sont des objectif que l’on souhaite atteindre et qui définissent la présence et des attributs d’intérêt des objets présents dans les images d’entrée, à partir de la base de données (d’images/labels) labélisée manuellement, constituée d’une grande quantité d’entrées associées chacune à un label contenant les objets présents dans chaque entrée, les positions respectives de ces derniers, et les classes d’intérêt (comme par exemple des attributs) respectives de ces derniers. Une telle base de données est notamment décrite dans le document « The KITTI Vision Benchmark Suite » d’Andreas Geiger.

Un attribut est une variable qui caractérise au moins partiellement un objet (au sens large (à savoir vivant ou inanimé)). Par exemple, chaque attribut d’objet peut appartenir à une classe d’intérêt. A titre d’exemple, une classe d’intérêt peut être choisie parmi un véhicule (voiture, vélo, motocyclette, car, camion…), un piéton, un animal, un bâtiment, de la végétation (arbre, arbuste, haie…), un mur, une clôture, une rambarde de sécurité, un panneau, un poteau, un plot, un marquage au sol, un tunnel, un pont et une station de péage.

Les informations sont donc mises dans un format spécifique, à savoir sous la forme d’une première grille en vue du ciel, selon les données en vue du ciel de la base de données. Dans cette vue, les informations de position des objets sont normalisées par rapport aux cellules et aux dimensions de ces dernières.

Par exemple, chaque première cellule de la première grille peut avoir des dimensions de 0,5 m x 0,5 m, afin d’avoir un compromis entre le nombre de premières cellules minimum et le fait d’avoir deux centres d’objets les plus proches dans deux cellules différentes (dans le cas d’un piéton considéré comme l’objet le plus étroit).

Egalement par exemple, la deuxième grille peut comporter 40x128 deuxièmes cellules pour une image d’entrée de 320x1024 pixels, soit des deuxièmes cellules contenant 8x8 pixels de l’image d’entrée. Ces valeurs sont choisies pour atteindre un compromis entre le nombre de deuxièmes cellules minimum et le fait d’avoir les deux centres projetés en vue de face de premières cellules dans deux deuxièmes cellules distinctes de la deuxième grille. Par exemple, les deuxièmes cellules contenant le centre d’un objet peuvent être mises dans un état haut, les autres cellules étant mises dans un état bas (ou inversement). D’autres canaux peuvent être ajoutés dans d’autres grilles similaires, mais cette fois au lieu d’avoir des valeurs hautes représentant la présence d’un objet, la valeur reflète une valeur d’attribut de l’objet présent. Cela peut être sa classe d’intérêt, ses dimensions, ou son positionnement dans la cellule, par exemple.

Une fois les couples (entrée/sortie) formés, on fait l’apprentissage statistique du réseau de neurones afin qu’il puisse prédire les objets et leurs attributs dans de nouvelles images non définies dans la base de données labélisées. Pour cela, on peut, par exemple, utiliser un réseau de neurones à convolution. Ce dernier peut, par exemple, avoir une architecture relativement réduite comportant sept couches à convolution (éventuellement avec rectification de type « reLu », normalisation par « batchs », et un « max-pooling 2x2 » sur les six dernières couches). L’image d’entrée (pouvant être constituée de plusieurs représentations issues de plusieurs capteurs) peut être de dimension 320x1024x3 pixels, et la troisième grille de sortie peut comporter 40x128x13 cellules. Les noyaux de convolution peuvent être de dimension 5x5 comme cela est usuellement le cas dans ce type de réseau de neurones.

Comme évoqué plus haut, l’apprentissage statistique consiste à prédire (ou construire) en sortie du réseau de neurones une troisième grille qui est la plus proche possible de l’objectif et associée à l’entrée présentée au réseau de neurones. Au début de cet apprentissage statistique on peut, par exemple, commencer par initialiser le réseau de neurones avec des paramètres aléatoires.

Une fois la phase d’apprentissage correctement effectuée sur la base de données d’images/labels, le réseau de neurones est capable d’effectuer des généralisations sur des images qui ne sont pas définies dans cette base de données.

Dans la seconde étape 70 du procédé de détection on prédit avec le réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré par le capteur C1, au moins une quatrième grille représentant la présence d’objets détectés et au moins la position dans la vue du ciel de chaque objet détecté.

Grâce à l’invention, on peut désormais traiter des données d’environnement en vue de face (obtenues par une caméra et/ou un lidar projeté et/ou un radar projeté) afin de construire un format de données de sortie d’un réseau de neurones permettant une simplification de ce dernier et une prédiction optimisée des informations en vue du ciel. Ce nouveau format permet donc de supprimer la problématique du changement de vue, et ainsi d’améliorer les performances d’estimation de profondeur (et donc de détection).

On notera que dans la sous-étape 30 de la première étape 10-60 on (le dispositif de détection DD) peut, par exemple, transformer la position de chaque objet compris dans une première cellule en coordonnées dans un référentiel situé au centre de cette première cellule.

On notera également que dans la sous-étape 40 de la première étape 10-60 on (le dispositif de détection DD) peut, par exemple, projeter les centres des premières cellules de la première grille de cellules dans les deuxièmes cellules correspondantes de la deuxième grille.

On notera également que dans la sous-étape 50 de la première étape 10-60 on (le dispositif de détection DD) peut, par exemple, utiliser suivant chaque dimension d’une première cellule des valeurs de normalisation prédéfinies qui sont égales à +1 et -1. Dans ce cas, si un objet est situé juste au milieu d’une première cellule le contenant, ses nouvelles coordonnées sont (0,0), tandis que si cet objet est situé exactement dans l’angle en bas à gauche de cette première cellule ses nouvelles coordonnées sont (-1,-1), et si cet objet est situé exactement dans l’angle en haut à droite de cette première cellule ses nouvelles coordonnées sont (+1,+1), et ainsi de suite. L’information de positionnement du centre d’une première cellule par rapport au référentiel du système S est conservée par la position de cette première cellule dans la première grille, sachant que la première grille est fixe par rapport au référentiel du système S.

On notera également que dans la sous-étape 60 de la première étape 10-60 on (le dispositif de détection DD) peut effectuer l’apprentissage statistique du réseau de neurones en réduisant par itérations successives une erreur entre la troisième grille prédite par le réseau de neurones et la deuxième grille correspondante.

Par exemple, l’erreur peut être réduite par un algorithme d’optimisation, éventuellement de type ADAM. Cet algorithme d’optimisation vient modifier les paramètres du réseau de neurones afin de réduire l’erreur.

En présence de cette option, l’erreur peut, par exemple, être égale à la distance quadratique moyenne entre la troisième grille prédite par le réseau de neurones et la deuxième grille correspondante en prenant les données de la base de données.

On notera également que dans la seconde étape 70 on (le dispositif de détection DD) peut prédire avec le réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une autre quatrième grille représentant la présence d’objets détectés et une classe d’intérêt (ou tout autre attribut) de chaque objet détecté.

Comme évoqué plus haut, les objets détectés et leurs positions relatives déterminés par le dispositif de détection DD peuvent être avantageusement utilisés par au moins un dispositif d’assistance (ou d’aide) à la conduite DA qui profite de leur(s) précision et/ou fiabilité accrue(s) pour améliorer la qualité de chaque fonction qu’il (DA) assure. Cela peut aussi permettre, éventuellement, une simplification de l’algorithme mis en œuvre par un dispositif d’assistance (ou d’aide) à la conduite DA, voire une mise en œuvre par ce dernier (DA) d’un algorithme plus sophistiqué.

Par exemple, ce dispositif d’assistance (ou d’aide) à la conduite DA peut être agencé de manière à contrôler totalement la conduite du système S, et en particulier sa direction et/ou sa dynamique, en fonction, notamment, des informations d’environnement déterminées par le dispositif de détection DD. Mais d’autres dispositifs d’assistance (ou d’aide) à la conduite, éventuellement de type ADAS et éventuellement plus simples que DA, peuvent utiliser les objets détectés et leurs positions relatives déterminées par le dispositif de détection DD.

On notera que dans l’exemple illustré non limitativement sur la figure 1, le dispositif d’assistance (ou d’aide) à la conduite DA fait partie d’un calculateur CA embarqué de façon permanente dans le véhicule V. Mais le dispositif d’assistance (ou d’aide) à la conduite DA pourrait aussi être un équipement comprenant son propre calculateur. Ce calculateur DA pourrait aussi comprendre le dispositif d’assistance (ou d’aide) à la conduite DA (qui dans ce cas n’a pas nécessairement besoin de comporter son propre calculateur CD (a priori)).

On notera également que l’invention propose aussi un produit programme d’ordinateur (ou programme informatique) comprenant un jeu d’instructions qui, lorsqu’il est exécuté par des moyens de traitement de type circuits électroniques (ou hardware), comme par exemple le processeur PR, est propre à mettre en œuvre le procédé de détection décrit ci-avant pour détecter des objets dans une partie de l’environnement du système S.

On notera également, comme illustré non limitativement sur la figure 3, que le dispositif de détection DD peut aussi comprendre, en complément de sa mémoire vive MD et de son processeur PR, une mémoire de masse MM, notamment pour le stockage des ensembles de données d’environnement délivrés et de données intermédiaires intervenant dans tous ses calculs et traitements. Par ailleurs, ce dispositif de détection DD peut aussi comprendre une interface d’entrée IE pour la réception d’au moins les ensembles de données d’environnement délivrés pour les utiliser dans des calculs ou traitements, éventuellement après les avoir mis en forme et/ou démodulés et/ou amplifiés, de façon connue en soi, au moyen d’un processeur de signal numérique PR’. De plus, ce dispositif de détection DD peut aussi comprendre une interface de sortie IS, notamment pour délivrer les quatrièmes grilles représentant les présences d’objets détectés et au moins les positions dans la vue du ciel de chaque objet détecté.

On notera également qu’une ou plusieurs sous-étapes de l’une au moins des première et seconde étapes du procédé de détection peuvent être effectuées par des composants différents. Ainsi, le procédé de détection peut-être mis en œuvre par une pluralité de processeurs de signal numérique, mémoire vive, mémoire de masse, interface d’entrée, interface de sortie.

Claims

Procédé de détection pour un système (S) comprenant au moins un capteur (C1) délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système (S) dans une vue de face, caractérisé en ce qu’il comprend :
- une première étape (10-60) dans laquelle on obtient des ensembles venant d’être délivrés, puis on construit, à partir d’une base de données associées respectivement à des labels définis dans un référentiel dudit système (S), au moins une première grille de cellules dans une vue du ciel contenant des informations sur des objets présents dans ladite partie de l’environnement et déterminées dans ces ensembles obtenus, puis pour chaque cellule comprenant un objet on transforme une position de ce dernier dans ledit référentiel du système (S) en coordonnées dans un référentiel de cette cellule, puis on normalise ces coordonnées selon deux dimensions de cette cellule, entre deux valeurs prédéfinies, puis on projette cette première grille de cellules dans une deuxième grille de cellules dans ladite vue de face et on reporte lesdites informations contenues dans les cellules de cette première grille dans les cellules correspondantes de la deuxième grille, puis on effectue un apprentissage statistique d’un réseau de neurones en alimentant ce dernier avec chaque deuxième grille, et
- une seconde étape (70) dans laquelle on prédit avec ledit réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une quatrième grille représentant la présence d’objets détectés et au moins la position dans la vue du ciel de chaque objet détecté.
Procédé selon la revendication 1, caractérisé en ce que dans ladite première étape (10-60) on effectue ledit apprentissage statistique du réseau de neurones en réduisant par itérations successives une erreur entre une troisième grille prédite par le réseau de neurones et ladite deuxième grille correspondante.
Procédé selon la revendication 2, caractérisé en ce que dans ladite première étape (10-60) ladite erreur est égale à la distance quadratique moyenne entre ladite troisième grille prédite par le réseau de neurones et ladite deuxième grille correspondante.
Procédé selon l’une des revendications 1 à 3, caractérisé en ce que dans ladite première étape (10-60) on transforme la position de chaque objet compris dans une cellule en coordonnées dans un référentiel situé au centre de cette cellule.
Procédé selon la revendication 4, caractérisé en ce que dans ladite première étape (10-60) on projette les centres des cellules de ladite première grille de cellules dans les cellules correspondantes de ladite deuxième grille.
Procédé selon l’une des revendications 1 à 5, caractérisé en ce que dans ladite première étape (10-60) on effectue un apprentissage statistique d’un réseau de neurones à convolution.
Procédé selon l’une des revendications 1 à 6, caractérisé en ce que dans ladite seconde étape (70) on prédit avec ledit réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une autre quatrième grille représentant la présence d’objets détectés et une classe d’intérêt de chaque objet détecté.
Produit programme d’ordinateur comprenant un jeu d’instructions qui, lorsqu’il est exécuté par des moyens de traitement, est propre à mettre en œuvre le procédé de détection selon l’une des revendications précédentes pour détecter des objets présents dans une partie de l’environnement d’un système (S) comprenant au moins un capteur (C1) délivrant des ensembles de données d’environnement représentatives de cette partie de l’environnement dans une vue de face.
Dispositif de détection (DD) pour un système (S) comprenant au moins un capteur (C1) délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système (S) dans une vue de face, caractérisé en ce qu’il comprend au moins un processeur (PR) et au moins une mémoire (MD) agencés pour effectuer les opérations consistant :
- à obtenir des ensembles venant d’être délivrés, puis à construire, à partir d’une base de données associées respectivement à des labels définis dans un référentiel dudit système (S), au moins une première grille de cellules dans une vue du ciel contenant des informations sur des objets présents dans la partie de l’environnement et déterminées dans ces ensembles obtenus, puis pour chaque cellule comprenant un objet à transformer une position de ce dernier dans ledit référentiel du système (S) en coordonnées dans un référentiel de cette cellule, puis à normaliser ces coordonnées selon deux dimensions de cette cellule, entre deux valeurs prédéfinies, puis à projeter cette première grille de cellules dans une seconde grille de cellules dans ladite vue de face et à reporter les informations contenues dans les cellules de cette première grille dans les cellules correspondantes de ladite seconde grille, puis à effectuer un apprentissage statistique d’un réseau de neurones en alimentant ce dernier avec chaque deuxième grille, et
- à prédire avec ledit réseau de neurones ayant fait l’objet de l’apprentissage statistique, pour chaque nouvel ensemble délivré, au moins une quatrième grille représentant la présence d’objets détectés et au moins la position dans la vue du ciel de chaque objet détecté.
Système (S) comprenant au moins un capteur (C1) délivrant des ensembles de données d’environnement représentatives d’une partie de l’environnement de ce système (S) dans une vue de face, caractérisé en ce qu’il comprend en outre un dispositif de détection (DD) selon la revendication 9.