FR3110011A1

FR3110011A1 - Méthode d’apprentissage d’un agent intelligent pour un véhicule automobile autonome

Info

Publication number: FR3110011A1
Application number: FR2004534A
Authority: FR
Inventors: Nelson FERNANDEZ-PINTO
Original assignee: Renault SAS
Current assignee: Renault SAS
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-12
Anticipated expiration: 2040-05-07
Also published as: FR3110011B1

Abstract

L’invention concerne une méthode d’apprentissage pour un agent intelligent destiné à être embarqué dans un véhicule automobile autonome pour la conduite dudit véhicule automobile autonome, ladite méthode d’apprentissage comprenant une étape de génération d’une pénalisation (E4) selon un critère d’environnement (Environment Loss) tenant compte d’une proximité sociale dudit véhicule virtuel (45) et/ou d’une proximité dudit véhicule virtuel avec des limites de roulage dans ledit environnement virtuel, la pénalisation selon un critère d’imitation (Imitation Loss) et la pénalisation selon le critère d’environnement (Environment Loss) constituant une pénalisation globale (Loss) de l’agent intelligent, telle que Loss = Imitation Loss + Environment Loss. Figure pour l’abrégé : Fig. 6

Description

Méthode d’apprentissage d’un agent intelligent pour un véhicule automobile autonome

La présente invention concerne une méthode d’apprentissage d’un agent intelligent, un dispositif d’apprentissage pour la mise en œuvre de ladite méthode d’apprentissage et un véhicule automobile autonome adapté pour être conduit par un agent intelligent ayant fait l’objet d’un apprentissage à partir de ladite méthode d’apprentissage.

Un véhicule automobile autonome est un véhicule automobile adapté pour rouler sur une route ouverte sans intervention d’un conducteur. Le concept vise à développer et à produire un véhicule pouvant à terme circuler en toute sécurité sur une voie publique et ceci quel que soit le trafic généré par d’autres véhicules ou des obstacles (humain, animal, arbre…) présents sur la voie. La notion de véhicule automobile autonome couvre ici un véhicule automobile totalement autonome dans lequel l’intervention d’un opérateur humain n’est pas nécessaire pour la conduite dudit véhicule. Cette notion couvre également un véhicule automobile dit « semi-autonome » disposant de systèmes automatisés d’aide à la conduite mais dans lequel l’intervention de l’opérateur humain reste globalement prépondérante.

Un véhicule automobile autonome est piloté par un agent intelligent embarqué dans ledit véhicule. Par « agent intelligent », on entend une entité autonome capable de percevoir son environnement grâce à des capteurs et capable d’agir en conséquence sur la trajectoire du véhicule automobile. A titre d’exemple, un agent autonome peut comprendre un réseau de neurones. Afin de prendre les bonnes décisions sur la conduite du véhicule automobile en situation réelle, l’agent intelligent est préalablement éduqué au cours d’une période d’apprentissage. Cette période d’apprentissage est généralement effectuée à l’extérieur du véhicule automobile autonome avant que l’agent intelligent ne soit définitivement embarqué dans ledit véhicule automobile autonome.

Une méthode d’apprentissage, appelée clonage comportemental (« Behavior cloning » en anglais) consiste à faire reproduire à l’agent intelligent les réponses d’un opérateur pour une situation de roulage donnée. Les compétences cognitives de l’opérateur humain sont ainsi capturées et reproduites par l’agent intelligent. Au fur et à mesure que l’opérateur humain exécute ses actions, celles-ci sont enregistrées avec la situation qui a donné lieu à l’action. L’agent intelligent est alors adapté pour générer un ensemble de règles internes destinées à reproduire au mieux le comportement de l’opérateur humain pour une situation donnée. Afin d’améliorer le processus d’apprentissage de l’agent intelligent, des données de conduite prédictive de l’agent intelligent sont comparées à des données de conduite théorique d’un opérateur humain pour une situation de roulage donnée. Ces données de conduite théorique de l’opérateur humain sont, par exemple, des données de démonstration. Selon la différence entre les données de conduite prédictive de l’agent intelligent et les données théorique de l’opérateur humain, ledit agent intelligent est plus ou moins pénalisé en vue d’être reconfiguré. Le processus d’apprentissage de l’agent intelligent lui permet de modifier ses règles internes pour délivrer par la suite une réponse globalement identique à celle de l’opérateur humain pour la même situation de roulage donnée.

Une telle méthode d’apprentissage par clonage comportemental est notamment divulguée par le document intitulé « Chauffeurnet : Learning to drive by imitating the best and synthesizing the worst » qui est accessible sur Internet par la référence : arXiv preprint arXiv:1812.03079, 2018. Dans ce document, l’agent intelligent est soumis à un grand nombre d’exemples de conduite (près de 30 millions) pour son apprentissage. Outre ces exemples de fonctionnements classiques, l’agent intelligent est également pénalisé à partir d’exemples reconstruits qui ne sont pas censés être réalisés par un opérateur humain, tels que des collisions avec un autre véhicule virtuel ou un roulage en dehors des limites prévues dans la portion de route virtuelle (roulage sur des trottoirs, roulage sur des parties centrales de ronds-points, etc…). Ces exemples reconstruits ont un poids particulièrement important dans l’apprentissage de l’agent intelligent puisque la reconfiguration de celui-ci doit lui permettre d’éviter ce genre d’accident dans des situations réelles. Dans le document précédemment cité, la pénalisation est binaire. Par exemple, dans le cas d’une reconstruction d’une collision, soit le véhicule virtuel chevauche exactement l’autre véhicule virtuel ce qui entraîne une pénalisation importante de l’agent intelligent, soit ce véhicule virtuel ne le chevauche pas et il n’y a pas de pénalisation de l’agent intelligent. Bien que ce mode de fonctionnement tienne compte de cas de collisions et/ou de cas de roulage hors des limites de roulage, il ne permet pas à l’agent intelligent de reproduire toute la complexité des réactions d’un opérateur humain vis-à-vis de l’environnement qui l’entoure (autres véhicules, piétons, trottoirs, etc…) lorsque cet opérateur humain est au volant de son propre véhicule automobile et plus particulièrement de reproduire pleinement la capacité de cet opérateur humain à appréhender les situations à risque pour les éviter. En outre, les exemples reconstruits de collisions ou de roulages en dehors des limites prévues ne sont pas particulièrement faciles à recréer. Il faut mettre en œuvre un processus coûteux réalisé dans un environnement de simulation. De plus, ces exemples reconstruits n’apportent pas une garantie totale d’une reproduction exacte de la dynamique d’un opérateur humain dans des situations à risques.

Il existe donc un besoin de proposer une méthode d’apprentissage d’un agent intelligent simple et pratique qui permet d’améliorer le fonctionnement de cet agent intelligent une fois celui-ci embarqué dans un véhicule automobile autonome, notamment vis-à-vis de situations à risque telles que des collisions ou des roulages en dehors de la route.

La présente invention vise à remédier au moins en partie à ce besoin.

Plus particulièrement, la présente invention vise à améliorer l’apprentissage d’un agent intelligent pour augmenter ses capacités de réaction, une fois celui-ci embarqué dans un véhicule automobile autonome, vis-à-vis d’autres acteurs (autres véhicules automobile, piétons, animaux) et/ou vis-à-vis des limites de la route (trottoirs, ronds-points, etc…).

Un premier objet de l’invention concerne une méthode d’apprentissage d’un agent intelligent destiné à être embarqué dans un véhicule automobile autonome pour la conduite de ce véhicule automobile autonome. La méthode d’apprentissage comprend :
- une étape de génération de données d’entrée d’une portion de route virtuelle sur laquelle est destiné à rouler un véhicule virtuel, lesdites données d’entrée comprenant au moins une image de la portion de ladite route virtuelle, lesdites données d’entrée étant destinées à être transmises audit agent intelligent ;
- une étape de réception de données de conduite prédictive générées par ledit agent intelligent pour la conduite dudit véhicule virtuel sur ladite portion de route virtuelle, lesdites données de conduite prédictive ayant été générées par ledit agent intelligent à partir des données d’entrée ;
- une étape de pénalisation de l’agent intelligent à partir de la comparaison entre les données de conduite prédictive dudit agent intelligent et des données de conduite théorique destinées à représenter une conduite d’un opérateur humain sur ladite portion de route virtuelle, ladite comparaison étant destinée à réaliser une pénalisation selon un critère d’imitation ;
Les données d’entrée comprenant des données sur un environnement virtuel présent autour dudit véhicule virtuel, l’étape de pénalisation est, en outre, réalisée selon un critère d’environnement tenant compte d’une proximité sociale dudit véhicule virtuel et/ou d’une proximité dudit véhicule virtuel avec des limites de roulage dans ledit environnement virtuel. La pénalisation selon le critère d’imitation (Imitation Loss) et la pénalisation selon le critère d’environnement (Environment Loss) constituent une pénalisation globale de l’agent intelligent (Loss), telle que Loss = Imitation Loss + Environment Loss.

Ainsi, il est tenu compte pour l’apprentissage de l’agent intelligent d’une proximité du véhicule virtuel avec des limites de roulage et/ou des obstacles dans ledit environnement virtuel. Il est ainsi possible de donner à l’agent intelligent des moyens de comprendre plus finement l’environnement dans lequel il sera amené à évoluer dans la conduite du véhicule automobile autonome. En effet la pénalisation de l’agent intelligent va, par exemple, tenir compte d’une distance par rapport à un autre véhicule virtuel proche. En fonction d’une quantification de cette distance, l’agent intelligent sera plus ou moins pénalisé pour qu’il réagisse en conséquence une prochaine fois. Par route virtuelle, on entend une représentation fidèle de situations de conduites réelles. La génération de données d’entrée d’une portion de ladite route virtuelle est effectuée à partir de données de roulage dans lesdites situations réelles. Cet apprentissage sur une portion de route virtuelle doit permettre, par la suite, à l’agent intelligent de pouvoir réagir de manière adéquate dans une situation similaire, une fois celui-ci embarqué dans le véhicule automobile autonome. L’agent intelligent apprend ainsi à conserver une distance de sécurité avec les autres acteurs de la scène de conduite en minimisant les approches à risque guidé par la pénalisation de proximité reçue pendant l’apprentissage. Enfin, la méthode d’apprentissage objet de l’invention est simplifiée par rapport à l’art antérieur, car il n’y a pas besoin de recréer des exemples reconstruits de conduite à risque.

Dans un mode de réalisation particulier, la pénalisation globale est obtenue à partir d’une fonction de perte d’imitation MSE(Y,Ypredict), telle que MSE(Y, Ypredict) =
avec Y une trajectoire théorique, Ypredict une trajectoire prédictive donnée par l’agent intelligent et H un horizon de temps. On notera dès à présent que la trajectoire prédictive Ypredict peut également s’écrire dans les équations sous la forme d’un Y surmonté d’un accent circonflexe.

On évalue ainsi de manière simple et pratique la pénalisation de l’agent intelligent selon le critère d’imitation dans une scène de conduite particulière.

Dans un mode de réalisation particulier, la pénalisation globale est obtenue à partir d’une fonction de perte socialeet/ou à partir d’une fonction de perte de route, dans lesquelles le TrafficBoundingBoxes représente les trajectoires de n acteurs dans la portion de route virtuelle et le RoadLayer représente les limites de roulage de ladite route virtuelle.

Ainsi pour déterminer la pénalisation selon le critère d’environnement, on tient compte de la perte sociale et de la perte de route. La perte sociale englobe l’ensemble des risques liés aux autres acteurs virtuels (autre voitures virtuelles, piétons virtuels, animaux virtuels, etc…) présents dans la portion de route virtuelle. Ces autres acteurs virtuels sont, par exemple, des acteurs (autres véhicules, animaux, piétons) déterminés pendant des roulages réels. Les trajectoires de ces différents acteurs sont définies, notamment, à partir de leur position, leur taille et leur angle de direction. La perte de route englobe l’ensemble des risques liés aux limites de roulage sur la portion de route virtuelle. Ces limites de roulage sont, par exemple, déterminés par des trottoirs, des parties centrales de ronds-points etc… .

Dans un mode de réalisation particulier, la pénalisation globale est déterminée de sorte que :++avec K1, K2 deux coefficients de pondération différents.

En choisissant de manière appropriée les coefficients de pondération K1 et K2, on donne un poids plus ou moins prépondérant à la fonction de perte sociale ou à la fonction de perte de route dans la détermination de la pénalisation globale. On améliore encore d’avantage la reconfiguration de l’agent intelligent, celui-ci pouvant adapter ses stratégies d’évitement. Si la perte sociale est trop importante, l’agent intelligent va essayer d’éviter à tout prix une collision avec un autre véhicule automobile même si sa trajectoire d’évitement doit le faire rouler, par exemple, sur un trottoir.

Dans un mode de réalisation particulier, la fonction de perte sociale est déterminée à partir des équations suivantes :
-;
-;
-;
-;
-
dans lequel x et y sont des coordonnées du véhicule virtuel à un instant donné, K_iun coefficient associé au ième acteur virtuel, x₀et y₀les coordonnées du centre du ième acteur virtuel à cet instant donné, sigma_x la longueur du ième acteur virtuel, sigma_y la largeur du ième acteur virtuel, thêta l’angle de direction du ième acteur virtuel à cet instant donné. On notera dès à présent que dans les équations et les dessins : sigma_xpeut s’écrire σ_x _,sigma_ypeut s’écrire σ_y, thêta peut s’écrire θ.

On évalue ainsi de manière simple et pratique la fonction de perte sociale. Cette perte sociale tient compte d’un ensemble de paramètres associés à différents acteurs virtuels présents dans la portion de route virtuelle, tels qu’un ou plusieurs autres véhicules virtuels et/ou un ou plusieurs piétons virtuels. La fonction de perte sociale est déterminée, par exemple, à partir d’une fonction gaussienne 2D.

Dans un mode de réalisation particulier, la fonction de perte de route est déterminée selon les équations suivantes:
- si le véhicule virtuel est sur la portion de route virtuelle,ou dit autrement une fonction exponentielle portant sur (-d²/k) ;
- si le véhicule virtuel est au-dehors de la portion de route virtuelle,ou dit autrement une fonction logarithme portant sur (d+1) ;
dans lesquelles d est la distance euclidienne entre le véhicule virtuel et la limite de roulage la plus proche dans la portion de route virtuelle et k est un facteur de dégradation.

On évalue ainsi de manière simple et pratique la fonction de perte de route. Cette fonction est représentée par un système à deux équations illustrant le cas où le véhicule virtuel est sur la portion de route virtuelle, c’est-à-dire la portion utilisable par ledit véhicule virtuel et le cas où le véhicule virtuel est au-dehors de la portion de route virtuelle (par exemple sur un trottoir virtuel). Dans chacune de ces équations, il est tenu compte de la distance euclidienne entre le véhicule virtuel et la limite de roulage la plus proche dans ladite portion de route virtuelle. Dans cette méthode d’apprentissage, on pénalise ainsi d’avantage la proximité avec la limite de roulage (par exemple un trottoir) que le chevauchement total avec ladite limite.

Un autre objet de l’invention concerne un dispositif d’apprentissage pour l’apprentissage d’un agent intelligent selon la méthode d’apprentissage de l’objet précédent.

Un autre objet de l’invention concerne un véhicule automobile autonome adapté pour être conduit par un agent intelligent ayant fait l’objet d’un apprentissage selon la méthode d’apprentissage précédente.

Dans un mode de réalisation particulier, l’agent intelligent comprend un réseau de neurones convolutifs et/ou un réseau de neurones récurrents.

Par réseau de neurones, on entend une architecture dont la conception est inspirée du fonctionnement des neurones biologiques. C’est une architecture capable d’apprendre en mettant en œuvre le principe de l’induction, c’est-à-dire l’apprentissage par l’expérience. Un réseau de neurones est en général composé d’une succession de couches dont chacune prend ses entrées sur les sorties de la précédente. Chaque couche (i) est composée de N_ineurones prenant ainsi leurs entrées sur les N_i-1neurones de la couche précédente. Par réseau de neurones convolutifs (ConvNet pour « Convolutional Neural Networks » en anglais), on entend un type de réseau de neurones dans lequel l’organisation des connexions entre les neurones est inspirée par le cortex visuel chargé de traiter les informations visuelles. Le fonctionnement d’un ConvNet est ainsi inspiré par les processus biologiques, il consiste en un empilage de perceptrons, dont le but est de prétraiter de petites quantités d’informations. Les ConvNets sont notamment utilisés pour le traitement d’images.

La présente invention sera mieux comprise à la lecture de la description détaillée de modes de réalisation pris à titre d’exemples nullement limitatifs et illustrés par les dessins annexés sur lesquels :

la figure 1 est une vue schématique illustrant un dispositif d’apprentissage selon un mode de réalisation de l’invention et un agent intelligent en communication avec ledit dispositif d’apprentissage ;

la figure 2 est une vue schématique d’une portion d’une route virtuelle sur laquelle est destiné à se déplacer un véhicule virtuel pour l’apprentissage de l’agent intelligent de la figure 1 ;

la figure 3 est un schéma illustrant une cartographie des risques de collision associés à d’autres acteurs virtuels présents dans l’environnement du véhicule virtuel de la figure 2 ;

la figure 4 est un schéma illustrant une cartographie des risques de roulage du véhicule virtuel hors de la portion de route virtuelle de la figure 2 ;

la figure 5 est un schéma illustrant le fonctionnement de l’agent intelligent de la figure 1 ;

la figure 6 illustre les étapes d’une méthode d’apprentissage pour l’apprentissage de l’agent intelligent par le dispositif d’apprentissage de la figure 1.

la figure 7 illustre un véhicule automobile autonome adapté pour être conduit par l’agent intelligent de la figure 1 ayant fait l’objet d’un apprentissage selon la méthode d’apprentissage de la figure 6.

L’invention n’est pas limitée aux modes de réalisation et variantes présentées et d’autres modes de réalisation et variantes apparaîtront clairement à l’homme du métier.

Sur les différentes figures, les éléments identiques ou similaires portent les mêmes références.

La figure 1 représente schématiquement un dispositif d’apprentissage 10 et un agent intelligent 20 en communication avec ledit dispositif d’apprentissage 10.

Le dispositif d’apprentissage 10 comprend :
- des moyens de génération 11 de données d’entrée ;
- des moyens de génération 12 de données de conduite théorique ;
- des moyens de réception 13 de données de conduite prédictive ;
- des moyens de génération d’une pénalisation 14 destinée à pénaliser l’agent intelligent, lesdits moyens de génération d’une pénalisation 14 comprenant des moyens de génération d’une pénalisation selon un critère d’imitation 141 et des moyens de génération d’une pénalisation selon un critère d’environnement 142. Les moyens de génération d’une pénalisation selon un critère d’environnement 142 comprennent des moyens de génération d’une pénalisation calculée selon une fonction de perte sociale 1421 et des moyens de génération d’une pénalisation calculée selon une fonction de perte de route 1422.

L’agent intelligent 20 comprend :
- des moyens de réception 21 de données d’entrée ;
- des moyens de génération 22 de données de conduite prédictive ;
- des moyens de transmission 23 de données de conduite prédictive ;
-des moyens de réception 24 d’une pénalisation transmise par le dispositif d’apprentissage 10.

Les moyens de génération 11 de données d’entrée sont adaptés pour générer des données d’entrée pour être traitées par ledit dispositif d’apprentissage 10 et par ledit agent intelligent 20. Ces données d’entrée sont relatives à une portion d’une route virtuelle sur laquelle est destiné à rouler un véhicule virtuel. Ces données d’entrée comprennent au moins une image de la portion de la route virtuelle. Plus particulièrement, cette image est ici une carte de type raster. Une carte raster est une carte imprimée qui a été numérisée. L’image de la carte est composée de pixels. La résolution de l’image est ainsi fixée et elle possède une échelle propre. Une telle carte raster est notamment illustrée à la figure 2. Dans cette figure 2, la carte raster 40 est une carte d’une portion d’une route virtuelle représentant un croisement entre une route principale 41 et une route secondaire 42. Chacune de ces routes principale 41 et secondaire 42 est délimitée par des limites de roulage 43A, 43B. Ces limites de roulage 43A, 43B indiquent des frontières entre la portion de route virtuelle 41, 42 sur lequel un véhicule virtuel 45 est adapté à se déplacer et des trottoirs 44A, 44B sur lesquels un tel déplacement doit être évité. Le véhicule virtuel 45 circule ici sur la route principale 41. Ce véhicule virtuel est schématisé par un rectangle fortement grisé. La trajectoire 46 de ce véhicule virtuel est également schématisée par une succession de rectangles secondaires en pointillés dont la nuance de gris s’estompe plus la distance avec le rectangle principal du véhicule virtuel 45 est importante. La carte raster 40 de la figure 2 comprend en outre une pluralité d’autres acteurs virtuels 47A, 47B. Ces autres acteurs virtuels 47A, 47B sont, par exemple, d’autres véhicules virtuels garés le long de la route principale 41 ou sur le trottoir 44A. Ces autres acteurs virtuels 47A, 47B sont représentés par des rectangles blancs qui sont ici immobiles. Un autre type d’acteur virtuel 47C représente un animal virtuel traversant la route secondaire 42. Cet animal virtuel est représenté par un carré gris 47C. De la même manière que pour le véhicule virtuel 45, la dynamique de mouvement de cet animal 47C est schématisée par une succession de carrés en pointillés dont les nuances de gris s’estompent plus la distance avec le carré principal de cet animal 47C est importante.

La figure 3 illustre une cartographie 50 des risques de collisions autour du véhicule virtuel 45 lorsque celui évolue sur la portion de route virtuelles 41, 42 de la figure 2. Ces risques de collisions sont générés par la présence d’autres acteurs virtuels 47A, 47B, 47C. Ces risques de collision sont représentés par des zones 51A, 52A, 53A, 52, 53A, 53B, 53C plus ou moins grisées. Ces zones 51A, 52A, 53A, 52, 53C, 54C, 55C présentent des formes arrondies allongées. Ainsi autour de chaque autre acteur virtuel 47A sont représentées une première zone 51A centrée sur ledit acteur virtuel, une seconde zone 52A entourant ladite première zone 51A et une troisième zone 53A entourant ladite seconde zone 52A. La première zone 51A, la seconde zone 52A, la troisième zone 53A présentent des niveaux de gris différents représentant des niveaux de risque différents. Plus les zones 51A, 52A, 53A sont proches de l’acteur virtuel 47A, plus leur niveau de gris est important. De cette manière, il est possible de représenter un gradient dans les niveaux de risque. Ce gradient est déterminé en fonction d’une proximité par rapport à l’acteur virtuel 47A. Le comportement d’un être humain (temps de réaction, vitesse donnée au véhicule virtuel) est différent en fonction de la proximité du véhicule virtuel 45 par rapport à l’acteur virtuel 47A. Les différentes zones 51A, 52A, 53A permettent à un agent intelligent de pouvoir reproduire ces comportements humains en fonction de la distance par rapport à un autre acteur virtuel 47A et donc par rapport à un niveau de risque associé. On notera que sur la figure 3, certaines zones 51A sont en partie confondues du fait de la proximité de différents agents virtuels 47A sur la portion de route 41. L’autre acteur virtuel 47B, simulant un véhicule en stationnement sur le trottoir virtuel 44A, est représenté par une seule zone 51B ayant un faible niveau de gris. Cet acteur virtuel 47B étant positionné sur ledit trottoir 44A, les risques de collisions avec le véhicule virtuel 45 sont très faibles. Ces risques sont également uniformes. D’autres risques associés à l’animal 47C sont également représentés par trois zones 53C, 54C, 55C. Ces zones 53C, 54C, 55C ont des niveaux de gris différents illustrant des niveaux de risque différents. De la même manière que pour l’autre acteur virtuel 47A, plus les zones 53C, 54C, 55C sont proches de l’animal 47C plus leur niveau de gris est important. Le niveau de risque est ici d’autant plus important que l’animal 47C traverse la route secondaire 42.

La figure 4 illustre une cartographie 60 des risques de roulage lors d’un roulage hors de la portion de route virtuelle 41, 42 de la figure 2. Sur cette figure 4, sont représentés la route principale 41, la route secondaire 42, les trottoirs 44A, 44B ainsi que les frontières 43A, 43B séparant lesdites routes principale 41 et secondaire 42 des trottoirs 44A, 44B. Au niveau des trottoirs 44A, 44B, les niveaux de risque sont représentés par des bandes 61A, 62A, 63A, 61B, 62B, 63B respectivement parallèles aux frontières 43A, 43B. Ces différentes bandes 61A, 62A, 63A, 61B, 62B, 63B présentent ici des niveaux de gris différents. Ainsi des premières bandes 61A, 61B à proximité immédiate des frontières 43A, 43B ont des niveaux de gris faibles. Ces faibles niveaux de gris traduisent un faible risque pour le véhicule virtuel à rouler sur cette partie de la carte. Des secondes bandes 62A, 62B présentent un niveau de gris plus prononcé que les premières bandes 61A, 61B car les risques de roulage associés sont plus importants. Enfin, des troisièmes bandes 63A, 63B présentent un dernier niveau de gris supérieur au niveau de gris des secondes bandes 62A, 62B. On notera également que les différentes bandes 61A, 62A, 63A, 61B, 62B, 63B ont des largeurs différentes. La largeur desdites bandes est plus importante à proximité des frontières 43A, 43B, cette largeur diminuant plus les bandes sont distantes de ces frontières 43A, 43B.

Les moyens de génération 11 de données d’entrée sont capables de générer la carte raster 40, une cartographie 50 des risques de collisions ainsi que la cartographie 60 des risques de roulage. Ces données d’entrée sont ensuite transmises aux moyens de génération 12 de données de conduite théorique ainsi qu’aux moyens de réception 21 de l’agent intelligent 20.

Les moyens de génération 12 du dispositif d’apprentissage 10 sont adaptés pour générer des données de conduite théorique Theoretical à partir des données d’entrée des moyens de génération 11. Ces données de conduite théorique Theoretical illustrent les décisions qu’un opérateur humain effectuerait à partir desdites données d’entrées. Ainsi, les données de conduite théorique Theoretical sont adaptées pour la conduite du véhicule virtuel 45 sur la portion de route virtuelle 41, 42. Ces données de conduite théorique Theoretical comprennent différentes informations concernant le véhicule virtuel 45 telles que plusieurs couples de coordonnées en X et en Y des prochaines positions théoriques d’un point central dudit véhicule virtuel 45. Dans un mode de réalisation particulier, les données de conduite théorique Theoretical comprennent ainsi au moins six couples de données en X et Y. En variante, les données de conduite théorique Theoretical comprennent également des informations théoriques sur la vitesse, l’accélération, l’angle de direction et la vitesse angulaire dudit véhicule virtuel 45.

Les données théoriques sont générées à partir de roulages réels et ces données forment une représentation synthétique d’une situation réelle. Ces données théoriques sont ensuite stockées dans une base de données (non représentée sur la figure 1) et celles-ci sont sélectionnées dans cette base de données à partir des données d’entrée fournies par les moyens de génération 11.

Les moyens de réception 21 de l’agent intelligent sont adaptés pour recevoir les données d’entrée générés par les moyens de génération 11 du dispositif d’apprentissage 10. Ces données d’entrées sont ensuite transmises aux moyens de génération 22 de données de conduite prédictive Predict de l’agent intelligent 20. Ces données de conduite prédictive Predict sont adaptées pour la conduite du véhicule virtuel 45 sur la portion de route virtuelle 41, 42. Préférentiellement, les données de conduite prédictive Predict de l’agent intelligent 20 sont organisées de la même manière que les données théoriques générées par les moyens de génération 12 du dispositif d’apprentissage 10. Ainsi ces données de conduite prédictive Predict de l’agent intelligent 20 comprennent également, au moins 6 couples de coordonnées en X et en Y. Préférentiellement, les coordonnées en X et en Y sont échantillonnées à une fréquence d’échantillonnage comprise entre 2 Hz et 30 Hz et chaque couple de données représente une prédiction de 3 secondes. En variante, les données de conduite prédictive Predict de l’agent intelligent 20 comprennent également des informations sur la vitesse, l’accélération, l’angle de direction et la vitesse angulaire du véhicule virtuel 45.

La génération des données de conduite prédictive de l’agent intelligent 20 est réalisée à partir d’un réseau de neurones convolutifs. En variante, cette génération de données de conduite prédictive est réalisée à partir d’un réseau de neurones récurrents. Dans une autre variante, la génération de données de conduite prédictive est réalisée à partir d’une combinaison d’un réseau de neurones convolutifs et d’un réseau de neurones récurrents. La figure 5 illustre un réseau de neurones convolutifs fonctionnant selon une architecture MobilnetV2 70. Une telle architecture est notamment divulguée dans le document « Mobile networks for classification, detection and segmentation » qui est accessible sur Internet par la référence : CoRR, abs/1801.04381, 2018. Cette architecture MobilnetV2 70 comprend :
- un agrégateur de données 71 fournissant en sortie, au moins une partie d’une première séquence 72 de données de sortie ;
- une pluralité de couches de neurones (non représentées) fournissant respectivement une seconde séquence de données de sortie 73 et une troisième séquence de données de sortie 74.

L’agrégateur de données 71 est adapté pour extraire des données de la carte raster 40, de la cartographie 50 des risques de collisions et de la cartographie 60 des risques de roulage, telles que la position du véhicule virtuel 45. On notera que la carte raster 40, les cartographies 50 et 60 ont ici une résolution de 400*400 pixels formant un carré de 40*40 mètres en choisissant une conversion de 10 pixels par mètre. En variante, il est possible d’utiliser un carte raster 40 et des cartographies 50 et 60 ayant une résolution de 600*600 pixels formant un carré de 60*60 mètres en choisissant une conversion de 10 pixels par mètre. Les données extraites sont ensuite agrégées par l’agrégateur de données 71 pour être transmise au réseau de neurones à proprement dit. Dans un mode de réalisation particulier, l’agrégateur de données 71 utilise une opération de type GPA « pour Global Average Pooling, en anglais » et les données en sortie de cet agrégateur 71 forment au moins une partie de la première séquence de données de sortie 72. Cette première séquence de données de sortie 72 comprend, en effet, un premier bloc de données 721 en en-tête de cette première séquence 72 et un second bloc de données 722. Le premier bloc de données 721 est généré à partir d’une base de données (non représentée) dans l’agent intelligent 20. Cette base de données fournit ainsi des données associées à des états précédents du véhicule virtuel 45. Ces données associées à des états précédents sont, par exemple, six coordonnées en X et en Y, six vitesses, six accélérations, six angles de direction et six vitesses angulaires représentant 6 états précédents du véhicule virtuel 45. La dimension du premier bloc de données 721 est 1*36. Le second bloc de données 722 comprend, quant à lui, les données directement issues de l’agrégateur de données 71. Ce second bloc de données 722 a une dimension de 1*4096. La première séquence de données de sortie 72 vient alimenter une première couche de neurones. Cette première couche de neurones est ici une couche pleinement connectée (dite « Fully-connected layer » en anglais). Cette première couche de neurones fournit en sortie une seconde séquence de données de sortie 73. Cette seconde séquence de données de sortie 73 a une dimension de 1*1024. Cette seconde séquence de données de sortie 73 vient alimenter une seconde couche de neurones pleinement connectée. Cette seconde couche de neurones fournit en sortie une troisième séquence de données de sortie 74. Cette troisième séquence de données de sortie 74 a une dimension de 1*12. Elle comprend ainsi six coordonnées en X et en Y correspondant à la prédiction par l’agent intelligent 20 d’une trajectoire en 6 points. Comme chaque couple de coordonnés en X et en Y représente une prédiction de 3 secondes, la trajectoire ainsi déterminée correspond à une séquence de temps de 18 secondes. Les données de conduite prédictive Predict de l’agent intelligent 20 comprennent ainsi cette troisième séquence de données de sortie 74.

Les moyens de transmission 23 de l’agent intelligent 20 sont adaptés pour transmettre les données de conduite prédictive Predict aux moyens de réception 13 du dispositif d’apprentissage 10. Ces moyens de réception 13 transmettent ensuite ces données de conduite prédictive Predict aux moyens de génération d’une pénalisation 14. Ces moyens de génération d’une pénalisation 14 comprennent des moyens de génération d’une pénalisation selon le critère d’imitation 141 et des moyens de génération d’une pénalisation selon le critère d’environnement 142. Les moyens de génération d’une pénalisation selon le critère d’imitation 141 sont adaptés pour pénaliser l’agent intelligent 20 à partir de la comparaison entres les données de conduite prédictive Predict et les données de conduite théorique Theoretical. Cette comparaison est destinée à réaliser une pénalisation selon le critère d’imitation 141. Les moyens de génération d’une pénalisation selon le critère d’imitation 141 comprennent une fonction de perte d’imitation MSE(Y,Ypredict), telle que MSE(Y,Ypredict) =, avec Y une trajectoire théorique, Ypredict une trajectoire prédictive donnée par l’agent intelligent et H un horizon de temps. La trajectoire théorique Y est obtenue à partir des données de conduite théorique Theoretical fournies par les moyens de génération 12 de données de conduite théorique. La trajectoire prédictive est obtenue à partir des données de conduite prédictive Predict fournies par les moyens de génération 22 de données de conduite prédictive de l’agent intelligent 20. La fonction de perte d’imitation MSE (Y, Ypredict) mesure ainsi une différence de trajectoire entre la trajectoire théorique provenant d’une expérience humaine et la trajectoire prédictive déduite par l’agent intelligent 20. Dans le cas particulier où la trajectoire théorique et la trajectoire prédictive se confondraient, l’agent intelligent 20 se comporterait exactement comme un être humain. Il n’y aurait donc pas besoin de pénalisation de cet agent intelligent 20 selon ce critère d’imitation.

Les moyens de génération d’une pénalisation selon le critère d’environnement 142 comprennent ici des moyens de génération d’une pénalisation utilisant un calcul selon une fonction de perte sociale 1421 et des moyens de génération d’une pénalisation utilisant un calcul selon une fonction de perte de route 1422. Les moyens de génération d’une pénalisation utilisant le calcul selon une fonction de perte sociale 1421 expriment l’idée que le véhicule virtuel 45 devrait rester distant de zones déjà occupées par d’autres acteurs virtuels 47A, 47B, 47C. L’objectif de ces moyens de génération d’une pénalisation selon une fonction de perte sociale 1421 est d’éviter des collisions en pénalisant spécifiquement le fonctionnement de l’agent intelligent 20 lorsque celui-ci est à proximité de ces autres acteurs virtuels 47A, 47B, 47C. Cette pénalisation est calculée à partir d’une fonction de perte socialedans laquelle le TrafficBoundingBoxes représente les trajectoires de n acteurs dans la portion de route virtuelle visée. Plus particulièrement, cette fonction de perte sociale est déterminée à partir d’un paramètre SI (pour « Social Interaction » en anglais). Ce paramètre SI reflète l’importance du champ répulsif généré par les autres acteurs virtuels 47A, 47B, 47C et qui entoure le véhicule virtuel 45. Il permet de donner une information sur les degrés de libertés disponibles au véhicule virtuel 45 pour manœuvrer. Ce paramètre SI existe pour appréhender la dynamique d’autres acteurs virtuels présents ou non dans la portion de route virtuelle visée. Ce paramètre SI diminue quand les autres acteurs virtuels sont éloignés du véhicule virtuel 45. SI est calculé à partir d’une fonction gaussienne 2D telle que pour un acteur donné :dans laquelle x et y sont des coordonnées du véhicule virtuel 45 en X et en Y à un instant donné, K un coefficient associé à cet acteur virtuel donné, x₀et y₀les coordonnées du centre de cet acteur virtuel au même instant donné, sigma_x la longueur de l’acteur virtuel, sigma_y la largeur de l’acteur virtuel, thêta l’angle de direction de l’acteur virtuel au même instant donné. En outre les paramètres a, b et c sont déterminés de sorte que :
-;
-;
-

Généralement, une scène de conduite comprend n acteurs virtuels. La fonction de perte sociale globale est alors la superposition des interactions individuelles desdits n acteurs virtuels. Cette fonction de perte sociale globale est exprimée par la fonctionavec;

En associant à chaque acteur n_iun coefficient K_iparticulier, il est possible de donner à chacun de ces acteurs un poids différent dans le calcul de perte sociale globale en fonction de la proximité de cet acteur avec le véhicule virtuel 45. On notera que les coordonnées x₀et y₀du centre d’un des acteurs n_i, sigma_x la longueur de cet autre acteur virtuel, sigma_y la largeur de cet autre acteur virtuel et thêta l’angle de direction de cet autre acteur virtuel sont fournis par les moyens de génération 11 du dispositif d’apprentissage 10.

Les moyens de génération d’une pénalisation selon le critère d’environnement 142 comprennent également des moyens de génération d’une pénalisation utilisant un calcul selon une fonction de perte de route 1422. Les moyens de génération d’une pénalisation utilisant le calcul selon une fonction de perte de route 1422 expriment l’idée que le véhicule virtuel 45 devrait rester distant de frontières virtuelles 43A, 43B. L’objectif de ces moyens de génération d’une pénalisation selon une fonction de perte de route 1422 est d’éviter des roulages sur des zones non prévues à cet effet qui pourraient entraîner, dans la réalité, des dommages au véhicule automobile autonome (crevaisons, chocs sur la carrosserie). Cette pénalisation est calculée à partir d’une fonction de perte de route, dans laquelle le RoadLayer représente les limites de roulage de ladite route virtuelle 41, 42. Les moyens de génération d’une pénalisation utilisant un calcul selon une fonction de perte de route 1422 sont déterminés selon les équations suivantes :
- si le véhicule virtuel 45 est sur la portion de route virtuelle 41, 42,
;
- si le véhicule virtuel 45 est au-dehors de la portion de route virtuelle 41, 42,

dans lesquelles d est la distance euclidienne entre le véhicule virtuel 45 et la limite de roulage la plus proche 43A, 43B dans la portion de route virtuelle 41, 42 et k un facteur de dégradation. Dans un mode de réalisation particulier, ce facteur de dégradation k est choisi de sorte à obtenir une atténuation de 90% à une distance de 1 mètre par rapport à la limite de roulage la plus proche 43A, 43B.

Cette fonction de perte de route 1422 estime ainsi la distance entre la trajectoire prédite et la frontière virtuelle 43A, 43B la plus proche. Cette fonction reçoit en entrée les coordonnées de cette trajectoire prédite et la cartographie 60 des risques de roulage.

Ainsi au final, la pénalisation globale Loss est déterminée de sorte que :++avec K1, K2 deux coefficients de pondération différents. Ces coefficients de pondérations sont déterminés en fonction du poids que l’on veut donner d’une part à la fonction de perte sociale et d’autre part à la fonction de perte de route dans le calcul général de la pénalisation globale.

Cette pénalisation globale Loss est transmise par les moyens de génération d’une pénalisation globale 14 aux moyens de réception 24 d’une pénalisation de l’agent intelligent 20. Une action sur la base de cette pénalisation globale 14 est effectuée sur les moyens de génération 22 de l’agent intelligent 20. Cette action a pour but de reconfigurer ledit agent intelligent 20 en modifiant ses règles internes de fonctionnement. Cette reconfiguration se fait sur la base d’une technique de rétropropagation du gradient. Cette technique a pour but de calculer un gradient d’erreur pour chaque neurone du réseau de neurones.

La figure 6 illustre les étapes de la méthode d’apprentissage pour l’apprentissage de l’agent intelligent 20 par le dispositif d’apprentissage 10. Dans une première étape E1, les moyens de génération 11 du dispositif d’apprentissage 10 génèrent des données d’entrée. Ces données d’entrée comprennent l’image 40 de la portion de ladite route virtuelle 41, 42 ainsi que la cartographie 50 des risques de collisions autour du véhicule virtuel 45 et la cartographie 60 des risques de roulage. Ces données d’entrée 40, 50, 60 sont transmises à des moyens de génération 12 de données de conduite théorique dans le dispositif d’apprentissage 10 et à des moyens de génération 22 de données de conduite prédictive dans l’agent intelligent 20. Des données de conduite théorique Theoretical et des données de conduite predictive Predict sont alors générées en parallèle dans des étapes E21 et E22. Dans une étape E3, les données de conduite prédictive Predict de l’agent intelligent 20 sont reçues par le dispositif d’apprentissage 10. Les données de conduite théorique Theoretical et les données de conduite prédictive Predict sont alors transmises aux moyens de génération d’une pénalisation 14. Dans une étape E4, ces moyens de génération génèrent la pénalisation globale Loss à partir de la pénalisation selon le critère d’imitation Imitation Loss et de la pénalisation selon le critère d’environnement Environment Loss. Cette pénalisation globale Loss est ensuite transmise à l’agent intelligent 20. Dans une étape E5, l’agent intelligent 20 est reconfiguré à partir de ladite pénalisation globale Loss.

La figure 7 représente un véhicule automobile autonome 80 comprenant un agent intelligent 20 ayant fait l’objet d’un apprentissage par la méthode d’apprentissage de la figure 6. Suite à cet apprentissage, l’agent intelligent 20 est embarqué dans ledit véhicule automobile autonome 80. Ce véhicule 80 comprend également une pluralité d’Unités de Contrôle Electronique ECU (pour « Electronic Control Unit » en anglais) 81, 82 et un premier réseau de communication 83 pour la communication entre l’agent intelligent 20 et le premier d’ECU 81 et une second réseau de communication 84 pour la communication entre l’agent intelligent 20 et le second ECU 82. Chaque ECU contrôle une ou plusieurs fonctions dans le véhicule. Par exemple, le premier ECU 81 permet de contrôler une caméra située à l’avant du véhicule automobile autonome 80. Dans un mode de réalisation particulier, cette caméra est adaptée pour mesurer les distances avec les autres acteurs réels (voitures, piétons, animaux, etc…) autour du véhicule automobile autonome 80. Cette mesure est une télédétection par laser ou LIDAR (pour « LIght Detection And Ranging » en anglais). La télédétection par laser est une technique de mesure à distance fondée sur l’analyse des propriétés d’un faisceau de lumière renvoyé vers son émetteur. Le premier ECU 81 est également adapté pour transmettre ces informations de distance à l’agent intelligent 20 par le réseau de communication 83 qui va alors les traiter pour piloter le véhicule automobile autonome 80 en conséquence. Un second ECU 82 contrôle une fonction de commande de la direction du véhicule automobile autonome 80. Ce second ECU 82 est adapté pour recevoir des données de commande de l’agent intelligent 20 pour piloter le véhicule automobile autonome 80. Ces données de commande sont transmises par le second réseau de communication 84. En variante, le premier réseau de communication 83 et le second réseau de communication 84 forment un seul réseau de communication dans le véhicule automobile autonome 80.

Dans un mode de réalisation particulier, l’agent intelligent 20 dans le véhicule automobile autonome 80 comprend un réseau de neurones convolutifs et/ou un réseau de neurones récurrents.

Ainsi, d’autres types de carte raster et/ou d’autres types de cartographie peuvent être générés par les moyens de génération 11. Par exemple, il est possible de générer une carte raster cible sur laquelle la trajectoire théorique est représentée par une pluralité de croix. Il est ainsi visuellement aisé de pouvoir comparer l’adéquation entre la trajectoire prédictive de l’agent intelligent et ladite trajectoire théorique.

Ainsi, des cartes raster comprenant des informations sur la vitesse et/ou l’accélération et/ou l’angle d’orientation des différents acteurs virtuels sont générées.

Claims

Méthode d’apprentissage pour un agent intelligent (20) destiné à être embarqué dans un véhicule automobile autonome (80) pour la conduite dudit véhicule automobile autonome, ladite méthode d’apprentissage comprenant :
- une étape de génération (E1) de données d’entrée (40, 50, 60) d’une portion de route virtuelle (41, 42) sur laquelle est destiné à rouler un véhicule virtuel (45), lesdites données d’entrée (40, 50, 60) comprenant au moins une image (40) de la portion de ladite route virtuelle (41, 42), lesdites données d’entrée (40, 50, 60) étant destinées à être transmises audit agent intelligent (20) ;
- une étape de réception (E3) de données de conduite prédictive (Predict) générées par ledit agent intelligent (20) pour la conduite dudit véhicule virtuel (45) sur ladite portion de route virtuelle (41, 42), lesdites données de conduite prédictive (Predict) ayant été générées par ledit agent intelligent (20) à partir des données d’entrée (40, 50, 60) ;
- une étape de génération d’une pénalisation (E4) adaptée pour pénaliser l’agent intelligent (20) à partir d’une comparaison entre les données de conduite prédictive (Predict) dudit agent intelligent (20) et des données de conduite théorique (Theoretical) adaptées pour représenter une conduite d’un opérateur humain sur ladite portion de route virtuelle (41, 42), ladite comparaison étant destinée à réaliser une pénalisation selon un critère d’imitation (Imitation Loss) ;
caractérisée en ce que les données d’entrée comprenant des données (50, 60) sur un environnement virtuel présent autour dudit véhicule virtuel (45), l’étape de génération d’une pénalisation (E4) est, en outre, réalisée selon un critère d’environnement (Environment Loss) tenant compte d’une proximité sociale dudit véhicule virtuel (45) et/ou d’une proximité dudit véhicule virtuel (45) avec des limites de roulage dans ledit environnement virtuel, la pénalisation selon le critère d’imitation (Imitation Loss) et la pénalisation selon le critère d’environnement (Environment Loss) constituant une pénalisation globale (Loss) de l’agent intelligent (20), telle que Loss = Imitation Loss + Environment Loss.
Méthode d’apprentissage selon la revendication 1, dans laquelle la pénalisation globale (Loss) est obtenue à partir d’une fonction de perte d’imitation MSE(Y,Ypredict ), telle que MSE(Y,Ypredict) =avec Y une trajectoire théorique, avec Ypredict une trajectoire prédictive donnée par l’agent intelligent (20) et H un horizon de temps.
Méthode d’apprentissage selon la revendication 1 ou la revendication 2, dans laquelle la pénalisation globale est obtenue à partir d’une fonction de perte socialeet/ou à partir d’une fonction de perte de route, dans lesquelles le TrafficBoundingBoxes représente les trajectoires de n acteurs dans la portion de route virtuelle (41, 42) et le RoadLayer représente les limites de roulage de ladite route virtuelle (41, 42).
Méthode d’apprentissage selon la revendication 3, dans laquelle la pénalisation globale (Loss) est déterminée de sorte que :++avec K1, K2 deux coefficients de pondération différents.
Méthode d’apprentissage selon l’une quelconque des revendications 3 ou 4 dans laquelle la fonction de perte sociale est déterminée à partir des équations suivantes :
-;
-;
-;
-;
-
dans lequel x et y sont des coordonnées du véhicule virtuel (45) à un instant donné, K_iun coefficient associé au ième acteur virtuel (47A, 47B, 47C), x₀et y₀des coordonnées du centre du ième acteur virtuel (47A, 47B, 47C), à cet instant donné, sigma_x la longueur du ième acteur virtuel (47A, 47B, 47C), sigma_y la largeur du ième acteur virtuel (47A, 47B, 47C), thêta l’angle de direction du ième acteur virtuel (47A, 47B, 47C) à cet instant donné.
Méthode d’apprentissage selon l’une quelconque des revendications 3 à 5, dans lequel la fonction de perte de route est déterminée
selon les équations suivantes :
- si le véhicule virtuel est sur la portion de route virtuelle,;
- si le véhicule virtuel est au-dehors de la portion de route virtuelle,;
dans lesquelles d est la distance euclidienne entre le véhicule virtuel (45) et la limite de roulage (43A, 43B) la plus proche dans la portion de route virtuelle et k est un facteur de dégradation.
Dispositif d’apprentissage pour un agent intelligent (20), ledit agent intelligent (20) étant destiné à être embarqué dans un véhicule automobile (80) autonome pour la conduite dudit véhicule automobile autonome, ledit dispositif d’apprentissage (10) comprenant :
- des moyens de génération (11) de données d’entrée (40, 50, 60) d’une portion de route virtuelle (41, 42) sur laquelle est destiné à rouler un véhicule virtuel (45), lesdites données d’entrée (40, 50, 60) comprenant au moins une image (40) de la portion de ladite route virtuelle (41, 42), lesdites données d’entrée (40, 50, 60) étant destinées à être transmises audit agent intelligent (20) ;
- des moyens de réception (13) de données de conduite prédictive (Predict) générées par ledit agent intelligent (20) pour la conduite dudit véhicule virtuel (45) sur ladite portion de route virtuelle (41, 42), lesdites données de conduite prédictive (Predict) ayant été générées par ledit agent intelligent (20) à partir des données d’entrée (40, 50, 60) ;
- des moyens de génération d’une pénalisation globale (14) adaptés pour pénaliser l’agent intelligent (20), lesdits moyens de génération d’une pénalisation globale (14) comprenant :
- des moyens de génération d’une pénalisation d’imitation (141) adaptée pour pénaliser ledit agent intelligent (20) à partir de la comparaison entre les données de conduite prédictive (Predict) dudit agent intelligent (20) et des données de conduite théorique (Theoretical) destinées à représenter une conduite d’un opérateur humain sur ladite portion de route virtuelle (41, 42), ladite comparaison étant destinée à réaliser une pénalisation selon un critère d’imitation (Imitation Loss) ;
- des moyens de génération d’une pénalisation (142) selon un critère d’environnement (Environment Loss), les données d’entrée (50, 60) comprenant des donnée sur un environnement virtuel présent autour dudit véhicule virtuel (45), lesdits moyens de génération d’une pénalisation (142) comprenant des moyens (1421) tenant compte d’une proximité sociale dudit véhicule virtuel (45) et/ou des moyens (1422) tenant compte d’une proximité dudit véhicule virtuel (45) avec des limites de roulage (43A, 43B) dans ledit environnement virtuel.
Véhicule automobile autonome adapté pour être conduit par un agent intelligent (20) ayant fait l’objet d’un apprentissage selon la méthode d’apprentissage selon l’une quelconque des revendications 1 à 6.
Véhicule automobile autonome selon la revendication 8, dans lequel l’agent intelligent (20) comprend un réseau de neurones convolutifs et/ou un réseau de neurones récurrents.