FR3125151A1

FR3125151A1 - Method and device for controlling a vehicle based on a prediction of a pedestrian's intention to cross a road

Info

Publication number: FR3125151A1
Application number: FR2107479A
Authority: FR
Inventors: Thibault Fouqueray; Lina Achaji; Thierno Hamadou Tahirou Barry
Original assignee: PSA Automobiles SA
Current assignee: PSA Automobiles SA
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2023-01-13

Abstract

La présente invention concerne un procédé et un dispositif de contrôle d’un véhicule (10). A cet effet, un modèle de prédiction d’une intention d’un piéton de traverser une route est appris à partir d’une première pluralité de séquences d’images virtuelles et d’une deuxième pluralité de séquences d’images réelles. Le modèle de prédiction appris est alimenté par une troisième pluralité d’images de l’environnement dans lequel évolue le véhicule (10) pour prédire une intention d’un piéton (12) de l’environnement (1) de traverser une route (11) sur laquelle circule le véhicule (10). Le véhicule (10) est alors contrôlé en fonction de la prédiction. Figure pour l’abrégé : Figure 1The present invention relates to a method and a device for controlling a vehicle (10). To this end, a model for predicting an intention of a pedestrian to cross a road is learned from a first plurality of sequences of virtual images and from a second plurality of sequences of real images. The learned prediction model is fed by a third plurality of images of the environment in which the vehicle (10) is moving to predict an intention of a pedestrian (12) of the environment (1) to cross a road (11 ) on which the vehicle (10) travels. The vehicle (10) is then controlled according to the prediction. Figure for abstract: Figure 1

Description

Method and device for controlling a vehicle based on a prediction of a pedestrian's intention to cross a road

L’invention concerne les procédés et dispositifs de contrôle d’un véhicule, par exemple un véhicule autonome, à partir d’une prédiction de l’intention d’un piéton de traverser une chaussée sur laquelle circule le véhicule.The invention relates to methods and devices for controlling a vehicle, for example an autonomous vehicle, based on a prediction of the intention of a pedestrian to cross a road on which the vehicle is traveling.

Arrière-plan technologiqueTechnology background

Le développement des technologies dans le domaine automobile permet aujourd’hui de concevoir des systèmes d’aide à la conduite de véhicules, éventuellement autonomes, qui tiennent compte de l’environnement routier dans lequel circulent ces véhicules. Ces systèmes permettent de contrôler un véhicule, par exemple selon un niveau d’autonomie déterminé.The development of technologies in the automotive field now makes it possible to design vehicle driving assistance systems, possibly autonomous, which take into account the road environment in which these vehicles travel. These systems make it possible to control a vehicle, for example according to a determined level of autonomy.

Pour cela, ces véhicules embarquent des calculateurs qui analysent des données capturées par des systèmes de capteurs embarqués de ces véhicules pour déterminer, notamment, si un piéton a l’intention de traverser les chaussées sur lesquelles circulent ces véhicules.To do this, these vehicles have computers on board that analyze data captured by on-board sensor systems of these vehicles to determine, in particular, whether a pedestrian intends to cross the roads on which these vehicles are traveling.

Déterminer l’intention qu’à un piéton de traverser une chaussée sur laquelle circule un véhicule revient à modéliser le contexte dans lequel le véhicule et le piéton évoluent tout en tenant compte des ressources matérielles embarquées du véhicule. En effet, il est nécessaire que l’intention d’un piéton soit déterminée en temps réel pour laisser un temps de réaction suffisant au conducteur d’un véhicule et/ou à un véhicule autonome pour changer de comportement si nécessaire.Determining the intention of a pedestrian to cross a road on which a vehicle is traveling amounts to modeling the context in which the vehicle and the pedestrian are moving while taking into account the material resources on board the vehicle. Indeed, it is necessary for the intention of a pedestrian to be determined in real time to allow sufficient reaction time for the driver of a vehicle and/or an autonomous vehicle to change behavior if necessary.

Il est connu des méthodes pour prédire l’intention d’un piéton de traverser une chaussée qui sont basées sur des modèles de classification mettant en œuvre des réseaux de neurones. Ces réseaux de neurones utilisent en entrée des images qui appartiennent à une base de données lors de l’apprentissage ou qui sont capturées par des systèmes de caméras dédiés et embarqués d’un véhicule. Utiliser de telles méthodes implique l’installation de cette ou ces systèmes de caméras dédiées sur le véhicule d’où un surcoût d’équipement. De plus, dans l’hypothèse où des systèmes de caméras embarquées du véhicule seraient adaptés pour produire des images requises en entrée de ces réseaux de neurones, la mise en œuvre de ces méthodes de prédiction de l’intention d’un piéton de traverser une chaussée impliquent de mettre en œuvre des algorithmes de traitement d’images pour extraire, notamment, des caractéristiques requises par ces réseaux de neurones.Methods are known for predicting the intention of a pedestrian to cross a roadway which are based on classification models implementing neural networks. These neural networks use as input images that belong to a database during learning or that are captured by dedicated camera systems on board a vehicle. Using such methods involves the installation of this or these dedicated camera systems on the vehicle, resulting in additional equipment costs. Moreover, in the event that the vehicle's on-board camera systems are adapted to produce the images required as input to these neural networks, the implementation of these methods for predicting the intention of a pedestrian to cross a pavement involve implementing image processing algorithms to extract, in particular, the characteristics required by these neural networks.

Les méthodes mises en œuvre par ces réseaux de neurones nécessitent un apprentissage du ou des modèles de prédiction exécutés, un tel apprentissage requérant un très grand nombre d’images décrivant une multitude de situations possibles. Obtenir un volume suffisant d’images pour un apprentissage complet du ou des modèles de prédiction est difficile à ce jour et très coûteux.The methods implemented by these neural networks require learning of the prediction model(s) executed, such learning requiring a very large number of images describing a multitude of possible situations. Obtaining a sufficient volume of images for a complete training of the prediction model(s) is difficult to date and very expensive.

Résumé de la présente inventionSummary of the present invention

Un objet de la présente invention est de résoudre au moins un des inconvénients de l’arrière-plan technologique.An object of the present invention is to solve at least one of the disadvantages of the technological background.

Un autre objet de la présente invention est d’améliorer l’apprentissage d’un modèle de prédiction de l’intention de traverser d’un piéton.Another object of the present invention is to improve the learning of a prediction model of the intention to cross of a pedestrian.

Un autre objet de la présente invention est d’améliorer la sécurité des véhicules, notamment autonomes.Another object of the present invention is to improve the safety of vehicles, in particular autonomous ones.

Selon un premier aspect, la présente invention concerne un procédé de contrôle d’un véhicule, le procédé étant mis en œuvre par au moins un processeur, le procédé comprenant les étapes suivantes :According to a first aspect, the present invention relates to a method for controlling a vehicle, the method being implemented by at least one processor, the method comprising the following steps:

- premier apprentissage d’un ensemble de paramètres d’un modèle de prédiction d’une intention d’un piéton de traverser une route à partir d’une première pluralité de séquences d’images virtuelles, chaque séquence d’image virtuelles comprenant une pluralité d’images virtuelles représentatives d’une scène virtuelle comprenant au moins un premier piéton et au moins une première route, la pluralité d’images virtuelles représentant une évolution de la scène virtuelle sur une première durée déterminée ;- first learning of a set of parameters of a model for predicting a pedestrian's intention to cross a road from a first plurality of virtual image sequences, each virtual image sequence comprising a plurality virtual images representative of a virtual scene comprising at least a first pedestrian and at least a first road, the plurality of virtual images representing an evolution of the virtual scene over a first determined duration;

- deuxième apprentissage de l’ensemble de paramètres appris lors du premier apprentissage à partir d’une deuxième pluralité de séquences d’images réelles, chaque séquence d’image réelles comprenant une pluralité d’images réelles représentatives d’une scène réelle comprenant au moins un deuxième piéton et au moins une deuxième route, la pluralité d’images réelles représentant une évolution de la scène réelle sur une deuxième durée déterminée ;- second learning of the set of parameters learned during the first learning from a second plurality of real image sequences, each real image sequence comprising a plurality of real images representative of a real scene comprising at least a second pedestrian and at least one second road, the plurality of real images representing an evolution of the real scene over a second determined duration;

- obtention d’une troisième pluralité d’images d’un environnement comprenant une route sur laquelle circule le véhicule ;- Obtaining a third plurality of images of an environment comprising a road on which the vehicle is traveling;

- prédiction d’une intention d’un piéton de l’environnement de traverser la route sur laquelle circule le véhicule par alimentation du modèle de prédiction appris lors du premier apprentissage et du deuxième apprentissage à partir de données représentatives de la troisième pluralité d’images ;- prediction of an intention of a pedestrian in the environment to cross the road on which the vehicle is traveling by supplying the prediction model learned during the first learning and the second learning from data representative of the third plurality of images ;

- contrôle du véhicule en fonction de la prédiction.- vehicle control according to the prediction.

Selon une variante, le procédé comprend en outre une étape de génération de la première pluralité de séquences d’images virtuelles à partir d’un simulateur de scènes virtuelles routières, le au moins un premier piéton étant représenté via une première boite englobante identifiée par un ensemble de coordonnées de deux points d’extrémité de la première boite englobante.According to a variant, the method further comprises a step of generating the first plurality of sequences of virtual images from a simulator of virtual road scenes, the at least one first pedestrian being represented via a first bounding box identified by a set of coordinates of two endpoints of the first bounding box.

Selon une autre variante, la deuxième pluralité de séquences d’images réelles est obtenue d’une base de données de séquences d’images réelles, le au moins un deuxième piéton étant représenté via une deuxième boite englobante identifiée par un ensemble de coordonnées de deux points d’extrémité de la deuxième boite englobante.According to another variant, the second plurality of real image sequences is obtained from a database of real image sequences, the at least one second pedestrian being represented via a second bounding box identified by a set of coordinates of two endpoints of the second bounding box.

Selon une variante supplémentaire, la troisième pluralité d’images est acquise par au moins une caméra embarquée dans le véhicule.According to an additional variant, the third plurality of images is acquired by at least one camera on board the vehicle.

Selon encore une variante, les étapes de premier apprentissage, deuxième apprentissage et de prédiction sont mises en œuvre par un réseau de neurones convolutif, dit réseau CNN, ou un réseau de neurones récurrent à mémoire court et long terme, dit réseau LSTM.According to yet another variant, the first learning, second learning and prediction steps are implemented by a convolutional neural network, called a CNN network, or a recurrent short- and long-term memory neural network, called an LSTM network.

Selon une variante additionnelle, l’ensemble de coefficients du modèle de prédiction appris lors du premier apprentissage est ajusté lors du deuxième apprentissage.According to an additional variant, the set of coefficients of the prediction model learned during the first learning is adjusted during the second learning.

Selon une autre variante, le contrôle du véhicule comprend une génération d’une alerte représentative d’un danger associé à l’intention prédite du piéton de traverser la route.According to another variant, the control of the vehicle comprises a generation of an alert representative of a danger associated with the predicted intention of the pedestrian to cross the road.

Selon un deuxième aspect, la présente invention concerne un dispositif de contrôle d’un véhicule, le dispositif comprenant une mémoire associée à un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de la présente invention.According to a second aspect, the present invention relates to a device for controlling a vehicle, the device comprising a memory associated with a processor configured for the implementation of the steps of the method according to the first aspect of the present invention.

Selon un troisième aspect, la présente invention concerne un système comprenant un dispositif tel que décrit ci-dessus selon le deuxième aspect de la présente invention et un véhicule, par exemple de type automobile, relié en communication sans fil au dispositif tel que décrit ci-dessus selon le deuxième aspect de la présente invention.According to a third aspect, the present invention relates to a system comprising a device as described above according to the second aspect of the present invention and a vehicle, for example of the automobile type, connected in wireless communication to the device as described below. above according to the second aspect of the present invention.

Selon un quatrième aspect, la présente invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de la présente invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur.According to a fourth aspect, the present invention relates to a computer program which comprises instructions adapted for the execution of the steps of the method according to the first aspect of the present invention, this in particular when the computer program is executed by at least one processor.

Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation, et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.Such a computer program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a partially compiled form, or in any other desirable form.

Selon un cinquième aspect, la présente invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de la présente invention.According to a fifth aspect, the present invention relates to a computer-readable recording medium on which is recorded a computer program comprising instructions for the execution of the steps of the method according to the first aspect of the present invention.

D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur.On the one hand, the recording medium can be any entity or device capable of storing the program. For example, the medium may comprise a storage means, such as a ROM memory, a CD-ROM or a ROM memory of the microelectronic circuit type, or even a magnetic recording means or a hard disk.

D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon la présente invention peut être en particulier téléchargé sur un réseau de type Internet.On the other hand, this recording medium can also be a transmissible medium such as an electrical or optical signal, such a signal being able to be conveyed via an electrical or optical cable, by conventional or hertzian radio or by self-directed laser beam or by other ways. The computer program according to the present invention can in particular be downloaded from an Internet-type network.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.Alternatively, the recording medium may be an integrated circuit in which the computer program is incorporated, the integrated circuit being adapted to execute or to be used in the execution of the method in question.

Brève description des figuresBrief description of figures

D’autres caractéristiques et avantages de la présente invention ressortiront de la description des exemples de réalisation particuliers et non limitatifs de la présente invention ci-après, en référence aux figures 1 à 4 annexées, sur lesquelles :Other characteristics and advantages of the present invention will emerge from the description of the particular and non-limiting examples of embodiments of the present invention below, with reference to the appended figures 1 to 4, in which:

illustre schématiquement un environnement d’un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention ; schematically illustrates an environment of a vehicle, according to a particular and non-limiting embodiment of the present invention;

illustre schématiquement un processus d’apprentissage d’un modèle de prédiction pour le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ; schematically illustrates a learning process of a prediction model for the vehicle of the , according to a particular and non-limiting embodiment of the present invention;

illustre schématiquement un dispositif configuré pour contrôler le véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention ; schematically illustrates a device configured to control the vehicle from the , according to a particular and non-limiting embodiment of the present invention;

illustre un organigramme des différentes étapes d’un procédé de contrôle du véhicule de la , selon un exemple de réalisation particulier et non limitatif de la présente invention. illustrates a flowchart of the different steps of a vehicle control method from the , according to a particular and non-limiting embodiment of the present invention.

Description des exemples de réalisationDescription of the examples of realization

Un procédé et un dispositif de contrôle d’un véhicule vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 4. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre.A method and a device for controlling a vehicle will now be described in what follows with reference to FIGS. 1 to 4. The same elements are identified with the same reference signs throughout the description which follows.

Selon un exemple particulier et non limitatif de réalisation de la présente invention, un procédé de contrôle d’un véhicule, par exemple un véhicule autonome ou semi-autonome, comprend un premier apprentissage d’un ensemble de paramètres d’un modèle de prédiction d’une intention d’un piéton de traverser une route à partir d’une première pluralité de séquences d’images virtuelles. Chaque séquence d’image virtuelles correspond par exemple à une séquence d’images virtuelles représentatives d’une scène virtuelle évoluant sur une durée déterminée (par exemple 1 ou 2 secondes) comprenant au moins un premier piéton et au moins une première route. L’ensemble de paramètres appris lors du premier apprentissage est alors appris, par exemple ajusté, lors d’un deuxième apprentissage à partir d’une deuxième pluralité de séquences d’images réelles. Chaque séquence d’image réelles correspond par exemple à une séquence d’images réelles représentatives d’une scène réelle évoluant sur une durée déterminée (par exemple 1 ou 2 secondes) et comprenant au moins un deuxième piéton et au moins une deuxième route. Le modèle de prédiction appris lors du premier apprentissage et du deuxième apprentissage est alimenté par une troisième pluralité d’images de l’environnement dans lequel évolue le véhicule pour prédire une intention d’un piéton de l’environnement de traverser une route sur laquelle circule le véhicule. Le véhicule est alors contrôlé en fonction de la prédiction.According to a particular and non-limiting embodiment of the present invention, a method for controlling a vehicle, for example an autonomous or semi-autonomous vehicle, comprises a first learning of a set of parameters of a prediction model of an intention of a pedestrian to cross a road from a first plurality of sequences of virtual images. Each sequence of virtual images corresponds for example to a sequence of virtual images representative of a virtual scene evolving over a determined duration (for example 1 or 2 seconds) comprising at least a first pedestrian and at least a first road. The set of parameters learned during the first learning is then learned, for example adjusted, during a second learning from a second plurality of real image sequences. Each sequence of real images corresponds for example to a sequence of real images representative of a real scene evolving over a determined duration (for example 1 or 2 seconds) and comprising at least one second pedestrian and at least one second road. The prediction model learned during the first learning and the second learning is fed by a third plurality of images of the environment in which the vehicle is moving to predict an intention of a pedestrian in the environment to cross a road on which the vehicle. The vehicle is then controlled according to the prediction.

L’utilisation d’images virtuelles permet d’augmenter fortement le nombre d’images nécessaires pour l’apprentissage d’un modèle de prédiction, l’apprentissage étant complété par des images réelles pour assurer la robustesse du modèle de prédiction. Le modèle appris est ainsi plus complet et plus robuste, ce qui améliorer la prédiction et la sécurité du véhicule contrôlé à partir des prédictions établies par le modèle.The use of virtual images makes it possible to greatly increase the number of images necessary for learning a prediction model, the learning being supplemented by real images to ensure the robustness of the prediction model. The learned model is thus more complete and more robust, which improves the prediction and the safety of the controlled vehicle from the predictions established by the model.

La illustre schématiquement un environnement dans lequel évolue un véhicule 10, selon un exemple de réalisation particulier et non limitatif de la présente invention.There schematically illustrates an environment in which a vehicle 10 moves, according to a particular and non-limiting embodiment of the present invention.

La illustre un véhicule 10 circulant dans un environnement routier comprenant une route 11 sur laquelle circule le véhicule 10.There illustrates a vehicle 10 traveling in a road environment comprising a road 11 on which the vehicle 10 is traveling.

Selon l’exemple de la , le véhicule 10 correspond à un véhicule automobile. Cependant, l’objet de l’invention ne se limite pas aux véhicules automobiles, mais s’étend à tout type de véhicule terrestre, par exemple un camion, un bus, une motocyclette.According to the example of , the vehicle 10 corresponds to a motor vehicle. However, the object of the invention is not limited to motor vehicles, but extends to any type of land vehicle, for example a truck, a bus, a motorcycle.

Le véhicule 10 correspond à un véhicule circulant sous la supervision totale d’un conducteur ou circulant dans un mode autonome ou semi-autonome. Le véhicule 10 circule selon un niveau d’autonomie égale à 0 ou selon un niveau d’autonomie allant de 1 à 5 par exemple, selon l’échelle définie par l’agence fédérale américaine qui a établi 5 niveaux d’autonomie allant de 1 à 5, le niveau 0 correspondant à un véhicule n’ayant aucune autonomie, dont la conduite est sous la supervision totale du conducteur, et le niveau 5 correspondant à un véhicule complètement autonome.The vehicle 10 corresponds to a vehicle circulating under the total supervision of a driver or circulating in an autonomous or semi-autonomous mode. The vehicle 10 circulates according to a level of autonomy equal to 0 or according to a level of autonomy ranging from 1 to 5 for example, according to the scale defined by the American federal agency which has established 5 levels of autonomy ranging from 1 to 5, level 0 corresponding to a vehicle with no autonomy, whose driving is under the full supervision of the driver, and level 5 corresponding to a completely autonomous vehicle.

Le véhicule 10 correspond par exemple à un véhicule équipé d’un ou plusieurs systèmes d’aide à la conduite, dit ADAS (de l’anglais « Advanced Driver-Assistance System » ou en français « Système d’aide à la conduite avancé »), un tel système étant configuré pour assister le conducteur du véhicule 10, voire remplacer le conducteur lorsque le véhicule 10 circule dans un mode autonome.The vehicle 10 corresponds for example to a vehicle equipped with one or more driving assistance systems, called ADAS (from the English “Advanced Driver-Assistance System” or in French “Advanced Driving Assistance System” ), such a system being configured to assist the driver of the vehicle 10, or even replace the driver when the vehicle 10 is traveling in an autonomous mode.

Selon un exemple particulier de réalisation, le véhicule 10 est configurés pour communiquer des données avec un dispositif distant 101 (correspondant par exemple à un serveur du « cloud » 100 (ou « nuage » en français)) via une connexion sans fil, par exemple selon un mode de communication véhicule vers tout, dit V2X (de l’anglais « Vehicle-to-Everything ») basé sur une connexion sans fil.According to a particular embodiment, the vehicle 10 is configured to communicate data with a remote device 101 (corresponding for example to a “cloud” server 100 (or “cloud” in French)) via a wireless connection, for example according to a vehicle-to-everything communication mode, called V2X (from the English “Vehicle-to-Everything”) based on a wireless connection.

Un tel mode de communication V2X est par exemple basé sur les standards 3GPP LTE-V ou IEEE 802.11p de ITS G5. Dans un tel système de communication V2X, chaque véhicule embarque un nœud pour permettre une communication de véhicule à véhicule V2V (de l’anglais « vehicle-to-vehicle »), de véhicule à infrastructure V2I (de l’anglais « vehicle-to-infrastructure ») et/ou de véhicule à piéton V2P (de l’anglais « vehicle-to-pedestrian »), les piétons étant équipés de dispositifs mobiles (par exemple un téléphone intelligent (de l’anglais « Smartphone »)) configurés pour communiquer avec les véhicules.Such a V2X communication mode is for example based on the 3GPP LTE-V or IEEE 802.11p standards of ITS G5. In such a V2X communication system, each vehicle embeds a node to allow communication from vehicle to vehicle V2V (from the English “vehicle-to-vehicle”), from vehicle to infrastructure V2I (from the English “vehicle-to- -infrastructure”) and/or vehicle-to-pedestrian V2P, the pedestrians being equipped with mobile devices (for example a smart phone (“Smartphone”)) configured to communicate with vehicles.

A cet effet, le véhicule 10 embarque un système de communication configuré pour communiquer et échanger des données avec le dispositif distant 101 via une infrastructure d’un réseau de communication sans fil.To this end, the vehicle 10 embeds a communication system configured to communicate and exchange data with the remote device 101 via an infrastructure of a wireless communication network.

Le système de communication du premier véhicule 10 comprend par exemple une ou plusieurs antennes de communication reliées à une unité de contrôle télématique, dite TCU (de l’anglais « Telematic Control Unit »), elle-même reliée à un ou plusieurs calculateurs du système embarqué du véhicule 10. La ou les antennes, l’unité TCU et le ou les calculateurs forment par exemple une architecture multiplexée pour la réalisation de différents services utiles pour le bon fonctionnement du véhicule et pour assister le conducteur et/ou les passagers du véhicule dans le contrôle du véhicule 10, par exemple en déterminant des paramètres cinématiques du véhicule 10 ou en déterminant les dangers potentiels dans l’environnement du véhicule 10. Le ou les calculateurs et l’unité TCU communiquent et échangent des données entre eux par l’intermédiaire d’un ou plusieurs bus informatiques, par exemple un bus de communication de type bus de données CAN (de l’anglais « Controller Area Network » ou en français « Réseau de contrôleurs »), CAN FD (de l’anglais « Controller Area Network Flexible Data-Rate » ou en français « Réseau de contrôleurs à débit de données flexible »), FlexRay (selon la norme ISO 17458) ou Ethernet (selon la norme ISO/IEC 802-3).The communication system of the first vehicle 10 comprises for example one or more communication antennas connected to a telematics control unit, called TCU (from the English "Telematic Control Unit"), itself connected to one or more computers of the system of the vehicle 10. The antenna(s), the TCU unit and the computer(s) form, for example, a multiplexed architecture for performing various services useful for the proper operation of the vehicle and for assisting the driver and/or passengers of the vehicle in the control of the vehicle 10, for example by determining the kinematic parameters of the vehicle 10 or by determining the potential dangers in the environment of the vehicle 10. The computer(s) and the unit TCU communicate and exchange data between them by the intermediary of one or more computer buses, for example a communication bus of the CAN data bus type (from the English “Controller Area Network” or in French “ Controller Network”), CAN FD (from English “Controller Area Network Flexible Data-Rate” or in French “Réseau de Contrôleurs à Flow de Data Flexible”), FlexRay (according to the ISO 17458 standard) or Ethernet (according to the ISO/IEC 802-3 standard).

L’infrastructure de communication mobile permettant la communication sans fil de données entre le véhicule 10 et le dispositif distant 101 11 comprend par exemple un ou plusieurs équipements de communication 110 de type antenne relais (réseau cellulaire) ou unité bord de route, dite UBR.The mobile communication infrastructure allowing wireless data communication between the vehicle 10 and the remote device 101 11 comprises for example one or more communication equipment 110 of the relay antenna type (cellular network) or roadside unit, called UBR.

Le système de communication sans fil permettant l’échange de données entre le véhicule 10 et le dispositif distant 101 correspond par exemple à :The wireless communication system allowing the exchange of data between the vehicle 10 and the remote device 101 corresponds for example to:

- un système de communication véhicule à infrastructure V2I (de l’anglais « vehicle-to-infrastructure »), par exemple basé sur les standards 3GPP LTE-V ou IEEE 802.11p de ITS G5 ; ou- a V2I vehicle-to-infrastructure communication system, for example based on the 3GPP LTE-V or IEEE 802.11p standards of ITS G5; Or

- un système de communication de type réseau cellulaire, par exemple un réseau de type LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) LTE 4G ou 5G ; oua communication system of the cellular network type, for example a network of the LTE type (from the English “Long-Term Evolution” or in French “Long-term Evolution”), LTE-Advanced (or in French LTE-advanced) 4G or 5G LTE; Or

- un système de communication de type Wifi selon IEEE 802.11, par exemple selon IEEE 802.11n ou IEEE 802.11ac.- A WiFi type communication system according to IEEE 802.11, for example according to IEEE 802.11n or IEEE 802.11ac.

Selon l’exemple de la , l’environnement routier 1 du véhicule 10 correspond à une portion de route à double sens de circulation. Cette portion de route comprend par exemple un passage pour piétons 120 permettant à un piéton 12 de traverser cette portion de route. Selon un autre exemple, le piéton 12 marche dans une zone de la route ne comprenant pas de passage pour piétons. Selon encore un autre exemple, plusieurs piétons sont présents dans l’environnement 1 dans lequel évolue le véhicule 10.According to the example of , the road environment 1 of the vehicle 10 corresponds to a portion of road with two-way traffic. This portion of road includes for example a pedestrian crossing 120 allowing a pedestrian 12 to cross this portion of road. According to another example, the pedestrian 12 is walking in an area of the road that does not include a pedestrian crossing. According to yet another example, several pedestrians are present in the environment 1 in which the vehicle 10 is moving.

Un processus de détermination de l’intention qu’a le piéton 12 de traverser la route 11 est avantageusement mis en œuvre par le véhicule 10, par le dispositif distant 101 ou par un système comprenant le véhicule 10 et le dispositif distant 101 reliés en communication sans fil.A process for determining the intention of the pedestrian 12 to cross the road 11 is advantageously implemented by the vehicle 10, by the remote device 101 or by a system comprising the vehicle 10 and the remote device 101 connected in communication wireless.

Un tel processus est avantageusement mis en œuvre par un réseau de neurones mettant en œuvre une méthode d’apprentissage automatique, aussi appelée méthode d’apprentissage machine (de l’anglais « machine learning »), par exemple une méthode d’apprentissage profond (de l’anglais « deep learning »).Such a process is advantageously implemented by a neural network implementing an automatic learning method, also called a machine learning method, for example a deep learning method ( from English “deep learning”).

Une telle méthode se base sur un ou plusieurs modèles de prédictions dont les paramètres ou coefficients ou été appris pendant une phase d’apprentissage.Such a method is based on one or more prediction models whose parameters or coefficients have been learned during a learning phase.

Selon un premier exemple, le réseau de neurones correspond à un réseau de neurones de type réseau neuronal convolutif, également appelé réseau de neurones convolutifs ou réseau de neurones à convolution et noté CNN ou ConvNet (de l’anglais « Convolutional Neural Networks »). Un tel réseau correspond à un réseau de neurones artificiels acycliques (de l’anglais « feed-forward »). Un tel réseau neuronal convolutif comprend une partie convolutive mettant en œuvre une ou plusieurs couches de convolution et une partie densément connectée mettant par exemple en œuvre une ou plusieurs couches de neurones densément connectées (ou entièrement connectés) assurant la classification des informations selon un modèle de type MLP (de l’anglais « Multi Layers Perceptron » ou en français « Perceptrons multicouches ») par exemple. Le réseau de neurones de type CNN permet de prédire temporellement l’intention d’au moins un piéton 12 de traverser une chaussée 11 sur laquelle circule le véhicule 10.According to a first example, the neural network corresponds to a neural network of the convolutional neural network type, also called convolutional neural network or convolutional neural network and denoted CNN or ConvNet (from the English “Convolutional Neural Networks”). Such a network corresponds to a network of acyclic artificial neurons (“feed-forward”). Such a convolutional neural network comprises a convolutional part implementing one or more convolution layers and a densely connected part implementing for example one or more layers of densely connected (or entirely connected) neurons ensuring the classification of information according to a model of MLP type (from the English “Multi Layers Perceptron” or in French “Perceptrons multicouches”) for example. The CNN-type neural network makes it possible to temporally predict the intention of at least one pedestrian 12 to cross a roadway 11 on which the vehicle 10 is traveling.

Selon un deuxième exemple, le réseau de neurones correspond à un réseau de neurones récurrent à mémoire court et long terme, dit réseau LSTM (de l’anglais « Long Short Term Memory »), un exemple d’un tel réseau LSTM étant décrit dans le document « Long short-term memory » publié par Sepp Hochreiter et Jürgen Schmidhuber, dans Neural Computation. 9 (8): 1735 1780.doi:10.1162/neco.1997.9.8. 1735. PMID 9377276. Un réseau de neurones de type LSTM est constitué de cellules (neurones) interconnectées interagissant non-linéairement. La sortie d'une cellule est une combinaison non linéaire de ses entrées. Un réseau de neurones de type LSTM est constitué de cellules (neurones) interconnectées interagissant non-linéairement. La sortie d'une cellule est une combinaison non linéaire de ses entrées. Le réseau de neurones de type LSTM permet de prédire temporellement l’intention d’au moins un piéton 12 de traverser une chaussée 11 sur laquelle circule le véhicule 10.According to a second example, the neural network corresponds to a recurrent neural network with short and long term memory, called LSTM network (from the English “Long Short Term Memory”), an example of such an LSTM network being described in the document “Long short-term memory” published by Sepp Hochreiter and Jürgen Schmidhuber, in Neural Computation. 9(8):1735 1780.doi:10.1162/neco.1997.9.8. 1735. PMID 9377276. An LSTM-like neural network is made up of interconnected cells (neurons) interacting non-linearly. The output of a cell is a nonlinear combination of its inputs. An LSTM type neural network is made up of interconnected cells (neurons) interacting non-linearly. The output of a cell is a nonlinear combination of its inputs. The LSTM-type neural network makes it possible to temporally predict the intention of at least one pedestrian 12 to cross a roadway 11 on which the vehicle 10 is traveling.

La détermination de la prédiction de l’intention du piéton 12 de traverser la chaussée 11 appartient plus généralement à un processus de contrôle du véhicule 10 en fonction du résultat de la prédiction. Le contrôle du véhicule 10 comprend par exemple la génération d’une alerte à l’intention du conducteur, notamment lorsque le véhicule 10 est sous la supervision du conducteur. Lorsque le véhicule 10 est dans un mode de conduite autonome ou semi-autonome, le contrôle du véhicule 10 comprend avantageusement le contrôle d’un ou plusieurs système ADAS du véhicule 10 en fonction du résultat de la prédiction.The determination of the prediction of the intention of the pedestrian 12 to cross the roadway 11 belongs more generally to a process of controlling the vehicle 10 according to the result of the prediction. The control of the vehicle 10 includes for example the generation of an alert intended for the driver, in particular when the vehicle 10 is under the supervision of the driver. When the vehicle 10 is in an autonomous or semi-autonomous driving mode, the control of the vehicle 10 advantageously comprises the control of one or more ADAS systems of the vehicle 10 according to the result of the prediction.

Le processus de contrôle du véhicule 10 comprend ainsi deux phases, chacune de ces phases comprenant une ou plusieurs opérations.The vehicle control process 10 thus comprises two phases, each of these phases comprising one or more operations.

La première phase correspond à une phase dite d’apprentissage ou d’entrainement d’un ou plusieurs modèles de prédiction de l’intention d’un piéton de traverser la route ou la chaussée et la deuxième phase correspond à une phase dite de production ou de prédiction basée sur le ou les modèles appris dans la phase d’apprentissage et de données alimentant le ou les modèles appris, le contrôle du véhicule 10 étant alors fonction du résultat de la prédiction.The first phase corresponds to a so-called learning or training phase of one or more models for predicting the intention of a pedestrian to cross the road or the roadway and the second phase corresponds to a so-called production or prediction based on the model or models learned in the learning phase and data feeding the learned model or models, the control of the vehicle 10 then being a function of the result of the prediction.

La première phase et la deuxième phase sont par exemple mises en œuvre par le dispositif distant 101.The first phase and the second phase are for example implemented by the remote device 101.

Selon une variante de réalisation, la première phase est mise en œuvre par le dispositif distant 101 et la deuxième phase par le premier véhicule 10, par exemple par un calculateur du système embarqué du premier véhicule 10.According to a variant embodiment, the first phase is implemented by the remote device 101 and the second phase by the first vehicle 10, for example by a computer of the on-board system of the first vehicle 10.

Selon une autre variante de réalisation, l’apprentissage est mis en œuvre dans la première phase et les paramètres du ou des modèles de prédiction sont affinés en temps réel à partir des données reçues pendant la deuxième phase par le véhicule 10 en fonction des situations rencontrées en temps réel par le véhicule 10.According to another variant embodiment, the learning is implemented in the first phase and the parameters of the prediction model or models are refined in real time from the data received during the second phase by the vehicle 10 according to the situations encountered. in real time by the vehicle 10.

La illustre schématiquement la phase d’apprentissage d’un ou plusieurs modèles de prédiction de l’intention d’un ou plusieurs piétons de traverser une route ou une chaussée, selon un exemple de réalisation particulier et non limitatif de la présente invention. La description de la phase d’apprentissage est faite en référence à l’apprentissage d’un unique modèle sans cependant s’y limiter, l’apprentissage pouvant être fait pour plusieurs modèles.There schematically illustrates the learning phase of one or more models for predicting the intention of one or more pedestrians to cross a road or a roadway, according to a particular and non-limiting exemplary embodiment of the present invention. The description of the learning phase is made with reference to the learning of a single model without however being limited thereto, the learning being able to be done for several models.

Dans une première opération de la phase d’apprentissage, un ensemble de paramètres d’un modèle de prédiction 201 d’une intention d’un piéton de traverser une route est appris à partir d’un grand nombre de séquences d’images virtuelles, par exemple 10000, 30000, 50000, 100000 séquences d’images virtuelles stockées dans une première base de données 21. Chaque séquence d’image virtuelle est avantageusement représentative d’un environnement virtuel comprenant un ou plusieurs piétons évoluant dans un environnement routiers virtuel créé par ordinateur.In a first operation of the learning phase, a set of parameters of a prediction model 201 of a pedestrian's intention to cross a road is learned from a large number of sequences of virtual images, for example 10000, 30000, 50000, 100000 virtual image sequences stored in a first database 21. Each virtual image sequence is advantageously representative of a virtual environment comprising one or more pedestrians moving in a virtual road environment created by computer.

Chaque piéton est avantageusement représenté par une boite englobante, par exemple défini par les coordonnées de deux de ses points d’extrémité. Par exemple, une boite englobante est définie ou représentée par un premier point correspondant au coin supérieur (gauche ou droit) et par un deuxième point correspondant au coin opposé au premier point, par exemple le coin inférieur (droit ou gauche respectivement).Each pedestrian is advantageously represented by a bounding box, for example defined by the coordinates of two of its end points. For example, a bounding box is defined or represented by a first point corresponding to the upper corner (left or right) and by a second point corresponding to the corner opposite the first point, for example the lower corner (right or left respectively).

Une étiquette (de l’anglais « label ») est par exemple associée à la boite englobante, cette étiquette décrivant pour chaque image si la boite englobante est présente sur la route (ou chaussée) ou non. Une telle étiquette est par exemple codée sur 1 bit, l’étiquette prenant par exemple la valeur ‘1’ lorsque la boite englobante est sur la route et la valeur ‘0’ lorsque la boite englobante n’est pas sur la route.A label is for example associated with the bounding box, this label describing for each image whether the bounding box is present on the road (or roadway) or not. Such a label is for example coded on 1 bit, the label taking for example the value '1' when the bounding box is on the road and the value '0' when the bounding box is not on the road.

Une séquence d’images correspond avantageusement à une suite temporelle d’images représentatives de l’évolution d’une scène virtuelle au cours d’une première période temporelle, d’une durée égale à par exemple 1, 2 ou 3 secondes.A sequence of images advantageously corresponds to a time sequence of images representative of the evolution of a virtual scene during a first time period, of a duration equal to for example 1, 2 or 3 seconds.

Une image virtuelle est aussi appelée image de synthèse et correspond à une image d’une scène virtuelle (par opposition à une scène réelle) générée ou créée par synthèse d’image à partir d’un ordinateur.A virtual image is also called a synthetic image and corresponds to an image of a virtual scene (as opposed to a real scene) generated or created by image synthesis from a computer.

La scène virtuelle comprend alors tous les éléments ou objets virtuels souhaités en fonction du but recherché, notamment une ou plusieurs routes et un ou plusieurs piétons pour l’apprentissage d’un modèle de prédiction de l’intention d’un piéton de traverser une chaussée.The virtual scene then comprises all the desired virtual elements or objects depending on the desired goal, in particular one or more roads and one or more pedestrians for learning a model for predicting the intention of a pedestrian to cross a roadway .

Le point de vue de chaque séquence d’images virtuelles est avantageusement choisi de manière à correspondre au point de vue d’une caméra réelle embarquée dans le véhicule 10 et configurée pour l’acquisition d’images de l’environnement situé devant le véhicule 10 lorsque ce dernier circule dans son environnement, par exemple l’environnement 1. Les paramètres de la caméra virtuelle associée aux images virtuelles correspondent avantageusement aux réglages et caractéristiques intrinsèques et extrinsèques de la caméra réelle embarquée dans le véhicule 10.The point of view of each sequence of virtual images is advantageously chosen so as to correspond to the point of view of a real camera on board the vehicle 10 and configured for the acquisition of images of the environment located in front of the vehicle 10 when the latter circulates in its environment, for example environment 1. The parameters of the virtual camera associated with the virtual images advantageously correspond to the intrinsic and extrinsic settings and characteristics of the real camera on board the vehicle 10.

Les séquences d’images virtuelles stockées en mémoire du dispositif distant 101 sont par exemple créées ou générées à partir d’un simulateur tel que le simulateur CARLA®, un tel simulateur étant configuré et conçu pour générer des objets numériques (objets d’environnement urbain et/ou routier, véhicule). Le simulateur CARLA® est par exemple décrit dans le document intitulé « CARLA: An Open Urban Driving Simulator » et publié par Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez et Vladlen Koltun dans CoRL 2017 (de l’anglais « 1st Conference on Robot Learning » ou en français « 1^èreconférence sur l’apprentissage robot »).The virtual image sequences stored in the memory of the remote device 101 are for example created or generated from a simulator such as the CARLA® simulator, such a simulator being configured and designed to generate digital objects (urban environment objects and/or road, vehicle). The CARLA® simulator is for example described in the document entitled "CARLA: An Open Urban Driving Simulator" and published by Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez and Vladlen Koltun in CoRL 2017 (from the English "1st Conference on Robot Learning” or in French “ ^1st conference on robot learning”).

Le nombre de séquences d’images virtuelles est aussi important que souhaité, les images étant générées par ordinateur, ce qui requiert moins de temps et de ressource que l’acquisition d’images réelles d’environnements réels via une ou plusieurs caméras.The number of virtual image sequences is as large as desired, the images being generated by computer, which requires less time and resources than the acquisition of real images of real environments via one or more cameras.

L’apprentissage mis en œuvre sur la base des séquences d’images virtuelles correspond avantageusement à un apprentissage non-supervisé ou à un apprentissage supervisé.The learning implemented on the basis of virtual image sequences advantageously corresponds to unsupervised learning or supervised learning.

L’apprentissage met par exemple en œuvre un algorithme d’apprentissage classique de réseau de neurones. Le principe d’un tel algorithme d’apprentissage est que le réseau de neurones apprend les valeurs des paramètres des neurones ou couches de neurones par rétropropagation d’un gradient de l’erreur, c’est-à-dire que l’algorithme calcule progressivement les valeurs des paramètres de manière à minimiser une fonction de coût pour chacune des neurones ou couches de neurones. Dans le cas d’un réseau de neurones convolutif, les paramètres des couches de neurones correspondent notamment à des coefficients de filtres de convolution utilisés pour analyser les images virtuelles et à des paramètres de la couche de neurones densément connectés permettant d’associer les caractéristiques des images issues de l’analyse pour les associer à chaque classe d’une pluralité de classes d’images avec un degré de probabilité pour chaque classe.Learning, for example, implements a classic neural network learning algorithm. The principle of such a learning algorithm is that the neural network learns the values of the parameters of the neurons or layers of neurons by backpropagation of an error gradient, i.e. the algorithm calculates progressively the values of the parameters so as to minimize a cost function for each of the neurons or layers of neurons. In the case of a convolutional neural network, the parameters of the layers of neurons correspond in particular to coefficients of convolution filters used to analyze the virtual images and to parameters of the layer of densely connected neurons making it possible to associate the characteristics of the images resulting from the analysis to associate them with each class of a plurality of classes of images with a degree of probability for each class.

Dans une deuxième opération de la phase d’apprentissage, l’ensemble de paramètres du modèle 201 appris lors de la première opération subit un deuxième apprentissage à partir d’un nombre déterminé de séquences d’images réelles, par exemple 1000 ou 2000 séquences d’images virtuelles stockées dans ou provenant d’une deuxième base de données 22. Ce deuxième apprentissage permet par exemple d’ajuster les valeurs des paramètres apprises dans la première opération en se basant cette fois-ci sur des séquences d’images réelles représentant des environnements réels comprenant un ou plusieurs piétons évoluant dans des environnements routiers réels.In a second operation of the learning phase, the set of parameters of the model 201 learned during the first operation undergoes a second learning from a determined number of sequences of real images, for example 1000 or 2000 sequences of virtual images stored in or originating from a second database 22. This second learning makes it possible, for example, to adjust the values of the parameters learned in the first operation, this time being based on sequences of real images representing real environments comprising one or more pedestrians moving in real road environments.

Le nombre de séquences d’images virtuelles de la première base de données 21 est avantageusement supérieur ou très supérieur au nombre de séquences d’images réelles de la deuxième base de données 22.The number of virtual image sequences of the first database 21 is advantageously greater or much greater than the number of real image sequences of the second database 22.

La base de données 22 correspond par exemple à une base de données d’estimation de l’intention d’un piéton, dite PIE (de l’anglais « Pedestrian Intention Estimation »), une telle base de données étant par exemple décrite dans le document intitulé « PIE: A Large-Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction » et publié par Amir Rasouli, Iuliia Kotseruba, Toni Kunic et John K. Tsotsos, ICCV 2019.The database 22 corresponds for example to a database for estimating the intention of a pedestrian, called PIE (from the English “Pedestrian Intention Estimation”), such a database being for example described in the document entitled “PIE: A Large-Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction” and published by Amir Rasouli, Iuliia Kotseruba, Toni Kunic and John K. Tsotsos, ICCV 2019.

Selon un autre exemple, la base de données 22 correspond à une base de données dite JAAD (de l’anglais « Joint Attention in Autonomous Driving » ou en français « Attention jointe en conduite autonome ») définie par Kotseruba et al. (Iuliia Kotseruba, Amir Rasouli, and John K Tsotsos, Joint attention in autonomous driving (jaad), arXiv preprint arXiv :1609.04741, 2016).According to another example, the database 22 corresponds to a so-called JAAD database (from the English “Joint Attention in Autonomous Driving” or in French “Joint Attention in Autonomous Driving”) defined by Kotseruba et al. (Iuliia Kotseruba, Amir Rasouli, and John K Tsotsos, Joint attention in autonomous driving (jaad), arXiv preprint arXiv:1609.04741, 2016).

Une séquence d’images correspond avantageusement à une suite temporelle d’images représentatives de l’évolution de la scène réelle au cours d’une deuxième période temporelle, d’une durée égale à par exemple 1, 2 ou 3 secondes. La première période temporelle est par exemple de même durée que la deuxième période temporelle.A sequence of images advantageously corresponds to a time sequence of images representative of the evolution of the real scene during a second time period, of a duration equal to for example 1, 2 or 3 seconds. The first time period is for example of the same duration as the second time period.

L’algorithme d’apprentissage mis en œuvre dans la deuxième opération est avantageusement le même que celui mis en œuvre dans la première opération et permet ainsi d’affiner les paramètres du modèle de prédiction 201 appris lors de la première opération.The learning algorithm implemented in the second operation is advantageously the same as that implemented in the first operation and thus makes it possible to refine the parameters of the prediction model 201 learned during the first operation.

Le format des données des images virtuelles stockées dans la première base de données 21 est avantageusement identique à celui des images réelles stockées dans la deuxième base de données 22.The data format of the virtual images stored in the first database 21 is advantageously identical to that of the real images stored in the second database 22.

Des tests ont montré que la précision des prédictions faites par un modèle appris uniquement à partir d’une base de données de séquences d’images réelles est de 84 % alors que la précision des prédictions faites par un modèle appris tel que décrit ci-dessus selon l’invention (à partir d’une base de données de séquences d’images virtuelles et d’une base de données d’images réelles) est de 87,1 %.Tests have shown that the accuracy of predictions made by a model learned only from a database of real image sequences is 84% while the accuracy of predictions made by a model learned as described above according to the invention (from a database of virtual image sequences and from a database of real images) is 87.1%.

A l’issue de la phase d’apprentissage, un modèle de prédiction de l’intention d’un piéton de traverser une route est obtenu, un tel modèle de prédiction étant mis en œuvre dans la phase de production (ou d’inférence) pour déterminer l’intention qu’a un piéton de traverser une route sur laquelle circule le véhicule 10, avec une avance (avant que le piéton ne commence à traverser) égale à la durée des séquences d’images utilisées pour l’apprentissage, par exemple 1 ou 2 secondes. Une telle avance permet ainsi au véhicule 10 d’anticiper le risque associé à la traversée de la route 11 par le piéton 12.At the end of the learning phase, a prediction model of the intention of a pedestrian to cross a road is obtained, such a prediction model being implemented in the production (or inference) phase. to determine the intention of a pedestrian to cross a road on which the vehicle 10 is traveling, with a lead (before the pedestrian begins to cross) equal to the duration of the sequences of images used for learning, by example 1 or 2 seconds. Such an advance thus allows the vehicle 10 to anticipate the risk associated with the crossing of the road 11 by the pedestrian 12.

Dans une première opération de la phase de production, un troisième ensemble d’images de l’environnement dans lequel circule le véhicule 10 est obtenu. Ce troisième ensemble d’images est avantageusement issu de l’acquisition de ces images par une caméra embarquée dans ou sur le véhicule 10, une telle caméra ayant dans son champ de vision l’environnement situé devant le véhicule 10 selon le sens de circulation du véhicule 10.In a first operation of the production phase, a third set of images of the environment in which the vehicle 10 is circulating is obtained. This third set of images is advantageously derived from the acquisition of these images by an on-board camera in or on the vehicle 10, such a camera having in its field of vision the environment located in front of the vehicle 10 according to the direction of movement of the vehicle 10.

Lorsque la phase de production est mise en œuvre par le véhicule 10 (par exemple par un calculateur du véhicule 10), ce troisième ensemble d’images est stocké dans une mémoire associée au calculateur avant d’être analysé. Dans un tel cas de figure, les paramètres représentatifs du modèle appris dans la phase d’apprentissage sont transmis par le dispositif distant 101 au véhicule 10 via la connexion sans fil pour que le véhicule 10 puisse mettre en œuvre le réseau de neurones appris.When the production phase is implemented by the vehicle 10 (for example by a computer of the vehicle 10), this third set of images is stored in a memory associated with the computer before being analyzed. In such a case, the parameters representative of the model learned in the learning phase are transmitted by the remote device 101 to the vehicle 10 via the wireless connection so that the vehicle 10 can implement the learned neural network.

Lorsque la phase de production est mise en œuvre par le dispositif distant 101, le troisième ensemble d’image est transmis par le véhicule 10 au dispositif distant 101 via la liaison sans fil et l’infrastructure réseau reliant le véhicule 10 au dispositif distant 101.When the production phase is implemented by the remote device 101, the third image set is transmitted by the vehicle 10 to the remote device 101 via the wireless link and the network infrastructure connecting the vehicle 10 to the remote device 101.

Dans une deuxième opération de la phase de production, les données représentatives de ce troisième ensemble d’images sont fournies en entrée du modèle de prédiction appris correspondant au même réseau de neurones que celui mis en œuvre pour la phase d’apprentissage. Les données représentatives de ce troisième ensemble d’images sont analysées pour en déterminer un ensemble de caractéristiques utilisé pour classifier les images et obtenir une prédiction quant à l’intention du piéton 12 de traverser ou non la route 11.In a second operation of the production phase, the data representative of this third set of images are provided as input to the learned prediction model corresponding to the same neural network as that implemented for the learning phase. The data representative of this third set of images are analyzed to determine a set of characteristics used to classify the images and obtain a prediction as to the intention of the pedestrian 12 to cross the road 11 or not.

Lors de la phase d’inférence, le réseau de neurones est ainsi identique au réseau de neurones en phase d’apprentissage, excepté que l’entrée du réseau de neurones n’est plus alimentée par une séquence temporelle d’images obtenues des bases de données 21 et 22 mais par une séquence temporelle d’images obtenues de la caméra embarquée dans le véhicule 10. Le réseau de neurones est ainsi capable de reproduire une prédiction temporelle de l’intention du piéton 12 de traverser la chaussée 11.During the inference phase, the neural network is thus identical to the neural network in the learning phase, except that the input of the neural network is no longer fed by a temporal sequence of images obtained from the databases. data 21 and 22 but by a temporal sequence of images obtained from the camera on board the vehicle 10. The neural network is thus capable of reproducing a temporal prediction of the intention of the pedestrian 12 to cross the roadway 11.

Dans une troisième opération de la phase de production, le véhicule 10 est contrôlé en fonction du résultat de la prédiction de la deuxième opération de la phase de production.In a third operation of the production phase, the vehicle 10 is controlled according to the result of the prediction of the second operation of the production phase.

Un tel contrôle correspond par exemple à la génération d’un message d’alerte (par le dispositif distant 101 ou par le véhicule 10) lorsque le résultat de la prédiction indique une probabilité supérieure à un seuil (par exemple supérieur à 70 ou 80 %) que le piéton 12 traverse la route 11 devant le véhicule 10. Un tel message est par exemple rendu dans l’habitacle du véhicule 10, par exemple sur un écran d’affichage et/ou via des haut-parleurs, pour alerter le conducteur du danger immédiat pour que le conducteur prenne les dispositions nécessaires (freinage ou évitement).Such a control corresponds for example to the generation of an alert message (by the remote device 101 or by the vehicle 10) when the result of the prediction indicates a probability greater than a threshold (for example greater than 70 or 80% ) that the pedestrian 12 crosses the road 11 in front of the vehicle 10. Such a message is for example rendered in the passenger compartment of the vehicle 10, for example on a display screen and/or via loudspeakers, to alert the driver of the immediate danger so that the driver can take the necessary measures (braking or avoidance).

Selon un autre exemple, le résultat de la prédiction entraine la génération d’une ou plusieurs requêtes à destination d’un ou plusieurs systèmes ADAS du véhicule 10 (par exemple lorsque le niveau d’autonomie courant du véhicule 10 est supérieur ou égal à 3 ou 4), pour que le véhicule 10 soit contrôlé automatiquement via ce ou ces systèmes ADAS pour éviter la collision avec le piéton 12 (par exemple activation du système de freinage du véhicule, réduction de la vitesse du véhicule, mise en œuvre d’une manœuvre d’évitement si aucun véhicule n’est détecté dans l’autre sens de circulation, etc.).According to another example, the result of the prediction leads to the generation of one or more requests intended for one or more ADAS systems of the vehicle 10 (for example when the current level of autonomy of the vehicle 10 is greater than or equal to 3 or 4), for vehicle 10 to be controlled automatically via such ADAS system(s) to avoid collision with pedestrian 12 (e.g. activation of vehicle braking system, reduction of vehicle speed, implementation of a evasive maneuver if no vehicle is detected in the opposite direction of traffic, etc.).

Lorsque la troisième opération est mise en œuvre par le dispositif distant 101, le message d’alerte généré et/ou les requêtes d’activation de système ADAS générées sont transmises par le dispositif distant 101 au véhicule 10 via la connexion sans fil les reliant.When the third operation is implemented by the remote device 101, the generated alert message and/or the generated ADAS system activation requests are transmitted by the remote device 101 to the vehicle 10 via the wireless connection connecting them.

Lorsque la troisième opération est mise en œuvre par le véhicule 10, le message d’alerte généré et/ou les requêtes d’activation de système ADAS générées par le calculateur en charge de la prédiction, ce calculateur transmet au(x) calculateur(s) des systèmes embarqués les requêtes générées pour que ces derniers mettent en œuvre les opérations demandées pour éviter la collision avec le piéton 12.When the third operation is implemented by the vehicle 10, the alert message generated and/or the ADAS system activation requests generated by the computer in charge of the prediction, this computer transmits to the computer(s) ) of the on-board systems the requests generated so that the latter implement the operations requested to avoid the collision with the pedestrian 12.

illustre schématiquement un dispositif 3 configuré pour le contrôle du véhicule 10, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le dispositif 3 correspond par exemple au dispositif distant 101 ou à un dispositif embarqué dans le véhicule 10, par exemple un calculateur. Le dispositif 3, notamment lorsque ce dernier correspond au dispositif distant 101, est configuré pour mettre en œuvre le processus d’apprentissage du réseau de neurones ainsi que le processus de prédiction de l’intention d’un piéton de traverser une route. schematically illustrates a device 3 configured for the control of the vehicle 10, according to a particular and non-limiting embodiment of the present invention. The device 3 corresponds for example to the remote device 101 or to a device on board the vehicle 10, for example a computer. The device 3, in particular when the latter corresponds to the remote device 101, is configured to implement the learning process of the neural network as well as the process of predicting the intention of a pedestrian to cross a road.

Le dispositif 3 est par exemple configuré pour la mise en œuvre des opérations décrites en regard des figures 1 et 2 et/ou des étapes du procédé décrit en regard de la . Des exemples d’un tel dispositif 3 comprennent, sans y être limités, un serveur, un ordinateur, un ordinateur portable, un équipement électronique embarqué tel qu’un ordinateur de bord d’un véhicule, un calculateur électronique tel qu’une UCE (« Unité de Commande Electronique »), un téléphone intelligent, une tablette. Les éléments du dispositif 3, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 3 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels.The device 3 is for example configured for the implementation of the operations described with regard to FIGS. 1 and 2 and/or of the steps of the method described with regard to the . Examples of such a device 3 include, but are not limited to, a server, a computer, a laptop, on-board electronic equipment such as a vehicle's on-board computer, an electronic calculator such as an ECU ( “Electronic Control Unit”), a smart phone, a tablet. The elements of device 3, individually or in combination, can be integrated in a single integrated circuit, in several integrated circuits, and/or in discrete components. The device 3 can be made in the form of electronic circuits or software (or computer) modules or else a combination of electronic circuits and software modules.

Le dispositif 3 comprend un (ou plusieurs) processeur(s) 30 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 3. Le processeur 30 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 3 comprend en outre au moins une mémoire 31 correspondant par exemple à une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique.The device 3 comprises one (or more) processor(s) 30 configured to execute instructions for carrying out the steps of the method and/or for executing the instructions of the software or software embedded in the device 3. The processor 30 can include integrated memory, an input/output interface, and various circuits known to those skilled in the art. The device 3 further comprises at least one memory 31 corresponding for example to a volatile and/or non-volatile memory and/or comprises a memory storage device which can comprise volatile and/or non-volatile memory, such as EEPROM, ROM , PROM, RAM, DRAM, SRAM, flash, magnetic or optical disk.

Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la mémoire 31.The computer code of the onboard software or software comprising the instructions to be loaded and executed by the processor is for example stored on the memory 31.

Selon différents exemples de réalisation particuliers et non limitatifs, le dispositif 3 est couplé en communication avec d’autres dispositifs ou systèmes similaires et/ou avec des dispositifs de communication, par exemple une TCU (de l’anglais « Telematic Control Unit » ou en français « Unité de Contrôle Télématique »), d’autres serveurs hébergeant les bases de données 21, 22, par exemple par l’intermédiaire d’un bus de communication ou au travers de ports d’entrée / sortie dédiés.According to various particular and non-limiting examples of embodiment, the device 3 is coupled in communication with other similar devices or systems and/or with communication devices, for example a TCU (from the English “Telematic Control Unit” or in French "Telematic Control Unit"), other servers hosting the databases 21, 22, for example via a communication bus or through dedicated input/output ports.

Selon un exemple de réalisation particulier et non limitatif, le dispositif 3 comprend un bloc 32 d’éléments d’interface pour communiquer avec des dispositifs externes, par exemple un serveur distant ou le « cloud ». Les éléments d’interface du bloc 32 comprennent une ou plusieurs des interfaces suivantes :According to a particular and non-limiting example of embodiment, the device 3 comprises a block 32 of interface elements for communicating with external devices, for example a remote server or the “cloud”. Block 32 interface elements include one or more of the following interfaces:

- interface radiofréquence RF, par exemple de type Wi-Fi® (selon IEEE 802.11), par exemple dans les bandes de fréquence à 2,4 ou 5 GHz, ou de type Bluetooth® (selon IEEE 802.15.1), dans la bande de fréquence à 2,4 GHz, ou de type Sigfox utilisant une technologie radio UBN (de l’anglais Ultra Narrow Band, en français bande ultra étroite), ou LoRa dans la bande de fréquence 868 MHz, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) ;- RF radio frequency interface, for example of the Wi-Fi® type (according to IEEE 802.11), for example in the 2.4 or 5 GHz frequency bands, or of the Bluetooth® type (according to IEEE 802.15.1), in the band frequency at 2.4 GHz, or of the Sigfox type using UBN radio technology (Ultra Narrow Band, in French ultra narrow band), or LoRa in the 868 MHz frequency band, LTE (from English " Long-Term Evolution” or in French “Evolution à long terme”), LTE-Advanced (or in French LTE-advanced);

- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ;- USB interface (from the English "Universal Serial Bus" or "Universal Serial Bus" in French);

- interface HDMI (de l’anglais « High Definition Multimedia Interface », ou « Interface Multimedia Haute Definition » en français) ;- HDMI interface (from the English “High Definition Multimedia Interface”, or “Interface Multimedia Haute Definition” in French);

- interface LIN (de l’anglais « Local Interconnect Network », ou en français « Réseau interconnecté local »).- LIN interface (from English “Local Interconnect Network”, or in French “Réseau interconnecté local”).

Des données sont par exemples chargées vers le dispositif 3 via l’interface du bloc 32 en utilisant un réseau Wi-Fi® tel que selon IEEE 802.11, un réseau ITS G5 basé sur IEEE 802.11p ou un réseau mobile tel qu’un réseau 4G (ou 5G) basé sur la norme LTE (de l’anglais Long Term Evolution) définie par le consortium 3GPP notamment un réseau LTE-V2X.Data are for example loaded to the device 3 via the interface of block 32 using a Wi-Fi® network such as according to IEEE 802.11, an ITS G5 network based on IEEE 802.11p or a mobile network such as a 4G network (or 5G) based on the LTE (Long Term Evolution) standard defined by the 3GPP consortium, in particular an LTE-V2X network.

Selon un autre exemple de réalisation particulier et non limitatif, le dispositif 3 comprend une interface de communication 33 qui permet d’établir une communication avec d’autres dispositifs (tels que d’autres calculateurs du système embarqué) via un canal de communication 330. L’interface de communication 33 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 330. L’interface de communication 33 correspond par exemple à un réseau filaire de type CAN (de l’anglais « Controller Area Network » ou en français « Réseau de contrôleurs »), CAN FD (de l’anglais « Controller Area Network Flexible Data-Rate » ou en français « Réseau de contrôleurs à débit de données flexible »), FlexRay (standardisé par la norme ISO 17458) ou Ethernet (standardisé par la norme ISO/IEC 802-3).According to another particular and non-limiting example of embodiment, the device 3 comprises a communication interface 33 which makes it possible to establish communication with other devices (such as other computers of the on-board system) via a communication channel 330. The communication interface 33 corresponds for example to a transmitter configured to transmit and receive information and/or data via the communication channel 330. The communication interface 33 corresponds for example to a CAN-type wired network (of the 'English "Controller Area Network" or in French "Réseau de Contrôleurs"), CAN FD (from English "Controller Area Network Flexible Data-Rate" or in French "Réseau de Contrôleurs à Flow de Data Flexible"), FlexRay ( standardized by ISO 17458) or Ethernet (standardized by ISO/IEC 802-3).

Selon un exemple de réalisation particulier et non limitatif, le dispositif 3 peut fournir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un écran d’affichage, tactile ou non, un ou des haut-parleurs et/ou d’autres périphériques (système de projection) via des interfaces de sortie respectives. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 3.According to a particular and non-limiting example of embodiment, the device 3 can provide output signals to one or more external devices, such as a display screen, touch-sensitive or not, one or more loudspeakers and/or other devices (projection system) through respective output interfaces. According to a variant, one or the other of the external devices is integrated into the device 3.

illustre un organigramme des différentes étapes d’un procédé de contrôle d’un véhicule 10, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le procédé est par exemple mis en œuvre par un dispositif embarqué dans le véhicule 10, par le dispositif distant 101 ou par un système comprenant le dispositif distant 101 et le dispositif embarqué dans le véhicule 10. illustrates a flowchart of the different steps of a method for controlling a vehicle 10, according to a particular and non-limiting embodiment of the present invention. The method is for example implemented by a device on board the vehicle 10, by the remote device 101 or by a system comprising the remote device 101 and the device on board the vehicle 10.

Dans une première étape 41, un premier apprentissage d’un ensemble de paramètres d’un modèle de prédiction d’une intention d’un piéton de traverser une route est mis en œuvre sur la base d’une première pluralité de séquences d’images virtuelles, chaque séquence d’image virtuelles comprenant une pluralité d’images virtuelles représentatives d’une scène virtuelle comprenant au moins un premier piéton et au moins une première route, la pluralité d’images virtuelles représentant une évolution de la scène virtuelle sur une première durée déterminée.In a first step 41, a first learning of a set of parameters of a model for predicting an intention of a pedestrian to cross a road is implemented on the basis of a first plurality of image sequences virtual, each sequence of virtual images comprising a plurality of virtual images representative of a virtual scene comprising at least a first pedestrian and at least a first road, the plurality of virtual images representing an evolution of the virtual scene over a first determined time.

Dans une deuxième étape 42, un deuxième apprentissage de l’ensemble de paramètres appris lors du premier apprentissage à partir d’une deuxième pluralité de séquences d’images réelles, chaque séquence d’image réelles comprenant une pluralité d’images réelles représentatives d’une scène réelle comprenant au moins un deuxième piéton et au moins une deuxième route, la pluralité d’images réelles représentant une évolution de la scène réelle sur une deuxième durée déterminée.In a second step 42, a second learning of the set of parameters learned during the first learning from a second plurality of real image sequences, each real image sequence comprising a plurality of real images representative of a real scene comprising at least one second pedestrian and at least one second road, the plurality of real images representing an evolution of the real scene over a second determined duration.

Dans une troisième étape 43, une troisième pluralité d’images d’un environnement comprenant une route sur laquelle circule le véhicule est obtenue, par exemple acquise par une caméra embarquée dans le véhicule.In a third step 43, a third plurality of images of an environment comprising a road on which the vehicle is traveling is obtained, for example acquired by a camera on board the vehicle.

Dans une quatrième étape 44, l’intention d’un piéton de l’environnement de traverser une route sur laquelle circule le véhicule est prédite par alimentation du modèle de prédiction appris lors du premier apprentissage et du deuxième apprentissage à partir de données représentatives de la troisième pluralité d’images.In a fourth step 44, the intention of a pedestrian in the environment to cross a road on which the vehicle is traveling is predicted by feeding the prediction model learned during the first learning and the second learning from data representative of the third plurality of images.

Dans une cinquième étape 45, le véhicule est contrôlé en fonction du résultat de la prédiction.In a fifth step 45, the vehicle is controlled according to the result of the prediction.

Selon une variante, les variantes et exemples des opérations décrits en relation avec les figures 1 et 2 s’appliquent aux étapes du procédé de la .According to a variant, the variants and examples of the operations described in relation to FIGS. 1 and 2 apply to the steps of the method of .

Bien entendu, la présente invention ne se limite pas aux exemples de réalisation décrits ci-avant mais s’étend à un procédé de détermination de l’intention d’un piéton de traverser une route qui inclurait des étapes secondaires sans pour cela sortir de la portée de la présente invention. Il en serait de même d’un dispositif configuré pour la mise en œuvre d’un tel procédé.Of course, the present invention is not limited to the exemplary embodiments described above but extends to a method for determining the intention of a pedestrian to cross a road which would include secondary stages without thereby leaving the scope of the present invention. The same would apply to a device configured for the implementation of such a method.

La présente invention concerne également un système comprenant un véhicule, par exemple automobile ou plus généralement un véhicule autonome à moteur terrestre, et un dispositif distant relié en communication sans fil au véhicule.The present invention also relates to a system comprising a vehicle, for example an automobile or more generally an autonomous terrestrial motor vehicle, and a remote device connected by wireless communication to the vehicle.

Claims

Method for controlling a vehicle (10), said method being implemented by at least one processor, said method comprising the following steps:
- first learning (41) of a set of parameters of a model (201) for predicting a pedestrian's intention to cross a road from a first plurality of sequences of virtual images (21), each sequence of virtual images comprising a plurality of virtual images representative of a virtual scene comprising at least a first pedestrian and at least a first road, said plurality of virtual images representing an evolution of said virtual scene over a first determined duration ;
- second learning (42) of said set of parameters learned during said first learning from a second plurality of real image sequences (22), each real image sequence comprising a plurality of real images representative of a scene real comprising at least one second pedestrian and at least one second road, said plurality of real images representing an evolution of said real scene over a second determined duration;
- obtaining (43) a third plurality of images of an environment (1) comprising a road (11) on which said vehicle (10) travels;
- prediction (44) of an intention of a pedestrian (12) of said environment (1) to cross the road (11) on which said vehicle (10) is traveling by feeding said prediction model (201) learned during said first learning and said second learning from data representative of said third plurality of images;
- control (45) of said vehicle according to said prediction (44).

Method according to claim 1, further comprising a step of generating said first plurality of sequences of virtual images (21) from a simulator of virtual road scenes, said at least one first pedestrian being represented via a first bounding box identified by a set of coordinates of two end points of said first bounding box.

A method according to claim 1 or 2, wherein said second plurality of real image sequences (22) is obtained from a database of real image sequences, said at least one second pedestrian being represented via a second bounding box identified by a set of coordinates of two end points of said second bounding box.

Method according to one of Claims 1 to 3, for which the said third plurality of images is acquired by at least one camera on board the said vehicle (10).

Method according to one of Claims 1 to 4, for which the steps of first learning (41), second learning (42) and prediction (44) are implemented by a convolutional neural network, called a CNN network, or a recurrent neural network with short and long term memory, known as the LSTM network.

Method according to one of claims 1 to 5, for which said set of coefficients of said prediction model learned during the first learning (41) is adjusted during the second learning (42).

Method according to one of claims 1 to 6, for which said control (45) of the vehicle (10) comprises generation of an alert representative of a danger associated with the predicted intention of the pedestrian (12) to cross the road (11).

Computer program comprising instructions for implementing the method according to any one of the preceding claims, when these instructions are executed by a processor.

Device (3) for controlling a vehicle, said device (3) comprising a memory (31) associated with at least one processor (30) configured for the implementation of the steps of the method according to any one of Claims 1 to 7.

A system comprising the device (3) according to claim 9 and a vehicle (10) connected in wireless communication to said device (3).