EP3425608B1

EP3425608B1 - Commande de signal de circulation utilisant de multiples catégories de q-learning

Info

Publication number: EP3425608B1
Application number: EP18179505.5A
Authority: EP
Inventors: Ying Liu; Lei Liu; Wei-Peng Chen
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-07-03
Filing date: 2018-06-25
Publication date: 2020-03-25
Anticipated expiration: 2038-06-25
Also published as: EP3425608A1

Claims

Système de commande de signal de circulation configuré pour commander des signaux de circulation (102) à une intersection (100), le système comprenant :
un magasin de données d'information (310) configuré pour stocker une pluralité de groupes de modèles de circulation, chaque groupe de modèles de circulation de la pluralité de groupes de modèles de circulation incluant des données de modèle de circulation historiques et se voyant attribuer une catégorie de Q-learning ; et

un agent (108) couplé au magasin de données d'information (310), l'agent étant configuré pour :
déterminer des premières données de circulation d'une intersection (100) ;

déterminer un premier groupe de modèles de circulation de la pluralité de groupes de modèles de circulation qui correspond aux premières données de circulation ;

déterminer une première catégorie de Q-learning qui correspond au premier groupe de modèles de circulation, la première catégorie de Q-learning étant associée à des premières données de circulation historiques, des premières données d'action historiques, et des premières données de récompense historiques ;

générer une première action de commande pour des signaux de circulation (102) à l'intersection (100) par le calcul d'une première récompense instantanée en utilisant les premières données de circulation historiques, les premières données d'action historiques, et les premières données de récompense historiques ;

déterminer des secondes données de circulation de l'intersection, les secondes données de circulation étant ultérieures dans le temps aux premières données de circulation ;

déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation ;

en réponse à une détermination que les secondes données de circulation correspondent au premier groupe de modèles de circulation, générer une deuxième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une deuxième récompense instantanée en utilisant les premières données de circulation historiques, les premières données d'action historiques, et les premières données de récompense historiques ; et

en réponse à une détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation :
déterminer un second groupe de modèles de circulation de la pluralité de groupes de modèles de circulation qui correspond aux secondes données de circulation ;

déterminer une seconde catégorie de Q-learning qui correspond au second groupe de modèles de circulation, la seconde catégorie de Q-learning étant associée à des secondes données de circulation historiques, des secondes données d'action historiques, et des secondes données de récompense historiques ; et

générer une troisième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une troisième récompense instantanée en utilisant les secondes données de circulation historiques, les secondes données d'action historiques, et les secondes données de récompense historiques.
Système selon la revendication 1, dans lequel l'agent (108) est configuré pour, en réponse à la détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation, mettre à jour le premier groupe de modèles de circulation avec les premières données de circulation.
Système selon la revendication 1, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation est basé au moins en partie sur une détermination que les secondes données de circulation se sont produites dans un nombre spécifique d'intervalles de temps consécutifs.
Système selon la revendication 1, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation est basé au moins en partie sur une détermination que les secondes données de circulation se sont produites avec une fréquence d'occurrence spécifiée.
Système selon la revendication 1, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation est basé au moins en partie sur une détermination que les secondes données de circulation se sont produites dans un certain pourcentage d'un nombre spécifique d'intervalles de temps consécutifs.
Système selon la revendication 1, dans lequel au moins un groupe de modèles de circulation de la pluralité de groupes de modèles de circulation est associé à un événement.
Procédé de commande de signaux de circulation (102) à une intersection (100), le procédé comprenant :
le regroupement de données de circulation historiques en une pluralité de groupes de modèles de circulation ;

la génération d'une pluralité de catégories de Q-learning, chaque catégorie de Q-learning de la pluralité de catégories de Q-learning correspondant à un groupe de modèles de circulation de la pluralité de groupes de modèles de circulation et chacune des catégories de Q-learning étant associée à des données de circulation historiques, des données d'action historiques, et des données de récompense historiques ;

la détermination d'une première catégorie de Q-learning de la pluralité de catégories de Q-learning à utiliser pour la commande de signaux de circulation (102) à une intersection (100) sur la base d'une correspondance entre des premières données de circulation de l'intersection (100) et un premier groupe de modèles de circulation correspondant à la première catégorie de Q-learning ;

la génération d'une première action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une première récompense instantanée en utilisant des premières données de circulation historiques associées à la première catégorie de Q-learning, des premières données d'action historiques associées à la première catégorie de Q-learning, et des premières données de récompense historiques associées à la première catégorie de Q-learning ;

la détermination de secondes données de circulation de l'intersection, les secondes données de circulation étant ultérieures dans le temps aux premières données de circulation ;

le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation ;

en réponse à une détermination que les secondes données de circulation correspondent au premier groupe de modèles de circulation, la génération d'une deuxième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une deuxième récompense instantanée en utilisant les premières données de circulation historiques, les premières données d'action historiques, et les premières données de récompense historiques ; et

en réponse à une détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation :
la détermination d'un second groupe de modèles de circulation de la pluralité de groupes de modèles de circulation qui correspond aux secondes données de circulation ;

la détermination d'une seconde catégorie de Q-learning qui correspond au second groupe de modèles de circulation, la seconde catégorie de Q-learning étant associée à des secondes données de circulation historiques, des secondes données d'action historiques, et des secondes données de récompense historiques ; et

la génération d'une troisième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une troisième récompense instantanée en utilisant les secondes données de circulation historiques, les secondes données d'action historiques, et les secondes données de récompense historiques.
Procédé selon la revendication 7, dans lequel le regroupement de données de circulation historiques inclut le regroupement de données de circulation historiques en groupes en fonction de longueurs de file d'attente des données historiques.
Procédé selon la revendication 7, dans lequel le regroupement de données de circulation historiques inclut le regroupement de données de circulation historiques en groupes en fonction de caractéristiques de modèle de circulation des données de circulation historiques.
Procédé selon la revendication 9, dans lequel les caractéristiques de modèle de circulation incluent un ou plusieurs seuils.
Procédé selon la revendication 10, dans lequel les un ou plusieurs seuils sont spécifiés par un humain.
Procédé selon la revendication 7, dans lequel le regroupement est réalisé de manière automatique.
Procédé selon la revendication 7, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation comprend le fait de déterminer si le second groupe de modèles de circulation s'est produit dans un nombre spécifique d'intervalles de temps consécutifs.
Procédé selon la revendication 7, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation comprend le fait de déterminer si le second groupe de modèles de circulation s'est produit avec une fréquence d'occurrence spécifiée.
Procédé selon la revendication 7, dans lequel le fait de déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation comprend le fait de déterminer si le second groupe de modèles de circulation s'est produit dans un certain pourcentage d'un nombre spécifique d'intervalles de temps consécutifs.
Procédé selon la revendication 7, comprenant en outre, en réponse à une détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation, la mise à jour du premier groupe de modèles de circulation avec les premières données de circulation.
Support de stockage lisible par ordinateur non transitoire (1006) stockant en son sein des instructions qui, en réponse à l'exécution par un processeur (1002), amènent le processeur (1002) à :
regrouper des données de circulation historiques en une pluralité de groupes de modèles de circulation ;

générer une pluralité de catégories de Q-learning, chaque catégorie de Q-learning de la pluralité de catégories de Q-learning correspondant à un groupe de modèles de circulation de la pluralité de groupes de modèles de circulation et chacune des catégories de Q-learning étant associée à des données de circulation historiques, des données d'action historiques, et des données de récompense historiques ;

déterminer une première catégorie de Q-learning de la pluralité de catégories de Q-learning à utiliser pour la commande de signaux de circulation (102) à une intersection (100) sur la base d'une correspondance entre des premières données de circulation de l'intersection et un premier groupe de modèles de circulation correspondant à la première catégorie de Q-learning ;

générer une première action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une première récompense instantanée en utilisant des premières données de circulation historiques associées à la première catégorie de Q-learning, des premières données d'action historiques associées à la première catégorie de Q-learning, et des premières données de récompense historiques associées à la première catégorie de Q-learning ;

déterminer des secondes données de circulation de l'intersection, les secondes données de circulation étant ultérieures dans le temps aux premières données de circulation ;

déterminer si les secondes données de circulation correspondent au premier groupe de modèles de circulation ;

en réponse à une détermination que les secondes données de circulation correspondent au premier groupe de modèles de circulation, générer une deuxième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une deuxième récompense instantanée en utilisant les premières données de circulation historiques, les premières données d'action historiques, et les premières données de récompense historiques ; et

en réponse à une détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation :
déterminer un second groupe de modèles de circulation de la pluralité de groupes de modèles de circulation qui correspond aux secondes données de circulation ;

déterminer une seconde catégorie de Q-learning qui correspond au second groupe de modèles de circulation, la seconde catégorie de Q-learning étant associée à des secondes données de circulation historiques, des secondes données d'action historiques, et des secondes données de récompense historiques ; et

générer une troisième action de commande pour les signaux de circulation (102) à l'intersection (100) par le calcul d'une troisième récompense instantanée en utilisant les secondes données de circulation historiques, les secondes données d'action historiques, et les secondes données de récompense historiques.
Support de stockage lisible par ordinateur non transitoire (1006) selon la revendication 17, stockant en outre en son sein des instructions qui, en réponse à l'exécution par le processeur (1002), amènent le processeur (1002) à, en réponse à la détermination que les secondes données de circulation ne correspondent pas au premier groupe de modèles de circulation, mettre à jour le premier groupe de modèles de circulation avec les premières données de circulation.