CN112863206B - 一种基于强化学习的交通信号灯控制方法与系统 - Google Patents

一种基于强化学习的交通信号灯控制方法与系统 Download PDF

Info

Publication number
CN112863206B
CN112863206B CN202110020458.3A CN202110020458A CN112863206B CN 112863206 B CN112863206 B CN 112863206B CN 202110020458 A CN202110020458 A CN 202110020458A CN 112863206 B CN112863206 B CN 112863206B
Authority
CN
China
Prior art keywords
observation information
sub
controller
phase
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110020458.3A
Other languages
English (en)
Other versions
CN112863206A (zh
Inventor
卢宗青
姜杰川
王兆植
徐冰妤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110020458.3A priority Critical patent/CN112863206B/zh
Publication of CN112863206A publication Critical patent/CN112863206A/zh
Application granted granted Critical
Publication of CN112863206B publication Critical patent/CN112863206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control

Abstract

本申请公开了一种基于强化学习的交通信号灯控制方法与系统,包括:S1,控制器根据局部观测信息和上层策略,从多个子策略中选择一个;S2,子策略根据局部观测信息,从多个相位中选择一个执行一个时间步;S3,控制器根据获取到的奖励和当前时间观测信息,更新子策略的参数;S4,更新后的子策略选择保持或更换相位,执行一个时间步;S5,控制器根据执行的时间步和周期的数量以及邻域观测信息,更新权重参数和上层策略,执行S1,或执行S3,或得到训练好的智能体;S6,使用训练好的智能体控制一个路口中的所有交通信号灯。能够在控制其自身对应的路口交通信号灯的同时,兼顾配合与其相邻的路口,进行协同合作,从而缩短全局车辆在路口的平均行驶时间。

Description

一种基于强化学习的交通信号灯控制方法与系统
技术领域
本申涉及人工智能领域,尤其涉及一种基于强化学习的交通信号灯控制方法与系统。
背景技术
交通信号灯对于交通动作情景的协调是决定运输效率的关键因素。然而现有的大部分传统交通灯控制算法很大程度上依赖于预先定义好的规则和假设,这显然不够智能化。
强化学习(Reinforcement Learning)是机器学习里面的一个分支,主要包含四个元素:智能体(Agent)、环境状态(State)、行动(Action)和奖励(Reward)。奖励是环境提供给智能体的一个可量化的标量反馈信号,用于评价智能体在某一个时间步(Time Step)所做行动的好坏。强化学习的目标是获得最多的累计奖励。强化学习是控制一个能够在某个环境下自主行动的智能体,通过和环境之间的互动,不断改进它的行为。强化学习问题包括学习如何做、如何将环境映射为行动,从而获得最大的奖励。在强化学习中,学习器是一个制定决策的智能体,它不会被告知该执行什么动作,而是经过反复尝试运行,来发现能获得最大奖励的行为。一般情况下,行动不仅会影响当前的奖励,而且会影响下个时间点的环境,因此也会影响后续所有的奖励。一个完整的强化学习过程是让智能体实现从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,在不断的尝试中更新自己的行为,从而一步步学习如何操自己的行为得到高分,最后找到规律,学会了达到目的的方法。
近年来,研究者们将深度强化学习应用到了交通灯控制任务中,并且取得了相比传统控制方法更好的效果。但是目前很多的基于强化学习的控制算法的优化目标和交通灯控制任务与的最终目标并不相符。交通灯控制的最终目标为全局的在时间维度上的统计量,然而很多基于强化学习的控制算法都单独地控制各个交通信号灯。
综上所述,需要提供一种能够进行协同合作,控制交通信号灯,从而缩短全局车辆在路口的平均行驶时间的基于强化学习的交通信号灯控制方法与系统。
发明内容
为解决以上问题,本申请提出了一种基于强化学习的交通信号灯控制方法与系统。
一方面,本申请提出一种基于强化学习的交通信号灯控制方法,其应用于环境中的每个智能体,智能体包括控制器和多个子策略,包括:
S1,控制器根据局部观测信息和上层策略,从多个子策略中选择一个;
S2,所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步;
S3,所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数;
S4,更新后的所述子策略选择保持或更换所述相位,执行一个时间步;
S5,所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和所述上层策略,执行S1;或执行S3;或得到训练好的所述智能体;
S6,使用训练好的所述智能体控制一个路口中的所有交通信号灯。
优选地,所述控制器根据局部观测信息和上层策略,从多个子策略中选择一个,包括:
控制器获取与其对应的局部观测信息;
所述控制器根据上层策略和所述局部观测信息,从三个子策略中选择一个,其中,三个子策略包括:队列优化子策略、等待优化子策略和延迟优化子策略。
优选地,所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步,包括:
所述子策略根据所述控制器获取的所述局部观测信息,从五个相位中选择一个相位,执行一个时间步。
优选地,所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数,包括:
控制器根据执行的所述子策略,获得与子策略对应的一种奖励,所述奖励包括:队列奖励、等待奖励和延迟奖励;
控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息;
使用强化学习算法更新与执行的所述子策略对应的子策略参数,所述子策略参数包括:队列参数、等待参数和延迟参数。
优选地,所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和所述上层策略,执行S1;或执行S3;或得到训练好的所述智能体,包括:
若已执行的所述时间步的数量等于步阈值,且执行的周期的数量小于周期阈值,则所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,执行S1;
若已执行的所述时间步的数量小于步阈值,则执行S3;
若所述时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体。
优选地,所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,包括:
所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型;
所述控制器根据更新后的所述局部值函数模型和邻域值函数模型,使用策略梯度方法更新上层策略模型参数;
根据所述上层策略模型参数,更新权重参数;
根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数,更新所述上层策略。
优选地,所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型,包括:
所述控制器获取当前时间步的局部观测信息;
所述控制器将此周期获取到的所有奖励作为局部奖励;
所述控制器根据所述局部观测信息和局部奖励,更新局部值函数模型;
所述控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息;
所述控制器将所述局部观测信息与邻近观测信息拼合,得到邻域观测信息;
所述控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励;
所述控制器根据所述邻域观测信息和邻近奖励,更新邻域值函数模型。
优选地,在S1之前,还包括:
初始化环境中的智能体,上层策略和权重参数。
优选地,所述五个相位包括:相位零、相位一、相位二、相位三和相位四;
其中相位一、相位二、相位三和相位四构成相位循环;
更换所述相位时,按照固定方向更换所述相位;
每次确定更换相位后,将下一个相位作为目标相位;
在更换到所述目标相位之前,先选择相位零,执行多个时间步;
更换相位至所述目标相位。
第二方面,本申请提出一种基于强化学习的交通信号灯控制系统,智能体包括:
控制器,用于获取环境的局部观测信息和邻域观测信息,根据上层策略周期选择子策略,直至该周期的执行数量达到周期阈值,结束;根据执行的所述时间步的数量和周期的数量以及邻域观测信息,更新权重参数和所述上层策略,得到训练好的所述智能体;
多个子策略,用于根据环境的观察信息选择相位,执行动作,得到动作奖励;根据获取到的奖励和当前时间观测信息,更新所述子策略的参数。
本申请的优点在于:通过获取局部观测信息在每个时间步均更新子策略参数,每个周期根据邻域观测信息更新权重参数和所述上层策略,能够得到与其相邻的多个路口的观测信息,通过更新权重参数,调整局部和邻近的权重,从而在控制其自身对应的路口交通信号灯的同时,兼顾配合与其相邻的路口,进行协同合作,从而缩短全局车辆在路口的平均行驶时间。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种基于强化学习的交通信号灯控制方法的步骤示意图;
图2是本申请提供的一种基于强化学习的交通信号灯控制方法的相邻路口的示意图;
图3是本申请提供的一种基于强化学习的交通信号灯控制方法的路口车辆动作的示意图;
图4是本申请提供的一种基于强化学习的交通信号灯控制方法的相位的示意图;
图5是本申请提供的一种基于强化学习的交通信号灯控制方法的示意图;
图6是本申请提供的一种基于强化学习的交通信号灯控制系统的智能体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种方法,如图1所示,包括:
S1,控制器根据局部观测信息和上层策略,从多个子策略中选择一个;
S2,所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步;
S3,所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数;
S4,更新后的所述子策略选择保持或更换所述相位,执行一个时间步;
S5,所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和上层策略,执行S1;或执行S3;或得到训练好的所述智能体;
S6,使用训练好的所述智能体控制一个路口中的所有交通信号灯。
邻的路口的观测信息和奖励进行对应的更新,但是所有的策略以及其参数对于环境中的所有智能体都是共享的。智能体能够获取与其相邻的路口的观测信息、与其相邻的路口对应的智能体所执行的子策略和相位以及获得的奖励。如图2所示,路口B、路口C、路口D和路口E均为路口A的相邻路口,所以路口A对应的智能体能够获取路口B、路口C、路口D和路口E的观测信息作为邻近观测信息,还可以获取与路口B、路口C、路口D和路口E所对应的每个智能体所执行的子策略和相位以及获得的奖励,这些奖励作为邻近奖励。
控制器根据观测信息和上层策略,从多个子策略中选择一个,包括:控制器获取与其对应的局部观测信息;控制器根据上层策略和局部观测信息,从三个子策略中选择一个,其中,三个子策略包括:队列优化子策略、等待优化子策略和延迟优化子策略。
子策略根据局部观测信息,从多个相位中选择一个执行一个时间步,包括:子策略根据控制器获取的局部观测信息,从五个相位中选择一个相位,执行一个时间步。
控制器根据获取到的奖励和当前时间观测信息,更新子策略的参数,包括:控制器根据执行的子策略,获得与子策略对应的一种奖励,奖励包括:队列奖励、等待奖励和延迟奖励;控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息;使用强化学习算法,如深度Q网络(Deep Q-Learning Network,DQN),更新与执行的子策略对应的子策略参数,子策略参数包括:队列参数、等待参数和延迟参数。
控制器根据执行的时间步的数量、周期的数量和邻域观测信息,更新权重参数和上层策略,执行S1,或执行S3;或得到训练好的智能体,包括:若已执行的时间步的数量等于步阈值,且执行的周期的数量小于周期阈值,则控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数,执行S1;若已执行的时间步的数量小于步阈值,则执行S3;若时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体。
控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数,包括:控制器根据局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型;控制器根据更新后的局部值函数模型和邻域值函数模型,使用策略梯度方法更新上层策略模型参数;根据上层策略模型参数,更新权重参数;根据更新后的局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数,更新上层策略。
控制器根据局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型,包括:控制器获取当前时间步的局部观测信息;控制器将此周期获取到的所有奖励作为局部奖励;控制器根据局部奖励和局部观测信息,更新局部值函数模型;控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息;控制器将所述局部观测信息与邻近观测信息拼合,得到邻域观测信息;控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励;控制器根据邻域观测信息和邻近奖励,更新邻域值函数模型。拼合包括:合并或拼接等。
在S1之前,还包括:初始化环境中的智能体,上层策略和权重参数。
五个相位包括:相位零、相位一、相位二、相位三和相位四;其中相位一、相位二、相位三和相位四构成相位循环;更换相位时,按照固定方向更换相位;每次确定更换相位后,将下一个相位作为目标相位;在更换到目标相位之前,先选择相位零,执行多个时间步;更换相位至目标相位。其中,在更换到目标相位之前,优选地,先选择相位零,执行3个时间步。
局部值函数模型和邻域值函数模型均在训练时使用,最终得到的训练好的智能体不包括局部值函数模型和邻域值函数模型。最终得到的训练好的智能体包括训练好的上层策略和权重参数,能够根据局部观测信息和邻域观测信息对子策略和相位进行调整。
强化学习算法包括:近端策略优化(Proximal Policy Optimization,PPO)算法、Q-learning、策略梯度(Policy Gradient)算法和信任区域策略化(Trust Region PolicyOptimization,TRPO)算法等。
每个周期包括T个时间步。步阈值等于T的数量。步阈值和周期阈值可以根据需要进行设定。
环境中各智能体的步阈值和周期阈值都是相同的。
同一环境中的所有智能体的初始化、执行动作获取奖励、更新等动作,都可以是同时进行的。
每次交互,环境中的每个智能体的控制器都会在自己(控制器所对应的智能体)所拥有的多个子策略中,选择一个子策略。
环境中智能体中的控制器和各子策略的初始化,只在第一次进行,即,只在智能体在环境中第一次运行之前,进行智能体中的控制器和各子策略的初始化,还初始化智能体奖励等,之后不再初始化智能体的控制器和各子策略。
如3所示,路口包含四个进入方向和四个离开方向,每个进入方向包含三个车道,从内到外分别表示左转、直行、右转车道。
本申请实施方式定义了路口车辆的十二种动作,从m0到m11,如图3所示。由于部分车辆动作是冲突的,例如m1和m3,所以在同一个相位中只能存在互不冲突的车辆动作。对于一个四方向的路口,如图4所示,定义了五种相位phase,其中,不同路口的相位设定可能不同。相位零(phase0)包括m2、m5、m8、m11;相位一(phase1)包括m1、m2、m5、m7、m8、m11;相位二(phase2)包括m0、m2、m5、m6、m8、m11;相位三(phase3)包括m2、m4、m5、m8、m10、m11;相位四(phase4)包括m2、m3、m5、m8、m9、m11。相位循环如图4所示,其中整个循环过程包含phase1到phase4,在相位改变时加入phase0,用黄色信号灯指示。
车辆的行驶时间定义为车辆从进入到离开特定路网所消耗的时间,路网全局的车辆平均行驶时间通常用来作为交通信号灯控制算法表现的评价指标。本申请的实施方式用于在一个交通路网中,存在多个路口,在每个时间步,交通信号灯根据控制算法作出决策,引导路网中的车辆行驶。控制算法的目标是最小化全局车辆平均行驶时间。
下面,对本申请实施例进行进一步说明,如图5所示。
本申请的实施方式训练了一个分层结构的交通信号灯协作控制器,用于对每个路口的信号灯进行控制。在上层结构中,将每个路口视作一个智能体,采用actor-critic强化学习方法,并且引入多重评价器,去联合优化每个路口局部的平均等待时间和邻近路口的平均等待时间。控制器用两个值网络:局部值网络Vl(o;φl)和邻近值网络
Figure BDA0002888340990000091
分别去近似在上层策略π(ac|o;φπ)下的路口局部平均行驶时间和相邻路口平均行驶时间值函数。其中ac为控制器的行动,即在接下来的T个时间步内下层选用哪种特定的子策略与环境交互,o为智能体对于路口局部的观测(局部观测信息),为当前相位、下一相位和进车道中车辆数量向量的拼合;其中,下一相位由相位循环所决定。
Figure BDA0002888340990000092
为邻域观测信息,即为智能体对于路口局部观测(局部观测信息)和邻近路口观测(邻近观测信息)的拼合,如图2所示,路口A的
Figure BDA0002888340990000093
为路口A、B、C、D和E的观测拼合。两个值网络以及上层策略分别以局部值函数模型φl、邻域值函数模型φn和上层策略模型参数φπ作为参数。由于邻近值网络Vn需要学习相邻路口平均行驶时间值函数,用
Figure BDA0002888340990000094
代替o作为输入可以使得邻近值网络Vn的近似更为精确。进而上层策略π(ac|o;φπ)的策略梯度为:
Figure BDA0002888340990000095
其中δl=rl+Vl(o′;l)-Vl(o;φl),
Figure BDA0002888340990000096
其中,o′、
Figure BDA0002888340990000097
分别表示下一次的观测o、
Figure BDA0002888340990000098
w为权重参数。δl和δn分别为Vl和Vn的优势函数,γ为折现率。
分别最小化以下两个损失函数
Figure BDA0002888340990000099
Figure BDA00028883409900000910
来更新φl和φn
Figure BDA00028883409900000911
Figure BDA00028883409900000912
控制器将此周期在与其对应的路口中获取到的所有奖励作为局部奖励rl,与局部观测信息o一起,更新局部值函数模型φl。控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励rn,与局部观测信息和邻近观测信息的拼合
Figure BDA00028883409900000913
(邻域观测信息)一起,更新邻域值函数模型φn
本申请的实施方式根据上层策略去选择下层使用哪种子策略去直接优化特定的目标,整体结构如图5所示。
在下层,本申请实施方式提出了三种子策略,分别为用于直接优化队伍长度的队列优化子策略、优化等待时间的等待优化子策略和优化延迟的延迟优化子策略。假设路网中有
Figure BDA0002888340990000101
个路口,在每个时间步,每个智能体的子策略得到的观测为o,根据子策略采取的行动为as,表用于示在下一个时间步继续停留在当前相位或者改变到下一相位。三种子策略的奖励分别为队伍长度、等待时间和延迟求和的相反数,分别标记为队列奖励rq、等待奖励rw和延迟奖励rd。队伍长度为进车道上等待车辆的总数,等待时间为车辆在等待位置消耗的总时间,延迟为车辆经过路口消耗的时间减去假定以最快速度通过路口的时间。这三种子策略分别以队列参数θq、等待参数θw、延迟参数θd作为参数。为了分别学习三种子策略的参数,本申请的实施方式通过DQN的方法来最小化如下的损失函数:
Figure BDA0002888340990000102
其中,
Figure BDA0002888340990000103
表示期望,o′表示下一次的观测o,a′表示下一次采取的行动a,由于在此用于子策略的参数更新,因此此公式中的a代入as,a′代入as′。子策略也可以通过其他强化学习的算法或方法进行学习。使用上述公式
Figure BDA0002888340990000109
更新与执行的所述子策略对应的子策略参数,具体地,若为对队列参数θq进行优化,则θq均代入队列参数θq,r均代入队列奖励rq。对于上述公式
Figure BDA0002888340990000104
下一次采取的行动a其实是一个用于最小化
Figure BDA0002888340990000105
的预期,而不是一定会用于下一次执行的行动。
上层策略的学习过程中的权重参数w用来协调两个优化目标的平衡,人工地调节w会引发诸多问题。首先,在不同交通情景模式下对于相邻路口平均行驶时间的优化可能重要性不同,因此用固定值作为权重参数w可能会限制控制算法的表现。另外如果试图将w固定,那么需要通过超参数优化进行学习,然而这种学习过程如果想要到达近似收敛的结果,需要增加很大的计算量。为了解决这些问题,本申请的实施方式提出采用一种自适应调整权重参数w的方法,使得控制器在学习过程中可以动态地平衡两个优化目标的关系,通过根据更新后的局部值函数模型φl和邻域值函数模型φn,使用策略梯度方法更新上层策略模型参数φπ。根据上层策略模型参数φπ,更新权重参数w。本申请的实施方式定义
Figure BDA0002888340990000106
其中
Figure BDA0002888340990000107
Figure BDA0002888340990000108
为上层策略在训练迭代次数i时的上层策略模型参数,
Figure BDA0002888340990000111
表示更新上层策略模型参数的优化目标,需要更新上层策略模型参数使其尽可能大。
Figure BDA0002888340990000112
表示优化目标中间的局部项,
Figure BDA0002888340990000113
表示优化目标中间的近邻项。在策略梯度上升时,有
Figure BDA0002888340990000114
Figure BDA0002888340990000115
其中α为φπ的学习率。目标为找到权重参数w使得
Figure BDA0002888340990000116
下降最快。因此,定义si(w)为
Figure BDA0002888340990000117
在迭代次数i时的下降速度,则有:
Figure BDA0002888340990000118
其中,
Figure BDA0002888340990000119
表示在训练迭代第i次时
Figure BDA00028883409900001110
对于上层策略模型参数
Figure BDA00028883409900001111
的梯度,与
Figure BDA00028883409900001112
等价。
Figure BDA00028883409900001113
表示X对于上层策略模型参数
Figure BDA00028883409900001114
的梯度,
Figure BDA00028883409900001115
本身是一个运算。其中第三行由一阶泰勒近似得到,之后可以计算w的梯度为:
Figure BDA00028883409900001116
因此,w可以直接用
Figure BDA00028883409900001117
Figure BDA00028883409900001118
梯度的点积进行梯度下降。本申请的实施方式可以在学习过程中自适应地动态调整权重参数w。
根据更新后的局部值函数模型φl、邻域值函数模型φn、上层策略模型参数φπ和权重参数φπ,更新上层策略π(ac|o;φπ)。最后,若时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体。训练好的智能体能够用于交通信号灯的控制。
在训练过程中,虽然每个智能体邻近路口的平均行驶时间的评价器需要邻近路口的观测,但是这样的信息可以很简单的获取,因此本申请的实施方式可以很简单的通过去中心化训练的方式进行学习。
本申请的实施方式适用的情景是一个交通路网中,若干路口的交通灯需要协作控制去引导车辆行动。本申请的实施方式能够使得全局路网中的车辆平均行驶时间最小化。每个路口的智能体在每一个时间步获得路口局部和相邻路口的观测,依次作出相应的决策。
根据本申请的实施方式,还提出一种基于强化学习的交通信号灯控制系统,如图6所示,智能体包括:
控制器110,用于获取环境的局部观测信息和邻域观测信息,根据上层策略周期选择子策略,直至该周期的执行数量达到周期阈值,结束;根据执行的时间步的数量和周期的数量以及邻域观测信息,更新权重参数和上层策略,得到训练好的智能体;
多个子策略120,用于根据环境的观察信息选择相位,执行动作,得到动作奖励;根据获取到的奖励和当前时间观测信息,更新子策略的参数。
下面,对本申请实施方式进行进一步说明。
首先,初始化环境中的智能体,上层策略和权重。对于智能体,在其执行子策略和动作之前,首先需要通过控制器获取与其对应的局部观测信息。根据局部观测信息和上层策略,从队列优化子策略、等待优化子策略和延迟优化子策略这三个子策略中选择一个。子策略根据控制器获取的局部观测信息,从五个相位中选择一个相位,执行一个时间步。
控制器根据执行的子策略,获得与子策略对应的一种奖励。若执行的子策略为队列优化子策略,则得到的奖励为队列奖励。由于已经经过了一个时间步,因此当前环境已经发生了变化。控制器从当前环境中获取与其对应的当前局部观测信息。使用如深度Q网络等强化学习算法,对与执行的子策略对应的子策略参数进行更新。若执行的子策略为队列优化子策略,则更新的子策略参数为队列参数。
更新后的子策略选择保持或更换所述相位,执行一个时间步。若选择更换相位,则假设当前为相位三,则目标相位为相位四,但是需要先更换为相位零并执行多个时间步,之后再更换到目标相位,即相位四,执行一个时间步,再根据获取到的奖励和当前时间观测信息,更新子策略的参数。若保持当前相位,则保持当前相位,执行一个时间步,再根据获取到的奖励和当前时间观测信息,更新子策略的参数。
在每次执行下一个时间步之前,需要判断已执行的时间步的数量以及已执行的周期的数量。若已执行的时间步的数量等于步阈值T,且执行的周期的数量小于周期阈值,则控制器根据局部观测信息、邻域观测信息和得到的奖励更新权重参数和上层策略的参数,之后从S1步骤开始执行,即再次根据局部观测信息和上层策略,从多个子策略中选择一个,继续后续的子策略更新;若已执行的时间步的数量小于步阈值,则从S3步骤开始执行,即控制器根据获取到的奖励和当前时间观测信息,继续后续的子策略更新;若所述时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体。
本申请实施例的方法中,通过获取局部观测信息在每个时间步均更新子策略参数,每个周期根据邻域观测信息更新权重参数和所述上层策略,能够得到与其相邻的多个路口的观测信息,通过更新权重参数,调整局部和邻近的权重,从而在控制其自身对应的路口交通信号灯的同时,兼顾配合与其相邻的路口,进行协同合作,从而缩短全局车辆在路口的平均行驶时间。本申请的实施方式将每个路口视作一个智能体,通过分层的结构来对交通灯进行控制,结构中包括一个控制器和多个子策略,每次所选择的子策略直接与环境交互。在分层结构中,本申请的实施方式包括三种分别用于直接对排队长度、等待时间、延迟目标进行优化的特定子策略。由于针对每个路口单独优化路口局部的车辆行驶时间可能会引发不同路口间策略冲突,进而产生负效果,因此本申请的实施方式提出了一种多重评价控制器来联合优化路口局部车辆行驶时间和相邻路口车辆行驶时间,即控制器用两个值网络:局部值网络Vl(;φl)和邻近值网络
Figure BDA0002888340990000131
分别去近似在上层策略π(ac|o;φπ)下的路口局部平均行驶时间和相邻路口平均行驶时间值函数。本申请的实施方式还提出了能够自适应调整两个优化目标的权重参数,使得控制器在学习过程中可以自适应的平衡局部与邻近的权重关系。本申请的实施方式提出了通过去中心化训练的方式来实现整体交通灯控制器的学习过程。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.一种基于强化学习的交通信号灯控制方法,其特征在于,其应用于环境中的每个智能体,智能体包括控制器和多个子策略,包括:
S1,控制器根据局部观测信息和上层策略,从多个子策略中选择一个;
S2,所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步;
S3,所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数;
S4,更新后的所述子策略选择保持或更换所述相位,执行一个时间步;
S5,所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和所述上层策略,执行S1;或执行S3;或得到训练好的所述智能体;
S6,使用训练好的所述智能体控制一个路口中的所有交通信号灯;
所述控制器根据局部观测信息和上层策略,从多个子策略中选择一个,包括:
控制器获取与其对应的局部观测信息;
所述控制器根据上层策略和所述局部观测信息,从三个子策略中选择一个,其中,三个子策略包括:队列优化子策略、等待优化子策略和延迟优化子策略;
所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步,包括:
所述子策略根据所述控制器获取的所述局部观测信息,从五个相位中选择一个相位,执行一个时间步;
所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数,包括:
控制器根据执行的所述子策略,获得与子策略对应的一种奖励,所述奖励包括:队列奖励、等待奖励和延迟奖励;
控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息;
使用强化学习算法更新与执行的所述子策略对应的子策略参数,所述子策略参数包括:队列参数、等待参数和延迟参数;
所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和所述上层策略,执行S1;或执行S3;或得到训练好的所述智能体,包括:
若已执行的所述时间步的数量等于步阈值,且执行的周期的数量小于周期阈值,则所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,执行S1;
若已执行的所述时间步的数量小于步阈值,则执行S3;
若所述时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体;
所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,包括:
所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型;
所述控制器根据更新后的所述局部值函数模型和邻域值函数模型,使用策略梯度方法更新上层策略模型参数;
根据所述上层策略模型参数,更新权重参数;
根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数,更新所述上层策略;
所述控制器根据所述局部观测信息、邻域观测信息和此周期获取到的所有奖励,更新局部值函数模型和邻域值函数模型,包括:
所述控制器获取当前时间步的局部观测信息;
所述控制器将此周期获取到的所有奖励作为局部奖励;
所述控制器根据所述局部观测信息和局部奖励,更新局部值函数模型;
所述控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息;
所述控制器将所述局部观测信息与邻近观测信息拼合,得到邻域观测信息;
所述控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励;
所述控制器根据所述邻域观测信息和邻近奖励,更新邻域值函数模型;
所述五个相位包括:相位零、相位一、相位二、相位三和相位四;
其中相位一、相位二、相位三和相位四构成相位循环;
更换所述相位时,按照固定方向更换所述相位;
每次确定更换相位后,将下一个相位作为目标相位;
在更换到所述目标相位之前,先选择相位零,执行多个时间步;
更换相位至所述目标相位。
2.如权利要求1所述的基于强化学习的交通信号灯控制方法,其特征在于,在S1之前,还包括:
初始化环境中的智能体,上层策略和权重参数。
3.一种基于强化学习的交通信号灯控制系统,其特征在于,智能体包括:
控制器,用于获取环境的局部观测信息和邻域观测信息,根据上层策略周期选择子策略,直至该周期的执行数量达到周期阈值,结束;根据执行的时间步的数量和周期的数量以及邻域观测信息,更新权重参数和所述上层策略,得到训练好的所述智能体;
控制器获取与其对应的局部观测信息;所述控制器根据上层策略和所述局部观测信息,从三个子策略中选择一个,其中,三个子策略包括:队列优化子策略、等待优化子策略和延迟优化子策略;
所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数,包括:控制器根据执行的所述子策略,获得与子策略对应的一种奖励,所述奖励包括:队列奖励、等待奖励和延迟奖励;控制器从当前环境中获取与其对应的当前局部观测信息和与此控制器对应的智能体相邻的多个智能体的当前邻近观测信息;使用强化学习算法更新与执行的所述子策略对应的子策略参数,所述子策略参数包括:队列参数、等待参数和延迟参数;
所述控制器根据执行的所述时间步的数量、周期的数量和邻域观测信息,更新权重参数和所述上层策略,执行:控制器根据局部观测信息和上层策略,从三个子策略中选择一个;或执行所述控制器根据获取到的奖励和当前时间观测信息,更新所述子策略的参数;或得到训练好的所述智能体,包括:若已执行的所述时间步的数量等于步阈值,且执行的周期的数量小于周期阈值,则所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,执行:根据局部观测信息和上层策略,从三个子策略中选择一个,继续后续的子策略更新;若已执行的所述时间步的数量小于步阈值,则执行:控制器根据获取到的奖励和当前时间观测信息,继续后续的子策略更新;若所述时间步的数量等于步阈值,且执行的周期的数量等于周期阈值,则得到训练好的智能体;
所述控制器根据所述局部观测信息、邻域观测信息和得到的所述奖励更新权重参数和所述上层策略的参数,包括:所述控制器获取当前时间步的局部观测信息;所述控制器将此周期获取到的所有奖励作为局部奖励;所述控制器根据所述局部观测信息和局部奖励,更新局部值函数模型;所述控制器获取与此控制器对应的智能体相邻的多个智能体的邻近观测信息;所述控制器将所述局部观测信息与邻近观测信息拼合,得到邻域观测信息;所述控制器将与其相邻的智能体在此周期获取到的所有奖励作为邻近奖励;所述控制器根据所述邻域观测信息和邻近奖励,更新邻域值函数模型;所述控制器根据更新后的所述局部值函数模型和邻域值函数模型,使用策略梯度方法更新上层策略模型参数;根据所述上层策略模型参数,更新权重参数;根据更新后的所述局部值函数模型、邻域值函数模型、上层策略模型参数和权重参数,更新所述上层策略;
多个子策略,用于根据环境的观察信息选择相位,执行动作,得到动作奖励;根据获取到的奖励和当前时间观测信息,更新所述子策略的参数;
所述子策略根据所述局部观测信息,从多个相位中选择一个执行一个时间步,包括:所述子策略根据所述控制器获取的所述局部观测信息,从五个相位中选择一个相位,执行一个时间步;
所述五个相位包括:相位零、相位一、相位二、相位三和相位四;
其中相位一、相位二、相位三和相位四构成相位循环;
更换所述相位时,按照固定方向更换所述相位;
每次确定更换相位后,将下一个相位作为目标相位;
在更换到所述目标相位之前,先选择相位零,执行多个时间步;
更换相位至所述目标相位。
CN202110020458.3A 2021-01-07 2021-01-07 一种基于强化学习的交通信号灯控制方法与系统 Active CN112863206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110020458.3A CN112863206B (zh) 2021-01-07 2021-01-07 一种基于强化学习的交通信号灯控制方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110020458.3A CN112863206B (zh) 2021-01-07 2021-01-07 一种基于强化学习的交通信号灯控制方法与系统

Publications (2)

Publication Number Publication Date
CN112863206A CN112863206A (zh) 2021-05-28
CN112863206B true CN112863206B (zh) 2022-08-09

Family

ID=76005023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110020458.3A Active CN112863206B (zh) 2021-01-07 2021-01-07 一种基于强化学习的交通信号灯控制方法与系统

Country Status (1)

Country Link
CN (1) CN112863206B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628458B (zh) * 2021-08-10 2022-10-04 四川易方智慧科技有限公司 基于群体智能强化学习的交通信号灯优化方法
CN114141028B (zh) * 2021-11-19 2023-05-12 哈尔滨工业大学(深圳) 智能红绿灯车流调控系统
CN115294784A (zh) * 2022-06-21 2022-11-04 中国科学院自动化研究所 多路口交通信号灯控制方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3090032A (en) * 1956-08-29 1963-05-14 Ass Elect Ind Manchester Ltd Automatic traffic signalling systems
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN110114806A (zh) * 2018-02-28 2019-08-09 华为技术有限公司 信号灯控制方法、相关设备及系统
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110648049A (zh) * 2019-08-21 2020-01-03 北京大学 一种基于多智能体的资源分配方法与系统
DE102018006332A1 (de) * 2018-08-09 2020-02-13 Daimler Ag Verfahren zum Ermitteln von Ampelschaltzeiten
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201009974D0 (en) * 2010-06-15 2010-07-21 Trinity College Dublin Decentralised autonomic system and method for use inan urban traffic control environment
CN105046987B (zh) * 2015-06-17 2017-07-07 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
US9972199B1 (en) * 2017-03-08 2018-05-15 Fujitsu Limited Traffic signal control that incorporates non-motorized traffic information
CN106910351B (zh) * 2017-04-19 2019-10-11 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
EP3737969B1 (de) * 2018-02-28 2024-04-10 Robert Bosch GmbH Verkehrssteuerungsverfahren und zugehöriges system
CN109670233A (zh) * 2018-12-14 2019-04-23 南京理工大学 基于深度强化学习的多交通信号灯自动控制方法
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110444028A (zh) * 2019-09-06 2019-11-12 科大讯飞股份有限公司 多路口信号灯控制方法、装置及设备
CN110738860B (zh) * 2019-09-18 2021-11-23 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN111260937B (zh) * 2020-02-24 2021-09-14 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
CN111564048A (zh) * 2020-04-28 2020-08-21 郑州大学 一种交通信号灯的控制方法、装置、电子设备及存储介质
CN111583675B (zh) * 2020-05-14 2021-05-14 吴钢 一种区域路网交通信号灯协调控制系统和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3090032A (en) * 1956-08-29 1963-05-14 Ass Elect Ind Manchester Ltd Automatic traffic signalling systems
CN110114806A (zh) * 2018-02-28 2019-08-09 华为技术有限公司 信号灯控制方法、相关设备及系统
DE102018006332A1 (de) * 2018-08-09 2020-02-13 Daimler Ag Verfahren zum Ermitteln von Ampelschaltzeiten
CN109472984A (zh) * 2018-12-27 2019-03-15 苏州科技大学 基于深度强化学习的信号灯控制方法、系统和存储介质
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110648049A (zh) * 2019-08-21 2020-01-03 北京大学 一种基于多智能体的资源分配方法与系统
CN110969872A (zh) * 2019-12-18 2020-04-07 上海天壤智能科技有限公司 基于强化学习和图注意力网络的交通信号控制方法及系统
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Learning Fairness in Multi-Agent Systems;Zongqing Lu;《33rd Conference on Neural Information Processing Systems (NeurIPS 2019》;20191208;全文 *
基于深度强化学习的城市交通灯控制方法研究;闫呈祥;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20200215(第2期);全文 *
强化学习在城市交通信号灯控制方法中的应用;刘义,何均宏;《科技导报》;20191231;第37卷(第6期);全文 *

Also Published As

Publication number Publication date
CN112863206A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112863206B (zh) 一种基于强化学习的交通信号灯控制方法与系统
Xu et al. Hierarchically and cooperatively learning traffic signal control
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN111696370A (zh) 基于启发式深度q网络的交通灯控制方法
CN108776483A (zh) 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
CN112488310A (zh) 一种多智能体群组协作策略自动生成方法
CN109726676A (zh) 自动驾驶系统的规划方法
Zhao et al. Ipdalight: Intensity-and phase duration-aware traffic signal control based on reinforcement learning
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
Tian et al. Unsupervised discovery of transitional skills for deep reinforcement learning
CN115631638B (zh) 管控区域基于多智能体强化学习的交通灯控制方法及系统
CN112927522B (zh) 一种基于物联网设备的强化学习可变时长信号灯控制方法
Zhang et al. Coordinated control of distributed traffic signal based on multiagent cooperative game
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
Shao et al. Cooperative multi-agent deep reinforcement learning with counterfactual reward
Yuan et al. Deep reinforcement learning based green wave speed guidance for human-driven connected vehicles at signalized intersections
Jin et al. A multi-objective multi-agent framework for traffic light control
Iima et al. Swarm reinforcement learning algorithms based on particle swarm optimization
CN112488543A (zh) 基于机器学习的智慧工地智能排班方法及系统
CN114613170B (zh) 一种基于强化学习的交通信号灯路口协调控制方法
Zhang et al. Intrinsic reward with peer incentives for cooperative multi-agent reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant