CN105118308B - 基于聚类强化学习的城市道路交叉口交通信号优化方法 - Google Patents
基于聚类强化学习的城市道路交叉口交通信号优化方法 Download PDFInfo
- Publication number
- CN105118308B CN105118308B CN201510654294.4A CN201510654294A CN105118308B CN 105118308 B CN105118308 B CN 105118308B CN 201510654294 A CN201510654294 A CN 201510654294A CN 105118308 B CN105118308 B CN 105118308B
- Authority
- CN
- China
- Prior art keywords
- barycenter
- return
- state
- value function
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Traffic Control Systems (AREA)
Abstract
一种基于聚类强化学习的城市道路交叉口交通信号优化方法,该方法涉及智能优化技术领域,包括:步骤1,定义强化学习的主体、交通状态、控制动作和回报;步骤2,采集交通数据供聚类使用;步骤3,对交通状态进行聚类;步骤4,每隔单位时间间隔根据Q值函数决策控制动作,更新Q值函数,记录数据;步骤5,如果超过预设的学习时间,执行步骤8,否则执行步骤6;步骤6,如果到达重新聚类的时间,执行步骤7,否则返回步骤4;步骤7,根据记录数据增减质心,并对上一次聚类之后采集到的交通状态进行聚类,执行步骤4;步骤8,每隔单位时间间隔根据Q值函数决策控制动作供路口机执行。该方法可以提高单位时间内通过道路交叉口的车辆数。
Description
技术领域
本发明涉及智能优化技术领域。
背景技术
城市道路交通是城市交通的重要组成部分,承载了越来越多的人类活动。随着国民经济的发展,我国城市车辆占有率逐年上升,虽然道路长度和道路面积也在逐年增长,但依然无法满足人们的出行需求。一个重要原因是传统的交通信号控制方案没有使现有道路得到充分利用。
强化学习是一种基于数据和反馈的优化方法,适用于对模型不易建立的问题进行优化。使用强化学习方法,可以设计对交通状态进行实时反馈、自动调整交通信号的自适应控制器。然而,强化学习需要的存储空间和收敛速度受到状态空间和动作空间的影响。交通信号优化问题的状态空间比较大,对其进行强化学习需要大量存储空间,并且收敛速度较低。因此,可以使用聚类算法把近似的交通状态归为同一个离散状态,从而减小状态空间,节省存储空间,并且提高学习速度。
发明内容
本发明以交通信号控制器为学习的主体,先采集一段时间样本数据进行聚类,然后每隔一段较短的单位时间间隔,交通信号控制器接收路口机检测到的交通状态,根据聚类得到的质心求出对应的离散状态,再根据离散状态和Q值函数得到控制动作,然后根据与这段时间间隔内通过车辆数和车辆等待时间有关的实数——回报值来更新Q值函数,如此反复进行学习,直到指定的学习时间结束,停止更新Q值函数。此时得到优化后的自适应控制策略。在学习过程中,根据回报值的标准差决定是否增加或减少质心数。每当结束一段指定的学习时间后,对这个期间内采集到的所有交通状态进行k-均值聚类,得到指定数目的质心。学习停止后,终止聚类步骤,质心的数目和位置不再改变。采用动态增减质心数的方法,可以使得在学习过程中,在回报值标准差处于限定范围内的条件下尽可能地减少质心数,从而减少强化学习需要的存储空间,也提高了收敛速度。相比传统配时控制方案,强化学习得到的策略可以提高单位时间内通过道路交叉口的车辆数,并且降低车辆延误。
本发明提出的基于聚类强化学习的城市道路交叉口交通信号优化方法,包括以下步骤:
步骤1,把城市道路交叉口的交通信号控制器看作学习的主体,定义交通状态为车辆排队长度,定义控制动作为保持当前相位或切换到下一相位,定义回报为一个与单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间有关的变量,定义状态-动作对为离散的交通状态和控制动作组成的数据向量,定义每个状态-动作对的Q值表示处于相应离散状态下执行控制动作后的获得的期望累积回报;
步骤2,进行一段时间的传统强化学习以采集交通数据供聚类使用,初始化Q值函数,每隔一段较短的单位时间间隔,交通信号控制器接收路口机采集的交通状态,并计算对应的离散状态,依据离散状态查询Q值函数得到控制动作并发送至路口机执行,检测单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间,使用这两个变量计算回报值,使用状态-动作对和回报值更新Q值函数,记录每个决策时间间隔开始时的交通状态;
步骤3,经过指定时间的传统强化学习后,对目前为止采集到的交通状态进行聚类,设定初始质心数,第一次聚类按照预设的初始质心数进行k-均值聚类,使用步骤2中学习得到的Q值函数初始化一个新的Q值函数,之后不再使用步骤2中的Q值函数;
步骤4,每隔一段较短的单位时间间隔,交通信号控制器接收路口机采集的交通状态,计算交通状态到每个质心的距离,求出距离最近的质心,根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行,检测此单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间,使用这两个变量计算回报值,使用状态-动作对和回报值更新Q值函数,记录单位时间间隔开始时的交通状态,控制动作和每个状态-动作对下获得的回报值;
步骤5,若到达指定的学习时间,则执行步骤8,否则执行步骤6;
步骤6,如果到达重新聚类的时间,执行步骤7,否则返回步骤4:
步骤7,保存Q值函数,对上一次聚类之后采集到的交通状态进行聚类,首先确定质心数,计算所有状态-动作对所得回报的标准差,根据标准差决定是否增加或减少质心数,进行k-均值聚类,得到新的质心,如果质心数不变则Q值函数也不变,否则生成新的Q值函数并且使用原先的Q值函数进行初始化,返回步骤4;
步骤8,每隔一段较短的单位时间间隔,交通信号控制器接收路口机采集的交通状态,计算交通状态到每个质心的距离,求出距离最近的质心,根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行。
本发明较现有技术所具有的优点:
本发明提出的基于聚类强化学习的城市道路交叉口交通信号优化方法能够根据交叉口的交通状态自动选择合适的相位动作,以适应交叉口交通状况的变化,能够提高单位时间内通过交叉口的车辆数,减少车辆延误。与其他聚类强化学习方法的不同之处在于,本发明在学习过程中,能够根据回报值的标准差动态地增加或减少质心数,能在保证强化学习收敛的前提下尽可能地减少质心数,从而尽可能减少Q值函数存储空间、提高收敛速度;
附图说明
图1为城市道路交叉口交通信号控制原理图;
图2为基于聚类强化学习的城市道路交叉口交通信号优化方法流程图;
图3为交通信号相位时序图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面参照附图,对本发明作进一步详细说明。
图1中的前置检测器检测通过停车线的车辆数,后置检测器检测通过路段上游指定断面的车辆数,通过前置检测器和后置检测器检测到的车辆数可以计算得到任意时刻位于两断面之间的车辆数,进而估算车辆排队长度,即交通状态。后置检测器的安装位置决定了所能检测的车辆排队长度的上限值。前置检测器和后置检测器把测量信号发送至路口机,由路口机进行处理后将交通状态发送至交通信号控制器。交通信号控制器按照固定的相位次序选择相位信号并发送至路口机执行,将单位时间间隔设置为15秒,每隔15秒,交通信号控制器根据当前交通状态决策控制动作,然后把控制动作发送至路口机执行。
图2所示的基于聚类强化学习的城市道路交叉口交通信号优化方法流程图包含如下步骤:
步骤1,定义强化学习的主体、交通状态、控制动作和回报:
定义强化学习的主体为城市道路交叉口的交通信号控制器,交通信号控制器每隔15秒接收路口机采集到的交通状态,并产生控制动作供路口机执行,然后根据回报值更新Q值函数。定义交通状态为当前相位的排队长度和下一相位的排队长度,例如,若当前相位为东西直行车道绿灯,其他车道红灯,则当前交通状态由东西直行车道和东西左转车道的车辆排队长度这两个变量组成的数据向量表示。
信号控制方案采用四相位固定相序控制方案,图3示出了交通信号相位时序图,相位1:东西方向直行;相位2:东西方向左转;相位3:南北方向直行;相位4:南北方向左转。尽管相位顺序是固定的,每个相位的绿灯时长却不必固定。定义控制动作为保持当前相位或切换到下一相位,如果当前相位为相位1,则经过15秒后,交通信号控制器需要决策控制动作:保持相位1,或者切换到相位2,如果选择相位2,再过15秒又需要执行一次控制动作:保持相位2,或者切换到相位3……如此循环往复。定义所有相位的最小绿灯时间为15秒,最大绿灯时间为60秒。
回报r代表路口机执行控制动作后获得的直接利益,其定义如下:
np表示最近两次控制动作决策间隔的15秒内通过停车线的车辆数,可由前置检测器检测得到,tw表示同一15秒内处于红灯相位所有车辆的总等待时间,可由车辆排队长度估算出来,w1用于调节np对回报贡献的大小,w2用于调节tw对回报贡献的大小,w1和w2可设置为0.5。回报公式中的常数系数根据仿真数据得到,目的在于使回报r维持在[-1,1]之间。
定义状态-动作对为离散的交通状态和控制动作组成的数据向量,交通信号控制器每次接收交通状态,求出对应的离散状态,并决策控制动作,15秒后就会得到一个回报值,因此每经历一个状态-动作对都会计算得到一个回报值,随着学习的进行,每个状态-动作对会经历多次,因此每个状态-动作对会对应多个回报值,定义每个状态-动作对的Q值是从一个状态-动作对开始,直到一段时间之后的累积回报值之和,表示处于相应交通状态下采取控制动作后获得的长远利益。
步骤2,采集交通数据供聚类使用:
在指定的典型时段,如早高峰或晚高峰时段,进行传统强化学习,采集数据供聚类分析使用。传统强化学习首先对交通状态进行离散化处理,并计算离散化后的每个区域的质心,例如,能检测到的最大车辆排队长度是120米,以30米为单位把120米划分为4段,按照交通状态是两个相邻相位车辆排队长度组成的向量这一定义,将交通状态空间划分为16个区域。每个区域的几何中心即为质心。每个区域对应一个离散状态。
离散化之后,初始化Q值函数,把每一个状态-动作对的Q值初始化为0。每隔15秒,交通信号控制器接收路口机采集到的交通状态,依照离散化后的交通状态空间划分计算出对应的离散状态s。
因交通信号控制器内的计时器以秒为单位进行计时,故每经过一秒都需要判断是否到达决策控制动作的时刻,若距离上次决策的时间等于15秒,则判断当前绿灯时间是否超过最小绿灯时间,若没有超过则控制动作a为继续保持当前相位,否则判断当前绿灯时间是否超过最大绿灯时间,若超过则控制动作a为切换到下一相位,如果当前绿灯时间介于最小绿灯时间15秒和最大绿灯时间60秒之间,则按照ε-greedy策略选择控制动作a,公式如下:
其中Q(s,a)表示状态-动作对(s,a)的Q值,ε表示探索率,在学习阶段是一个小于1大于0的常数,设置为0.2。执行控制动作后15秒时计算回报值r,并按照下面的公式更新Q值函数:
Q(s,a)=Q(s,a)+α(r+γQ(s',a')-Q(s,a))
其中Q(s',a')表示下一个15秒开始时的状态-动作对的Q值,离散状态s’的求法和控制动作a’的求法与状态-动作对(s,a)的求法一样。保存Q值函数和经历过的交通状态。
步骤3,对交通状态进行聚类:
经过3小时传统强化学习后,把经历过的交通状态作为样本数据进行k-均值聚类。定义簇为相近样本点的集合,每个簇对应一个离散状态,定义质心为簇包含的所有样本点的质心,设定初始质心数为2,最小质心数为2,最大质心数为10,当前的质心数记为k,选择欧氏距离作为样本点到质心的距离,然后开始聚类,步骤如下:
步骤a,从样本数据中随机选择k个不同的样本点作为初始质心;
步骤b,计算每个样本点到每个质心的距离,将每个点指派到最近的质心,形成k个簇;
步骤c,重新计算每个簇的质心;
步骤d,计算质心的变化量,即原先的质心和新的质心之间的距离,若所有簇的质心不再发生变化,聚类结束,否则执行步骤b。
因为当前离散状态的个数已经由16个变成了k个,因此需要生成一个新的Q值函数。定义任意两个状态-动作对之间的距离为两个状态所对应的两个质心之间的欧氏距离,计算聚类得到的k个质心到步骤2离散化处理得到的16个质心的欧氏距离,新的Q值函数中每个状态-动作对的Q值等于步骤2中保存的Q值函数中距离最近的状态-动作对的Q值。之后不再使用步骤2中保存的Q值函数。
步骤4,每隔单位时间间隔根据Q值函数决策控制动作,更新Q值函数,记录数据:
每隔15秒,交通信号控制器接收路口机采集到的交通状态,计算交通状态到每个质心的距离,距离最近的质心所在的簇即为对应的离散状态s,按照最小绿灯时间、最大绿灯时间和ε-greedy策略决策控制动作a供路口机执行。检测15秒内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间,使用这两个变量值计算回报值r,更新Q值函数,记录交通状态s,控制动作a和回报值r。
步骤5,如果超过预设的学习时间,执行步骤8,否则执行步骤6:
预设的学习时间为10小时,如果学习时间超过10小时,执行步骤8,否则执行步骤6。
步骤6,如果到达重新聚类的时间,执行步骤7,否则返回步骤4:
设定每隔1800秒进行一次聚类,如果距离上一次聚类结束的时刻大于1800秒,则执行步骤7,否则执行步骤4。
步骤7,根据记录数据增减质心,对上一次聚类之后采集到的交通状态进行聚类,执行步骤4:
根据最近1800秒内的记录数据,对于同一个离散状态,取每个动作所得回报的标准差之最大值作为该状态所得回报的标准差。如果至少一个状态所得回报的标准差大于0.3,且当前质心数小于最大质心数10,那么质心数k=k+1。在回报标准差最大的状态对应的簇中,随机选择一个样本点作为新增质心的初始值,上一次聚类得到的质心作为本次聚类其他质心的初始值。如果所有状态所得回报的标准差都小于0.2,且当前质心数大于最小质心数2,那么质心数k=k-1,去掉回报标准差最小的状态对应的质心,上一次聚类得到的其他质心作为本次聚类质心的初始值。如果回报标准差为其他情况,则质心数k保持不变,上一次聚类得到的质心作为本次聚类质心的初始值。然后对最近1800秒内采集到的数据样本进行k-均值聚类。
聚类结束后,如果质心数保持不变,则Q值函数也不发生变化,否则,生成一个新的Q值函数,定义新旧状态-动作对之间的距离为新旧质心之间的欧氏距离,新Q值函数每个状态-动作对的Q值等于原先的Q值函数中距离最近的状态-动作对的Q值,之后使用新的Q值函数而摒弃原先的Q值函数。
返回步骤4。
步骤8,每隔单位时间间隔根据Q值函数决策控制动作供路口机执行:
优化结束后,每隔15秒,交通信号控制器接收路口机采集到的交通状态,求得距离交通状态最近的质心,质心所属的簇即为对应的离散状态。若当前绿灯时间没有超过最小绿灯时间,则控制动作a为继续保持当前相位,若当前绿灯时间超过最大绿灯时间,则控制动作a为切换到下一相位。设置ε=0,即如果当前相位绿灯时间在最小绿灯时间和最大绿灯时间之间,则每次都选择使Q值函数最大的动作为控制动作。交通信号控制器决策好控制动作后发送给路口机执行。
Claims (3)
1.基于聚类强化学习的城市道路交叉口交通信号优化方法,包括以下步骤:
步骤1,把城市道路交叉口的交通信号控制器看作学习的主体,定义交通状态为车辆排队长度,定义控制动作为保持当前相位或切换到下一相位,定义回报为一个与单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间有关的变量,定义状态-动作对为离散的交通状态和控制动作组成的数据向量,定义每个状态-动作对的Q值表示处于相应离散状态下执行控制动作后的获得的期望累积回报;
步骤2,进行一段时间的传统强化学习以采集交通数据供聚类使用,初始化Q值函数,每隔一单位时间间隔,交通信号控制器接收路口机采集的交通状态,并计算对应的离散状态,依据离散状态查询Q值函数得到控制动作并发送至路口机执行,检测单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间,使用这两个变量计算回报值,使用状态-动作对和回报值更新Q值函数,记录每个决策时间间隔开始时的交通状态;
步骤3,经过指定时间的传统强化学习后,对目前为止采集到的交通状态进行聚类,设定初始质心数,第一次聚类按照预设的初始质心数进行k-均值聚类,使用步骤2中学习得到的Q值函数初始化一个新的Q值函数,之后不再使用步骤2中的Q值函数;
步骤4,每隔一单位时间间隔,交通信号控制器接收路口机采集的交通状态,计算交通状态到每个质心的距离,求出距离最近的质心,根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行,检测此单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间,使用这两个变量计算回报值,使用状态-动作对和回报值更新Q值函数,记录单位时间间隔开始时的交通状态,控制动作和每个状态-动作对下获得的回报值;
步骤5,若到达指定的学习时间,则执行步骤8,否则执行步骤6;
步骤6,如果到达重新聚类的时间,执行步骤7,否则返回步骤4:
步骤7,保存Q值函数,对上一次聚类之后采集到的交通状态进行聚类,首先确定质心数,计算所有状态-动作对所得回报的标准差,根据标准差决定是否增加或减少质心数,然后进行k-均值聚类,得到新的质心,如果质心数不变则Q值函数也不变,否则生成新的Q值函数并且使用原先的Q值函数进行初始化,返回步骤4;
步骤8,每隔一单位时间间隔,交通信号控制器接收路口机采集的交通状态,计算交通状态到每个质心的距离,求出距离最近的质心,根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行。
2.如权利要求1所述的基于聚类强化学习的城市道路交叉口交通信号优化方法,其特征在于,在聚类之前,对于同一个离散状态,取每个动作所得回报的标准差之最大值作为该状态所得回报的标准差;如果至少一个状态所得回报的标准差大于预设值,且当前质心数小于预设的最大质心数,那么增加一个质心,在回报标准差最大的状态对应的簇中,随机选择一个样本点作为新增质心的初始值,上一次聚类得到的质心作为本次聚类其他质心的初始值;如果所有状态所得回报的标准差都小于预设值,且当前质心数大于预设的最小质心数,那么去掉回报标准差最小的状态对应的质心,上一次聚类得到的其他质心作为本次聚类质心的初始值;如果回报标准差为其他情况,则质心数保持不变,上一次聚类得到的质心作为本次聚类质心的初始值。
3.如权利要求1所述的基于聚类强化学习的城市道路交叉口交通信号优化方法,其特征在于,每个离散状态对应一个簇,每个簇有一个质心,聚类之后,如果质心数保持不变,则Q值函数也不发生变化,否则,生成一个新的Q值函数,定义新旧状态-动作对之间的距离为新旧质心之间的欧氏距离,新Q值函数每个状态-动作对的Q值等于原先的Q值函数中距离最近的状态-动作对的Q值,之后使用新的Q值函数而摒弃原先的Q值函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510654294.4A CN105118308B (zh) | 2015-10-12 | 2015-10-12 | 基于聚类强化学习的城市道路交叉口交通信号优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510654294.4A CN105118308B (zh) | 2015-10-12 | 2015-10-12 | 基于聚类强化学习的城市道路交叉口交通信号优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105118308A CN105118308A (zh) | 2015-12-02 |
CN105118308B true CN105118308B (zh) | 2017-03-15 |
Family
ID=54666275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510654294.4A Expired - Fee Related CN105118308B (zh) | 2015-10-12 | 2015-10-12 | 基于聚类强化学习的城市道路交叉口交通信号优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105118308B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097733B (zh) * | 2016-08-22 | 2018-12-07 | 青岛大学 | 一种基于策略迭代和聚类的交通信号优化控制方法 |
CN106373410B (zh) * | 2016-09-21 | 2018-12-21 | 青岛大学 | 一种城市交通信号优化控制方法 |
US10002530B1 (en) | 2017-03-08 | 2018-06-19 | Fujitsu Limited | Traffic signal control using multiple Q-learning categories |
CN106910351B (zh) * | 2017-04-19 | 2019-10-11 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
EP3425608B1 (en) * | 2017-07-03 | 2020-03-25 | Fujitsu Limited | Traffic signal control using multiple q-learning categories |
CN108831168B (zh) * | 2018-06-01 | 2020-10-02 | 武汉泰坦智慧科技有限公司 | 一种基于关联路口视觉识别的交通信号灯控制方法与系统 |
CN109637127B (zh) * | 2018-12-06 | 2021-08-24 | 北京掌行通信息技术有限公司 | 一种信号灯近似时长的确定方法及系统 |
CN109859475B (zh) * | 2019-03-14 | 2021-08-31 | 江苏中设集团股份有限公司 | 一种基于dbscan密度聚类的交叉口信号控制方法、装置及系统 |
CN111833590B (zh) * | 2019-04-15 | 2021-12-07 | 北京京东尚科信息技术有限公司 | 交通信号灯的控制方法、装置及计算机可读存储介质 |
CN112365724B (zh) * | 2020-04-13 | 2022-03-29 | 北方工业大学 | 一种基于深度强化学习的连续交叉口信号协同控制方法 |
CN111564048A (zh) * | 2020-04-28 | 2020-08-21 | 郑州大学 | 一种交通信号灯的控制方法、装置、电子设备及存储介质 |
CN112216113B (zh) * | 2020-10-16 | 2021-07-27 | 温州职业技术学院 | 基于密度峰值的交通流量数据聚类方法 |
CN113012336A (zh) * | 2021-03-30 | 2021-06-22 | 中信银行股份有限公司 | 银行业务的排队预约方法及其装置、存储介质和设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19941854A1 (de) * | 1999-09-02 | 2001-04-05 | Siemens Ag | Steuerungsvorrichtung für eine Verkehrsampelkreuzung |
CN100444210C (zh) * | 2007-04-20 | 2008-12-17 | 东南大学 | 单点信号控制交叉口的混合控制方法 |
CN101477581B (zh) * | 2008-12-19 | 2011-05-04 | 上海理工大学 | 多智能体区域道路交叉口信号集成控制仿真系统 |
CN102097005B (zh) * | 2011-02-01 | 2013-04-03 | 吉林大学 | 智能化、集成化交通信号控制器 |
CN102411847B (zh) * | 2011-08-02 | 2013-10-02 | 清华大学 | 一种交通信号优化方法 |
CN102542818B (zh) * | 2012-01-13 | 2016-02-17 | 吉林大学 | 一种基于有机计算的区域边界交通信号协调控制方法 |
CN103680158B (zh) * | 2013-10-14 | 2016-03-02 | 长沙理工大学 | 基于c-均值模糊聚类分析的控制子区动态划分方法 |
CN104778846B (zh) * | 2015-03-26 | 2016-09-28 | 南京邮电大学 | 一种基于计算机视觉的交通信号灯控制方法 |
-
2015
- 2015-10-12 CN CN201510654294.4A patent/CN105118308B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105118308A (zh) | 2015-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105118308B (zh) | 基于聚类强化学习的城市道路交叉口交通信号优化方法 | |
CN108510764B (zh) | 一种基于q学习的多路口自适应相位差协调控制系统及方法 | |
CN108335497B (zh) | 一种交通信号自适应控制系统及方法 | |
Balaji et al. | Urban traffic signal control using reinforcement learning agents | |
CN109840641B (zh) | 一种列车多区间运行曲线快速优化方法 | |
CN113591269A (zh) | 基于交通仿真的拥堵路段智能网联车辆专用道控制方法 | |
CN111951549B (zh) | 在网联车辆环境下的自适应交通信号灯控制方法及系统 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN108538065B (zh) | 一种基于自适应迭代学习控制的城市主干道协调控制方法 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN103578273B (zh) | 一种基于微波雷达数据的道路交通状态估计方法 | |
CN106652441A (zh) | 一种基于时空数据的城市道路交通状态预测方法 | |
CN109269516B (zh) | 一种基于多目标Sarsa学习的动态路径诱导方法 | |
CN104766485A (zh) | 一种基于改进的模糊控制的红绿灯优化配时方法 | |
CN113393680B (zh) | 一种子区协调自适应控制方法及装置 | |
CN105871724A (zh) | 电力通信网线路优化方法及系统 | |
CN114023068A (zh) | 一种短距离交织区交通流短时预测与主动控制系统及方法 | |
CN114038216B (zh) | 一种基于路网划分和边界流量控制的信号灯管控方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN108806287A (zh) | 一种基于协同优化的交通信号配时方法 | |
Hussain et al. | Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication | |
Bakibillah et al. | Sustainable eco-driving strategy at signalized intersections from driving data | |
CN111899537B (zh) | 一种基于边缘计算的交叉口信号控制移动调优装置和方法 | |
CN116564088A (zh) | 面向信息物理融合系统的城市交通状态监测与区域信号控制系统 | |
CN115472023B (zh) | 一种基于深度强化学习的智能交通灯控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170315 Termination date: 20211012 |