CN105118308B

CN105118308B - 基于聚类强化学习的城市道路交叉口交通信号优化方法

Info

Publication number: CN105118308B
Application number: CN201510654294.4A
Authority: CN
Inventors: 张震; 王冬青; 张楠; 高军伟
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2017-03-15
Anticipated expiration: 2035-10-12
Also published as: CN105118308A

Abstract

一种基于聚类强化学习的城市道路交叉口交通信号优化方法，该方法涉及智能优化技术领域，包括：步骤1，定义强化学习的主体、交通状态、控制动作和回报；步骤2，采集交通数据供聚类使用；步骤3，对交通状态进行聚类；步骤4，每隔单位时间间隔根据Q值函数决策控制动作，更新Q值函数，记录数据；步骤5，如果超过预设的学习时间，执行步骤8，否则执行步骤6；步骤6，如果到达重新聚类的时间，执行步骤7，否则返回步骤4；步骤7，根据记录数据增减质心，并对上一次聚类之后采集到的交通状态进行聚类，执行步骤4；步骤8，每隔单位时间间隔根据Q值函数决策控制动作供路口机执行。该方法可以提高单位时间内通过道路交叉口的车辆数。

Description

基于聚类强化学习的城市道路交叉口交通信号优化方法

技术领域

本发明涉及智能优化技术领域。

背景技术

城市道路交通是城市交通的重要组成部分，承载了越来越多的人类活动。随着国民经济的发展，我国城市车辆占有率逐年上升，虽然道路长度和道路面积也在逐年增长，但依然无法满足人们的出行需求。一个重要原因是传统的交通信号控制方案没有使现有道路得到充分利用。

强化学习是一种基于数据和反馈的优化方法，适用于对模型不易建立的问题进行优化。使用强化学习方法，可以设计对交通状态进行实时反馈、自动调整交通信号的自适应控制器。然而，强化学习需要的存储空间和收敛速度受到状态空间和动作空间的影响。交通信号优化问题的状态空间比较大，对其进行强化学习需要大量存储空间，并且收敛速度较低。因此，可以使用聚类算法把近似的交通状态归为同一个离散状态，从而减小状态空间，节省存储空间，并且提高学习速度。

发明内容

本发明以交通信号控制器为学习的主体，先采集一段时间样本数据进行聚类，然后每隔一段较短的单位时间间隔，交通信号控制器接收路口机检测到的交通状态，根据聚类得到的质心求出对应的离散状态，再根据离散状态和Q值函数得到控制动作，然后根据与这段时间间隔内通过车辆数和车辆等待时间有关的实数——回报值来更新Q值函数，如此反复进行学习，直到指定的学习时间结束，停止更新Q值函数。此时得到优化后的自适应控制策略。在学习过程中，根据回报值的标准差决定是否增加或减少质心数。每当结束一段指定的学习时间后，对这个期间内采集到的所有交通状态进行k-均值聚类，得到指定数目的质心。学习停止后，终止聚类步骤，质心的数目和位置不再改变。采用动态增减质心数的方法，可以使得在学习过程中，在回报值标准差处于限定范围内的条件下尽可能地减少质心数，从而减少强化学习需要的存储空间，也提高了收敛速度。相比传统配时控制方案，强化学习得到的策略可以提高单位时间内通过道路交叉口的车辆数，并且降低车辆延误。

本发明提出的基于聚类强化学习的城市道路交叉口交通信号优化方法，包括以下步骤：

步骤1，把城市道路交叉口的交通信号控制器看作学习的主体，定义交通状态为车辆排队长度，定义控制动作为保持当前相位或切换到下一相位，定义回报为一个与单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间有关的变量，定义状态-动作对为离散的交通状态和控制动作组成的数据向量，定义每个状态-动作对的Q值表示处于相应离散状态下执行控制动作后的获得的期望累积回报；

步骤2，进行一段时间的传统强化学习以采集交通数据供聚类使用，初始化Q值函数，每隔一段较短的单位时间间隔，交通信号控制器接收路口机采集的交通状态，并计算对应的离散状态，依据离散状态查询Q值函数得到控制动作并发送至路口机执行，检测单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间，使用这两个变量计算回报值，使用状态-动作对和回报值更新Q值函数，记录每个决策时间间隔开始时的交通状态；

步骤3，经过指定时间的传统强化学习后，对目前为止采集到的交通状态进行聚类，设定初始质心数，第一次聚类按照预设的初始质心数进行k-均值聚类，使用步骤2中学习得到的Q值函数初始化一个新的Q值函数，之后不再使用步骤2中的Q值函数；

步骤4，每隔一段较短的单位时间间隔，交通信号控制器接收路口机采集的交通状态，计算交通状态到每个质心的距离，求出距离最近的质心，根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行，检测此单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间，使用这两个变量计算回报值，使用状态-动作对和回报值更新Q值函数，记录单位时间间隔开始时的交通状态，控制动作和每个状态-动作对下获得的回报值；

步骤5，若到达指定的学习时间，则执行步骤8，否则执行步骤6；

步骤6，如果到达重新聚类的时间，执行步骤7，否则返回步骤4：

步骤7，保存Q值函数，对上一次聚类之后采集到的交通状态进行聚类，首先确定质心数，计算所有状态-动作对所得回报的标准差，根据标准差决定是否增加或减少质心数，进行k-均值聚类，得到新的质心，如果质心数不变则Q值函数也不变，否则生成新的Q值函数并且使用原先的Q值函数进行初始化，返回步骤4；

步骤8，每隔一段较短的单位时间间隔，交通信号控制器接收路口机采集的交通状态，计算交通状态到每个质心的距离，求出距离最近的质心，根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行。

本发明较现有技术所具有的优点：

本发明提出的基于聚类强化学习的城市道路交叉口交通信号优化方法能够根据交叉口的交通状态自动选择合适的相位动作，以适应交叉口交通状况的变化，能够提高单位时间内通过交叉口的车辆数，减少车辆延误。与其他聚类强化学习方法的不同之处在于，本发明在学习过程中，能够根据回报值的标准差动态地增加或减少质心数，能在保证强化学习收敛的前提下尽可能地减少质心数，从而尽可能减少Q值函数存储空间、提高收敛速度；

附图说明

图1为城市道路交叉口交通信号控制原理图；

图2为基于聚类强化学习的城市道路交叉口交通信号优化方法流程图；

图3为交通信号相位时序图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面参照附图，对本发明作进一步详细说明。

图1中的前置检测器检测通过停车线的车辆数，后置检测器检测通过路段上游指定断面的车辆数，通过前置检测器和后置检测器检测到的车辆数可以计算得到任意时刻位于两断面之间的车辆数，进而估算车辆排队长度，即交通状态。后置检测器的安装位置决定了所能检测的车辆排队长度的上限值。前置检测器和后置检测器把测量信号发送至路口机，由路口机进行处理后将交通状态发送至交通信号控制器。交通信号控制器按照固定的相位次序选择相位信号并发送至路口机执行，将单位时间间隔设置为15秒，每隔15秒，交通信号控制器根据当前交通状态决策控制动作，然后把控制动作发送至路口机执行。

图2所示的基于聚类强化学习的城市道路交叉口交通信号优化方法流程图包含如下步骤：

步骤1，定义强化学习的主体、交通状态、控制动作和回报：

定义强化学习的主体为城市道路交叉口的交通信号控制器，交通信号控制器每隔15秒接收路口机采集到的交通状态，并产生控制动作供路口机执行，然后根据回报值更新Q值函数。定义交通状态为当前相位的排队长度和下一相位的排队长度，例如，若当前相位为东西直行车道绿灯，其他车道红灯，则当前交通状态由东西直行车道和东西左转车道的车辆排队长度这两个变量组成的数据向量表示。

信号控制方案采用四相位固定相序控制方案，图3示出了交通信号相位时序图，相位1：东西方向直行；相位2：东西方向左转；相位3：南北方向直行；相位4：南北方向左转。尽管相位顺序是固定的，每个相位的绿灯时长却不必固定。定义控制动作为保持当前相位或切换到下一相位，如果当前相位为相位1，则经过15秒后，交通信号控制器需要决策控制动作：保持相位1，或者切换到相位2，如果选择相位2，再过15秒又需要执行一次控制动作：保持相位2，或者切换到相位3……如此循环往复。定义所有相位的最小绿灯时间为15秒，最大绿灯时间为60秒。

回报r代表路口机执行控制动作后获得的直接利益，其定义如下：

n_p表示最近两次控制动作决策间隔的15秒内通过停车线的车辆数，可由前置检测器检测得到，t_w表示同一15秒内处于红灯相位所有车辆的总等待时间，可由车辆排队长度估算出来，w₁用于调节n_p对回报贡献的大小，w₂用于调节t_w对回报贡献的大小，w₁和w₂可设置为0.5。回报公式中的常数系数根据仿真数据得到，目的在于使回报r维持在[-1,1]之间。

定义状态-动作对为离散的交通状态和控制动作组成的数据向量，交通信号控制器每次接收交通状态，求出对应的离散状态，并决策控制动作，15秒后就会得到一个回报值，因此每经历一个状态-动作对都会计算得到一个回报值，随着学习的进行，每个状态-动作对会经历多次，因此每个状态-动作对会对应多个回报值，定义每个状态-动作对的Q值是从一个状态-动作对开始，直到一段时间之后的累积回报值之和，表示处于相应交通状态下采取控制动作后获得的长远利益。

步骤2，采集交通数据供聚类使用：

在指定的典型时段，如早高峰或晚高峰时段，进行传统强化学习，采集数据供聚类分析使用。传统强化学习首先对交通状态进行离散化处理，并计算离散化后的每个区域的质心，例如，能检测到的最大车辆排队长度是120米，以30米为单位把120米划分为4段，按照交通状态是两个相邻相位车辆排队长度组成的向量这一定义，将交通状态空间划分为16个区域。每个区域的几何中心即为质心。每个区域对应一个离散状态。

离散化之后，初始化Q值函数，把每一个状态-动作对的Q值初始化为0。每隔15秒，交通信号控制器接收路口机采集到的交通状态，依照离散化后的交通状态空间划分计算出对应的离散状态s。

因交通信号控制器内的计时器以秒为单位进行计时，故每经过一秒都需要判断是否到达决策控制动作的时刻，若距离上次决策的时间等于15秒，则判断当前绿灯时间是否超过最小绿灯时间，若没有超过则控制动作a为继续保持当前相位，否则判断当前绿灯时间是否超过最大绿灯时间，若超过则控制动作a为切换到下一相位，如果当前绿灯时间介于最小绿灯时间15秒和最大绿灯时间60秒之间，则按照ε-greedy策略选择控制动作a，公式如下：

其中Q(s,a)表示状态-动作对(s,a)的Q值，ε表示探索率，在学习阶段是一个小于1大于0的常数，设置为0.2。执行控制动作后15秒时计算回报值r，并按照下面的公式更新Q值函数：

Q(s,a)＝Q(s,a)+α(r+γQ(s',a')-Q(s,a))

其中Q(s',a')表示下一个15秒开始时的状态-动作对的Q值，离散状态s’的求法和控制动作a’的求法与状态-动作对(s,a)的求法一样。保存Q值函数和经历过的交通状态。

步骤3，对交通状态进行聚类：

经过3小时传统强化学习后，把经历过的交通状态作为样本数据进行k-均值聚类。定义簇为相近样本点的集合，每个簇对应一个离散状态，定义质心为簇包含的所有样本点的质心，设定初始质心数为2，最小质心数为2，最大质心数为10，当前的质心数记为k，选择欧氏距离作为样本点到质心的距离，然后开始聚类，步骤如下：

步骤a，从样本数据中随机选择k个不同的样本点作为初始质心；

步骤b，计算每个样本点到每个质心的距离，将每个点指派到最近的质心，形成k个簇；

步骤c，重新计算每个簇的质心；

步骤d，计算质心的变化量，即原先的质心和新的质心之间的距离，若所有簇的质心不再发生变化，聚类结束，否则执行步骤b。

因为当前离散状态的个数已经由16个变成了k个，因此需要生成一个新的Q值函数。定义任意两个状态-动作对之间的距离为两个状态所对应的两个质心之间的欧氏距离，计算聚类得到的k个质心到步骤2离散化处理得到的16个质心的欧氏距离，新的Q值函数中每个状态-动作对的Q值等于步骤2中保存的Q值函数中距离最近的状态-动作对的Q值。之后不再使用步骤2中保存的Q值函数。

步骤4，每隔单位时间间隔根据Q值函数决策控制动作，更新Q值函数，记录数据：

每隔15秒，交通信号控制器接收路口机采集到的交通状态，计算交通状态到每个质心的距离，距离最近的质心所在的簇即为对应的离散状态s，按照最小绿灯时间、最大绿灯时间和ε-greedy策略决策控制动作a供路口机执行。检测15秒内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间，使用这两个变量值计算回报值r，更新Q值函数，记录交通状态s，控制动作a和回报值r。

步骤5，如果超过预设的学习时间，执行步骤8，否则执行步骤6：

预设的学习时间为10小时，如果学习时间超过10小时，执行步骤8，否则执行步骤6。

设定每隔1800秒进行一次聚类，如果距离上一次聚类结束的时刻大于1800秒，则执行步骤7，否则执行步骤4。

步骤7，根据记录数据增减质心，对上一次聚类之后采集到的交通状态进行聚类，执行步骤4：

根据最近1800秒内的记录数据，对于同一个离散状态，取每个动作所得回报的标准差之最大值作为该状态所得回报的标准差。如果至少一个状态所得回报的标准差大于0.3，且当前质心数小于最大质心数10，那么质心数k＝k+1。在回报标准差最大的状态对应的簇中，随机选择一个样本点作为新增质心的初始值，上一次聚类得到的质心作为本次聚类其他质心的初始值。如果所有状态所得回报的标准差都小于0.2，且当前质心数大于最小质心数2，那么质心数k＝k-1，去掉回报标准差最小的状态对应的质心，上一次聚类得到的其他质心作为本次聚类质心的初始值。如果回报标准差为其他情况，则质心数k保持不变，上一次聚类得到的质心作为本次聚类质心的初始值。然后对最近1800秒内采集到的数据样本进行k-均值聚类。

聚类结束后，如果质心数保持不变，则Q值函数也不发生变化，否则，生成一个新的Q值函数，定义新旧状态-动作对之间的距离为新旧质心之间的欧氏距离，新Q值函数每个状态-动作对的Q值等于原先的Q值函数中距离最近的状态-动作对的Q值，之后使用新的Q值函数而摒弃原先的Q值函数。

返回步骤4。

步骤8，每隔单位时间间隔根据Q值函数决策控制动作供路口机执行：

优化结束后，每隔15秒，交通信号控制器接收路口机采集到的交通状态，求得距离交通状态最近的质心，质心所属的簇即为对应的离散状态。若当前绿灯时间没有超过最小绿灯时间，则控制动作a为继续保持当前相位，若当前绿灯时间超过最大绿灯时间，则控制动作a为切换到下一相位。设置ε＝0，即如果当前相位绿灯时间在最小绿灯时间和最大绿灯时间之间，则每次都选择使Q值函数最大的动作为控制动作。交通信号控制器决策好控制动作后发送给路口机执行。

Claims

1.基于聚类强化学习的城市道路交叉口交通信号优化方法，包括以下步骤：

步骤2，进行一段时间的传统强化学习以采集交通数据供聚类使用，初始化Q值函数，每隔一单位时间间隔，交通信号控制器接收路口机采集的交通状态，并计算对应的离散状态，依据离散状态查询Q值函数得到控制动作并发送至路口机执行，检测单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间，使用这两个变量计算回报值，使用状态-动作对和回报值更新Q值函数，记录每个决策时间间隔开始时的交通状态；

步骤4，每隔一单位时间间隔，交通信号控制器接收路口机采集的交通状态，计算交通状态到每个质心的距离，求出距离最近的质心，根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行，检测此单位时间间隔内通过交叉口的车辆数和处于红灯相位所有车辆的总等待时间，使用这两个变量计算回报值，使用状态-动作对和回报值更新Q值函数，记录单位时间间隔开始时的交通状态，控制动作和每个状态-动作对下获得的回报值；

步骤7，保存Q值函数，对上一次聚类之后采集到的交通状态进行聚类，首先确定质心数，计算所有状态-动作对所得回报的标准差，根据标准差决定是否增加或减少质心数，然后进行k-均值聚类，得到新的质心，如果质心数不变则Q值函数也不变，否则生成新的Q值函数并且使用原先的Q值函数进行初始化，返回步骤4；

步骤8，每隔一单位时间间隔，交通信号控制器接收路口机采集的交通状态，计算交通状态到每个质心的距离，求出距离最近的质心，根据质心对应的离散状态查询Q值函数得到控制动作并发送至路口机执行。

2.如权利要求1所述的基于聚类强化学习的城市道路交叉口交通信号优化方法，其特征在于，在聚类之前，对于同一个离散状态，取每个动作所得回报的标准差之最大值作为该状态所得回报的标准差；如果至少一个状态所得回报的标准差大于预设值，且当前质心数小于预设的最大质心数，那么增加一个质心，在回报标准差最大的状态对应的簇中，随机选择一个样本点作为新增质心的初始值，上一次聚类得到的质心作为本次聚类其他质心的初始值；如果所有状态所得回报的标准差都小于预设值，且当前质心数大于预设的最小质心数，那么去掉回报标准差最小的状态对应的质心，上一次聚类得到的其他质心作为本次聚类质心的初始值；如果回报标准差为其他情况，则质心数保持不变，上一次聚类得到的质心作为本次聚类质心的初始值。

3.如权利要求1所述的基于聚类强化学习的城市道路交叉口交通信号优化方法，其特征在于，每个离散状态对应一个簇，每个簇有一个质心，聚类之后，如果质心数保持不变，则Q值函数也不发生变化，否则，生成一个新的Q值函数，定义新旧状态-动作对之间的距离为新旧质心之间的欧氏距离，新Q值函数每个状态-动作对的Q值等于原先的Q值函数中距离最近的状态-动作对的Q值，之后使用新的Q值函数而摒弃原先的Q值函数。