CN111081035A

CN111081035A - 一种基于q学习的交通信号控制方法

Info

Publication number: CN111081035A
Application number: CN201911301069.7A
Authority: CN
Inventors: 胡春良; 潘翔; 柏志玮; 邓忠飞; 胡雅旭; 张庆鹏; 谢明亮
Original assignee: Yangzhou Xintong Intelligent Information Technology Co ltd
Current assignee: Yangzhou Xintong Intelligent Information Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-28

Abstract

本发明涉及交通控制工程技术领域，且公开了一种基于Q学习的交通信号控制方法，其特征在于，包括以下步骤：信息采集；对于每一个时刻，获取交叉口的所有车道的排队车辆信息。该基于Q学习的交通信号控制方法，通过使用Q学习方法训练Q值表得到在车道排队车辆给定的情况下，执行不同灯态的不同Q值，根据训练好的Q值表，选取使得Q值表最大的灯态动作用于信号控制，最终使得交通信号的控制可以适应交通路网的随机性，从而达到更好的控制效率，解决了现有技术中计算方式难以达成多段十字交通路口的车流汇集，所计算出时间的信号控制忽视了路网的随机性，无法适应当前城市道路交通情况，导致车辆通行效率低n，延误时间长的问题。

Description

一种基于Q学习的交通信号控制方法

技术领域

本发明涉及交通控制工程技术领域，具体为一种基于Q学习的交通信号控制方法。

背景技术

汽车的发明给人民的出行生活带来了极大的便利，但是随着社会经济的发展，城市汽车数量急剧增加却又带来了一系列交通问题，其中交通拥堵问题尤为突出。采用合理的信号控制方案是缓解交通拥堵的有效方法。目前，城市里大多数交通信号灯都采用定时控制，即根据历史交通流量预先计算出交通相位及时长，使信号灯以固定的时间进行切换。

根据中国专利申请公布号为CN 105654744 A提出的一种基于Q学习的改进交通信号控制方法，该基于Q学习的改进交通信号控制方法具有减少车辆停靠时间和节能减排的优点，但已经暴露出了其诸多缺陷，该种计算方式难以达成多段十字交通路口的车流汇集，所计算出时间的信号控制忽视了路网的随机性，无法适应当前城市道路交通情况，导致车辆通行效率低，延误时间长的缺点，故而提出一种基于Q学习的交通信号控制方法解决上述所提出的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于Q学习的交通信号控制方法，具备可以适应交通路网的随机性等优点，解决了现有技术中计算方式难以达成多段十字交通路口的车流汇集，所计算出时间的信号控制忽视了路网的随机性，无法适应当前城市道路交通情况，导致车辆通行效率低，延误时间长的问题。

(二)技术方案

为实现上述可以适应交通路网随机性的目的，本发明提供如下技术方案：一种基于Q学习的交通信号控制方法，包括以下步骤：

1)信息采集；对于每一个时刻，获取交叉口的所有车道的排队车辆信息，以及信号灯的灯态信息并按照连续时刻一一对应；

2)原始车辆灯态数据预处理；获得排队车辆-灯态数据集{V_k,S_k,V_k+1}，其中，V_k为第k时刻各个车道排队车辆的个数，k＝1,2,…,K，K为该数据集合中的数据个数；

3)利用排队车辆-灯态数据集{V_k,S_k,V_k+1}，更新Q学习中的Q值表

4)根据得到的Q值表，可以给出基于Q学习的最优控制方案：在实际信号控制中，利用传感器获取当前路网中的排队车辆信息V_now，根据Q值表，得到下一步应当执行的信号灯状态S_next。

优选的，所述K为该数据集合中的数据个数，计算过程为，剔除明显异常数据，如排队车辆变化量不符合常识的数据，将过车时刻数据按照时间顺序梳理，获取数据集合{V_k,S_k,V_k+1}。

优选的，所述步骤3中对每个V,S初始化表项

为，对于每一个数据(V_k,S_k,V_k+1)，定义Q学习中的奖励值；

r＝-V_k。

优选的，利用车辆-灯态数据集{V_k,S_k,V_k+1}中每一个数据对Q值表

按照下式更新表项，其中折扣因子γ＝0.99；

优选的，所述重复权利要求4步骤并相邻计算两次Q值表的差值ε，差值计算公式如下，直到ε<0.001；

优选的，所述S_next的计算公式为；

(三)有益效果

与现有技术相比，本发明提供了一种基于Q学习的交通信号控制方法，具备以下有益效果：

1、该基于Q学习的交通信号控制方法，通过信息采集，对于每一个时刻，获取交叉口的所有车道的排队车辆信息，以及信号灯的灯态信息并按照连续时刻一一对应，原始车辆灯态数据预处理；获得排队车辆-灯态数据集{V_k,S_k,V_k+1}，利用排队车辆-灯态数据集{V_k,S_k,V_k+1}，更新Q学习中的Q值表

得到下一步应当执行的信号灯状态S_next，首先收集交叉口中的排队车辆和与之对应的灯态信息，然后又基于该数据集，使用Q学习方法训练Q值表得到在车道排队车辆给定的情况下，执行不同灯态的不同Q值，根据训练好的Q值表，通过选取使得Q值表最大的灯态动作用于信号控制，最终使得交通信号的控制可以适应交通路网的随机性，从而达到更好的控制效率。

2、该基于Q学习的交通信号控制方法，通过利用SUMO搭建的路网匹配和信息采集、原始车辆灯态数据预处理、利用排队车辆-灯态数据集{V_k,S_k,V_k+1}，更新Q学习中的Q值表

和得到的Q值表，可以给出基于Q学习的最优控制方案：在实际信号控制中，利用传感器获取当前路网中的排队车辆信息V_now，根据Q值表，得到下一步应当执行的信号灯状态S_next，以SUMO仿真数据软件为实施例，运用以上方法得到了基于Q学习的交通信号控制器，结果显示汽车平均旅行时间比传统定时方法控制少了16％，从而达到了可以适应交通路网随机性的目的。

附图说明

图1为该基于Q学习的交通信号控制方法的Q学习算法的Q值表的更新流程图；

图2为该基于Q学习的交通信号控制方法的基于开源仿真软件SUMO搭建的路网图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：一种基于Q学习的交通信号控制方法，包括以下步骤：

步骤3中对每个V,S初始化表项

为，对于每一个数据(V_k,S_k,V_k+1)，定义Q学习中的奖励值；

r＝-V_k，

利用车辆-灯态数据集{V_k,S_k,V_k+1}中每一个数据对Q值表

按照下式更新表项，其中折扣因子γ＝0.99；

重复权利要求4步骤并相邻计算两次Q值表的差值ε，差值计算公式如下，直到ε<0.001；

4)根据得到的Q值表，可以给出基于Q学习的最优控制方案：在实际信号控制中，利用传感器获取当前路网中的排队车辆信息V_now，根据Q值表，得到下一步应当执行的信号灯状态S_next，S_next的计算公式为；

本发明的有益效果是：通过信息采集，对于每一个时刻，获取交叉口的所有车道的排队车辆信息，以及信号灯的灯态信息并按照连续时刻一一对应，原始车辆灯态数据预处理；获得排队车辆-灯态数据集{V_k,S_k,V_k+1}，利用排队车辆-灯态数据集{V_k,S_k,V_k+1}，更新Q学习中的Q值表

实施例二：一种基于Q学习的交通信号控制方法，包括以下步骤：

步骤3中对每个V,S初始化表项

为，对于每一个数据(V_k,S_k,V_k+1)，定义Q学习中的奖励值；

r＝-V_k，

利用车辆-灯态数据集{V_k,S_k,V_k+1}中每一个数据对Q值表

按照下式更新表项，其中折扣因子γ＝0.99；

本发明的有益效果是：通过利用SUMO搭建的路网匹配和信息采集、原始车辆灯态数据预处理、利用排队车辆-灯态数据集{V_k,S_k,V_k+1}，更新Q学习中的Q值表

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。