CN112216126A

CN112216126A - 一种基于sarsa的干线交通控制优化方法

Info

Publication number: CN112216126A
Application number: CN202011030095.3A
Authority: CN
Inventors: 林静; 魏平; 柴子辉; 许泸军; 徐韧; 冯远静; 李永强
Original assignee: Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Current assignee: Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-12

Abstract

一种基于SARSA学习的干线交通控制优化方法包括如下步骤：1)对与一段连续的时刻，获取目标干线路口的红绿灯状态信息以及各个红绿灯所对应车道的排队车辆信息；2)整合初始干线‑灯态数据，获得干线‑灯态数据集；3)根据第一步收集的干线‑灯态数据集，优化Q值表直到收敛；4)Q值表收敛到满意的精度后，即可获得基于SARSA学习的干线交通优化方案。与现有技术相比，本发明通过人工智能方法，挖掘干线中车辆包含的隐藏信息，获得的干线配时方案比传统的绿波带控制算法在随机性较强的车流量的路网条件下具有更高的通行效率。

Description

一种基于SARSA的干线交通控制优化方法

技术领域

本发明涉及交通控制工程、人工智能应用领域，具体涉及SARSA(State,Action,Reward,Next State,Next Action)学习方法和干线交通控制优化方法。

背景技术

在城市的路网中，干线交通的优化控制往往是决定居民通行体验的重点。但是近年来，随着汽车的普及，路网设施跟不上车流量的迅速发展。之前对于干线设计的信号控制方法如绿波带，双向绿波带等干线信号控制方法已经不能适应当前干线车流量，其中最主要的原因是上述方法均为给定的配时方案，不能处理车流量的随机变化。本专利设计的基于SARSA的干线交通控制优化方法是一种实时交通控制方案。2020年后，通信技术诸如5G的民用普及和各种车辆检测技术诸如地磁检测和雷达技术的蓬勃发展，干线交通数据的实时获取和快速传输已经可以实现。

发明内容

为了解决干线交通配时方案不能很好地适应交通流随机变化的问题，基于实时获取的干线交通数据，本发明提出一种利用干线各个路口车辆排队数据的交通信号配时优化的方法，对于干线交通提出的基于SARSA的交通信号控制优化方案可以提高交通通行效率，而且可以应对复杂的交通流随机变化情况。

本发明解决其技术问题所采用的技术方案是：

一种基于SARSA的干线交通控制优化方法，包括以下步骤：

1)对于一段连续的时刻，获取目标干线N个路口的红绿灯状态信息以及各个红绿灯所对应车道的排队车辆信息，令N为路口个数，M为每个路口的相位个数；

2)整合初始干线-灯态数据，获得干线-灯态数据集{A_k,S_k,A_k+1,S_k+1}，其中，

为第k时刻干线上每个路口车辆信息的组合，Vⁿ是干线上第n个路口的排队车辆信息，

是干线上第n个路口的红绿灯信息，k＝1,2,…,K，K为该数据集合中的数据个数；

3)根据干线-灯态数据集{A_k,S_k,A_k+1,S_k+1}，初始化SARSA学习中Q函数的Q值表Q(A,S)全为0；

4)Q值表收敛到满意的精度后，可以给出基于SARSA学习的干线交通优化方案：在干线交通信号控制中，获取当前干线各个路口中的排队车辆信息A_now，根据SARSA学习中的Q值表，通过以下公式得到每个干线路口下的应当执行的红绿灯状态S_next

S_next＝arg max(Q(A_now,S_now))。

进一步，所述步骤3)中，Q值表的优化过程如下：

3.1)首先，定义基本参数，其中折扣因子γ＝0.99，学习率为α＝0.1，收敛指标ε＝0.001，SARSA学习中的奖励函数设定为：

3.2)根据干线-灯态数据集{A_k,S_k,A_k+1,S_k+1}，Q值表Q(A,S)的更新公式如下所示：

Q(A_t,S_t)＝Q(A_t,S_t)+α[r_t+1+γQ(A_t+1,S_t+1)-Q(A_t,S_t)]；

3.3)每更新一次Q值表就根据下列公式计算一次新旧Q值表的差值，直到ε＜0.001，其中i代表Q值表更新的次数

ε＝sum(Q_i+1(A,S))-sum(Q_i(A,S))。

本发明的技术构思为：在一段连续的时刻，首先收集干线每一个路口中的排队车辆和与之对应的红绿灯信息。然后整合成用于SARSA训练的干线-灯态数据集，其中Q函数的Q值表得到在有限次数的训练情况下能收敛到一个给定的精度。Q值表收敛之后，基于SARSA学习的干线交通控制优化方案即可通过选取当前干线路网状态下的Q值表的动作最大值得到，鉴于本方法的实时控制性，则可以适应干线的随机变化的特性。

本发明的有益效果为：通过实时检测干线交通路网的排队车辆数据，设计的基于SARSA的干线交通控制优化方法比已有方法的干线协调方法具有更好的交通通行效率，且能适应干线车流的随机特性。

附图说明

图1显示了应用于干线交通控制优化的SARSA学习算法的流程图；

图2显示了基于交通微观仿真软件VISSIM搭建的干线结构图，用于下文的实例分析。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于SARSA的干线交通控制优化方法，包括以下步骤：

1)参照图2，对于一段连续的时刻，获取目标干线N个路口的红绿灯状态信息以及各个红绿灯所对应车道的排队车辆信息，令N为路口个数，M为每个路口的相位个数；

是干线上第n个路口的红绿灯信息，k＝1,2,…,K，K为该数据集合中的数据个数。

3)参照图1流程图，根据干线-灯态数据集{A_k,S_k,A_k+1,S_k+1}，初始化SARSA学习中Q函数的Q值表Q(A,S)全为0，Q值表的优化过程如下：

Q(A_t,S_t)＝Q(A_t,S_t)+α[r_t+1+γQ(A_t+1,S_t+1)-Q(A_t,S_t)]；

ε＝sum(Q_i+1(A,S))-sum(Q_i(A,S))；

S_next＝arg max(Q(A_now,S_now))。

本实施例以使用交通微观仿真软件VISSIM绘制的干线路网的实测交通排队数据为实施例，一种基于SARSA的干线交通控制优化方法，包括以下步骤：

1)通过VISSIM，绘制一段具有三个交叉口的干线作为实施例路网，对于一段连续的时刻，通过调用VISSIM接口获取目标干线N个路口的红绿灯状态信息以及各个红绿灯所对应车道的排队车辆信息，令N为路口个数，M为每个路口的相位个数；

3)根据干线-灯态数据集{A_k,S_k,A_k+1,S_k+1}，初始化SARSA学习中Q函数的Q值表Q(A,S)全为0，Q值表的优化过程如下：

Q(A_t,S_t)＝Q(A_t,S_t)+α[r_t+1+γQ(A_t+1,S_t+1)-Q(A_t,S_t)]；

ε＝sum(Q_i+1(A,S))-sum(Q_i(A,S))；

4)Q值表收敛到满意的精度后，可以给出基于SARSA学习的干线交通优化方案：在干线交通信号控制中，通过调用VISSIM接口获取当前干线各个路口中的排队车辆信息A_now，根据SARSA学习中的Q值表，通过以下公式得到每个干线路口下的应当执行的红绿灯状态S_next然后在VISSIM信号灯执行模块执行该条件即可

S_next＝arg max(Q(A_now,S_now))。

以微观交通仿真软件VISSIM为实施例，运用以上方法得到了基于SARSA的干线交通控制优化信号配时方案，结果显示在感兴趣时间内的车辆延误时间比传统的定时配时方案少了24.2％。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于SARSA的干线交通控制优化方法，其特征在于，所述方法包括以下步骤：

S_next＝argmax(Q(A_now,S_now))。

2.如权利要求1所述的一种基于SARSA的干线交通控制优化方法，其特征在于，所述步骤3)中，Q值表的优化过程如下：

Q(A_t,S_t)＝Q(A_t,S_t)+α[r_t+1+γQ(A_t+1,S_t+1)-Q(A_t,S_t)]；

ε＝sum(Q_i+1(A,S))-sum(Q_i(A,S))。