CN115035710A

CN115035710A - 一种针对稀疏路网的基于q学习的交通信号控制方法

Info

Publication number: CN115035710A
Application number: CN202210384148.4A
Authority: CN
Inventors: 龙水
Original assignee: Shanghai Pingjia Technology Co ltd
Current assignee: Shanghai Pingjia Technology Co ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-09-09

Abstract

本发明公开了一种针对稀疏路网的基于Q学习的交通信号控制方法，包括以下步骤：路网的建立和车辆数据的生成；建立Q函数的数学表达式；在得到Q函数的数学表达式之后，利用迭代的方法求得Q值；使SUMO模拟平台仿真，使得Q值收敛模拟结束。本方法具有适应道路车流动态变化的自适应控制策略，更加充分的压榨路网性能。同时，基于稀疏路网的特征，假定交叉路口之间的车流数据是相互独立的，这样便可以针对每个交叉路口进行单独的自适应调节，而不需要考虑路口与路口之间的数据共享问题，从最终实现了分布式的信号控制策略，减少了算力资源的需求。

Description

一种针对稀疏路网的基于Q学习的交通信号控制方法

技术领域

本发明涉及一种交通信号控制方法，具体为一种针对稀疏路网的基于Q学习的交通信号控制方法，属于交通控制技术领域。

背景技术

随着私家车保有量的逐年上升，城市交通拥堵问题也变得日益严重，可能的缓解逐渐严重的城市拥堵问题的方式是大力修建公共基础设施如地铁和公交站台或者不断拓展现有路网，但是这种方式往往建设周期长同时成本高昂。另一种较好的缓解方式是充分压榨现有道路的吞吐能力，最容易想到的方式就是针对交叉路口的信号控制算法进行优化。同时，现在的城市交叉路口的配时方式大都基于定时控制的方法，而这种方法固定配时信号的不足，如难以根据变化的车流量实时调节信号灯的配时策略等缺点。因此对该类方法进行替换或者改进具有十分重要的现实意义。

发明内容

本发明的目的就在于为了解决问题而提供一种针对稀疏路网的基于Q学习的交通信号控制方法，通过恰当的选取奖励函数，自适应的调节信号策略并最终达到提升路网吞吐率的目的。

本发明通过以下技术方案来实现上述目的：一种针对稀疏路网的基于Q 学习的交通信号控制方法，包括以下步骤：

步骤1)路网的建立和车辆数据的生成；

步骤2)建立Q函数的数学表达式；

步骤3)在得到Q函数的数学表达式之后，利用迭代的方法求得Q值；

步骤4)使SUMO模拟平台仿真，使得Q值收敛模拟结束。

作为本发明的进一步技术方案：所述步骤1中，路网的建立和车辆数据的生成，包括：

路网和车辆数据的生成采用xml文件的形式定义，分别命名为net.xml 和rou.xml，其中net.xml文件表示道路网络信息文件，rou.xml文件表示车辆路由信息，即车辆流动信息文件；

路网信息的文件采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件，rou.xml文件自定义车流数据，包括车辆类型和起始点信息。

作为本发明的进一步技术方案：所述步骤2中，建立Q函数的数学表达式，包括：

某个交叉道口的压力具体定义为：该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目，即p(i，t)＝n_in(i，t)+n_out(i，t)，其中：p(i，t)为在t时刻交叉路口i的压强，n_in(i，t)为t时刻进入i交叉道口车道的车辆排队数目，n_out(i，t)为t时刻出交叉道口的车辆排队数目；

交叉道口为i，则路口i的压强为p(i)＝3+2-1＝4，每个智能体/信号控制器的奖励函数为r＝-p；

求得预期回报，即Q函数：

q(s，a)＝R(s，a)+γ∑_s′∈sP(s′|s，a)∑_a′∈Aπ(a′|s′)q(s′，a′) (1)

作为本发明的进一步技术方案：所述步骤3中，在得到Q函数的数学表达式之后，利用迭代的方法求得Q值，包括：式(1)写成如下的迭代式：

Q(St，At)←Q(St，At)+α[Rt+1+γmaxQ(St+1，At+1)-Q(St，At)]；

其中，α为学习率，γ为贴现因子，R为奖励函数。

作为本发明的进一步技术方案：所述步骤4中，使SUMO模拟平台仿真，使得q值收敛模拟结束，包括：使用Simulation of Urban Mobility作为模拟平台，路网文件net.xml和车流数据rou.xml作为输入，当所有状态的q 值收敛模拟结束。

本发明的有益效果是：

1)针对稀疏路网的交叉路口进行建模，建立了交叉路口拥堵通畅的状态模型，并最终将交通信号控制问题抽象为一个马尔科夫决策过程，同时通过设计建立回报函数的数值模型，利用Q学习算法针对稀疏交叉路口求解最优策略并利用这一最优策略调节交叉道口的信号指示灯；

2)通过直觉和实际观察发现，稀疏路网的交叉路口之间的交通流是互相独立的但是未必是同分布的，因此针对每个交叉路口单独设立智能体(agent) 进行调节，采用去中心化的学习方式，使学习时间大大缩短。

附图说明

图1为本发明的方法组织过程示意图；

图2为本发明实施例建立的一个4*4的双交叉路口的稀疏路网示意图；

图3为本发明压力的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

一种针对稀疏路网的基于Q学习的交通信号控制方法，包括以下步骤：

第一：路网的建立和车辆数据的生成。

其包括：路网和车辆数据的生成采用xml文件的形式定义，分别命名为 net.xml和rou.xml，其中net.xml文件表示道路网络信息文件，rou.xml文件表示车辆路由信息，即车辆流动信息文件；

第二：建立Q函数的数学表达式。

其包括：某个交叉道口的压力具体定义为：该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目，即p(i，t)＝n_in(i，t)+ n_out(i，t)，其中：p(i，t)为在t时刻交叉路口i的压强，n_in(i，t)为t时刻进入i交叉道口车道的车辆排队数目，n_out(i，t)为t时刻出交叉道口的车辆排队数目；

求得预期回报，即Q函数：

q(s，a)＝R(s，a)+γ∑_s′∈sP(s′|s，a)∑_a′∈Aπ(a′|s′)q(s′，a′) (1)。

第三：在得到Q函数的数学表达式之后，利用迭代的方法求得Q值。

其包括：式(1)写成如下的迭代式：

Q(St，At)←Q(St，At)+α[Rt+1+Y maxQ(St+1，At+1)-Q(St，At)]；

其中，α为学习率，Y为贴现因子，R为奖励函数。

第四：使SUMO模拟平台仿真，使得Q值收敛模拟结束。

使SUMO模拟平台仿真，使得q值收敛模拟结束，包括：使用Simulation of UrbanMobility作为模拟平台，路网文件net.xml和车流数据rou.xml作为输入，当所有状态的q值收敛模拟结束。

实施例二

如图1至图3所示：一种针对稀疏路网的基于Q学习的交通信号控制方法，步骤1)路网的建立和车辆数据的生成。路网和车辆数据的生成采用xml 文件的形式定义。分别命名为net.xml和rou.xml。其中，net.xml文件表示道路网络信息文件，rou.xml文件表示车辆路由信息，即车辆流动信息文件。此外，路网信息的文件我们采用SUMO自带的绘图工具进行绘制然后保存并最终生成net.xml文件。rou.xml文件自定义车流数据，车辆类型和起始点等各种信息。如图1所示，是一个4*4的稀疏路网的示意简图。通过rou.xml文件定义的车流从不同的起点在路网上移动到不同的终点。根据真实世界的统计结果，设置直行左转弯和右转弯的车辆比例分别为执行60％，左转弯20％，右转弯20％。

步骤2)得到Q函数的数学表达式。

某个交叉道口的压力具体定义为：该交叉路口进入车道的车辆排队数目总数目和离开车道的交叉道口排队总数目，即p(i，t)＝n_in(i，t)+n_out(i，t)，其中：p(i，t)为在t时刻交叉路口i的压强，n_in(i，t)为t时刻进入i交叉道口车道的车辆排队数目，n_out(i，t)为t时刻出交叉道口的车辆排队数目。

如图3所示，交叉道口为i，则路口i的压强为p(i)＝3+2-1＝4，每个智能体/信号控制器的奖励函数为r＝-p。

定义了奖励函数之后，便可以求得预期回报，即Q函数：

这个方程也被称为动作-状态(action-value)的贝尔曼方程(BellmanEquation)。通过最优化q(s，a)即可得到最优的信号控制策略(q表)。

步骤3)在得到Q函数的数学表达式之后，利用迭代的方法求得Q值。

上式可以写成如下的迭代式：

Q(St，At)←Q(St，At)+α[Rt+1+Y maxQ(St+1，At+1)-Q(St，At)]。其中α为学习率，Y为贴现因子，R即为我们定义的奖励函数。

本实施例中，α被设置为0。05，Y被设置为0。8。通过不断迭代更新Q 值表并最终收敛并形成稳定的控制策略。

步骤4)本方法在使用Simulation of Urban Mobility(SUMO)作为我们的模拟平台，路网文件net.xml和车流数据rou.xml作为输入。所有状态的q 值收敛模拟结束。

本方法具有适应道路车流动态变化的自适应控制策略，更加充分的压榨路网性能。同时，基于稀疏路网的特征，假定交叉路口之间的车流数据是相互独立的，这样便可以针对每个交叉路口进行单独的自适应调节，而不需要考虑路口与路口之间的数据共享问题，从最终实现了分布式的信号控制策略，减少了算力资源的需求。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种针对稀疏路网的基于Q学习的交通信号控制方法，其特征在于：包括以下步骤：

步骤1)路网的建立和车辆数据的生成；

步骤2)建立Q函数的数学表达式；

步骤4)使SUMO模拟平台仿真，使得Q值收敛模拟结束。

2.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法，其特征在于：所述步骤1中，路网的建立和车辆数据的生成，包括：

路网和车辆数据的生成采用xml文件的形式定义，分别命名为net.xml和rou.xml，其中net.xml文件表示道路网络信息文件，rou.xml文件表示车辆路由信息，即车辆流动信息文件；

3.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法，其特征在于：所述步骤2中，建立Q函数的数学表达式，包括：

交叉道口为i，则路口i的压强为p(i)＝3+2–1＝4，每个智能体/信号控制器的奖励函数为r＝-p；

求得预期回报，即Q函数：

4.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法，其特征在于：所述步骤3中，在得到Q函数的数学表达式之后，利用迭代的方法求得Q值，包括：式(1)写成如下的迭代式：

Q(St，At)←Q(St，At)+α[Rt+1+γmaxQ(St+1，At+1)-Q(St，At)]；

其中，α为学习率，γ为贴现因子，R为奖励函数。

5.根据权利要求1所述的一种针对稀疏路网的基于Q学习的交通信号控制方法，其特征在于：所述步骤4中，使SUMO模拟平台仿真，使得q值收敛模拟结束，包括：使用Simulationof Urban Mobility作为模拟平台，路网文件net.xml和车流数据rou.xml作为输入，当所有状态的q值收敛模拟结束。