CN114117883A

CN114117883A - 一种基于强化学习的自适应轨道交通调度方法、系统、终端

Info

Publication number: CN114117883A
Application number: CN202111079240.1A
Authority: CN
Inventors: 黄黛麟; 马佳林; 侯亮; 陈作汉; 曹洁
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-03-01

Abstract

本发明属于交通调度技术领域，公开了一种基于强化学习的自适应轨道交通调度方法、系统、终端，基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型；确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。本发明提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。

Description

一种基于强化学习的自适应轨道交通调度方法、系统、终端

技术领域

本发明属于交通调度技术领域，尤其涉及一种基于强化学习的自适应轨道交通调度方法、系统、终端。

背景技术

目前，轨道交通因路线稳定、没有拥堵烦恼等优点一直是备受欢迎的出行方式。目前轨道交通所采用的调度方式是固定配时，即在高峰期车辆间隔较短，在平峰期车辆间隔稍长一些，这种调度方案看似是一种较为合理的方案，但是存在以下缺点：(1)但是可能会产生一些突发事件打破这种规律，使得乘客等待时间较长进而发生拥挤踩踏事件。(2)由于一些大型事件的结束或者其他原因导致乘客急剧减少，这样会产生能源的浪费，进而损害交通公司的利益。所以轨道交通能够平稳运行的基础上拥有一套高效率、低误差的调度管理方案是很有必要的。同样的，高峰期还分为常发性高峰和偶发性高峰，面对不同高峰带来的客流量也需要一个相应的自适应策略来匹配。

通过上述分析，现有技术存在的问题及缺陷为：调度方案不合理进而导致方法效率不高，且误差大。

解决以上问题及缺陷的难度为：由于在单条线路中可能存在多个地铁，这使得无法将不确定维度的状态输入网络作为输入变量。同样，直接将路网中地铁的信息与客流的信息输入网络中拟合效果也难以保证。建立精确的马尔科夫决策模型以及设定有效的回报函数也是解决该问题的一大难题。

解决以上问题及缺陷的意义为：通过建立有效的马尔科夫决策模型利用强化学习得到一个有效的轨道交通调度方案，使得轨道交通公司在估计乘客满意率的前提下尽可能获得更高的营业额。

发明内容

针对现有技术存在的问题，本发明提供了一种基于强化学习的自适应轨道交通调度方法、系统、终端。

本发明是这样实现的，一种基于强化学习的自适应轨道交通调度方法，所述基于强化学习的自适应轨道交通调度方法包括：

步骤一，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；

步骤二，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。

进一步，所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。

进一步，所述基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：

建立轨道列车与待乘乘客之间的环境模型，并基于建立的轨道列车与待乘乘客之间的环境模型建立MDP模型；

通过分析常发性客流量和偶发性客流量的特点，基于分析结果细化所述环境模型，得到适用于强化学习的轨道列车调度的马尔可夫决策模型。

进一步，所述确定从环境中提取特征的轨道交通调度方案包括：利用Double DQN算法获得轨道交通调度方案。

进一步，所述利用Double DQN算法获得轨道交通调度方案之前还需进行：

将顺序采集的数据存储在数据库中，利用均匀随机采样的方法从数据库中抽取数据，利用抽取的数据训练神经网络。

进一步，所述神经网络损失函数如下：

进一步，所述从环境中提取特征包括：

利用下式进行特征信息的提取：

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供了一个基于强化学习的自适应轨道交通调度方法，可以根据乘客数目来调度轨道交通车辆，使得有关公司在保证乘客满意度的同时，保证收益最大化。

本发明使得在高峰期乘客等待的时间尽可能短，且在平峰期地铁的载客率尽可能高，但是也要保证乘客的等待时间尽可能短。

本发明的基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。

本发明首先对真实世界的轨道列车环境抽象成立MDP仿真模型，并且给出了常发性客流量与偶发性客流量下的环境建模方式，并且结合基于值函数的深度强化学习方法，给出了特征提取方法，并对常发性与偶发性客流量下的调度方案进行了实验。

附图说明

图1是本发明实施例提供的基于强化学习的自适应轨道交通调度方法流程图。

图2是本发明实施例提供的网络结构图。

图3是本发明实施例提供的在SP＝5000下智能体的训练过程图。

图4是本发明实施例提供的在SP＝10000下智能体的训练过程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于强化学习的自适应轨道交通调度方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于强化学习的自适应轨道交通调度方法包括：

S101，建立适用于强化学习的轨道列车调度的马尔可夫决策模型；

S102，结合基于值函数的深度强化学习方法，进行特征提取，确定从环境中提取特征的轨道交通调度方案，进行轨道交通调度。

本发明实施例提供的建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。

本发明实施例提供的基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：

本发明实施例提供的确定从环境中提取特征的轨道交通调度方案包括：利用Double DQN算法获得轨道交通调度方案。

本发明实施例提供的利用Double DQN算法获得轨道交通调度方案之前还需进行：

本发明实施例提供的神经网络损失函数如下：

本发明实施例提供的从环境中提取特征包括：

利用下式进行特征信息的提取：

下面结合具体实施例对本发明的技术方案做进一步说明。

实施例1：

本发明的实现包括以下几个步骤：

首先建立了适用于强化学习的轨道列车调度的马尔可夫决策模型(MarkovDecision Process，MDP)，其中包括了常发性客流量与偶发性客流量的环境建模方法。

接着给出了从环境中提取特征的方案，最后结合深度强化学习的方法对常发性客流量与偶发性客流量进行了实验。

实验结果表明，基于深度强化学习方法的列车调度方案有着自适应客流量的优点，在保证载客率的同时，使得运营成本与顾客等待时间更低。

具体步骤如下：

轨道交通调度模型的建立

这一部分本发明主要介绍了MDP模型的含义以及如何建立轨道列车与待乘乘客之间的环境模型，进而建立MDP模型。在此基础上向外拓展，本发明通过分析常发性客流量和偶发性客流量的特点，进一步细化环境模型。

为了更好的表达轨道列车发车与乘客乘车的关系，并且使其能够使用强化学习方法解决，本发明将其抽象成MDP模型进行仿真，MDP中包括了(S，A，R，γ)几个重要元素，其中S代表环境的状态，A代表动作，R代表环境当前的评估值，一次环境的状态转移可以被表达为：在t时刻环境的状态为s_t，执行动作a_t之后，下一时刻的状态为s_t+1，同时s_t下执行a_t之后模型反馈回报r_t。定义整体上一系列决策的轨迹为τ，也就是说τ＝(s₀，a₀，r₀，s₁，a₁，r₁，...，s_|T|，a_|T|，r_|T|)，其中|T|代表决策序列的长度，

就是由这个顺序决策τ所获得的总体回报。当|T|→∞时，total r是发散的，无法比较大小，为此在r_t前乘一个折扣因子γ使得级数收敛，那么

其中γ∈(0，1)。

本发明采用轨道交通的站点假设为20个，每隔2分钟发一辆车，下述内容中所有的时间t的最小单位都是2分钟，在客流量上，本发明采用OD矩阵进行建模，OD矩阵以所有交通分区按行(起点)与列(终点)排序，OD矩阵表示了乘客的出行量。由于地铁进站出站刷卡的优势，可以轻松的得到线路上不同时段的乘客乘车OD矩阵。OD矩阵会随着人们工作日/节假日出行的规律出现不同的峰期，并且在一段峰期内，客流量是稳定的。通过OD矩阵预测一个峰期的数据，在得到一段峰期的OD矩阵后，通过公式(1)来表达在峰期的每个2分钟将要到来的乘客期望数量。

其中OD^t.|T|代表OD^t峰期的持续时间，通过矩阵P来表达乘客的候乘、将要候乘的期望信息，其中

代表第i个站点在第t+j-1时刻的乘客候乘期望，那么p_i，1代表第i个站点正在候乘的乘客数量。每步仿真后，通过

使得2分钟后的候乘乘客加入到候乘的数量中，然后t+1时刻后的候乘乘客变成t时刻的候乘乘客，通过

其中k＞＝2表示。p_i，50代表在t+49时刻候乘乘客数量的期望，p_i，50行在t+1下的变化需要通过

来表达，所以

综上在t时刻到t+1时刻P的变化可以通过公式(2)表达：

在构建好P后，当一辆轨道列车发车后，可以让p_i，1～p_i，1+i的乘客赶上轨道列车，乘客在i车站上车后，会在接下来的不确定车站下车，OD矩阵可以通过公式(3)计算出n个乘客在i车站上车后在j车站下车的人数期望

定义OFF为一辆轨道列车发车后，在每一站下车的乘客数量期望向量。由于C_max的限制，无法使得p_i，1～p_i，1+i的所有乘客上车，当C＞C_max后，将无法继续运输乘客，仿真部分的模拟本发明采用algorithm1的方法实现。

在建立好轨道列车与待乘乘客的环境模型后，本发明需要接着去建立MDP模型，本发明定义S为P的特征信息，P代表了环境模型中乘客接下来的待乘信息。决策的方法由算法决定，本发明将其称为智能体，其作用是从环境中获取s_t作为自身的观测值o_t，然后智能体从观测值给出策略π_t(o_t)，环境采用策略π_t(o_t)作为动作a_t，这里的策略为0或1，0代表在s_t时刻不发车，1代表在s_t时刻发车。在智能体学习阶段采取ε-greedy策略探索，代表以ε的概率去探索采取一个随机的动作，以1-ε的概率去利用智能体所认为的最优策略

本发明定义回报为在t时刻等待的待乘乘客总数以及C，这样回报可以通过公式(4)表达：

定义好回报之后，智能体的目的就是最大化累计回报，由于一天的时间是有限的，其中06：30到22：30按两分钟一个区间一共可以分480个时间段，那么|T|＝480，为此定义γ＝1，且

是有界的。

公交车客流量会因为多种因变量而发生改变。对于常发的客流量受到城市上下班等规定时间的影响，每周的工作日会在固定的时间有高度的相似性，同样在非工作日也会有高度的相似性，也就是说具有在时间性质上是有规律的。为此常发的客流量可以通过以往的历史信息进行估计，定义工作日中每一天的不同时间段的OD矩阵分别为

OD₃，

那么对于不同时间段的估计值可以通过公式(5)来预测：

其中|OD|代表周期的长度，工作日为5，非工作日为2。对于偶发性的客流量来说，可能会由一次聚集活动的开始而导致某个站点的到达客流量剧增，由一次聚集活动的结束而导致某个站点的出发客流量剧增，在估计OD时可以将参加的人数按照平均分配的原则分配在前往时间内给每一个前置或后置车站，当第i个车站下车的聚集活动发生时，会产生n个乘客到达，此时在OD矩阵上新增的量可以通过公式(6)表达：

此时关于P矩阵需要增加ΔOD的流量，变化后的P矩阵可以通过公式(7)表示：

同理可得，当第i个车站上车的聚集活动结束时，会产生n个乘客出发，此时在OD矩阵上新增的量可以通过公式(8)表达：

此时P矩阵的变化可以通过公式(9)表示：

深度强化学习

在建立好模型以后，本发明需要选择合适的算法来获得合理的调度方案，经过各种实验对比后，本发明选择了Double DQN(Deep Q Network，DQN)算法。这一节本发明主要介绍了Double DQN算法以及与同类算法相比Double DQN算法的优点。

Q-learning是一种基于值函数的方法，在这里将在s下执行a的回报的估计为Q(s，a)，也称作值函数。那么最优的策略

根据贝尔曼方程的定义，Q(s，a)的贝尔曼方程为：

Q(s，a)＝r_t+1+γQ(s_t+1，a_t+1)(1)

由于状态是一个高维连续变量，DQN中通过神经网络来逼近并求解Q(s，a)，神经网络的输入是s，输出的是对应的每一个Q(s，a)。DQN中还提出了目标网络使得网络学习更加稳定，Q(s，a)每次更新的目标可以被表达为：

Q-Network更新的loss定义为：

但是实验中发现，由于TD目标在变化，而导致学习的不稳定，所以采用了目标网络求解TD目标，目标网络与Q-Network的结构相同，仅仅在于权重不同，这里将其称为θ^-，目标网络的权重每隔一段时间从Q-Network中复制，则loss变化为：

由于每次在计算TD目标时，采用的都是argmax操作，导致了Q(s，a)的估计值都是过估计的，并且过估计量是不同的，这样会导致决策的错误，为此在Double Q-learning中提出TD目标中采取由Q-Network得出的最大动作来计算TD目标，这样loss最终为：

训练神经网络时，存在的假设是训练数据是独立同分布的，但是顺序采集的数据之间存在着关联性，利用这些数据进行顺序训练，神经网络当然不稳定。为此DQN中提出在学习过程中，智能体将数据存储到一个数据库中，再利用均匀随机采样的方法从数据库中抽取数据，然后利用抽取的数据训练神经网络，以此打破数据之间的关联性。

用来逼近Q(s，a)的Q-Network结构如图2，其中每一个hidden层是一个linear层，其可以表达为Y＝WX+B，其中X是输入的特征，W和B是权重和偏置为θ，Y是linear层的输出。Q-Network的输出是两个值，分别是Q(s，0)，Q(s，1)。两个隐含层的结构均为64个神经元，激活函数使用Relu，神经网络中输入的是P的特征，P的特征信息通过公式(15)来提取。

综上，智能体最优发车策略可以通过算法2来实现。

证明部分

本发明可以在常发性客流量以及偶发性客流量的环境中进行验证。

1.常发性客流量

本文考虑设计自适应客流的调度方案，因此设计了不同的客流量，首先每列地铁拥有的最大载客量C_max，根据地铁车厢不同的情况，通过文献查询，在实验中我们设计了C_max分别为2520。同样，发车的成本SP会在不同的时刻发生改变，为此实验中我们设计了不同的SP以验证模型的泛化程度。

关于客流量，我们根据现实情况中每天的客流分布设计了三个一小时的高峰，分别对应早、午、晚高峰，客流量上设计了OD矩阵，并且对随机站点的客流量进行了倍增，以对现实中热点车站的流量匹配。

通过上述的Double DQN在仿真环境模型下去求解智能体的Q-Network，实验中训练参数设定epchos＝200，网络训练每个批次大小batch size＝120，探索率ε＝0.1，内存池大小memory size＝2000，目标网络每隔200次进行更新，网络参数使用Adam算法更新权重，学习率为0.001。为了对比实验的效果，本文还采用了每隔2分钟发车、每隔4分钟发车、每隔6分钟发车、每隔8分钟发车、每隔10分钟发车下的reward。为了验证模型的鲁棒性，分别设置了SP＝5000，10000，在不同的控制下，智能体的学习过程如图3，4所示，回报结果如表1，2所示。

表1 SP＝5000不同方案下的回报

序号	方案	累计回报
			1	Double DQN	-466622.33333333384
2	T0	-2407864.200000011
			3	T1	-1215461.8999999955
4	T2	-825076.5999999995
			5	T3	-639538.2999999992
6	T4	-539467.2000000004

表2 SP＝10000不同方案下的回报

序号	方案	累计回报
			1	Double DQN	-451542.3667
2	T0	-4807864.2000000235
			3	T1	-2415461.900000001
4	T2	-1625076.5999999936
			5	T3	-1239538.2999999952
6	T4	-1019467.1999999963

表1中T0代表每2分钟发车的策略，T1代表每4分钟发车的策略，T2代表每6分钟发车的策略，T3代表每8分钟发车的策略，T4代表每10分钟发车的策略，double DQN是本文采用的控制策略在ε＝0的结果，可以看出在double DQN下会根据P的特征信息给出最优的决策，使得在高峰期、平峰期、转换期下在控制成本的约束下，给出最优的发车策略。

接下来本文求出在几种不同策略下的全天平均载客率进行对比，分别得到几种策略下的载客率如表3，对比之下，采用Double DQN的调度方案载客率也比其他固定策略有着显著的提高。

表3不同方案下的平均载客率

2.偶发性客流量

为了验证模型对偶发性客流量的应对，在实验中引入了偶发性客流量的问题，在环境中通过引入偶发性客流随机因素，即在随机时间中，向随机车站设置出发客流或者到达客流，进而通过公式7或者公式9更改P矩阵，其中随机引入偶发性客流量的可能性为5％。仍然以double DQN下的策略和固定配时策略进行对比。

从表4中可以看出，Double DQN对偶发性客流量的调度方案也有着显著的优势。

表4 SP＝5000不同方案偶发性客流量几种策略累计回报

序号	方案	累计回报
			1	Double DQN	-466622.33333333384
2	T0	-2411498.1176648913
			3	T1	-1220689.4528156135
4	T2	-860036.2794281342
			5	T3	-746305.9404553726
6	T4	-846865.2133736821

在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上；术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于强化学习的自适应轨道交通调度方法包括：

2.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：

基于常发性客流量与偶发性客流量的环境建模方法建立适用于强化学习的轨道列车调度的马尔可夫决策模型。

3.如权利要求2所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述基于常发性客流量与偶发性客流量的环境建模方法，建立适用于强化学习的轨道列车调度的马尔可夫决策模型包括：

4.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述确定从环境中提取特征的轨道交通调度方案包括：利用Double DQN算法获得轨道交通调度方案。

5.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述利用Double DQN算法获得轨道交通调度方案之前还需进行：

6.如权利要求5所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述神经网络损失函数如下：

7.如权利要求1所述基于强化学习的自适应轨道交通调度方法，其特征在于，所述从环境中提取特征包括：

利用下式进行特征信息的提取：

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行如权利要求1-7任意一项所述基于强化学习的自适应轨道交通调度方法，包括下列步骤：

9.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求1-7任意一项所述基于强化学习的自适应轨道交通调度方法。

10.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1-7任意一项所述基于强化学习的自适应轨道交通调度方法。