CN112417753A - 一种基于城市公共交通资源联合调度方法 - Google Patents

一种基于城市公共交通资源联合调度方法 Download PDF

Info

Publication number
CN112417753A
CN112417753A CN202011215298.XA CN202011215298A CN112417753A CN 112417753 A CN112417753 A CN 112417753A CN 202011215298 A CN202011215298 A CN 202011215298A CN 112417753 A CN112417753 A CN 112417753A
Authority
CN
China
Prior art keywords
bus
traffic
flow
scheduling
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011215298.XA
Other languages
English (en)
Other versions
CN112417753B (zh
Inventor
陈恩红
刘淇
梁先锋
吴李康
陈卓
刘杨
于润龙
侯旻
武晗
叶雨扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011215298.XA priority Critical patent/CN112417753B/zh
Publication of CN112417753A publication Critical patent/CN112417753A/zh
Application granted granted Critical
Publication of CN112417753B publication Critical patent/CN112417753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于城市公共交通资源联合调度方法,聚焦于公交车系统和共享单车系统,在时空预测的基础上使用强化学习长期的最优调度以及协同调度策略,能够实现两者之间的协同调度,解决可能会出现的局部贪心问题,当某种交通服务临时不可用或不适用时,能够及时调度其他交通资源满足用户的出行需求。该方法依据已记录的不同时间地点下人群流动的数据和各类交通工具承载的人流变化,预先构造出一个随时间变化的人群乘坐交通工具的需求流量图;然后,将当前车站状态和未来预测的流量图当作当前系统的状态,利用强化学习技术来对当前多种交通系统进行协同高效的调度。

Description

一种基于城市公共交通资源联合调度方法
技术领域
本发明涉及人工智能领域,尤其涉及一种具有人流预测方法以及交通资源联合调度的强化学习方法。
背景技术
近年来,现代城市的交通拥堵问题日益成为居民的心病。如百度交通报告所示,北京上下班高峰时段的通勤压力指数达到惊人的1.973,导致出行时间延长,车辆排队增多。以往的研究表明,通过合理的调度,例如重新调度自行车共享系统和优化公交运输系统,可以在不消耗多余资源的情况下显著提高交通效率。
经本发明人研究发现,仍有两个缺点限制了调度系统的性能:(1)只考虑短时间内的单一调度,而忽略了首次交通调度后交通资源重分布现象;(2)当前调度系统只关注一类交通调度。城市公共交通的多模式特性在很大程度上还没有得到充分的利用。因此,如何基于实时的交通状况,联合多类交通系统进行联合调度优化,从而为市民提供一体化的更好的出行体验,以及缓解交通拥堵至关重要。
发明内容
本发明所要解决的技术问题是提供一种基于城市公共交通资源联合调度方法,其特征在于,包括:
步骤1、依据已记录的不同时间地点下人群流动的数据和各类交通工具,承载的人流流动数据,预先构造出一个随时间变化的人群乘坐交通工具的交通流量图,对于公交车和共享单车的每个站点,记录其每个时间段的流入和流出量;
步骤2、在构建的交通流量图中,为每个地点生成一个时序的流量变化序列,使用机器学习技术,并针对不同交通构建出人流预测模型,然后将该流量变化序列和相应的流量流动相关的数据输入到构建的人流预测模型中,从而预先训练得到一个具有预测人流去向能力的预测模型;最后将实时统计的流量变化序列输入到人流预测模型中,得到未来时刻不同地点的流量流动图;
步骤3、获取当前各个地点的交通资源状态,将其和预测的未来时刻的流量流动图一同输入到基于强化学习的联合调度系统中,为每个地点构造相关的调度状态和全局的流量状态输入到强化学习调度系统中得到相应的交通工具的调度动作,不断优化调度动作直至最优。
进一步的,步骤2中预先构建的人群乘坐交通流量的人流预测模型,包括:
对获取的各个地点的各类交通工具的流量变化序列进行预处理;
根据各类交通流量的特点选取对应的流量预测模型,流量变化稳定,即每日交通流量变化相对总流量小于第一预定阈值,这些稳定的交通类采用分层预测模型;
对于流动变化具有时序性的交通类,采用具有时序敏感性的预测模型;
同时考虑不同交通流量预测系统之间的协同关系,将不同系统的预测信息嵌入到不同类预测系统中协同预测。
进一步的,具体包括:
对于公交车系统采用分层预测模型;
对于共享单车的流量变化代入带有长短期记忆LSTM的预测模型;
在共享单车的调度系统中引入周围公交车调度的状态信息。
进一步的,所述步骤3中基于强化学习的联合交通调度系统是预先构建的,包括步骤:
对公交车系统进行强化学习调度建模,定义公交车的状态包括四部分:
e)对于公交站点的观测,
Figure BDA0002760163210000031
其中b1,b2分别表示上一班次公交车从两个方向经过此车站的时间间隔,
Figure BDA0002760163210000032
Figure BDA0002760163210000033
表示所预测未来交通流入量和流出量;t=1......L,t表示L表示未来时刻;
f)对于同一班线其他公交车的状态信息(dj,ej,fj,vj)和当前公交车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个公交车位置,ej,fj分别表示第j个公交车当前载客量和剩余可承载多少客量;vj表示第j个公交车当前的操作类型;
g)系统的信息H,包括天气、温度、相邻两站之间的时间距离和地理距离;
h)当前路线公交车车站在其他公交车路线的状态O。
进一步的,还定义公交车系统的公交车动作、奖励和停止条件如下:
动作:一辆公交车的动作有两个,向终点方向开,向起点方向开,在终点或者起点停;
奖励:对于公交车强化学习,定义奖励机制如下:
d)公交车每次从A到B行程,奖励为减少的等待时间,惩罚为到A的行驶时间,车行驶数目;
e)公交车调转方向,转向操作惩罚为一个常数C,以及l*当前乘客数量,l为惩罚系数;
f)公交车不开车,没有奖励和惩罚;
停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
进一步的,对共享单车系统进行强化学习调度建模,定义共享单车的状态包括四部分:共享单车调度
a)共享单车车站的状态
Figure BDA0002760163210000034
其中b1,b2分别表示当前单车可用单车量和可停放单车量,
Figure BDA0002760163210000035
Figure BDA0002760163210000036
表示所预测未来单车流入量和流出量;考虑了站点间的单车流动信息,并使用L个矩阵Gt表示未来L段时间中所预测站点间单车的流动网络;对其进行编码(encoder)得到gt∈Rd代表未来t时刻的预测的交通流量低维状态表示,作为对未来t时刻站点的详细预测信息;于是得到L个gt向量;
b)同一个聚类中其他调度车(dj,ej,fj,vj)和当前调度车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个调度车位置,ej,fj分别表示第j个调度车当前已经搬运单车量和剩余可承载单车量;
c)系统的状态H,包括天气、温度、调度车的数量信息;
d)共享单车车站在其他(公交)交通系统中的状态O。
进一步的,还定义共享单车系统共享单车的动作、奖励和停止条件如下:
动作:定义为当前调度车将要在哪个共享单车站点卸载或者装载单车以及相应操作的数量;这里用一个(d1,v1)向量表示其位置以及详细的操作单车数目;
奖励:整个周期的用户使用单车次数总和;
停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
进一步的,对于深度强化学习算法DDPG其优化迭代过程如下,具体的输入为公交车调度和共享单车系统中所定义的状态集合,算法输出为调度的动作at
1)初始化Actor-Critic网络的参数θQ和θμ
2)Actor根据动作策略选择一个具体的动作at,并在执行该动作at=μ(stu)+bt
动作at是根据当前的策略函数μ和随机噪音bt联合产生;其中状态st为算法的输入,具体的为公交车调度和共享单车系统中所定义的状态集合;
3)仿真环境执行动作,并产生对于的奖励rt和新的状态st+1,并将(st,at,rt,st+1)这个状态转换过程保存起来称为R;从R从采用N个状态转换数据,作为策略网络和动作价值网络Q网络的mini-batch数据;
4)计算Q网络的梯度,其loss定义如下:
Figure BDA0002760163210000051
并根据梯度更新参数θQ,yi为实际的预测值;
5)计算策略网络的policy gradient,策略梯度算法如下:
Figure BDA0002760163210000052
并更新参数μ′和Q′。
进一步的,所述步骤3包括:
对于输入的预测的各类交通流量图的表征,以及所需调度地点的各类交通资源状态表征信息,输入到所建立的强化学习模型中作为状态;
本发明中的方法相较于以往的框架有如下优势:
(1)状态的表示包含了未来详细预测信息的更加清晰,更利于策略收敛。以往框架中的关于交通需求的预测表示,无法避免该文中所提到的案例,而本发明的状态表示更加详细,能够更大程度避免局部贪心策略。
(2)使用深度强化学习算法DDPG,首先它是一种Actor-Critic网络,同时兼顾了Value-Based和Policy-Base方法的优势,其次在Actor网络内部使用LSTM,能综合考虑状态历史信息。
(3)考虑的不同交通系统之间的相互作用,这种作用可能是一种竞争关系也可能是协同关系。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为调度系统的框架图;
图2为共享单车和公交车调度算法中的强化学习状态的表示图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的一个实施例,提出一种基于城市公共交通资源联合调度方法,包括公交车系统客流量的预测,对共享单车流动情况进行预测,对公交车系统和共享单车系统进行联合优化调度,具体如下:
1)公交车系统客流量的预测
由于公交车站的日客流量时间序列呈现较强的规律性,为了减小计算量,对于每个站点都使用简单的线性模型模拟其过去一段时间的时间序列,例如一天内过去每半小时的客流量,若某段时间公交站还未营业取0即可,并对其未来较短的时间范围内(例如未来半小时)的客流量进行预测。对于第i个车站的时间序列
Figure BDA0002760163210000061
其线性模型为:
yi=αxi
其中α和β为模型训练的参数,yi为预测的流量。对于整个公交系统的客流量预测依旧使用相同的方法,同样对其进行线性模型的建模。因为对各个车站的流量进行单独的预测不能保证其总和与公交系统的总流量保持一致,本发明使用分层时间序列预测方法中的求和矩阵将整个问题转化为一个需要优化的机器学习回归问题从而对各个车站的预测值进行调整,使得最后的预测结果更为准确并保证低层的(车站)聚合值与高层(公交系统)的值相等,即:
Figure BDA0002760163210000062
其中,Y为公交系统预测的总客流量,N为车站的个数,∈为误差,需要注意的是,由于节假日和工作日公交系统的客流量时间序列差异较大,将节假日和工作目的数据分开进行单独的训练和预测。
2)共享单车流动情况进行预测
首先对于每个站点在未来一段时间内的车辆离开情况,使用长短期循环记忆神经网络LSTM对其进行建模,共享单车站点的时间序列规律性不强,因此对于关注于短期内变化复杂的时间序列,需要使用更为复杂的模型对其建模。
对于一个时间序列s={x1,x2,...,xT},LSTM随时间t=1,2...,T更新其中的状态向量c={c1,c2,...,cT}和隐向量h={h1,h2,...,hT}。其中的计算方式如下:
it=σ(Wxixt+Whixt-1+bi)
ft=σ(Wxfxt+Whfxt-1+bf)
ct=ft·ct-1+it·τ(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoxt-1+bo)
ht=ot·τ(ct)
其中it,ft,ot分别是输入门、遗忘门和输出门,ct表示的是当前状态。σ(·),τ(·)分别是sigmoid(·)tanh(·)非线性激活函数。·是元素乘操作。W*和b*是模型的参数,最后一个时间步的输出经过全连接层得到预测值。
考虑站点间的单车移动情况,由于共享单车没有固定的线路,因为单车离开站点A时,其同组内其他站点都有可能成为终点。对于该问题,本发明使用了频率代替概率的方法,即从过去相对较长的一段时间内(例如一周)共享单车的使用数据中计算站点A出发的单车到其他站点的概率,则预测站点A在未来一段时间内流动到B站点的单车数目时,只需用站点A的预测单车离开量和A->B站点的概率相乘即可。
3)对公交车系统和共享单车系统进行强化学习调度建模
[1].公交车调度
1.状态
对于公交车强化学习,定义状态如下如图2所示,包含四个部分:
a)对于公交站点的观测,
Figure BDA0002760163210000071
其中b1,b2分别表示上一班次公交车从两个方向经过此车站的时间间隔,
Figure BDA0002760163210000081
Figure BDA0002760163210000082
表示所预测未来交通流入量和流出量;L表示未来时刻;
b)对于同一班线其他公交车的状态信息(dj,ej,fj,vj)和当前公交车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个公交车位置,ej,fj分别表示第j个公交车当前载客量和剩余可承载多少客量;vj表示第j个公交车当前的操作类型;
c)系统的信息H,如天气、温度、相邻两站之间的时间距离和地理距离等;
d)当前路线公交车车站在其他公交车路线的状态O,比如可以是其他路线车站的中的(b1,b2);
2.动作
一辆公交车的动作有两个,向终点方向开,向起点方向开,在终点或者起点停。
3.奖励
对于公交车强化学习,定义奖励机制如下:
a)公交车每次从A到B行程,奖励为减少的等待时间,(惩罚)到A的行驶时间,车行驶数目;
b)公交车调转方向,转向操作惩罚为一个常数C,以及l*当前乘客数量,l为惩罚系数;
c)公交车不开车,没有奖励和惩罚;
4.停止条件
某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
[2].共享单车调度
1.状态
对于共享单车调度优化,这里的状态分为四个部分,如图2所示:
a)共享单车车站的状态
Figure BDA0002760163210000083
其中b1,b2分别表示当前单车可用单车量和可停放单车量,
Figure BDA0002760163210000084
Figure BDA0002760163210000085
表示所预测未来单车流入量和流出量;本发明考虑了更加细致的站点间的单车流动信息,并使用L个矩阵Gt表示未来L段时间中所预测站点间单车的流动网络。直接这样用矩阵表示状态会导致最终的状态维度非常大,这里对其进行编码(encoder)得到gt∈Rd代表未来t时刻的预测的交通流量低维状态表示,作为对未来t时刻站点的详细预测信息。于是可以得到L个gt向量,这样操作更加全面的描述单车交通网络,简化了状态的表示,更有利于策略的收敛和智能体的探索和利用。
b)同一个聚类中其他调度车(dj,ej,fj,vj)和当前调度车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个调度车位置,ej,fj分别表示第j个调度车当前已经搬运单车量和剩余可承载单车量;
c)系统的状态H,包含如天气、温度、调度车的数量等信息;
d)共享单车车站在其他(公交)交通系统中的状态O,比如可以是公交系统中的(b1,b2);
2.动作
一个动作定义为当前调度车将要在哪个共享单车站点卸载或者装载单车以及相应操作的数量。这里用一个(d1,v1)向量表示其位置以及详细的操作单车数目。
3.奖励
整个周期的用户使用单车次数总和。
4.停止条件
某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
[3].深度强化学习算法
对于深度强化学习算法DDPG(Deep Deterministic Policy Gradient)其优化迭代过程如下,具体的输入为[1]公交车调度和[2]中所定义的状态集合,算法输出为调度的动作at
1.初始化Actor-Critic网络的参数θQ和θμ
2.Actor根据动作策略选择一个具体的动作at,并在执行该动作at=μ(stu)+bt
动作at是根据当前的策略函数μ和随机噪音bt联合产生;其中状态st为算法的输入,具体的为[1]公交车调度和[2]中所定义的状态集合;
3.仿真环境执行动作,并产生对于的奖励rt和新的状态st+1,并将(st,at,rt,st+1)这个状态转换过程保存起来记为集合R。从集合R中采样出N个状态转移,作为策略网络和动作价值网络Q网络的mini-batch数据;
4.计算Q网络的梯度,其损失定义如下:
Figure BDA0002760163210000101
并根据梯度更新参数θQ,yi为实际的预测值;
5.计算策略网络的policy gradient,策略梯度算法如下:
Figure BDA0002760163210000102
并更新参数μ′和Q′;
[4].联合交通调度系统流程
调度系统的框架图如图1所示,首先从外部获取到不同区域不同时刻的各类交通流量数据,一些可影响或反映交通状态的多源数据以及各站点的实时交通资源需求数据,将其输入到流量预测系统中,根据1)中公交车系统客流量预测系统的和2)中的单车流量预测系统中来预测未来时刻各站点的交通资源需求。最后再将获取的各站点实时状态数据和所预测的流量数据输入到强化学习框架中,根据3)中所描述来进行模型迭代优化,最后得到收敛的模型进行交通资源的联合调度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种基于城市公共交通资源联合调度方法,其特征在于,包括:
步骤1、依据已记录的不同时间地点下人群流动的数据和各类交通工具,承载的人流流动数据,预先构造出一个随时间变化的人群乘坐交通工具的交通流量图,对于公交车和共享单车的每个站点,记录其每个时间段的流入和流出量;
步骤2、在构建的交通流量图中,为每个地点生成一个时序的流量变化序列,使用机器学习技术,并针对不同交通构建出人流预测模型,然后将该流量变化序列和相应的流量流动相关的数据输入到构建的人流预测模型中,从而预先训练得到一个具有预测人流去向能力的预测模型;最后将实时统计的流量变化序列输入到人流预测模型中,得到未来时刻不同地点的流量流动图;
步骤3、获取当前各个地点的交通资源状态,将其和预测的未来时刻的流量流动图一同输入到基于强化学习的联合调度系统中,为每个地点构造相关的调度状态和全局的流量状态输入到强化学习调度系统中得到相应的交通工具的调度动作,不断优化调度动作直至最优。
2.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,步骤2中预先构建的人群乘坐交通流量的人流预测模型,包括:
对获取的各个地点的各类交通工具的流量变化序列进行预处理;
根据各类交通流量的特点选取对应的流量预测模型,流量变化稳定,即每日交通流量变化相对总流量小于第一预定阈值,这些稳定的交通类采用分层预测模型;
对于流动变化具有时序性的交通类,采用具有时序敏感性的预测模型;
同时考虑不同交通流量预测系统之间的协同关系,将不同系统的预测信息嵌入到不同类预测系统中协同预测。
3.根据权利要求2所述的一种基于城市公共交通资源联合调度方法,其特征在于,具体包括:
对于公交车系统采用分层预测模型;
对于共享单车的流量变化代入带有长短期记忆LSTM的预测模型;
在共享单车的调度系统中引入周围公交车调度的状态信息。
4.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,所述步骤3中基于强化学习的联合交通调度系统是预先构建的,包括步骤:
对公交车系统进行强化学习调度建模,定义公交车的状态包括四部分:
a)对于公交站点的观测,
Figure FDA0002760163200000021
其中b1,b2分别表示上一班次公交车从两个方向经过此车站的时间间隔,
Figure FDA0002760163200000022
Figure FDA0002760163200000023
表示所预测未来交通流入量和流出量;t=1……L,t表示L表示未来时刻;
b)对于同一班线其他公交车的状态信息(dj,ej,fj,vj)和当前公交车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个公交车位置,ej,fj分别表示第j个公交车当前载客量和剩余可承载多少客量;vj表示第j个公交车当前的操作类型;
c)系统的信息H,包括天气,温度,相邻两站之间的时间距离和地理距离;
d)当前路线公交车车站在其他公交车路线的状态O。
5.根据权利要求4所述的一种基于城市公共交通资源联合调度方法,其特征在于,还定义公交车系统的公交车动作、奖励和停止条件如下:
动作:一辆公交车的动作有两个,向终点方向开,向起点方向开,在终点或者起点停;
奖励:对于公交车强化学习,定义奖励机制如下:
a)公交车每次从A到B行程,奖励为减少的等待时间,惩罚为到A的行驶时间,车行驶数目;
b)公交车调转方向,转向操作惩罚为一个常数C,以及l*当前乘客数量,l为惩罚系数;
c)公交车不开车,没有奖励和惩罚;
停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
6.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,
对共享单车系统进行强化学习调度建模,定义共享单车的状态包括四部分:共享单车调度
a)共享单车车站的状态
Figure FDA0002760163200000031
其中b1,b2分别表示当前单车可用单车量和可停放单车量,
Figure FDA0002760163200000032
Figure FDA0002760163200000033
表示所预测未来单车流入量和流出量;考虑了站点间的单车流动信息,并使用L个矩阵Gt表示未来L段时间中所预测站点间单车的流动网络;对其进行编码得到gt∈Rd代表未来t时刻的预测的交通流量低维状态表示,作为对未来t时刻站点的详细预测信息;于是得到L个gt向量;
b)同一个聚类中其他调度车(dj,ej,fj,vj)和当前调度车的状态信息(d1,e1,f1,v1);其中dj表示当前第j个调度车位置,ej,fj分别表示第j个调度车当前已经搬运单车量和剩余可承载单车量;
c)系统的状态H,包括天气,温度,调度车的数量信息;
d)共享单车车站在其他(公交)交通系统中的状态O。
7.根据权利要求4所述的一种基于城市公共交通资源联合调度方法,其特征在于,还定义共享单车系统共享单车的动作、奖励和停止条件如下:
动作:定义为当前调度车将要在哪个共享单车站点卸载或者装载单车以及相应操作的数量;这里用一个(d1,v1)向量表示其位置以及详细的操作单车数目;
奖励:整个周期的用户使用单车次数总和;
停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
8.根据权利要求4所述的一种基于城市公共交通资源联合调度方法,其特征在于,对于深度强化学习算法DDPG其优化迭代过程如下,具体的输入为公交车调度和共享单车系统中所定义的状态集合,算法输出为调度的动作at
1)初始化Actor-Critic网络的参数θQ和θμ
2)Actor根据动作策略选择一个具体的动作at,并在执行该动作at=μ(stu)+bt
动作at是根据当前的策略函数μ和随机噪音bt联合产生;其中状态st为算法的输入,具体的为公交车调度和共享单车系统中所定义的状态集合;
3)仿真环境执行动作,并产生对于的奖励rt和新的状态st+1,并将(st,at,rt,st+1)这个状态转换过程保存起来称为R;从R从采用N个状态转换数据,作为策略网络和动作价值网络Q网络的mini-batch数据;
4)计算Q网络的梯度,其loss定义如下:
Figure FDA0002760163200000041
并根据梯度更新参数θQ,yi为实际的预测值;
5)计算策略网络的policy gradient,策略梯度算法如下:
Figure FDA0002760163200000042
并更新参数μ′和Q′。
9.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,所述步骤3包括:
对于输入的预测的各类交通流量图的表征,以及所需调度地点的各类交通资源状态表征信息,输入到所建立的强化学习模型中作为状态;
在进行单车或公交车进行调度时,加入其他类交通的状态信息,在单车调度中加入周围公交车状态信息作为辅助输入信息,从而让单车调度系统能够结合公交车信息进行联合优化调度;
构建出各类交通所对应合法的调度行为作为强化调度系统的动作,并定义出一个基于交通乘坐需求未满足的指标量,强化调度系统通过执行特定的调度动作不断优化相关指标,并最终得到最优的行为调度。
CN202011215298.XA 2020-11-04 2020-11-04 一种基于城市公共交通资源联合调度方法 Active CN112417753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011215298.XA CN112417753B (zh) 2020-11-04 2020-11-04 一种基于城市公共交通资源联合调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011215298.XA CN112417753B (zh) 2020-11-04 2020-11-04 一种基于城市公共交通资源联合调度方法

Publications (2)

Publication Number Publication Date
CN112417753A true CN112417753A (zh) 2021-02-26
CN112417753B CN112417753B (zh) 2024-03-29

Family

ID=74827525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011215298.XA Active CN112417753B (zh) 2020-11-04 2020-11-04 一种基于城市公共交通资源联合调度方法

Country Status (1)

Country Link
CN (1) CN112417753B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113503888A (zh) * 2021-07-09 2021-10-15 复旦大学 一种基于交通信息物理系统的动态路径引导方法
CN113673836A (zh) * 2021-07-29 2021-11-19 清华大学深圳国际研究生院 一种基于强化学习的共享公交车贴线调度方法
CN114693495A (zh) * 2022-05-24 2022-07-01 成都秦川物联网科技股份有限公司 智慧城市公共交通管理方法、物联网系统、装置及介质
CN116703132A (zh) * 2023-08-08 2023-09-05 北京阿帕科蓝科技有限公司 共享车辆动态调度的管理方法、装置及计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与系统
CN109558985A (zh) * 2018-12-10 2019-04-02 南通科技职业学院 一种基于bp神经网络的公交客流量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018214060A1 (zh) * 2017-05-24 2018-11-29 北京质享科技有限公司 一种城市小尺度空气质量指数预测方法与系统
CN109558985A (zh) * 2018-12-10 2019-04-02 南通科技职业学院 一种基于bp神经网络的公交客流量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
章锡俏;孙志超;袁亚龙;: "考虑客流分配的大站快车改进模型", 西华大学学报(自然科学版), no. 01 *
陈桂英;侯桂云;田海丽;: "大数据分析下城市共享单车资源应急调度仿真", 计算机仿真, no. 09 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113326993B (zh) * 2021-04-20 2023-06-09 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113503888A (zh) * 2021-07-09 2021-10-15 复旦大学 一种基于交通信息物理系统的动态路径引导方法
CN113673836A (zh) * 2021-07-29 2021-11-19 清华大学深圳国际研究生院 一种基于强化学习的共享公交车贴线调度方法
CN113673836B (zh) * 2021-07-29 2023-08-18 清华大学深圳国际研究生院 一种基于强化学习的共享公交车贴线调度方法
CN114693495A (zh) * 2022-05-24 2022-07-01 成都秦川物联网科技股份有限公司 智慧城市公共交通管理方法、物联网系统、装置及介质
US11741565B1 (en) 2022-05-24 2023-08-29 Chengdu Qinchuan Iot Technology Co., Ltd. Method, internet of things system and storage medium of public transport management in a smart urban
CN116703132A (zh) * 2023-08-08 2023-09-05 北京阿帕科蓝科技有限公司 共享车辆动态调度的管理方法、装置及计算机设备
CN116703132B (zh) * 2023-08-08 2023-12-12 北京阿帕科蓝科技有限公司 共享车辆动态调度的管理方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112417753B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112417753A (zh) 一种基于城市公共交通资源联合调度方法
WO2021248607A1 (zh) 一种基于深度强化学习的出租车调度方法及系统
US11514543B2 (en) System and method for ride order dispatching
CN102044149B (zh) 一种基于时变客流的城市公交运营协调方法与装置
Riley et al. Real-time dispatching of large-scale ride-sharing systems: Integrating optimization, machine learning, and model predictive control
US11507894B2 (en) System and method for ride order dispatching
Kim et al. Idle vehicle relocation strategy through deep learning for shared autonomous electric vehicle system optimization
CN110555990A (zh) 一种基于lstm神经网络的有效停车时空资源预测方法
Li et al. Deep learning based parking prediction on cloud platform
CN112330215A (zh) 一种城市用车需求量预测方法、设备及存储介质
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN112348258B (zh) 一种基于深度q网络的共享单车预测调度方法
Qin et al. Reinforcement learning for ridesharing: A survey
Tang et al. Online operations of automated electric taxi fleets: An advisor-student reinforcement learning framework
US11267362B2 (en) Systems and methods for adaptive optimization for electric vehicle fleet charging
CN113642758B (zh) 一种共享电动汽车的供需预测及调度方法和装置
CN110458456A (zh) 基于人工智能的需求响应式公交系统的调度方法及系统
CN113326974A (zh) 一种基于多任务超图卷积网络的多源交通流预测方法
Miletić et al. A review of reinforcement learning applications in adaptive traffic signal control
CN114723125A (zh) 一种结合深度学习和多任务优化的城际车订单分配方法
CN113033928B (zh) 一种基于深度强化学习的公交排班模型的设计方法、装置及系统
CN114066503A (zh) 一种基于构建虚拟服务片区进行出租车需求预测的方法
CN116324838A (zh) 用于通过叫车平台调度共享乘车的系统和方法
Iacobucci et al. Cascaded model predictive control for shared autonomous electric vehicles systems with V2G capabilities
Hu et al. An artificial-neural-network-based model for real-time dispatching of electric autonomous taxis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant