CN111862579B - 一种基于深度强化学习的出租车调度方法及系统 - Google Patents

一种基于深度强化学习的出租车调度方法及系统 Download PDF

Info

Publication number
CN111862579B
CN111862579B CN202010521882.1A CN202010521882A CN111862579B CN 111862579 B CN111862579 B CN 111862579B CN 202010521882 A CN202010521882 A CN 202010521882A CN 111862579 B CN111862579 B CN 111862579B
Authority
CN
China
Prior art keywords
taxi
vertex
area
zone
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010521882.1A
Other languages
English (en)
Other versions
CN111862579A (zh
Inventor
刘志丹
李江舟
伍楷舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010521882.1A priority Critical patent/CN111862579B/zh
Priority to PCT/CN2020/101096 priority patent/WO2021248607A1/zh
Publication of CN111862579A publication Critical patent/CN111862579A/zh
Application granted granted Critical
Publication of CN111862579B publication Critical patent/CN111862579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles
    • G08G1/202Dispatching vehicles on the basis of a location, e.g. taxi dispatching
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于深度强化学习的出租车调度方法及系统,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;所述方法包括:S1:形成区域网络;S2:预测任意区域在任意的时间中将会出现的订单数量;S3:计算出一个区域总的车辆供应;获取每个区域的需求/供应状态;S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。本发明实现对空闲出租车进行调度,增加了订单匹配成功率,减少了乘客的等待时间,提高了出租车使用率。

Description

一种基于深度强化学习的出租车调度方法及系统
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于深度强化学习的出租车调度方法及系统。
背景技术
新兴的大型现代乘车平台的出现极大的有益于我们的日常旅行,它允许乘客提前预订旅行计划并实时的将可用出租车与乘车请求进行匹配。尽管这样的系统每天可以为城市中数百万个乘车请求和数万辆出租车提供服务,但是由于部分乘客附近可能缺乏可用的出租车,因此每天仍然会造成大量请求没能被服务到。另一方面,在其他地方,可能又会出现大量的空闲出租车在寻找乘客,造成出租车资源的浪费。在城市中不同地理位置之间的出租车供需不平衡现象普遍存在,这将严重降低整个城市出租车系统的效率并导致糟糕的用户体验。
出租车调度可通过主动将可用的空闲出租车重新分配到某些区域来更好的满足未来的乘车要求,从而平衡出租车需求和供应之间的差异。高效的出租车调度策略可以显着增加订单匹配成功率,减少乘客的等待时间,提高出租车使用率。现有的方法有利用多维数据卷积合成多通道图像,通过卷积神经网络输入,利用深度强化学习模型及滚动时域控制(receding horizon control)进行调度的方法(Takuma,Oda.,&Carlee,Joe-Wong.(2018).MOVI:A Model-Free Approach to Dynamic Fleet Management.),也有直接将各种数据输入进深度强化学习模型中,利用多智能体进行调度的方法(Kaixiang,Lin.,Renyu,Zhao.,Zhe,Xu.,&Jiayu,Zhou.(2018).Efficient Large-Scale Fleet Managementvia Multi-Agent Deep Reinforcement Learning.)。这些方法存在着以下问题:1)没有考虑道路网络结构,简单的用一定边长的格子划分区域,相邻的区域仅仅是坐标邻近而不是在道路网络关系上邻近,从而导致在调度中产生的决策往往不符合道路网络结构,很有可能导致出租车绕路,甚至无法到达,从而降低调度效率。2)现有的利用强化学习的方法直接将多维复杂数据输入车辆调度模型中得到决策结果,没有将潜在订单需求预测和车辆调度策略这两个相互独立的任务分离开来,这样大大增加了状态空间的复杂程度,使得模型难以收敛,而且也不具有可解释性,不能直观的反映出不同区域出租车需求和供应之间的关系。3)现有的工作缺乏对调度决策的相互依赖进行设计,或是一个区域的出租车统一行动,或是独立决策,不能反映出历史决策对当前决策的影响。
发明内容
本发明提供一种基于深度强化学习的出租车调度方法及系统,对空闲出租车进行调度,旨在增加订单匹配成功率,减少乘客的等待时间,提高出租车使用率。
所述方法包括以下步骤:
S1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;
S2:根据形成的区域网络应用基于图卷积神经网络(GCN)所构建的需求预测模型利用历史订单数据,预测任意区域在任意的时间中将会出现的订单数量;
S3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;
根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;
S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的基于深度Q网络的(DQN)出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。
优选地,构建区域聚类的方法包括以下步骤:
S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。
S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
每个区域Z维护以下的信息:区域中心顶点Zc,顶点集Zv,边集Ze和总权重Zw
将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Zi,i=1,…,M};
S1.3:选择所有区域Z中总权重Zw最小的区域为目标区域Ztar以添加新的顶点v和边e;
S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Ztar的顶点-区域距离dis(v,Ztar);此距离被定义为顶点v到区域中心Zc的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
如果顶点-区域距离dis(v,Ztar)小于等于一个可调整的参数阈值,即最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure BDA0002532423830000032
并添加源头始于顶点v的边e进目标区域的边集
Figure BDA0002532423830000033
接着目标区域的总权重
Figure BDA0002532423830000034
将加上顶点-区域距离dis(v,Ztar);
然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回S1.3。
S1.5:重复S1.3和S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。
对于给定的区域Zi,将前κ个最近的区域定义为其邻居NZi={Zj,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
优选地,顶点-区域距离的计算公式如下:
dis(v,Z)=[cost(v,Zc)+cost(v,v′)]
优选地,S2的具体过程如下:
将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图GZ=(Zall,Α),其中Zall是所有区域的集合,所有区域的总数表示为|Z|,并且Α∈R|Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:
Figure BDA0002532423830000031
其中I∈R|Z|×|Z|是图GZ的单位矩阵,D∈R|Z|×|Z|是图GZ的度矩阵;
图卷积神经网络(GCN)函数定义为:
Hλ+1=σ(L HλWλ)
其中Hλ表示第λ层中的特征,Wλ是第λ层的可训练的权重矩阵,激活函数σ采用修正线性单元(Rectified Linear Unit,ReLU);
将影响每个区域Zi内出租车订单的因素合并表示为特征向量
Figure BDA0002532423830000041
其中
Figure BDA0002532423830000042
分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
接着,将所有特征经过正则化处理后输入进GCN的输入层H0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Zi下一个时隙的订单数量。
优选地,车辆供应量计算公式为:
Figure BDA0002532423830000043
其中
Figure BDA0002532423830000044
分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量。
优选地,出租车调度模型(基于DQN模型)的训练过程如下:
S4.1:将DQN模型内的经验回放池中所有上一个时隙的经验中的st和rt补全,其中st由新的时隙下系统观测得到,rt由奖励函数得到;在上一个时隙(t-1)中的下一时隙为t,此时的st为t时隙的状态信息,rt为t时隙下关于st和at的奖励。
S4.2:将过渡元组(st,at,rt+1,st+1)储存在DQN模型内的经验回放池中,其中rt+1和st+1暂时无法得到,因此暂时保留等待后续补全;
S4.3:每当经过B个时隙后进行一次经验回放,回放数为批次大小b;
S4.4:利用Q网络和目标网络根据损失函数公式计算得到均方误差,应用自适应估计的优化方法进行权重的迭代更新;
损失函数公式为:
Figure BDA0002532423830000045
其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值,a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E在数学中表示期望,因此此损失函数的公式为理论值,需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。
S4.5:将Q网络中的权重实时更新,而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,用于优化网络权重的损失函数;最终当达到预设的迭代步数后,得到训练完成的出租车调度模型。
一般迭代步数是人为根据训练目标设置的,一般为平均最大Q值处于稳定的状态一定步数后停止训练。
优选地,奖励函数为:
Figure BDA0002532423830000051
Figure BDA0002532423830000052
其中,
Figure BDA0002532423830000053
为区域Zi的供求比,
Figure BDA0002532423830000054
为区域Zg的供求比;
Figure BDA0002532423830000055
Figure BDA0002532423830000056
表示在时间tj-1区域Zi的实际供应和实际需求,系统可以在时间tj观察到。
本发明还提供一种基于深度强化学习的出租车调度系统,所述系统用来实现本发明所述方法,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
区域构建模块用来构建区域网络;
需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;
车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;
模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
首先本发明的车辆调度模块表示为:将调度中心视为智能体(Agent),连续跟踪所有出租车和乘车请求的实时信息(例如,位置和状态),在每个时隙结束后,调度中心会根据上下文状态利用DQN模型为每个可用的出租车生成新的调度策略,从而实现优化全局出租车的供需平衡。
在实践中,将可用的出租车调度到较远的区域效率低下。同样,遥远区域的状态也对当下出租车的调度行为影响微乎其微且难以预料。因此,本发明优化了同一区域中所有可用出租车的状态空间和动作空间,从而降低了计算复杂度并使车辆调度可以用于城市规模的乘车服务。相邻区域之间的出租车调度可以有效且快速的缓解需求-供应不平衡。因此,在上文的构建区域模块中已经对于给定的区域Zi,确定了前κ个最近的邻居区域NZi={Zj,j=1,…,κ}。一个时隙内的车辆调度策略只会使车辆在相邻的区域内调度。
此外,本发明不会对同一区域中的所有可用出租车做出相同的决定或独立为出租车做出动作,而是顺序的对所有可用的出租车采取行动,以确保出租车之间的协调。因为一旦将闲置的出租车送往特定区域,它实质上已经改变了下一个时隙的供需环境,这将影响其他后续出租车的行动。基于这些考虑,本发明设计了如下的基于DQN的车辆调度模块。
所述车辆调度模块可实现以下功能:
(1)上下文状态:
由于将所有外部因素迁移到出租车需求预测模型,因此可以采用简单的状态表示形式,主要包含区域级别的需求供应信息。具体来说,每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Zi,包括区域ID i,Zi的需求和供应数据以及Zi的所有相邻区域的需求和供应数据。如果Zi的邻居不足(<κ),则剩余字段将用零填充。对于每个区域Zi,时隙tj的出租车需求
Figure BDA0002532423830000061
由GCN预测器提供,而其出租车供给
Figure BDA0002532423830000062
可以综合估算为:
Figure BDA0002532423830000063
其中
Figure BDA0002532423830000064
分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量。
(2)调度行动:
每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域。具体来说,at=i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而at=0则表示该出租车在时间t继续停留在当前区域。本发明会顺序的对所有可用的出租车采取行动,以确保出租车之间的协调。
(3)即时奖励:
出租车调度的目的是减轻不同区域之间的供需失衡,因此,根据时隙tj-1对目标区域的供需情况的影响,在时隙tj为每个动作计算即时奖励。为此,将区域Zi的供求比
Figure BDA0002532423830000071
定义为:
Figure BDA0002532423830000072
其中
Figure BDA0002532423830000073
Figure BDA0002532423830000074
表示在时间tj-1区域Zi的实际供应和实际需求,系统可以在时间tj观察到。特别地,如果
Figure BDA0002532423830000075
则设置
Figure BDA0002532423830000076
对于将空闲出租车从其定位区域Zi调度到目标区域Zg的动作,使用上述公式计算即时奖励rt。当Zi缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚。当Zi中的出租车供应量大于需求量时,如果当目标区域Zg需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Zg也有足够的出租车供应,因此调度不会获得任何奖励。
具体的奖励函数如下:
Figure BDA0002532423830000077
(4)训练方法:
基于上述三个步骤,本发明利用DQN模型动态学习主动出租车调度的最佳策略。作为DQN模型的核心,Q学习(Q-learning)是一种异策略的时差学习方法,旨在获得最大的长期折扣奖励Q(s,a)。特别是,本发明利用深层神经网络(Deep Neural Network,DNN)来逼近Q函数。在训练阶段,Q值被更新如下:
Figure BDA0002532423830000078
其中,α是学习率,γ是折扣因子,r是奖励值。
为了使用函数逼近解决DQN的不稳定性问题,本发明采用了两种技术:目标网络和经验回放。目标网络是Q网络的副本,它被冻结以用作多个步骤提供的稳定的目标Q值。在训练期间,目标网络的参数将更新以匹配策略网络。另外,经验回放存储器以过渡元组的形式存储经验,表示为(st-1,at-1,rt-1,st),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观察到的数据中进行采样并进行训练。进一步的代替对存储的元组进行均匀采样,基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效。对于每个过渡元组,使用以下公式计算其δ。
Figure BDA0002532423830000081
更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差。
Figure BDA0002532423830000082
其中θ和θ′分别是Q网络和目标网络的权值。在上述更新规则中,Q网络会以目标值
Figure BDA0002532423830000083
拟合。
本发明所述模拟器可以模拟必要的外部环境,以根据实际情况训练强化深度学习算法。所述模拟器对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。具体来说,模拟器包括路线规划器,该路线规划器将在给定出租车的调度动作或分配命令的情况下在出租车的道路网络上查找行驶路径;出租车订单匹配器,将每个乘车请求分配给合适的出租车;以及出租车调度器,执行根据某些出租车调度策略对可用出租车的调度动作。具体细节如下所示:
路线规划器:路线规划器在道路网络图G上使用迪杰斯特拉(Dijkstra)算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务,以计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。
出租车订单匹配器:当收到新的乘车请求时,模拟器会分配最近的空闲出租车来为其服务。指派的出租车将按照路线计划器提供的路线行驶,接载乘客,然后将其运送到目的地。如果无法在阈值限定时间内为空车出租车分配乘车请求,则该请求将被拒绝。
出租车调度器:该组件将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内。同时它跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态。计算出每个区域中的实际出租车需求和供应,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
与现有技术相比,本发明技术方案的有益效果是:本发明设计了一个基于道路网络结构的区域划分聚类,使得区域划分不会破坏道路网络结构,大大减少了调度成本。其次,本发明将需求预测模块从车辆调度模块中抽离出来,使外部环境的多维复杂数据输入需求预测模块,用相对准确且易收敛的监督学习方法训练需求预测模型,将预测的需求和实时的供应作为车辆调度模块的输入状态,既有可解释性,又大大降低了状态空间的复杂度易于收敛,使得整个系统高内聚,低耦合。最后,在输入状态中车辆的供应值是动态调整的,当前决策因为输入状态的不同,能够根据历史决策的结果做出相应的调整,使车辆调度工作具有合作性,避免了恶性竞争促进了相互合作从而提升了出租车系统的利用率。
附图说明
图1为实施例1所述基于深度强化学习的出租车调度方法流程图。
图2为区域构建区域的聚类算法聚类示意图。
图3为基于GCN的出租车需求预测器的框架和特征向量的结构。
图4为实施例2所述基于深度强化学习的出租车调度系统示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
本实施例提供一种基于深度强化学习的出租车调度方法,如图1所示,所述方法包括以下步骤:
步骤1:将选定区域的道路网络公式化为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。
步骤2:应用区域聚类算法将图G通过分类顶点v,从而形成指定数量的不同区域Zi
如图2所示,所述构建区域的聚类方法具体包括:
首先,将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重。函数cost(·)可以根据距离和行驶速度在给定路线或任意两个位置的道路网络图G上计算行驶时间。
接着,将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域。每个区域Z维护以下的信息:区域中心顶点Zc,顶点集Zv,边集Ze和总权重Zw。接下来,将所有未分配的顶点v(以集合U表示)分类给各个区域Z={Zi,i=1,…,M}。
步骤2.1:(选择目标区域)选择所有区域Z中总权重Zw最小的区域为目标区域Ztar以添加新的顶点v和边e。
步骤2.2:(加入未分配的顶点和边)遍历所有未分配的顶点v,找出最小的顶点v到目标区域Ztar的顶点-区域距离dis(v,Ztar)。此距离被定义为顶点v到区域中心Zc的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和,计算公式如下:
dis(v,Z)=[cost(v,Zc)+cost(v,v′)]
如果顶点-区域距离dis(v,Ztar)小于等于一个可调整的参数阈值,即最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure BDA0002532423830000101
并添加源头始于顶点v的边e进目标区域的边集
Figure BDA0002532423830000102
接着目标区域的总权重
Figure BDA0002532423830000103
将加上顶点-区域距离dis(v,Ztar)。最后在未分配的顶点集合U中删除此顶点v。如果此顶点-区域距离大于最大区域范围ε则返回步骤1,选择下一个目标区域继续上述步骤。
步骤2.3:重复步骤1和步骤2直到未分配顶点集U为空为止,经过此步骤会将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域。
最后,对于给定的区域Zi,我们将前κ个最近的区域定义为其邻居NZi={Zj,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。
在图2中,图2(A)表示步骤2.1的选择有最小的总权重值的区域作为目标区域来添加新的顶点,在本例中假设算得A为目标区域。图2(B)表示步骤2.2的未分配的顶点和边,遍历所有未分配的顶点选择最近的顶点添加,并添加源自此顶点的边,同时添加进目标区域的顶点距离区域中心要在约束范围内。图2(C)表示步骤2.3的重复上述步骤直到所有未分配的顶点和边都被分配完毕,则构建区域的聚类算法结束。
步骤3:确定每个区域的相邻区域。
步骤4:构造GCN预测网络,如图3所示,网络结构为3层图卷积神经网络,每一层包括了|Z|个神经元,均使用ReLU作为激活函数,如果还没有训练完成的对应模型,则利用历史数据进行监督学习训练,然后加载训练完成的对应模型。
步骤5:如果没有已经训练好的模型,利用订单数据集进行监督学习的训练即可。
步骤6:构造DQN模型,DQN模型的网络结构为多层全连接神经网络,构造相同结构的Q网络和目标网络,它们由4个全连接层组成,每层包括400个神经元,均使用ReLU作为激活函数,并加载训练完成的DQN模型(如果需要训练模型则将加载DQN模型改为随机生成网络中的所有神经元的参数)。
步骤7:将上述系统部署到真实场景或模拟器中。
步骤8:初始化各个参数:调度时隙间隔为10分钟、顶点-区域距离的最大区域范围ε为1500米、学习率α是0.0001、折扣因子γ是0.9、邻居上限κ=7、经验回放池大小N=30000、训练间隔时隙个数B=12、训练批次大小b=256。
步骤9:开始处理新的时隙。
步骤10(训练时加入):将经验回放池中所有上一个时隙的经验中的st+1和rt+1补全,其中st+1由新的时隙下系统观测得到,rt+1由奖励函数计算得到。
奖励函数为:
Figure BDA0002532423830000111
Figure BDA0002532423830000121
其中,
Figure BDA0002532423830000122
为区域Zi的供求比,ωzg为区域Zg的供求比;
Figure BDA0002532423830000123
Figure BDA0002532423830000124
表示在时间tj-1区域Zi的实际供应和实际需求,系统可以在时间tj观察到。
步骤11:出租车订单匹配器持续处理当前时隙内的订单,直到当前时隙结束。
步骤12:为每个区域构造一个十维特征向量并求得拉普拉斯矩阵,将其输入进GCN网络,得到每个区域下一个时隙的预测需求。
步骤13:根据公式
Figure BDA0002532423830000125
和预测需求,计算出每个区域的需求供应值,根据邻居关系构造出上下文状态S。
步骤14:将状态S代入Q网络中进行前馈操作得到所有可行动作对应的预测Q值,取最大Q值对应的动作。
步骤15(训练时加入):将过渡元组(st,at,rt+1,st+1)储存在DQN模型内的经验回放池中,其中rt+1和st+1暂时无法得到,因此暂时保留等待后续补全。
步骤16(训练时加入):每当经过B个时隙后进行一次经验回放,回放数为批次大小b。
步骤17(训练时加入):利用Q网络和目标网络根据损失函数计算得到均方误差,应用自适应估计(Adam)的优化方法进行权重的迭代更新。
损失函数公式为:
Figure BDA0002532423830000126
其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值,a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E在数学中表示期望,因此此损失函数的公式为理论值,需要训练逼近期望。整个损失函数代表着目标Q值和预测Q值之间的均方误差。
步骤18(训练时加入):Q网络中的权重实时更新,而目标网络中的权重每隔一定时隙(144个)和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,可用于优化网络权重的损失函数;最终当达到迭代步数后,得到训练完成的出租车调度模型。
步骤19:如果结束则退出,否则跳转到步骤7继续处理下一个时隙,重复之后的步骤。
特别的,如果需要训练DQN模型,则需要额外执行步骤10、15、16、17、18,其他过程保持一致。
实施例2
本实施例提供一种基于深度强化学习的出租车调度系统,如图4所示,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
区域构建模块用来构建区域网络;
需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;
车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;
模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
车辆调度模块具体实现以下功能:
(1)上下文状态:
每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Zi,包括区域ID i,Zi的需求和供应数据以及Zi的所有相邻区域的需求和供应数据;
如果Zi的邻居不足(<κ),则剩余字段将用零填充;对于每个区域Zi,时隙tj的出租车需求
Figure BDA0002532423830000131
由GCN预测器提供,而其出租车供给
Figure BDA0002532423830000132
可以综合估算为:
Figure BDA0002532423830000133
其中
Figure BDA0002532423830000134
分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量;
(2)调度行动:
每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域;
具体来说,at=i(0<i≤κ)表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而at=0则表示该出租车在时间t继续停留在当前区域。按顺序的对所有可用的出租车采取行动,以确保出租车之间的协调;
(3)即时奖励:
根据时隙tj-1对目标区域的供需情况的影响,在时隙tj为每个动作计算即时奖励;将区域Zi的供求比
Figure BDA0002532423830000141
定义为:
Figure BDA0002532423830000142
其中
Figure BDA0002532423830000143
Figure BDA0002532423830000144
表示在时间tj-1区域Zi的实际供应和实际需求,系统可以在时间tj观察到;
对于将空闲出租车从其定位区域Zi调度到目标区域Zg的动作,使用上述公式计算即时奖励rt
当Zi缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚;当Zi中的出租车供应量大于需求量时,如果当目标区域Zg需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Zg也有足够的出租车供应,因此调度不会获得任何奖励;具体的奖励函数如下:
Figure BDA0002532423830000145
(4)训练方法:
利用深层神经网络(Deep Neural Network,DNN)来逼近Q函数;在训练阶段,Q值被更新如下:
Figure BDA0002532423830000146
其中,α是学习率,γ是折扣因子,r是奖励值。
在训练期间,目标网络的参数将更新以匹配策略网络;
经验回放存储器以过渡元组的形式存储经验,表示为(st-1,at-1,rt-1,st),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观察到的数据中进行采样并进行训练;进一步的代替对存储的元组进行均匀采样,基于时序差分(TD-error)δ对采样进行优先级排序将对学习更为有效;对于每个过渡元组,使用以下公式计算其时序差分δ:
Figure BDA0002532423830000147
更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差。
Figure BDA0002532423830000148
其中θ和θ′分别是Q网络和目标网络的权值。在上述更新规则中,Q网络会以目标值
Figure BDA0002532423830000151
拟合。
模拟器包括线路规划器、出租车订单匹配器、出租车调度器;
路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径。它为出租车订单匹配器和出租车调度器提供服务,以计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本。
出租车订单匹配器,将每个乘车请求分配给合适的出租车;
出租车调度器将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内;同时跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态;
计算出每个区域中的实际出租车需求和供应,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于深度强化学习的出租车调度方法,其特征在于,所述方法包括以下步骤:
S1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;
构建区域聚类的方法包括以下步骤:
S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重;
S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
每个区域Z维护以下的信息:区域中心顶点Zc,顶点集Zv,边集Ze和总权重Zw
将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Zi,i=1,…,M};
S1.3:选择所有区域Z中总权重Zw最小的区域为目标区域Ztar以添加新的顶点v和边e;
S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Ztar的顶点-区域距离dis(v,Ztar);此距离被定义为顶点v到区域中心Zc的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
如果顶点-区域距离dis(v,Ztar)小于等于最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure FDA0003067387620000011
并添加源头始于顶点v的边e进目标区域的边集
Figure FDA0003067387620000012
接着目标区域的总权重
Figure FDA0003067387620000013
将加上顶点-区域距离dis(v,Ztar);
然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回步骤S1.3;
S1.5:重复步骤S1.3和步骤S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域;
对于给定的区域Zi,将前κ个最近的区域定义为其邻居NZi={Zj,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本;
S2:根据形成的区域网络应用基于图卷积神经网络所构建的需求预测模型,利用历史订单数据预测任意区域在任意的时间中将会出现的订单数量;
步骤S2的具体过程如下:
将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图GZ=(Zall,A),其中Zall是所有区域的集合,所有区域的总数表示为|Z|,并且A∈R|Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:
Figure FDA0003067387620000021
其中I∈R|Z|×|Z|是图GZ的单位矩阵,D∈R|Z|×|Z|是图GZ的度矩阵;
图卷积神经网络函数定义为:
Figure FDA0003067387620000024
其中
Figure FDA0003067387620000025
表示第
Figure FDA0003067387620000026
层中的特征,
Figure FDA0003067387620000027
是第
Figure FDA0003067387620000028
层的可训练的权重矩阵,激活函数σ采用修正线性单元;
将影响每个区域Zi内出租车订单的因素合并表示为特征向量
Figure FDA0003067387620000022
其中
Figure FDA0003067387620000023
分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
接着,将所有特征经过正则化处理后输入进图卷积神经网络的输入层H0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Zi下一个时隙的订单数量;
S3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;
根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;
S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中;
出租车调度模型的训练过程如下:
S4.1:基于模拟器将深度Q网络内的经验回放池中所有上一个时隙的经验中的st和rt补全,其中st由新的时隙下系统观测得到,rt由奖励函数得到;在上一个时隙t-1中的下一时隙为t,此时的st为t时隙的状态信息,rt为t时隙下关于st和at的奖励;
S4.2:将过渡元组(st,at,rt+1,st+1)储存在DQN模型内的经验回放池中,其中rt+1和st+1暂时无法得到,因此暂时保留等待后续补全;
S4.3:每当经过B个时隙后进行一次经验回放,回放数为批次大小b;
S4.4:基于DQN根据损失函数公式计算得到均方误差,应用自适应估计的优化方法进行权重的迭代更新;
损失函数公式为:
Figure FDA0003067387620000031
其中θ和θ′分别是Q网络和目标网络的权值,γ是折扣因子,r是奖励值,a*是在参数θ′和状态s下得到的动作,a是在参数θ和状态s下得到的动作,E表示期望;
S4.5:将Q网络中的权重实时更新,而目标网络中的权重每隔若干个时隙和Q网络的权重进行一次同步,以便构建出有意义的不震荡的目标Q值,用于优化网络权重的损失函数;最终当达到预设的迭代步数后,得到训练完成的出租车调度模型。
2.根据权利要求1所述的基于深度强化学习的出租车调度方法,其特征在于,顶点-区域距离的计算公式如下:
dis(v,Z)=[cost(v,Zc)+cost(v,v′)]。
3.根据权利要求1所述的基于深度强化学习的出租车调度方法,其特征在于,车辆供应量计算公式为:
Figure FDA0003067387620000032
其中
Figure FDA0003067387620000033
分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量。
4.根据权利要求1所述的基于深度强化学习的出租车调度方法,其特征在于,奖励函数为:
Figure FDA0003067387620000041
Figure FDA0003067387620000042
其中,
Figure FDA0003067387620000043
为区域Zi的供求比,
Figure FDA0003067387620000044
为区域Zg的供求比;
Figure FDA0003067387620000045
Figure FDA0003067387620000046
表示在时间tj-1区域Zi的实际供应和实际需求,系统可以在时间tj观察到。
5.一种基于深度强化学习的出租车调度系统,其特征在于,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;
区域构建模块用来构建区域网络;具体为:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;其中,构建区域聚类的方法包括以下步骤:
S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重;
S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
每个区域Z维护以下的信息:区域中心顶点Zc,顶点集Zv,边集Ze和总权重Zw
将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Zi,i=1,…,M};
S1.3:选择所有区域Z中总权重Zw最小的区域为目标区域Ztar以添加新的顶点v和边e;
S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Ztar的顶点-区域距离dis(v,Ztar);此距离被定义为顶点v到区域中心Zc的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
如果顶点-区域距离dis(v,Ztar)小于等于最大区域范围ε,则添加顶点v进入目标区域的顶点集
Figure FDA0003067387620000051
并添加源头始于顶点v的边e进目标区域的边集
Figure FDA0003067387620000052
接着目标区域的总权重
Figure FDA0003067387620000053
将加上顶点-区域距离dis(v,Ztar);
然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回步骤S1.3;
S1.5:重复步骤S1.3和步骤S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域;
对于给定的区域Zi,将前κ个最近的区域定义为其邻居NZi={Zj,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本;
需求预测模块根据区域网络预测任意区域在任意的时间中将会出现的订单数量;具体过程如下:
将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图GZ=(Zall,A),其中Zall是所有区域的集合,所有区域的总数表示为|Z|,并且A∈R|Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:
Figure FDA0003067387620000054
其中I∈R|Z|×|Z|是图GZ的单位矩阵,D∈R|Z|×|Z|是图GZ的度矩阵;
图卷积神经网络函数定义为:
Figure FDA0003067387620000056
其中
Figure FDA00030673876200000511
表示第
Figure FDA0003067387620000058
层中的特征,
Figure FDA0003067387620000059
是第
Figure FDA00030673876200000510
层的可训练的权重矩阵,激活函数σ采用修正线性单元;
将影响每个区域Zi内出租车订单的因素合并表示为特征向量
Figure FDA0003067387620000055
其中
Figure FDA0003067387620000061
分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
接着,将所有特征经过正则化处理后输入进图卷积神经网络的输入层H0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Zi下一个时隙的订单数量;
车辆调度模块负责车辆的调度以及出租车调度模型的训练更新;其中,车辆调度模块具体实现以下功能:
(1)上下文状态:
每个出租车调度时所在区域对应的状态定义为:对于每一个可用出租车所在的区域Zi,包括区域IDi,Zi的需求和供应数据以及Zi的所有相邻区域的需求和供应数据;
如果Zi的邻居不足,则剩余字段将用零填充;对于每个区域Zi,时隙tj的出租车需求
Figure FDA0003067387620000062
由GCN预测器提供,而其出租车供给
Figure FDA0003067387620000063
可以综合估算为:
Figure FDA0003067387620000064
其中
Figure FDA0003067387620000065
分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量;
(2)调度行动:
每个可用的出租车都有(κ+1)个可能的动作,每个动作都会将出租车调度到特定区域;
at=i,0<i≤κ,表示在时间t将当前出租车调度到其所在区域的第i个相邻区域,而at=0则表示该出租车在时间t继续停留在当前区域;按顺序的对所有可用的出租车采取行动,以确保出租车之间的协调;
(3)即时奖励:
根据时隙tj-1对目标区域的供需情况的影响,在时隙tj为每个动作计算即时奖励;将区域Zi的供求比
Figure FDA0003067387620000066
定义为:
Figure FDA0003067387620000067
其中
Figure FDA0003067387620000071
Figure FDA0003067387620000073
表示在时间tj-1区域Zi的实际供应和实际需求,系统在时间tj观察到;
对于将空闲出租车从其定位区域Zi调度到目标区域Zg的动作,使用上述公式计算即时奖励rt
当Zi缺少出租车供应时,则停留行为将获得积极回报,其他行为将受到惩罚;当Zi中的出租车供应量大于需求量时,如果当目标区域Zg需求量大于出租车供应量越大,则该动作将获得更多回报;否则,由于Zg也有足够的出租车供应,因此调度不会获得任何奖励;具体的奖励函数如下:
Figure FDA0003067387620000074
(4)训练方法:
利用深层神经网络来逼近Q函数;在训练阶段,Q值被更新如下:
Figure FDA0003067387620000075
其中,α是学习率,γ是折扣因子,r是奖励值;
经验回放存储器以过渡元组的形式存储经验,表示为(st-1,at-1,rt-1,st),即为状态,动作,奖励和后继状态,元组被存储在经验池中,从而能够从这些先前观察到的数据中进行采样并进行训练;进一步的代替对存储的元组进行均匀采样,基于时序差分δ对采样进行优先级排序将对学习更为有效;对于每个过渡元组,使用以下公式计算其时序差分δ:
Figure FDA0003067387620000076
更新Q网络权重时,损失函数L(θ)用于计算预测Q值与目标Q值之间的差;
Figure FDA0003067387620000077
其中θ和θ′分别是Q网络和目标网络的权值;在上述更新规则中,Q网络会以目标值
Figure FDA0003067387620000078
拟合;
模拟器模拟外部环境,并根据实际情况训练强化深度学习算法,以及对乘车平台如何管理出租车和处理乘车请求的整个过程进行建模。
6.根据权利要求5所述的基于深度强化学习的出租车调度系统,其特征在于,模拟器包括线路规划器、出租车订单匹配器、出租车调度器;
路线规划器在道路网络图G上使用迪杰斯特拉算法计算两个位置之间的最短路径;它为出租车订单匹配器和出租车调度器提供服务,用来计算:(1)正在运送乘客中的出租车的到达时间,以便出租车调度模型可以将出租车的供应量考虑在内,以确保将来出租车的供需平衡;(2)乘客等待其指定的出租车的时间;(3)将可用的出租车从当前位置调度到目标区域中心位置的旅行成本;
出租车订单匹配器,将每个乘车请求分配给合适的出租车;
出租车调度器将执行DQN模型生成的操作,以按照路线计划者提供的路径将每个可用的出租车调度到目标区域内;同时跟踪所有出租车的状态和乘车请求,以形成强化深度学习模型的观察状态;
计算出每个区域中的实际出租车需求和供应量,并计算在最后一个时隙中采取的这些行动的报酬,作为反馈,以更新DQN模型。
CN202010521882.1A 2020-06-10 2020-06-10 一种基于深度强化学习的出租车调度方法及系统 Active CN111862579B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010521882.1A CN111862579B (zh) 2020-06-10 2020-06-10 一种基于深度强化学习的出租车调度方法及系统
PCT/CN2020/101096 WO2021248607A1 (zh) 2020-06-10 2020-07-09 一种基于深度强化学习的出租车调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010521882.1A CN111862579B (zh) 2020-06-10 2020-06-10 一种基于深度强化学习的出租车调度方法及系统

Publications (2)

Publication Number Publication Date
CN111862579A CN111862579A (zh) 2020-10-30
CN111862579B true CN111862579B (zh) 2021-07-13

Family

ID=72987154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010521882.1A Active CN111862579B (zh) 2020-06-10 2020-06-10 一种基于深度强化学习的出租车调度方法及系统

Country Status (2)

Country Link
CN (1) CN111862579B (zh)
WO (1) WO2021248607A1 (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150045B (zh) * 2020-11-05 2023-12-01 北京阿帕科蓝科技有限公司 基于车辆位置统计判断城市共享车辆供需关系的方法及其监测系统
CN112330215B (zh) * 2020-11-26 2024-02-02 长沙理工大学 一种城市用车需求量预测方法、设备及存储介质
CN112561104A (zh) * 2020-12-10 2021-03-26 武汉科技大学 基于强化学习的车辆共享服务订单派遣方法及系统
CN112734172B (zh) * 2020-12-25 2022-04-01 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN112766591A (zh) * 2021-01-27 2021-05-07 同济大学 共享单车调度方法
CN112949987B (zh) * 2021-02-01 2023-11-07 湖南大学 基于预测的出租车调度和匹配方法、系统、设备及介质
US11967239B2 (en) * 2021-02-23 2024-04-23 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for order dispatching and vehicle repositioning
CN113095636B (zh) * 2021-03-25 2024-01-23 深圳前海联动云软件科技有限公司 一种燃油共享汽车的智能调度系统及其方法
CN113344317A (zh) * 2021-04-09 2021-09-03 东莞理工学院 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN113253684B (zh) * 2021-05-31 2021-09-21 杭州蓝芯科技有限公司 基于图卷积神经网络的多agv调度方法及装置、电子设备
CN113672846A (zh) * 2021-06-18 2021-11-19 中国科学院自动化研究所 网约车调度方法、装置、电子设备及存储介质
CN113673836B (zh) * 2021-07-29 2023-08-18 清华大学深圳国际研究生院 一种基于强化学习的共享公交车贴线调度方法
US20230048242A1 (en) * 2021-08-12 2023-02-16 Toyota Motor Engineering & Manufacturing North America, Inc. Decentralized ridesharing systems and methods for matching vehicles with users
CN113865603B (zh) * 2021-08-30 2024-06-07 东风柳州汽车有限公司 共享无人车路径规划方法、装置、设备及存储介质
CN114067597B (zh) * 2021-11-17 2023-01-31 哈尔滨工业大学 一种基于强化学习的不同合乘意愿下出租车调度方法
CN114169608A (zh) * 2021-12-08 2022-03-11 电子科技大学长三角研究院(湖州) 一种车辆动态合乘匹配方法、系统、介质、设备及终端
CN114368420A (zh) * 2021-12-23 2022-04-19 中国铁道科学研究院集团有限公司通信信号研究所 一种车站调车作业工作量的预测方法
CN114374949B (zh) * 2021-12-31 2024-06-18 东莞理工学院 一种车联网中基于信息新鲜度优化的功率控制机制
CN114489059B (zh) * 2022-01-13 2024-02-02 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN114565247B (zh) * 2022-02-17 2024-06-18 华中科技大学 一种基于深度强化学习的车间调度方法、装置和系统
CN114662863A (zh) * 2022-03-01 2022-06-24 广东华中科技大学工业技术研究院 基于深度学习的车间分布式运输调度方法
CN114580937B (zh) * 2022-03-10 2023-04-28 暨南大学 基于强化学习和注意力机制的智能作业调度系统
CN114676909B (zh) * 2022-03-25 2024-04-09 东南大学 基于深度强化学习的无人车充电路径规划方法
CN114881282B (zh) * 2022-03-28 2024-09-10 天津大学 基于注意力机制和堆叠lstm的交通预测方法
CN114626836B (zh) * 2022-05-17 2022-08-05 浙江大学 基于多智能体强化学习的急救后送决策系统及方法
CN114844083B (zh) * 2022-05-27 2023-02-17 深圳先进技术研究院 一种提高储能系统稳定性的电动汽车集群充放电管理方法
CN114710218B (zh) * 2022-05-31 2022-12-16 深圳市佳贤通信设备有限公司 基于5g的分布式节点与基站通信效能优化方法
CN114780441B (zh) * 2022-06-21 2022-10-04 南京争锋信息科技有限公司 一种真实用户智能感知系统中用例的智能策略抓取方法
CN114995455B (zh) * 2022-06-23 2024-08-06 中山大学·深圳 一种车辆全局路径规划方法及系统
CN115225561B (zh) * 2022-08-15 2022-12-06 南京邮电大学 一种基于图结构特征的路由优化方法与系统
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115793583B (zh) * 2022-12-02 2024-06-25 福州大学 基于深度强化学习的流水车间新订单插入优化方法
CN116151401B (zh) * 2023-03-01 2024-06-07 南京领行科技股份有限公司 一种平台派单方法、装置、设备及存储介质
CN116030079A (zh) * 2023-03-29 2023-04-28 北京嘀嘀无限科技发展有限公司 地理围栏划分方法、装置、计算机设备和存储介质
CN116343461B (zh) * 2023-04-03 2023-11-17 北京白驹易行科技有限公司 一种车辆调度方法、装置及设备
CN116453323B (zh) * 2023-04-11 2024-05-28 湖南大学 基于多车型和空车再平衡的出租车调度方法及调度系统
CN116594358B (zh) * 2023-04-20 2024-01-02 暨南大学 基于强化学习的多层工厂车间调度方法
CN116302448B (zh) * 2023-05-12 2023-08-11 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116523161A (zh) * 2023-05-15 2023-08-01 南京理工大学 一种基于深度强化学习的协同配送路径规划方法
CN116562738B (zh) * 2023-07-10 2024-01-12 深圳市汉德网络科技有限公司 一种货运智能调度方法、装置、设备及存储介质
CN116682254B (zh) * 2023-08-03 2023-10-20 深圳市新乐数码科技有限公司 基于巡游出租车订单和gps数据的司机接单路线规划方法
CN117114079B (zh) * 2023-10-25 2024-01-26 中泰信合智能科技有限公司 一种单交叉口信号控制模型迁移至目标环境的方法
CN117196266B (zh) * 2023-11-07 2024-01-23 成都工业职业技术学院 基于神经网络的无人驾驶共享汽车区域调度方法及装置
CN117749625B (zh) * 2023-12-27 2024-06-25 融鼎岳(北京)科技有限公司 基于深度q网络的网络性能优化系统和方法
CN118171058B (zh) * 2024-02-27 2024-10-01 广东海洋大学 一种基于区域环境的沿海线列车风速预测方法及系统
CN118394088A (zh) * 2024-04-29 2024-07-26 深圳市前海智慧园区有限公司 基于深度学习的医院自动配送机器人路径优化方法及系统
CN118334863B (zh) * 2024-06-06 2024-08-13 深圳市海成智联科技有限公司 一种车辆调度方法、装置及设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002198B2 (en) * 2009-10-28 2018-06-19 Verizon Patent And Licensing Inc. Mobile taxi dispatch system
US9286793B2 (en) * 2012-10-23 2016-03-15 University Of Southern California Traffic prediction using real-world transportation data
CN103854472B (zh) * 2012-12-05 2016-09-07 深圳先进技术研究院 出租车云智能调度方法及系统
CN104077915B (zh) * 2014-03-27 2017-02-08 中华电信股份有限公司 乘车趋势预测装置及其方法
CN104599088A (zh) * 2015-02-13 2015-05-06 北京嘀嘀无限科技发展有限公司 基于订单的调度方法和调度系统
CN106875670B (zh) * 2017-03-07 2019-12-31 重庆邮电大学 Spark平台下基于GPS数据的出租车调配方法
CN108629503B (zh) * 2018-04-28 2020-11-03 南通大学 一种基于深度学习的出租车上车需求量的预测方法
CN108596688A (zh) * 2018-05-09 2018-09-28 厦门卫星定位应用股份有限公司 一种出租车载客信息获取方法及介质
CN108985475B (zh) * 2018-06-13 2021-07-23 厦门大学 基于深度神经网络的网约车召车需求预测方法
CN112767676B (zh) * 2018-07-18 2023-02-07 西安艾润物联网技术服务有限责任公司 出租车调度系统及出租车调度方法
CN109388484B (zh) * 2018-08-16 2020-07-28 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
JP6818304B2 (ja) * 2018-10-31 2021-01-20 トヨタ自動車株式会社 情報配信方法、情報配信装置、及び情報配信プログラム
CN109859458B (zh) * 2019-01-17 2020-06-30 深圳市泰比特科技有限公司 一种基于车辆大数据的车辆调度方法及系统
CN109993408B (zh) * 2019-02-28 2021-07-09 河海大学 一种基于服务区域划分的网约车运力调配方法
CN110348969B (zh) * 2019-07-16 2022-04-08 哈尔滨工程大学 基于深度学习和大数据分析的出租车寻客策略推荐方法
CN110458337B (zh) * 2019-07-23 2020-12-22 内蒙古工业大学 一种基于c-gru的网约车供需预测方法
CN110766280A (zh) * 2019-09-20 2020-02-07 南京领行科技股份有限公司 一种车辆调度方法、目标订单预测模型的生成方法和装置
CN110796317B (zh) * 2019-12-02 2022-11-01 武汉理工大学 一种基于需求预测的城市出租车调度方法

Also Published As

Publication number Publication date
WO2021248607A1 (zh) 2021-12-16
CN111862579A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111862579B (zh) 一种基于深度强化学习的出租车调度方法及系统
CN110472764B (zh) 基于强化学习使用半合作纳什平衡来协调多方服务的方法和系统
Shavarani et al. A congested capacitated multi-level fuzzy facility location problem: An efficient drone delivery system
CN112016812B (zh) 多无人机任务调度方法、系统及存储介质
Chen et al. Evolutionary computation for intelligent transportation in smart cities: A survey
Liu et al. Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning
CN113811915B (zh) 用于在线共享出行平台的统一订单派发和车队管理
JP7108158B2 (ja) 航空輸送ネットワークにおける効率的なvtolリソース管理
US20210110323A1 (en) Optimizing charging, fueling, and parking overheads of fleet vehicles in a maas architecture
Guo et al. A deep reinforcement learning approach to ride-sharing vehicle dispatching in autonomous mobility-on-demand systems
CN112074845A (zh) 用于优化拼车策略的深度强化学习
CN111033535A (zh) 用于乘车订单调度的系统和方法
Chu et al. Joint rebalancing and vehicle-to-grid coordination for autonomous vehicle public transportation system
Zhang et al. Autonomous vehicle intelligent system: Joint ride-sharing and parcel delivery strategy
Chen et al. Hierarchical data-driven vehicle dispatch and ride-sharing
Núñez et al. Multiobjective model predictive control for dynamic pickup and delivery problems
CN113672846A (zh) 网约车调度方法、装置、电子设备及存储介质
Ma et al. Dynamic vehicle routing problem for flexible buses considering stochastic requests
CN110097218A (zh) 一种时变环境下无人商品配送方法及系统
CN112949987A (zh) 基于预测的出租车调度和匹配方法、系统、设备及介质
Oda et al. Distributed fleet control with maximum entropy deep reinforcement learning
Zhu et al. Idle-vehicle rebalancing coverage control for ride-sourcing systems
He et al. Robust electric vehicle balancing of autonomous mobility-on-demand system: A multi-agent reinforcement learning approach
US20220147664A1 (en) Systems and Methods for Multi-Modal Transportation Simulation Verification
Castagna et al. Demand-responsive rebalancing zone generation for reinforcement learning-based on-demand mobility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant