CN116402323B - 一种出租车调度方法 - Google Patents
一种出租车调度方法 Download PDFInfo
- Publication number
- CN116402323B CN116402323B CN202310680152.XA CN202310680152A CN116402323B CN 116402323 B CN116402323 B CN 116402323B CN 202310680152 A CN202310680152 A CN 202310680152A CN 116402323 B CN116402323 B CN 116402323B
- Authority
- CN
- China
- Prior art keywords
- grid
- demand
- time
- distribution
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 9
- 230000008901 benefit Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 44
- 230000002787 reinforcement Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000029305 taxis Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及车辆调度技术领域,公开了一种出租车调度方法,包括以下步骤:将出租车调度问题构建为一个马尔可夫决策元组;构建网格地图;预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,计算区域的供需特征,形成需求指数与区域标记;相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;验证上述策略,形成最终模型。
Description
技术领域
本发明涉及车辆调度技术领域,特别是涉及一种基于预分配层次强化学习的出租车调度方法。
背景技术
拼车系统广泛部署在许多大城市中,其通过智能算法实现乘客预订和调度附近可用的车辆,显著改善了日常出行。尽管这些平台广受欢迎,但仍面临着需求供给不平衡的巨大挑战。例如,高人口密度的热区域通常缺乏可用车辆,导致许多乘车请求无法得到满足;而低需求的冷区域可能有过剩的闲置车辆,等待可能不会到来的乘车请求。这些需求供给不匹配可能会导致乘客满意度降低,也会减少拼车平台和司机的利益。
基于组合优化算法,如贪婪算法和启发式算法等,首先被提出并用于出租车车队的调度管理,然而,这些算法大多集中在短期重新定位,在长期规划方面有较低的效率,忽略了需求的变化和不确定性的影响。因此,需要一种能够考虑长期目标和需求预测的方式。
目前,基于强化学习的算法已被应用于解决出租车车队调度问题。这些算法将每个可用的车辆视为一个自主智能体,利用神经网络为每个智能体学习调度策略,能够在提高订单响应率和平台收入方面取得一定的效果。然而,基于传统强化学习的算法仍然面临着很多的技术挑战。首先,它们需要定义智能体的状态和动作空间,并协调智能体之间的协作,因为车队管理策略需要在城市范围内匹配数以万计的车辆和出行请求。其次,它们还必须能够准确预测潜在的乘客需求,这需要有效地整合预测模型和车队调度模型。第三,它们的最终挑战是如何基于预测结果生成长期的车队调度策略,以实现平台的可持续发展。
发明内容
为解决上述技术问题,本发明提供一种出租车调度方法,保证出租车系统能更高效的分配车辆资源。
本发明解决其技术问题所采用的技术方案是:
一种出租车调度方法,包括以下步骤:
S1,将出租车调度问题构建为一个马尔可夫决策元组;
其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体;
S2,构建网格地图;
其中,每个网格代表一个区域,每个网格内可以拥有多个订单与司机;
S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;
S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;
S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;
S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;
S7,验证上述策略,并形成最终模型。
优选地,所述马尔可夫决策元组G=(N,S,A,P,R,γ);
其中N是工人智能体的数量,S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子。
优选地,所述预测者智能体的奖励函数为,且:
;
其中,和/>分别表示t+1时刻时全城实际订单和预测订单的分布;表示Kullback-Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距;
所述工人智能体的奖励函数为,且:
;
其中,代表网格/>中的车辆所获得的直接订单匹配奖励收入;网格/>中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励/>。
优选地,构建所述网格地图,将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID ,并拥有多个同质化的空闲车辆;
且所述六边形格网的边缘大小设置为2~3公里。
优选地,环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求;其中
时间步t-n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势;
最近n天时间步t+1的基于天的历史订单分布被选为输入的另一部分,以研究不同天之间旅行需求的变化趋势。
优选地,所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块,所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势,所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响。
优选地,基于分钟的历史订单分布的潜在需求为/>,
;
基于天数的历史订单分布的潜在需求为/>,
。
优选地,所述基于预分配规则计算区域的供需特征,通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数/>,
其中表示网格i的本地潜在需求,/>表示时刻t+1网格i的本地潜在车辆分布;
所述需求指数可以表示为:
其中需求指数代表该网格的需求和供应之间的差异,每个网格都根据需求指数/>分配了一个区域标记/>,指示它是热区、冷区或平衡区,根据需求指数/>,我们可以知道网格i属于哪种类型的区域;
因此,区域标记可以用数字表示为:
。
优选地,所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合,从而计算出特定于工人智能体i的局部需求指数和局部区域标记/>;同时利用局部状态/>构建一个超参数自注意力网络,其为:
;
利用所述超参数自注意力网络计算得出工人智能体i的行为-状态值函数,其为:
。
优选地,验证上述策略,并形成最终模型包括以下步骤:
S71:计算奖励,根据模型计算的调度策略,调度所有的出租车前往目标区域并匹配订单,计算此次调度决策所带来的收益;
S72:训练模型,存储一天内所有的调度的过程后,采用Huber损失函数学习这些过程并更新智能体网络的参数;
Huber损失函数为:
;
其中$,/>为目标网络中的参数;
S73:模型评估与实验验证;训练若干回合后,采用在出租车调度场景中的两个指标ADI和ORR,作为评估算法优缺点的标准;
ADI表示在一个回合中所有已完成订单的收入,可以在基于网格的模拟器中表示为:
;
其中,表示在时间步t中服务于网格i的订单价值之和;
ORR是一个回合中所有时间步骤中订单响应率的加权平均值,其为:
;
其中,表示在时间步t中网格i中已服务的订单数量,/>表示在时间步$t$中网格i中所有订单数量;
选取最优的模型权重后,在数据集上进行8~15个回合的测试,取所有结果的平均值作为模型的最终结果。
本发明实施例的一种出租车调度方法,与现有技术相比,其有益效果在于:本发明利用层次强化学习将出租车调度分解为多个子任务,并使用视图时空卷积注意力模块与超参数自注意力模块联合决策,使得出租车系统能更高效的分配车辆资源。
附图说明
图1为本发明的出租车调度方法的流程图。
图2为本发明用于预测需求的订单时间特征分类的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合附图,对本申请的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种出租车调度方法,其特征在于:包括以下步骤:
S1,将出租车调度问题构建为一个马尔可夫决策元组;
其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体。
所述马尔可夫决策元组G=(N,S,A,P,R,γ);
其中N是工人智能体的数量(N也等于网格地图中的网格数),S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子。
具体定义如下:
智能体:我们将每个网格视为一个工人智能体,其中可能包含多个同质的可移动闲置车辆。整个重新分配系统有一个预测者智能体,用于学习所有工人智能体的目标集。
状态:状态有环境中订单与出租车的时空分布构成,包括局部状态与全局状态。
动作:动作由预测需求与车辆重定位组成,其中预测者智能体负责预测需求,工人智能体负责调度出租车。
奖励函数:预测者智能体通过观察环境中全局订单的时空分布来捕捉潜在的出行需求。因此,预测者智能体的奖励函数,可以定义为式:
;
其中,和/>分别表示t+1时刻时全城实际订单和预测订单的分布;表示Kullback-Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距。这种奖励设计有助于预测者智能体更好地预测潜在需求,从而引导所有工人智能体重新定位车辆
所述工人智能体的奖励函数为,且:
;
其中,代表网格/>中的车辆所获得的直接订单匹配奖励收入;网格/>中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励/>。
S2,构建网格地图;
将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID ,并拥有多个同质化的空闲车辆。为考虑实际交通场景和计算开销,将六边形格网的边缘大小设置为2~3公里,优选2.4公里。一个格网中的空闲车辆可以自由地前往相邻的格网区域以满足订单需求。为了便于空闲车辆的重新定位,我们将一天定义为强化学习的一个回合,每个回合被分成t个时间步,在每个时间步中,我们采用分层方法对需求预测和车队管理进行建模。
S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;
为更准确地捕捉下一个时间步的潜在出行需求,使用了两种类型的历史数据来形成预测者智能体的输入数据,如图2所示。环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求。一方面,时间步t-n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势。另一方面,最近n天时间步t+1的基于天的历史订单分布/>被选为输入的另一部分,以研究不同天之间旅行需求的变化趋势。
S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;
预测者智能体的由基于多视图的时空卷积网络组成,包括时间注意力模块和空间注意力模块。时间注意力模块试图从历史数据中学习旅行需求的变化趋势,空间注意力模块旨在从空间维度挖掘不同网格之间旅行需求的相互影响。
在时间步t,基于分钟的历史订单分布通过多层感知机(MLP)转换为特征映射,其中通道数为n,表示n个连续时间步。在时间注意力模块中,/>被输入到全局平均池化和一个 MLP 中,以计算时间权重图/>,它表示每个时间步的重要程度。时间注意力可以表示为:
其中和/>分别表示旅行需求的时间特征图和 MLP 的参数,/>表示激活函数,/>表示全局平均池化。
类似地,在空间注意力模块中,被输入到最大池和平均池中,以计算空间权重映射/>,它表示每个格子的重要程度。值得注意的是,空间权重映射/>是由卷积神经网络学习生成的。因此,我们可以将时间-空间特征在分钟级历史订单分布/>中的融合表示为潜在需求/>,具体如下所示:
。
同样地,基于天数的历史订单分布的潜在需求/>的计算过程与/>相同。将两种时间尺度结合起来,下一时间步潜在需求/>的预测可以表示为式:
。
S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;
通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数/>,
其中表示网格i的本地潜在需求,/>表示时刻t+1网格i的本地潜在车辆分布,这是基于司机的在线和离线概率以及先前订单的下车位置计算得出的。因此,需求指数/>可以表示为:
。
其中需求指数代表该网格的需求和供应之间的差异,需求指数的值越大,供应过剩的情况就越大。在该系统中,每个网格都根据需求指数/>分配了一个区域标记/>,指示它是热区(需求大于供应)、冷区(供应大于需求)还是平衡区(供需平衡)。根据需求指数,我们可以知道网格i属于哪种类型的区域。
因此,区域标记可以用数字表示为:
其中,1表示热区,0表示平衡区,-1表示冷区。
S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;
为了促进局部环境内工人智能体之间的合作,采用了消息模块(一种多头自注意机制),所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合,从而计算出特定于工人智能体i的局部需求指数和局部区域标记;同时为了进一步增强环境信息,我们利用局部状态/>构建了一个超参数自注意力网络,定义为式,其为:
;
其中,Q、K和V分别表示超参数自注意力网络的输入矩阵,、/>和/>是经过MLP 处理后的参数矩阵,其输入为本地状态/>。
利用所述超参数自注意力网络计算得出工人智能体i的行为-状态值函数,其为:
。
S7,验证上述策略,并形成最终模型。
包括以下步骤:
S71:计算奖励,根据模型计算的调度策略,调度所有的出租车前往目标区域并匹配订单,计算此次调度决策所带来的收益。
S72:训练模型,存储一天内所有的调度的过程后,采用Huber损失函数学习这些过程并更新智能体网络的参数;
Huber损失函数为:
;
其中$,/>为目标网络中的参数;
训练批大小设置为1024,训练20回合,初始学习率设置为0.002。保存每个周期的模型权重。
S73:模型评估与实验验证;训练20回合后,采用在出租车调度场景中的两个指标ADI和ORR,作为评估算法优缺点的标准;
ADI表示在一个回合中所有已完成订单的收入,可以在基于网格的模拟器中表示为:
;
其中,表示在时间步t中服务于网格i的订单价值之和;
ORR是一个回合中所有时间步骤中订单响应率的加权平均值,其为:
;
其中,表示在时间步t中网格i中已服务的订单数量,/>表示在时间步$t$中网格i中所有订单数量;
选取最优的模型权重后,在数据集上进行8~15个回合的测试,优选10回合,取所有结果的平均值作为模型的最终结果。
本发明利用层次强化学习将出租车调度分解为多个子任务,并使用视图时空卷积注意力模块与超参数自注意力模块联合决策,使得出租车系统能更高效的分配车辆资源。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (1)
1.一种出租车调度方法,其特征在于:包括以下步骤:
S1,将出租车调度问题构建为一个马尔可夫决策元组;
其中,该马尔可夫决策元组包括智能体,所述智能体包括负责调度车辆的工人智能体和负责预测未来的出行需求的预测者智能体;
S2,构建网格地图;
其中,每个网格代表一个区域,每个网格内可以拥有多个订单与司机;
S3,所述预测者智能体接收到从环境中观测到的全局订单时空分布,将其划分为基于分钟的历史订单与基于天数的历史订单两种类型;
S4,使用多视图时空卷积注意力模块结合上述两种类型的历史订单分布预测各区域的未来出行需求;
S5,所述工人智能体接收到所述预测者智能体所预测的潜在订单分布,结合推算的潜在车辆分布,基于预分配规则计算区域的供需特征,形成需求指数与区域标记;
S6,相邻的工人智能体通过消息模块来分享所述需求指数与所述区域标记这两个信息,再使用超参数自注意力模块学习出租车调度策略;
S7,验证上述策略,并形成最终模型;
所述马尔可夫决策元组G=(N,S,A,P,R,γ);
其中N是工人智能体的数量,S表示环境中的状态集,A表示行动集,P是状态转移概率,R表示奖励函数,γ表示折扣因子;
所述预测者智能体的奖励函数为rt p,且:
rt p=DKL(P(ot+1)||P(pot+1));
其中,P(ot+1)和P(pot+1)分别表示t+1时刻时全城实际订单和预测订单的分布;DKL(P(ot+1)||P(pot+1))表示Kullback-Leibler距离,它显示了时刻t+1时真实订单和预测出行需求之间的差距;
所述工人智能体的奖励函数为rt w,且:
其中,代表网格i中的车辆所获得的直接订单匹配奖励收入;网格i中的剩余车辆没有获得直接奖励,而是根据其周围的潜在订单数量,获得与之成比例的奖励/>
构建所述网格地图,将城市分区成六边形格网世界,每个格网被视为一个代理,具有唯一的格网ID,并拥有多个同质化的空闲车辆;
且所述六边形格网的边缘大小设置为2~3公里;
环境中观察到的历史订单分布数据被用于预测t+1时间步的目标需求;其中
时间步t-n到t中的基于分钟的历史订单分布被选为预测者智能体输入的一部分,以研究连续n个时间段内旅行需求的变化趋势;
最近n天时间步t+1的基于天的历史订单分布被选为输入的另一部分,以研究不同天之间旅行需求的变化趋势;
所述多视图时空卷积注意力模块包括时间注意力模块和空间注意力模块,所述时间注意力模块用于从历史数据中学习旅行需求的变化趋势,所述空间注意力模块用于从空间维度挖掘不同网格之间旅行需求的相互影响;
基于分钟的历史订单分布的潜在需求为/>
基于天数的历史订单分布的潜在需求为/>
所述基于预分配规则计算区域的供需特征,通过匹配潜在订单和潜在车辆/>来计算网格$i$的需求指数dii,
其中表示网格i的本地潜在需求,/>表示时刻t+1网格i的本地潜在车辆分布;
所述需求指数dii可以表示为:
其中需求指数dii代表该网格的需求和供应之间的差异,每个网格都根据需求指数dii分配了一个区域标记mi,指示它是热区、冷区或平衡区,根据需求指数dii,我们可以知道网格i属于哪种类型的区域;
因此,区域标记mi可以用数字表示为:
所述消息模块将相邻网格的需求指数和区域标记与当前工人智能体i的需求指数和区域标记相结合,从而计算出特定于工人智能体i的局部需求指数ldi_i和局部区域标记lm_i;同时利用局部状态构建一个超参数自注意力网络,其为:
Hyper-attention(Q,K,V)=softmax((Q×wq)×(K×wk)·)×V×wv;
利用所述超参数自注意力网络计算得出工人智能体i的行为-状态值函数其为:
验证上述策略,并形成最终模型包括以下步骤:
S71:计算奖励,根据模型计算的调度策略,调度所有的出租车前往目标区域并匹配订单,计算此次调度决策所带来的收益;
S72:训练模型,存储一天内所有的调度的过程后,采用Huber损失函数学习这些过程并更新智能体网络的参数;
Huber损失函数为:
其中yt=rt+γ×Qπ(st+1,at+1;θ)-Qπ(st,at;θ)$,θ’为目标网络中的参数;
S73:模型评估与实验验证;训练若干回合后,采用在出租车调度场景中的两个指标ADI和ORR,作为评估算法优缺点的标准;
ADI表示在一个回合中所有已完成订单的收入,可以在基于网格的模拟器中表示为:
其中,表示在时间步t中服务于网格i的订单价值之和;
ORR是一个回合中所有时间步骤中订单响应率的加权平均值,其为:
其中,表示在时间步t中网格i中已服务的订单数量,/>表示在时间步$t$中网格i中所有订单数量;
选取最优的模型权重后,在数据集上进行8~15个回合的测试,取所有结果的平均值作为模型的最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310680152.XA CN116402323B (zh) | 2023-06-09 | 2023-06-09 | 一种出租车调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310680152.XA CN116402323B (zh) | 2023-06-09 | 2023-06-09 | 一种出租车调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402323A CN116402323A (zh) | 2023-07-07 |
CN116402323B true CN116402323B (zh) | 2023-09-01 |
Family
ID=87020297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310680152.XA Active CN116402323B (zh) | 2023-06-09 | 2023-06-09 | 一种出租车调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402323B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272168A (zh) * | 2018-10-09 | 2019-01-25 | 南京地铁集团有限公司 | 一种城市轨道交通客流变化趋势预测方法 |
CN111476588A (zh) * | 2019-01-24 | 2020-07-31 | 北京嘀嘀无限科技发展有限公司 | 订单需求预测方法、装置、电子设备及可读存储介质 |
CN113326993A (zh) * | 2021-04-20 | 2021-08-31 | 西南财经大学 | 一种基于深度强化学习的共享自行车调度方法 |
CN113672846A (zh) * | 2021-06-18 | 2021-11-19 | 中国科学院自动化研究所 | 网约车调度方法、装置、电子设备及存储介质 |
CN114399185A (zh) * | 2022-01-06 | 2022-04-26 | 华北电力大学 | 一种基于强化学习的电动物流车队行为调度方法 |
CN114912740A (zh) * | 2022-03-22 | 2022-08-16 | 滁州学院 | 一种按需出行智能决策方法和系统 |
CN114970944A (zh) * | 2022-03-29 | 2022-08-30 | 武汉大学 | 一种基于多智能体强化学习的订单匹配和车辆重定位方法 |
CN115099718A (zh) * | 2022-08-11 | 2022-09-23 | 北京工商大学 | 一种基于逆强化学习的价格激励共享电动汽车调度方法 |
CN115222251A (zh) * | 2022-07-19 | 2022-10-21 | 华东交通大学 | 一种基于混合分层强化学习的网约车调度方法 |
CN115311864A (zh) * | 2022-08-11 | 2022-11-08 | 华东交通大学 | 一种基于多视角动态图卷积网络的交通流预测方法 |
CN115713130A (zh) * | 2022-09-07 | 2023-02-24 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200372410A1 (en) * | 2019-05-23 | 2020-11-26 | Uber Technologies, Inc. | Model based reinforcement learning based on generalized hidden parameter markov decision processes |
-
2023
- 2023-06-09 CN CN202310680152.XA patent/CN116402323B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272168A (zh) * | 2018-10-09 | 2019-01-25 | 南京地铁集团有限公司 | 一种城市轨道交通客流变化趋势预测方法 |
CN111476588A (zh) * | 2019-01-24 | 2020-07-31 | 北京嘀嘀无限科技发展有限公司 | 订单需求预测方法、装置、电子设备及可读存储介质 |
CN113326993A (zh) * | 2021-04-20 | 2021-08-31 | 西南财经大学 | 一种基于深度强化学习的共享自行车调度方法 |
CN113672846A (zh) * | 2021-06-18 | 2021-11-19 | 中国科学院自动化研究所 | 网约车调度方法、装置、电子设备及存储介质 |
CN114399185A (zh) * | 2022-01-06 | 2022-04-26 | 华北电力大学 | 一种基于强化学习的电动物流车队行为调度方法 |
CN114912740A (zh) * | 2022-03-22 | 2022-08-16 | 滁州学院 | 一种按需出行智能决策方法和系统 |
CN114970944A (zh) * | 2022-03-29 | 2022-08-30 | 武汉大学 | 一种基于多智能体强化学习的订单匹配和车辆重定位方法 |
CN115222251A (zh) * | 2022-07-19 | 2022-10-21 | 华东交通大学 | 一种基于混合分层强化学习的网约车调度方法 |
CN115099718A (zh) * | 2022-08-11 | 2022-09-23 | 北京工商大学 | 一种基于逆强化学习的价格激励共享电动汽车调度方法 |
CN115311864A (zh) * | 2022-08-11 | 2022-11-08 | 华东交通大学 | 一种基于多视角动态图卷积网络的交通流预测方法 |
CN115713130A (zh) * | 2022-09-07 | 2023-02-24 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Non-Patent Citations (1)
Title |
---|
基于局部位置感知的多智能体网约车调度方法;黄晓辉等;《计算机工程与应用》;1-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN116402323A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998568B (zh) | 寻觅乘客的可搭载车辆的导航确定系统和方法 | |
US11393341B2 (en) | Joint order dispatching and fleet management for online ride-sharing platforms | |
Miao et al. | Taxi dispatch with real-time sensing data in metropolitan areas: A receding horizon control approach | |
TWI670677B (zh) | 用於推薦預估到達時間的系統和方法 | |
Weikl et al. | A practice-ready relocation model for free-floating carsharing systems with electric vehicles–Mesoscopic approach and field trial results | |
CN102044149B (zh) | 一种基于时变客流的城市公交运营协调方法与装置 | |
CN110400015B (zh) | 一种时间估计方法及其装置、设备 | |
Zahabi et al. | Spatio-temporal analysis of car distance, greenhouse gases and the effect of built environment: A latent class regression analysis | |
Kontou et al. | Reducing ridesourcing empty vehicle travel with future travel demand prediction | |
Kim et al. | Idle vehicle relocation strategy through deep learning for shared autonomous electric vehicle system optimization | |
CN113672846A (zh) | 网约车调度方法、装置、电子设备及存储介质 | |
Tang et al. | Online operations of automated electric taxi fleets: An advisor-student reinforcement learning framework | |
US20190279238A1 (en) | Information processing system, information processing method, and non-transitory computer-readable storage medium storing program | |
CN115713130B (zh) | 基于超参数网络权重分配深度强化学习的车辆调度方法 | |
Sayarshad et al. | Optimizing dynamic switching between fixed and flexible transit services with an idle-vehicle relocation strategy and reductions in emissions | |
Hamadneh et al. | Potential travel time reduction with autonomous vehicles for different types of travellers | |
CN116324838A (zh) | 用于通过叫车平台调度共享乘车的系统和方法 | |
Wang et al. | Providing real-time bus crowding information for passengers: A novel policy to promote high-frequency transit performance | |
Kim et al. | Exact algorithms for incremental deployment of hydrogen refuelling stations | |
Chiariotti et al. | Bike sharing as a key smart city service: State of the art and future developments | |
CN111199440A (zh) | 事件预估方法、装置以及电子设备 | |
CN116402323B (zh) | 一种出租车调度方法 | |
CN112949987A (zh) | 基于预测的出租车调度和匹配方法、系统、设备及介质 | |
Sayarshad | Designing intelligent public parking locations for autonomous vehicles | |
Xi | Data-driven optimization technologies for MaaS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |