CN115713130B - 基于超参数网络权重分配深度强化学习的车辆调度方法 - Google Patents
基于超参数网络权重分配深度强化学习的车辆调度方法 Download PDFInfo
- Publication number
- CN115713130B CN115713130B CN202211088592.8A CN202211088592A CN115713130B CN 115713130 B CN115713130 B CN 115713130B CN 202211088592 A CN202211088592 A CN 202211088592A CN 115713130 B CN115713130 B CN 115713130B
- Authority
- CN
- China
- Prior art keywords
- state
- obtaining
- network
- scheduling
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了基于超参数网络权重分配深度强化学习的车辆调度方法,包括:获取多智能体的调度区域,调度区域包括局部区域和全局区域,其中智能体为被调度的车辆;基于局部区域,得到多智能体的局部状态,基于局部状态,通过策略网络,得到当前的调度策略;基于全局区域,得到多智能体的全局状态,基于全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态‑联合动作价值;基于状态价值与状态‑联合动作价值,得到新的目标函数;基于目标函数,优化调度策略,最终实现车辆调度。本发明通过以上技术方案,能够提高订单响应率,同时能够增加最大化累积司机收益。
Description
技术领域
本发明属于共享交通领域,特别是涉及一种基于超参数网络权重分配深度强化学习的车辆调度方法。
背景技术
当某市中心的下班高峰时间段,该区域订单的需求量远大于该区域的空闲车辆,那么问题就演变成该如何将可用车辆提前进行调度,来满足当前的乘客需求,然而,从长远来看,可能在下一时间段由于天气等因素导致该区域的需求量较小,这就造成了车辆未来收益较少和资源的浪费。
目前车辆调度的方法主要有三类,包括:基于组合优化的方法、基于单智能体强化学术方法和基于多智能体深度强化学习的方法。但是,现有技术中,没有将整体收益和订单响应率以及车队重定位数量进行综合考虑,比如高价订单匹配的车辆可以在单个调度阶段得到很好的收入;但是可能在不久的将来该车队很可能大部分车辆没有得到合理利用,这将损害订单响应率和最大化累积司机收益的整体效益。
发明内容
本发明的目的是提供一种基于超参数网络权重分配深度强化学习的车辆调度方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于超参数网络权重分配深度强化学习的车辆调度方法,包括:
获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;
基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;
基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,得到全局状态价值;通过评价网络,得到多智能体的状态-联合动作价值;
基于所述状态价值与所述状态-联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度。
优选地,获取多智能体的调度区域的过程包括:
划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为网约车调度区域;
基于所述六边形网格区域的中心坐标,得到邻居区域。
优选地,得到当前调度策略的过程包括:
基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:订单需求数和车辆数以及网格编号;
将所述局部状态输入至策略网络,得到当前调度策略。
优选地,将所述局部状态输入至策略网络的过程包括:
获取策略网络,将所述订单需求数和车辆数输入至所述策略网络,得到观察状态与动作参数的映射关系,基于所述映射关系,得到当前调度策略。
优选地,得到全局状态价值的过程包括:
基于所述全局区域,得到多智能体的全局状态,其中所述全局状态包括:订单需求数、车辆数以及网格编号;
基于所述全局状态,通过价值网络的损失函数,得到全局状态价值。
优选地,得到多智能体的状态-联合动作价值的过程包括:
基于所述全局状态,通过评价网络,将所述当前调度策略和超参数进行组合计算,得到多智能体的状态-联合动作价值。
优选地,得到新的目标函数的过程包括:
获取损失函数的权重常数,基于所述权重常数,将所述状态价值与所述状态-联合动作价值进行组合,得到总的目标损失函数,所述总的目标损失函数为新的目标函数。
优选地,优化所述调度策略的过程包括:
基于反向传播算法,对所述调度策略进行权重分配;基于分配结果和所述目标函数,优化所述当前调度策略,直至输出的误差减小至期望值,优化过程结束。
本发明的技术效果为:
本发明提出了一种基于超参数网络权重分配深度强化学习的车队调度方法,获取多智能体的调度区域,基于局部区域,得到多智能体的局部状态,通过策略网络,得到当前调度策略;基于全局区域,得到多智能体的全局状态,通过价值网络,基于全局状态,得到全局状态价值;通过评价网络,得到多智能体的状态-联合动作价值;将状态价值与状态-联合动作价值进行组合,得到新的目标函数;通过目标函数,优化调度策略,最终实现车辆调度。
本发明提供的调度方法,有利于地解决复杂的动态环境下,大规模车辆的短期和长期调度优化问题。同时此方法不是每个时间段的最佳策略,而是整个调度过程的整体优化方法,考虑了未来时间段的供需变化以及调度决策对下一时间段的供需的影响。本发明提出的动态优化调度策略,可提高调度运营效率;提高订单响应率,增加司机和平台累积收益,减少调度车辆,减少某些区域内过高堆积的闲置车辆数目;减少共享资源的浪费,改善由大量闲置车辆的堆叠所造成的城市环境的现象。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的方法流程图;
图2为本发明实施例中的调度过程图;
图3为本发明实施例中的时空调度图;
图4为本发明实施例中的CADPG模型结构图;
图5为本发明实施例中的模拟订单数量示意图;
图6为本发明实施例中的采用基于权重分配深度强化学习与四种基线方法的订单响应率和累积司机收益对比结果图;
图7为本发明实施例中的采用基于权重分配深度强化学习与四种基线方法的车辆调度数对比结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1-4所示,本实施例中提供一种基于超参数网络权重分配深度强化学习的车辆调度方法,包括以下步骤:
获取多智能体的调度区域,调度区域包括局部区域和全局区域;其中智能体为被调度的车辆;
基于局部区域,得到多智能体的局部状态,基于局部状态,通过策略网络,得到当前调度策略;
基于全局区域,得到多智能体的全局状态,基于全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态-联合动作价值;
基于状态价值与状态-联合动作价值,得到新的目标函数;基于目标函数,优化当前调度策略,最终实现车辆调度。
具体实施方式包括:
S1:划分地图得到共享网约车的调度区域,并根据距离建立邻居区域;
S11:将成都网约车的活动地图划分为大小相同六边形网格状,其中每一个网格中的所有车辆视为拥有同一状态并且完成相应的调度动作后获得相同的奖励。
S12:根据建立的坐标系,获取车辆调度的六个邻居区域;假设其中一个六边形区域中心坐标为(X,Y),X,Y为横纵坐标,当Y为偶数时,它的六个邻居区域左边分别为(X-1,Y),(X,Y+1),(X+1,Y+1),(X+1,Y),(X+1,Y-1),(X,Y-1);当Y为奇数时,它的六个邻居区域左边分别为(X-1,Y),(X-1,Y+1),(X,Y+1),(X+1,Y),(X,Y-1),(X-1,Y-1)。
S2:遍历车辆调度区域,得到当前时刻订单需求数和车辆数,把每一个智能体(车辆)所观察到的局部状态Ot=(t,g(d,o))输入到策略网络,计算该智能体当前的调度策略,g(d,o)主要包括订单需求数和车辆数以及网格编号;
S21:建立马尔科夫决策过程,包含六元组,它由一个包括(Z,S,A,R,P,γ)组成,其中Z,S,A,R,P,γ分别是智能体的数量,状态集,联合动作空间,奖励函数,转移概率函数,和一个折扣因子;
S22:首先将一天分为144个时间段(每10分钟为一个时间间隔),并在每天的0点对整个区域内的订单数和车辆数进行初始化,用S0来表示初始时刻的状态,在当前时刻t0,当产生订单信息请求时,订单信息主要包括(起始点,目标点,持续时间,订单价格),通过遍历区域内所有六边形网格的订单请求数和车辆数,然后使用权重分配深度强化学习车辆调度模型来执行调度动作,并且获取相应的动作奖励,通过计算一段时间内的订单响应率和订单总体收益以及车辆调度次数,并且获得下一个状态S1的车辆分布和订单需求数,并重复以上步骤得到S0,A0,R1,S1,A1。
S23:策略网络,使用同时训练分散策略以最大化以下目标,其中H是每个智能体的熵正则化项,公式表示如下:
其中θ是策略网络的参数,特别是,本实施例使用的调度策略具有一定优势,因为:(1)它们可以更好地处理局部状态;(2)其中在车队调度问题中贪婪策略一定程度上优于随机性策略。
在本实施例中,在一个六边形区域中的车队调度只有7个动作,通过反向传播直接计算公式中的策略梯度
直接输入车队的动作分布参数(例如高斯策略的均值和方差以及离散策略的动作概率),表示为作为计算近似策略梯度的输入。总体而言,智能体的策略使用以下内容更新,公式如下:
该公式具有几个的特点:在策略培训期间,可以将其视为确定性策略梯度的特例,因为智能体可以确定地将其观察状态映射到动作参数中,允许端到端的可微性,而无需连续近似动作样本;动作参数的探索同样受到熵的影响,由于动作分布包含了更多智能体的动作信息,这可以直观地提高学习效率,实现更好的联合动作。
S3:输入系统全局状态St=(t,l(d,o)),通过超参数网络学习评价网络的权重分配参数,组合所有智能体当前的调度策略和超参数计算智能体的状态-联合动作价值,l(d,o)主要包括订单需求数和车辆数以及网格编号;
S31:评价网络的权重由超网络生成。每个超网络将全局状态St z作为输入,并生成混合网络的一层权重。每个超网络由一个线性层组成,然后是一个绝对激活函数。此外每个超网络产生偏执的方式相同,但不限于非负偏差。最终偏差由具有Relu非线性的2层超网络产生。在策略上训练使用一个变体的的TD(π)更新网络参数,损失函数和目标/>定义如下:
其中Losscn为评价网络的损失函数,Φ是评价网络的参数,可以使用奖励rt来代替作为Qπ的无偏估计。也可以使用目标评价网络中的/>定期更新Φ-←Φ以提高整体学习稳定性。
S4,根据系统的全局状态,计算当前的状态价值;
S41:状态价值网络负责计算状态值V(s),使用标准的TD误差更新。如果没有状态价值网络,部分可观测性将限制Q值的复杂性,状态值与给定状态s的选定动作无关,因此,该值网络不会有助于选择动作,而是用于计算公式的损失:
Lossvn=(V(s)-yλ(r,s,ω))2
其中Losstot为总的目标损失函数,μ为损失函数的所占权重常数,Lossvn为价值的损失函数,Losscn为评价的损失函数。
S5:结合状态价值与状态-联合动作价值设计了一个新的目标函数,通过反向传播算法来学习系统的调度策略,公式如下:
Losstot=Losscn+μLossvn
其中Losstot为总的目标损失函数,
S51:根据确定调度策略获取的奖励,通过报酬函数评价车辆在特定状态st下采取调度动作好坏程度,根据神经网络的前向计算以及反向传播,进行的策略权重分配。然后使用神经网络的前向计算以及反向传播,具体公式为:
v=fs(s)fa(a)
其中状态-联合动作值,其中Φ是评价网络中的参数,fs(s)和fa(a)表示对状态s和动作a的学习表示,v代表是评价网络中fs(s)和fa(a)的第一个混合表示,用于反向传播计算。
实施例二
本实施例通过具体的实验,对实施例一方法的有效性进行验证。
1、数据集
本实施例选取的是公开的成都滴滴数据集;
数据预处理:滴滴出行提供的真实数据包括订单信息和每月数百万订单城市中心区的车辆轨迹。每天的数据包含每个城市的7065907订单。订单信息包括订单ID、开始计费时间、结束计费时间、起点(纬度和经度)、目的地(纬度和经度),如表1所示:
表1
信息 | 样本 |
订单编号 | eacad20698482f7720da5dc31335ec8d |
订单开始时间 | 1478096112 |
订单结束时间 | 1478097361 |
订单开始经度 | 104。07598 |
订单开始纬度 | 30。65375 |
订单结束经度 | 104。06661 |
订单结束纬度 | 30。60166 |
2、模拟器设计
模拟器设计:解决车队调度问题,常用方法是为环境设置模拟器。在这一部分中,本实施例使用一个模拟真实环境的模拟器,只需要订单信息来计算所需调度车辆的数量。本实施例的模拟器由网约车的状态(如真实世界中的在线/离线状态和真实世界中的分布)、调度指令的生成以及驾驶员与环境之间的交互过程组成。该模拟器是CADPG算法的训练和测试环境。此外,本实施例的模拟器的关键性能指标可以使用历史数据进行校准,因此学习到的策略与实际完全相同。在校准关键性能指标后,本实施例的模拟器的在模拟每天的的订单数量与共享网约车平台的每天订单数量大致相同,如图5所示。
3、评价指标:本实施例所提出的权重分配策略梯度算法的目标是通过将可用车辆调度到需求量大的六边形网格来服务更多订单,来提高订单响应率和订单总收益。因此,评估指标有三个:
(1)订单响应率:表示为在一个时间步长内服务的订单数和总的订单数目的比值,其中Nso和Nto分别表示服务订单数和总订单数目,表达式为:
(2)订单总体收益:总订单收益是所有网约车完成服务订单请求而获得的累积收入,R(t)为完成每个订单的报酬。
(3)重定位车辆数:这是每个回合内将网约车调度到当前区域之外的调度车辆数,其中D(a,b)为车辆从a地区调度到b地区的车辆数。
4、实验结果
通过改变网约车数量,即100%车辆、80%车辆和60%车辆来比较CADPG和基线方法试验效果。对于给定数量的网约车,每个指标的最佳结果以粗体标记。一般来说,更多的网约车可以提供更多的乘车需求,因此在车辆多的时候,所有方法的订单总体收益和订单响应率都可以大大提高。可以看出,CADPG算法在订单总体收益和订单响应率方面都优于基线算法。IDQN方法和Random方法相比,IDQN方法能够学习供需之间复杂的动态变化,但IDQN的状态-动作维度太大,无法获得良好的稳定调度性能。而DQN和A2C方法虽可以在复杂的环境中进行车队调度,并且使用了上下文的地理信息,但是这两种基线方法增加了大量了计算花费。而本实施例的方法CADPG使用三个网络联合更新损失函数,使用两种状态输入(局部状态和全局状态),能够及时的获取复杂的动态供需情况。在车辆数量为100%时,CADPG在ORR方面相对于基线方法最高可提高8。24%,在ADI方面也有所提升,结果如表2所示:
表2
为了进一步衡量CADPG的稳健性,将CADPG与三种基线方法在车辆调度数量方面进行了试验评估,结果表明CADPG在不同的初始化车辆数时车辆调度数量明显低于基线方法,如图6所示。CADPG将局部观测状态和全局状态进行联合输入,使用神经网络来估计供应(可用车辆)和需求(订单)之间的复杂动态,不仅提高了算法的性能,在很大程度上缩小了动作空间,并且在车队调度策略权重分配时提供了重要的信息。
如图7显示了每天在线车辆数,包括了正在服务的车辆和空闲车辆。在本实施例中使用正态分布来进行车辆的更新,并且在每个时间段设置了车辆上下线的概率来平衡车辆供需,以此来提高车辆的利用率,减小资源损失,如在12点时,正是下班高峰时间段,而在线的车辆数也达到了一个高峰,确保在这个时间步提供更多的服务。
与现有技术方法相比,本实施例所提出的动态优化调度策略,可提高调度运营效率。提高订单响应率,增加司机和平台累积收益,减少调度车辆,减少某些区域内过高堆积的闲置车辆数目。减少共享资源的浪费,改善由大量闲置车辆的堆叠所造成的城市环境的现象。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (3)
1.基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,包括以下步骤:
获取多智能体的调度区域,所述调度区域包括局部区域和全局区域;其中所述智能体为被调度的车辆;
基于所述局部区域,得到多智能体的局部状态,基于所述局部状态,通过策略网络,得到当前调度策略;
得到当前调度策略的过程包括:
基于所述局部区域,得到多智能体的局部状态,其中所述局部状态包括:自身网格和六个邻居网格中的订单需求数和车辆数以及网格编号;
将所述局部状态输入至策略网络,得到当前调度策略;
基于所述全局区域,得到多智能体的全局状态,基于所述全局状态,通过价值网络,得到全局状态价值;通过评价网络,得到多智能体的状态-联合动作价值;
得到全局状态价值的过程包括:
基于所述全局区域,得到多智能体的全局状态,其中所述全局状态包括:所有网络中的订单需求数、车辆数以及网格编号;
基于所述全局状态,通过价值网络,得到全局状态价值;
得到多智能体的状态-联合动作价值的过程包括:
基于所述全局状态,通过评价网络,将所述当前调度策略和超参数进行组合计算,得到多智能体的状态-联合动作价值;
基于所述全局状态价值与所述状态-联合动作价值,得到新的目标函数;基于所述目标函数,优化所述调度策略,最终实现车辆调度;
得到新的目标函数的过程包括:
获取损失函数的权重常数,基于所述权重常数,将所述全局状态价值与所述状态-联合动作价值进行组合,得到总的目标损失函数,所述总的目标损失函数为新的目标函数;
优化所述调度策略的过程包括:
基于反向传播算法,对所述调度策略进行权重分配;基于分配结果和所述目标函数,优化所述当前调度策略,直至输出的误差减小至期望值,优化过程结束。
2.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,获取多智能体的调度区域的过程包括:
划分地图得到智能体的六边形网格区域,其中所述六边形网格区域为调度区域;
基于所述六边形网格区域的中心坐标,得到邻居区域。
3.根据权利要求1所述的基于超参数网络权重分配深度强化学习的车辆调度方法,其特征在于,将所述局部状态输入至策略网络的过程包括:
获取策略网络,将所述的局部状态输入至所述策略网络,得到观察状态与动作参数的映射关系,基于所述映射关系,得到当前调度策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088592.8A CN115713130B (zh) | 2022-09-07 | 2022-09-07 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211088592.8A CN115713130B (zh) | 2022-09-07 | 2022-09-07 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115713130A CN115713130A (zh) | 2023-02-24 |
CN115713130B true CN115713130B (zh) | 2023-09-05 |
Family
ID=85230629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211088592.8A Active CN115713130B (zh) | 2022-09-07 | 2022-09-07 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115713130B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116485150A (zh) * | 2023-05-11 | 2023-07-25 | 云南升玥信息技术有限公司 | 一种基于广度优化算法的网约车订单分配系统 |
CN116402323B (zh) * | 2023-06-09 | 2023-09-01 | 华东交通大学 | 一种出租车调度方法 |
CN116597672B (zh) * | 2023-06-14 | 2024-02-13 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN113592101A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于深度强化学习的多智能体协作模型 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN114970944A (zh) * | 2022-03-29 | 2022-08-30 | 武汉大学 | 一种基于多智能体强化学习的订单匹配和车辆重定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11393341B2 (en) * | 2019-02-26 | 2022-07-19 | Beijing Didi Infinity Technology And Development Co., Ltd. | Joint order dispatching and fleet management for online ride-sharing platforms |
US11948079B2 (en) * | 2020-10-19 | 2024-04-02 | Tsinghua University | Multi-agent coordination method and apparatus |
-
2022
- 2022-09-07 CN CN202211088592.8A patent/CN115713130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
CN113592101A (zh) * | 2021-08-13 | 2021-11-02 | 大连大学 | 一种基于深度强化学习的多智能体协作模型 |
CN114970944A (zh) * | 2022-03-29 | 2022-08-30 | 武汉大学 | 一种基于多智能体强化学习的订单匹配和车辆重定位方法 |
Non-Patent Citations (1)
Title |
---|
基于联合 Q 值分解的强化学习网约车订单派送;黄晓辉 等;计算机工程;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115713130A (zh) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115713130B (zh) | 基于超参数网络权重分配深度强化学习的车辆调度方法 | |
Al-Kanj et al. | Approximate dynamic programming for planning a ride-hailing system using autonomous fleets of electric vehicles | |
Iglesias et al. | Data-driven model predictive control of autonomous mobility-on-demand systems | |
Wang et al. | A scenario-based stochastic optimization model for charging scheduling of electric vehicles under uncertainties of vehicle availability and charging demand | |
US11393341B2 (en) | Joint order dispatching and fleet management for online ride-sharing platforms | |
Lopes et al. | Simulating carsharing operations through agent-based modelling: An application to the city of Lisbon, Portugal | |
CN110309436B (zh) | 考虑车主选择行为的汽车服务网络协同选址方法与系统 | |
Chen et al. | ASC: Actuation system for city-wide crowdsensing with ride-sharing vehicular platform | |
Jin et al. | A simulation framework for optimizing bike rebalancing and maintenance in large-scale bike-sharing systems | |
Cai et al. | A hybrid adaptive large neighborhood search and tabu search algorithm for the electric vehicle relocation problem | |
CN115222251B (zh) | 一种基于混合分层强化学习的网约车调度方法 | |
CN113672846A (zh) | 网约车调度方法、装置、电子设备及存储介质 | |
CN116415882A (zh) | 一种骑手-无人车协同配送的即时配送订单分配系统 | |
CN116029525A (zh) | 车辆调度方法、车辆调度服务器及计算机可读的存储介质 | |
Cui et al. | Dynamic pricing for fast charging stations with deep reinforcement learning | |
CN109978241B (zh) | 一种电动汽车充电负荷的确定方法及装置 | |
Liu et al. | Stochastic one-way carsharing systems with dynamic relocation incentives through preference learning | |
Freund et al. | Costs and gains of smart charging electric vehicles to provide regulation services | |
Zhang et al. | Heterogeneous fleet management for one-way electric carsharing system with optional orders, vehicle relocation and on-demand recharging | |
Syaiful et al. | Literature Study of the Sustainability Model of Transportation Facilities and Infrastructure in the Management of Public Transportation with the Concept of Inter-Regional Cooperation (Case in the City and District of Bogor) | |
Wang et al. | A user-based adaptive joint relocation model combining electric car-sharing and bicycle-sharing | |
Si et al. | Vehicle dispatching and routing of on-demand intercity ride-pooling services: A multi-agent hierarchical reinforcement learning approach | |
Helmus et al. | A validated agent-based model for stress testing charging infrastructure utilization | |
Zhang et al. | Bike-sharing systems rebalancing considering redistribution proportions: A user-based repositioning approach | |
An et al. | Rebalancing the car-sharing system: A reinforcement learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |