CN116029525A - 车辆调度方法、车辆调度服务器及计算机可读的存储介质 - Google Patents

车辆调度方法、车辆调度服务器及计算机可读的存储介质 Download PDF

Info

Publication number
CN116029525A
CN116029525A CN202310108667.2A CN202310108667A CN116029525A CN 116029525 A CN116029525 A CN 116029525A CN 202310108667 A CN202310108667 A CN 202310108667A CN 116029525 A CN116029525 A CN 116029525A
Authority
CN
China
Prior art keywords
uncertainty
value
data
network
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310108667.2A
Other languages
English (en)
Inventor
黄晓辉
成学博
杨凯铭
汤文亮
周云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310108667.2A priority Critical patent/CN116029525A/zh
Publication of CN116029525A publication Critical patent/CN116029525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及车辆调度技术领域,尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质,包括将原始数据分化为网格状数据并抽象出每个网格的状态作为输入以此得到个体动作;将联合动作集合或个体状态作为新的输入到双评价网络中获得奖励值;再经过双评价网络与不确定性加权的操作得到目标价值
Figure ZY_1
与评价网络的损失函数,并将两个函数进行对比得到最佳的调度方案。本发明可实现多智能体大规模的协调调度问题,利用不确定性加权模块可以更加保守地估计离群数据集,以避免价值函数的过渡估计问题。在面对复杂场景时表现优异,可以捕捉复杂的动态供需变化,从而实现更好的调度方式。

Description

车辆调度方法、车辆调度服务器及计算机可读的存储介质
技术领域
本发明涉及车辆调度技术领域,尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。
背景技术
近年来,随着互联网高速发展,人们的生活有了很大的改变。“网约车”走入了人们的生活。网约车平台通过将订单派送给空闲的司机,极大的优化了交通资源的分配,并且对于交通拥堵的情况也有所改善。
合理调度车辆的一个关键挑战就是平衡供应与需求,也就是平衡司机与乘客订单数量关系。大型城市每天会产生数百万的订单,这些大规模的订单其中也会出现许多订单因为附近没有司机而被取消的情况,亦或是司机附近没有合适的订单可以接收,导致交通资源的闲置。如果将这些空闲的司机调度到需求量大的地区,会大大增加订单的响应率,提高运输能力的效用,增加司机的收入以及乘客的满意度。车辆调度是一个复杂的动态过程,当前车辆的调度决策将影响未来交通供需的差距。监督学习方法很难捕捉和模拟这些实时动态的变化,但是强化学习在这一方面表现优异,可以捕捉复杂的动态供需变化,从而进行很好的车辆调度,以保证交通资源的充足利用。在深度强化学习的分类中,主要分为基于价值和基于策略这两种方式。Actor-Critic算法结合了两种方式。
相关技术中采用上下文深度Q学习以及上下文多智能体Actor-Critic算法,在车辆调度方面取得了优异的结果。但是,在基于价值的强化学习方法(如深度 Q 学习)中,函数逼近错误会导致高估价值估计和次优策略。
发明内容
本发明旨在至少解决现有技术中大规模车辆供需不平衡问题,对历史数据进行不确定性加权,以此减少OOD(out-of-distribution data,OOD数据:即离线数据集分布外的数据对)数据对对价值估计的影响,从而对双Critic的结果按一定比例进行调和,以此限制过低估对比带来的影响。为此,本发明提出了一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。
针对本发明的流程,做出如下解释,对应的发明流程图如图1所示:
将原始的车辆订单调度数据分化为网格型数据以此来获取初始车辆配送和订单 信息,从信息中获取全局状态与对应网格的局部状态。然后将局部状态作为策略网络 (Actor网络)的输入得到对应的动作Action,再通过双评价网络(Critic网络)输入对应的Q 值:当前状态下选取对应动作可能获得的奖励值
Figure SMS_1
Figure SMS_2
,再通过对这两个不同的价值进 行计算得到目标价值
Figure SMS_3
,以此来获取每个网格数据对应的车辆调度时间表。再通过对应 匹配的订单进行调度,从而实现最佳的车辆调度操作。在完成一组车辆调度操作之后把当 前的状态返回给Actor网络去更新对应的全局状态与局部状态,然后再进行下一步的调度 操作。
根据本发明第一方面实施例的车辆调度方法,其中包括:
获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据:按照地图数据分布,将地图划分为六边形网格,将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中;将一天的时间信息分为若干个时间片段,每隔一个时间片段执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态;
从全局状态中获取每个网格的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;
个体状态通过全连接网络层得到个体动作(Action):每个网格内的智能体(Agent)是同质的,拥有相同的调度策略;
将所有智能体的联合动作集合/个体状态作为新的输入,输入到双评价网络(双 Critic网络)中得到当前状态下选取对应动作可能获得的奖励值
Figure SMS_4
Figure SMS_5
;将得到的奖励值
Figure SMS_6
Figure SMS_7
输入到调和网络模块中得到目标价值
Figure SMS_8
将得到的
Figure SMS_9
输入到不确定性加权模块中得到评价网络的损失函数(Critic Loss),将策略网络的损失函数(Actor Loss)、评价网络的损失函数(Critic Loss)进行比 对得到最终调度方案。
根据本发明实施例的车辆调度方法,将订单派送问题建模为马尔科夫决策过程,基于此提出了不确定加权调和双Critic算法实现多智能体大规模的协调调度问题:利用不确定性加权模块可以更加保守地估计离群数据集,以避免价值函数的过渡估计问题,并设计了一个调和双Critic架构,将其不确定性加权。车辆调度的目标是提前决定将有多少空闲车辆被调度到需求更大的区域,以便为更多的订单服务;本发明实施例面对复杂场景时表现优异,可以捕捉复杂的动态供需变化,从而实现更好的调度方式。
根据本发明的一些实施例,所述将所有智能体的联合动作集合/个体状态作为新 的输入,输入到双评价网络(双Critic网络)中得到当前状态下选取对应动作可能获得的奖 励值
Figure SMS_10
Figure SMS_11
,将得到的奖励值
Figure SMS_12
Figure SMS_13
输入到调和网络模块中得到目标价值
Figure SMS_14
,包 括:将同样的动作与状态信息输入到两个相同结构层的Critic网络中,由于训练中的参数 不同,会导致两个Critic网络输出不同的价值,再将这两个不同的价值进行比较,其较大值 乘以权重系数α,较小值乘以权重系数β再相加得到目标价值
Figure SMS_15
通过设计双Critic调和网络,两个Critic网络输出不同的价值,再将这两个不同 的价值进行比较,其较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值
Figure SMS_16
,避免了对于价值的过高估计同时又不限制Q函数的概括能力。
根据本发明的一些实施例,所述将得到的奖励值
Figure SMS_17
Figure SMS_18
输入到调和网络模块中 得到目标价值
Figure SMS_19
,具体公式如下:
Figure SMS_20
其中
Figure SMS_21
均为权重系数,
Figure SMS_22
Figure SMS_23
根据本发明的一些实施例,智能体(Agent)的动作空间
Figure SMS_24
包含七个离散动作值,分 别指向第i个网络本身和六个邻居网格;将得到的动作Action输入到不确定性加权模块,得 到对应的Actor Loss(也就是通过得到的Action的不确定性得到其权重,以降低分布外数 据对对价值估计的影响)。
通过设计不确定性加权模块,对同一模块的不同输入实例保持不变的量,当模块的同方差不确定性较高时,任务对网络权重更新的影响较小,并且以此来平衡Loss与对应梯度的大小。
根据本发明的一些实施例,所述不确定性加权模块包括如下内容:
模块的不确定性可以通过Q值估计的方差近似得到:
Figure SMS_25
其中:
Figure SMS_26
为模块的不确定性权重,用来估计不同状态-动作对的权重,
Figure SMS_27
为数据中的固有噪声,
Figure SMS_28
为模型对其预测的不确定程度,
Figure SMS_29
为预测均 值。
Figure SMS_30
就是模型关于离线数据集分布外的数据对(out-of- distribution data,OOD数据)样本的不确定性;
得到离线数据集分布外的数据对样本的不确定性后,就可以定义基于不确定性加权的策略分布
Figure SMS_31
:
Figure SMS_32
Figure SMS_33
其中:
Figure SMS_35
表示在原有的策略基础之上加上了不确定性权重的策略分布,
Figure SMS_38
为 不确定性常数,
Figure SMS_40
表示0号智能体在策略
Figure SMS_36
分布情况下的不确定性,
Figure SMS_37
为在 状态s下选择动作
Figure SMS_39
的概率,
Figure SMS_41
为在状态s下选取所有不同动作
Figure SMS_34
的概率分布;
将预测的不确定性融入Actor-Critic框架中就可以得到新的评价网络(Critic)的损失函数和策略网络(Actor)的损失函数,分别如下所示:
Figure SMS_42
Figure SMS_43
Figure SMS_44
其中:
Figure SMS_47
为新的评价网络的损失函数,
Figure SMS_52
为新的策略网络的损失函数,
Figure SMS_54
Figure SMS_45
Figure SMS_51
表示将数据进行估计的不确定性作为正则化项,以达到保守估计的 目的,并且将预测的不确定性融入框架中以得到新的损失值,具体表示为在对应状态或动 作的策略条件下的正则化操作;
Figure SMS_55
为不确定性常数,
Figure SMS_58
为下一个状态--动作价值 对的不确定性权重,
Figure SMS_48
表示在每一个时序差分中的误差,简称为TD Error,
Figure SMS_50
函数表示标准的当前价值与目标价值的损失;
Figure SMS_57
为当前状态s选择动作后产生的价 值,
Figure SMS_59
为状态s下执行动作后获得的奖励值,
Figure SMS_46
为折扣因子,
Figure SMS_49
表示对下一个状 态选择对应执行动作的价值的估计;
Figure SMS_53
表示智能体在策略
Figure SMS_56
分布情况下的不确 定性加权权重;
Critic的损失函数是在TD Error前面加上权重,而Actor的损失函数是在Q值前面 加上不确定性权重,本发明中,所述
Figure SMS_60
优选0.8。
根据本发明的一些实施例,所述获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据包括:将地图划分为六边形网格具体为将地图划分为17*15的六边形网格,一共划分为255个六边形网格,并将数据集中的车辆信息、订单信息按照经纬度划分到网格之中;将一天的时间信息分为144个时间片段,每个片段10分钟执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态。
此外,本发明的评价指标为订单的平均响应率和GMV,订单平均响应率是指订单被车辆响应的占比;GMV为所有订单的总价格,每一个订单会根据时长以及订单的服务质量等等因素得到对应的订单价格。
根据本发明第二方面实施例的车辆调度服务器,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其中所述处理器在运行所述计算机程序时,执行上述的方法。
根据本发明第三方面实施例的计算机可读的存储介质,其上存储有计算机程序,其其中所述计算机程序被处理器运行时实现上述的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的车辆调度方法流程图;
图2是根据本发明实施例的车辆调度方法框架图;
图3是根据本发明实施例的调和网络模型图;
图4是根据本发明实施例的调和网络中订单总价格的超参数分析图;
图5是根据本发明实施例的调和网络中平均响应率的超参数分析图。
具体实施方式
下面详细描述本发明的实施例,参考附图描述的实施例是示例性的,应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元,或者可选地,还包括没有列出的步骤或单元,或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如,单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如,通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
实施例1
参阅图1和图2,本实施例提出一种基于不确定性加权调和双Critic算法的车辆调 度方法,将原始数据分化为网格状数据,并从中提取全局状态;从全局状态中获取每个网格 的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;获得动作 Action:个体状态通过全连接层得到个体的动作Action,将得到的动作Action输入到不确 定性加权模块中,得到Actor Loss;将所有智能体的联合动作集合个体状态作为新的输入, 输入到双Critic网络中得到奖励值
Figure SMS_61
Figure SMS_62
;将得到的奖励值
Figure SMS_63
Figure SMS_64
输入到调和网络模 块中得到目标价值
Figure SMS_65
;将得到的目标价值
Figure SMS_66
输入到不确定性加权模块中得到Critic Loss,将Actor Loss、Critic Loss进行比对最终得到最佳的调度方案。其中,具体包括:
获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据:按照地图数据分布,将地图划分为17*15的六边形网格,一共划分为255个六边形网格,并将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中;将一天的时间信息分为144个时间片段,每个时间片段10分钟执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态。144个片段为一个epoch,一轮实验包括训练集15个epoch和测试集15个epoch,取测试集15个epoch的平均值;
从全局状态中获取每个网格的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;
个体状态通过全连接网络层得到个体动作(Action):每个网格内的智能体 (Agent)是同质的,拥有相同的调度策略;智能体(Agent)的动作空间
Figure SMS_67
包含七个离散动作 值,分别指向第i个网络本身和六个邻居网格;将得到的动作Action输入到不确定性加权模 块,得到对应的Actor Loss(也就是通过得到的Action的不确定性得到其权重,以降低分布 外数据对对价值估计的影响)。
模块的不确定性可以通过Q值估计的方差近似得到:
Figure SMS_68
其中:
Figure SMS_69
为模块的不确定性权重,用来估计不同状态-动作对的权重。
Figure SMS_70
为数据中的固有噪声,
Figure SMS_71
为模型对其预测的不确定程度,
Figure SMS_72
为预测均值。
Figure SMS_73
就是模型关于离线数据集分布外的数据对(OOD)样本的不确定 性;
得到离线数据集分布外的数据对样本的不确定性后,就可以定义基于不确定性加权的策略分布
Figure SMS_74
:
Figure SMS_75
Figure SMS_76
其中:
Figure SMS_78
表示在原有的策略基础之上加上了不确定性权重的策略分布,
Figure SMS_80
为 不确定性常数,
Figure SMS_82
表示0号智能体在策略
Figure SMS_79
分布情况下的不确定性,
Figure SMS_81
为在 状态s下选择动作
Figure SMS_83
的概率,
Figure SMS_84
为在状态s下选取所有不同动作
Figure SMS_77
的概率分布;
将预测的不确定性融入Actor-Critic框架中就可以得到新的评价网络的损失函数和策略网络的损失函数,分别如下所示:
Figure SMS_85
Figure SMS_86
Figure SMS_87
其中:
Figure SMS_91
为新的评价网络的损失函数,
Figure SMS_92
为新的策略网络的损失函数,
Figure SMS_96
Figure SMS_88
Figure SMS_93
表示将数据进行估计的不确定性作为正则化项,以达到保守估计的 目的,并且将预测的不确定性融入框架中以得到新的损失值,具体表示为在对应状态或动 作的策略条件下的正则化操作;
Figure SMS_97
为不确定性常数,
Figure SMS_100
为下一个状态--动作价值 对的不确定性权重,
Figure SMS_89
表示在每一个时序差分中的误差,简称为TD Error,
Figure SMS_95
函数表示标准的当前价值与目标价值的损失;
Figure SMS_98
为当前状态s选择动作后产生的价 值,
Figure SMS_101
为状态s下执行动作后获得的奖励值,
Figure SMS_90
为折扣因子,
Figure SMS_94
表示对下一个状 态选择对应执行动作的价值的估计;
Figure SMS_99
表示智能体在策略
Figure SMS_102
分布情况下的不确 定性加权权重。
Critic的损失函数是在TD Error前面加上权重,而Actor的损失函数是在Q值前 面加上不确定性权重,在本发明中,
Figure SMS_103
为0.8。
将联合动作集合/个体状态作为新的输入,输入到双评价网络(双Critic网络)中 得到奖励值
Figure SMS_104
Figure SMS_105
;将得到的奖励值
Figure SMS_106
Figure SMS_107
输入到调和网络模块中得到目标价值
Figure SMS_108
,(如图3所示)包括:将同样的动作与状态信息输入到两个相同结构层的Critic网络 中,由于训练中的参数不同,两个Critic网络会输出不同的价值,再将这两个不同的价值进 行比较,其较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值
Figure SMS_109
,避免 了对于价值的过高估计同时又不限制Q函数的概括能力。公式如下:
Figure SMS_110
超参数
Figure SMS_111
分析:
取7天数据集在100%车辆的情况下进行训练,
Figure SMS_112
在区间[0,1]之间每间隔0.1取一 次值,
Figure SMS_113
Figure SMS_114
。由图4和图5可以得到,当
Figure SMS_115
取值区间为[0.1,0.9]时,效果明显优于取值为 0或1.当
Figure SMS_116
时,可取得最佳效果。此外,当
Figure SMS_117
=0时,也就是说目标价值等于双 Critic网络中最小值时,效果显著降低。
将得到的
Figure SMS_118
输入到不确定性加权模块中得到评价网络的损失函数(Critic Loss),将策略网络的损失函数、评价网络的损失函数进行比对最终得到最佳的调度方案。
实施例2
本实施例提供一种车辆调度服务器,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其中所述处理器在运行所述计算机程序时,执行上述的方法。
实施例3
本实施例提供一种计算机可读的存储介质,其上存储有计算机程序,其中所述计算机程序被处理器运行时实现上所述的方法。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对发明的限制。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种车辆调度方法,其特征在于,包括:获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据:按照地图数据分布,将地图划分为六边形网格,并将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中:将一天的时间信息分为若干个时间片段,每隔一个时间片段执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态;从全局状态中获取每个网格的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;个体状态通过全连接网络层得到个体动作:每个网格内的智能体是同质的,拥有相同的调度策略;将所有智能体的联合动作集合或个体状态作为新的输入,输入到双评价网络中得到当前状态下选取对应动作获得的奖励值
Figure QLYQS_1
Figure QLYQS_2
;将得到的奖励值
Figure QLYQS_3
Figure QLYQS_4
输入到调和网络模块中得到目标价值
Figure QLYQS_5
;将得到的
Figure QLYQS_6
输入到不确定性加权模块中得到评价网络的损失函数,将策略网络的损失函数、评价网络的损失函数进行比对得到最终调度方案。
2.根据权利要求1所述的一种车辆调度方法,其特征在于,所述将所有智能体的联合动作集合或个体状态作为新的输入,输入到双评价网络中得到当前状态下选取对应动作获得的奖励值
Figure QLYQS_7
Figure QLYQS_8
,将得到的奖励值
Figure QLYQS_9
Figure QLYQS_10
输入到调和网络模块中得到目标价值
Figure QLYQS_11
,包括:将同样的动作与状态信息输入到两个相同结构层的评价网络中,由于训练中的参数不同,会导致两个评价网络输出不同的价值,再将这两个不同的价值进行比较,较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值
Figure QLYQS_12
3.根据权利要求2所述的一种车辆调度方法,其特征在于,所述将得到的奖励值
Figure QLYQS_13
Figure QLYQS_14
输入到调和网络模块中得到目标价值
Figure QLYQS_15
,具体公式如下:
Figure QLYQS_16
,其中:
Figure QLYQS_17
均为权重系数,
Figure QLYQS_18
Figure QLYQS_19
4.根据权利要求1所述的一种车辆调度方法,其特征在于,智能体的动作空间
Figure QLYQS_20
包含七个离散动作值,分别指向第i个网络本身和六个邻居网格;将得到的动作输入到不确定性加权模块,得到对应的策略网络的损失函数。
5.根据权利要求4所述的一种车辆调度方法,其特征在于,所述不确定性加权模块包括如下内容:模块的不确定性通过Q值估计的方差得到:
Figure QLYQS_39
,其中:
Figure QLYQS_47
为模块的不确定性权重,用来估计不同状态-动作对的权重,
Figure QLYQS_51
为数据中的固有噪声,
Figure QLYQS_21
为模型对其预测的不确定程度,
Figure QLYQS_26
为预测均值;
Figure QLYQS_32
为模型关于离线数据集分布外的数据的不确定性;得到离线数据集分布外的数据的不确定性后,定义基于不确定性加权的策略分布
Figure QLYQS_35
Figure QLYQS_43
Figure QLYQS_46
,其中:
Figure QLYQS_50
表示在原有的策略基础之上加上了不确定性权重的策略分布,
Figure QLYQS_54
为不确定性常数,
Figure QLYQS_49
表示0号智能体在策略
Figure QLYQS_52
分布情况下的不确定性,
Figure QLYQS_53
为在状态s下选择动作
Figure QLYQS_55
的概率;
Figure QLYQS_38
为在状态s下选取所有不同动作
Figure QLYQS_40
的概率分布;将预测的不确定性融入Actor-Critic框架中得到新的评价网络的损失函数和策略网络的损失函数,分别如下所示:
Figure QLYQS_42
Figure QLYQS_45
Figure QLYQS_23
,其中:
Figure QLYQS_25
为新的评价网络的损失函数,
Figure QLYQS_29
为新的策略网络的损失函数,
Figure QLYQS_36
Figure QLYQS_24
Figure QLYQS_27
表示将数据进行估计的不确定性作为正则化项,以达到保守估计的目的,并且将预测的不确定性融入框架中以得到新的损失值,具体表示为在对应状态或动作的策略条件下的正则化操作;
Figure QLYQS_31
为不确定性常数,
Figure QLYQS_33
为下一个状态--动作价值对的不确定性权重,
Figure QLYQS_37
表示在每一个时序差分中的误差,简称为TD Error,
Figure QLYQS_41
函数表示标准的当前价值与目标价值的损失;
Figure QLYQS_44
为当前状态s选择动作后产生的价值,
Figure QLYQS_48
为状态s下执行动作后获得的奖励值,
Figure QLYQS_22
为折扣因子,
Figure QLYQS_28
表示对下一个状态选择对应执行动作的价值的估计;
Figure QLYQS_30
表示智能体在策略
Figure QLYQS_34
分布情况下的不确定性加权权重;评价网络的损失函数是在TD Error前面加上权重,而策略网络的损失函数是在Q值前面加上不确定性权重。
6.根据权利要求5所述的一种车辆调度方法,其特征在于,所述
Figure QLYQS_56
为0.8。
7.根据权利要求1所述的一种车辆调度方法,其特征在于,所述获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据包括:将地图划分为六边形网格具体为将地图划分为17*15的六边形网格,一共划分为255个六边形网格,并将数据集中的车辆信息、订单信息按照经纬度划分到网格之中。
8.根据权利要求7所述的一种车辆调度方法,其特征在于,所述获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据还包括将一天的时间信息分为144个时间片段,每个片段10分钟执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态。
9.一种车辆调度服务器,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器在运行所述计算机程序时,执行权利要求1-8任一项所述的方法。
10.一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现权利要求1-8任一项所述的方法。
CN202310108667.2A 2023-02-14 2023-02-14 车辆调度方法、车辆调度服务器及计算机可读的存储介质 Pending CN116029525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108667.2A CN116029525A (zh) 2023-02-14 2023-02-14 车辆调度方法、车辆调度服务器及计算机可读的存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108667.2A CN116029525A (zh) 2023-02-14 2023-02-14 车辆调度方法、车辆调度服务器及计算机可读的存储介质

Publications (1)

Publication Number Publication Date
CN116029525A true CN116029525A (zh) 2023-04-28

Family

ID=86078090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108667.2A Pending CN116029525A (zh) 2023-02-14 2023-02-14 车辆调度方法、车辆调度服务器及计算机可读的存储介质

Country Status (1)

Country Link
CN (1) CN116029525A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485150A (zh) * 2023-05-11 2023-07-25 云南升玥信息技术有限公司 一种基于广度优化算法的网约车订单分配系统
CN116828000A (zh) * 2023-08-28 2023-09-29 山东未来互联科技有限公司 基于确定性网络与sdn网络的乘车订单处理系统及方法
CN117219285A (zh) * 2023-09-13 2023-12-12 内蒙古卫数数据科技有限公司 一种数据分布智能分析转换在医疗数据挖掘上的应用

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485150A (zh) * 2023-05-11 2023-07-25 云南升玥信息技术有限公司 一种基于广度优化算法的网约车订单分配系统
CN116828000A (zh) * 2023-08-28 2023-09-29 山东未来互联科技有限公司 基于确定性网络与sdn网络的乘车订单处理系统及方法
CN116828000B (zh) * 2023-08-28 2023-11-17 山东未来互联科技有限公司 基于确定性网络与sdn网络的乘车订单处理系统及方法
CN117219285A (zh) * 2023-09-13 2023-12-12 内蒙古卫数数据科技有限公司 一种数据分布智能分析转换在医疗数据挖掘上的应用

Similar Documents

Publication Publication Date Title
CN116029525A (zh) 车辆调度方法、车辆调度服务器及计算机可读的存储介质
Qin et al. Ride-hailing order dispatching at didi via reinforcement learning
CN111033535B (zh) 用于乘车订单调度的系统和方法
Bhat et al. A comparison of two alternative behavioral choice mechanisms for household auto ownership decisions
CN109902801A (zh) 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
US11443335B2 (en) Model-based deep reinforcement learning for dynamic pricing in an online ride-hailing platform
Sareen et al. An imputation and decomposition algorithms based integrated approach with bidirectional LSTM neural network for wind speed prediction
CN109920248B (zh) 一种基于gru神经网络的公交到站时间预测方法
CN109710404B (zh) 分布式系统中的任务调度方法
Antoniadis et al. A prediction interval for a function-valued forecast model: Application to load forecasting
WO2021243568A1 (en) Multi-objective distributional reinforcement learning for large-scale order dispatching
CN115713130B (zh) 基于超参数网络权重分配深度强化学习的车辆调度方法
CN113672846A (zh) 网约车调度方法、装置、电子设备及存储介质
CN112862177B (zh) 一种基于深度神经网络的城市区域聚集度预测方法、设备及介质
CN115204477A (zh) 一种上下文感知图递归网络的自行车流量预测方法
Qian et al. Forecasting short-term taxi demand using boosting-GCRF
CN112036598A (zh) 一种基于多信息耦合的充电桩使用信息预测方法
CN117252307B (zh) 流量预测方法、装置、计算机设备和存储介质
CN112613630B (zh) 一种融合多尺度时空统计信息的短时交通需求预测方法
Haliem et al. AdaPool: An adaptive model-free ride-sharing approach for dispatching using deep reinforcement learning
CN117114190B (zh) 一种基于混合深度学习的河道径流预测方法及设备
CN117827434A (zh) 基于多维资源预测的混合弹性伸缩方法
CN105469157A (zh) 路侧停车需求对停车费率敏感度的空间异质性分析方法
CN112529311B (zh) 一种基于图卷积分析的道路流量预测方法和装置
US20210118043A1 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination