CN117933869A

CN117933869A - 一种基于机器学习的考虑司机异质性的路径规划方法

Info

Publication number: CN117933869A
Application number: CN202410326156.2A
Authority: CN
Inventors: 郭晓龙; 郭媛淑; 刘兵兵
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26
Anticipated expiration: 2044-03-21
Also published as: CN117933869B

Abstract

本发明公开了一种基于机器学习的考虑司机异质性的路径规划方法，首先基于最大化一段运营时间内的平台长期收益，构建按需配送优化模型；使用基于机器学习的两阶段分类预测算法，训练预测模型以预测实时订单的类别；求解建立的按需配送优化模型，获得该车辆路径规划问题的最优解和最优策略。该方法能有效地提高订单分配效率，并实现对新司机的激励，为物流服务提供商提供了一种权衡效率与公平的工具。

Description

一种基于机器学习的考虑司机异质性的路径规划方法

技术领域

本发明涉及即时配送服务技术领域，尤其涉及一种基于机器学习的考虑司机异质性的路径规划方法。

背景技术

随着即时配送服务提供商履约能力的提升和外卖及新零售的进一步布局，即时配送行业深入发展。由于即时配送市场竞争日趋激烈，即时物流平台的核心竞争领域逐步转向建立高效可靠的即时配送调度系统，以期提升配送效率和服务质量及降低运营成本。平台通常需要协调来自供需双方的资源，即聚集服务提供者并满足顾客的需求。众包配送的服务质量受司机个人经验的影响，新司机和普通司机的配送能力存在差异，现有研究说明了工作经验和当地知识会使每个订单的交付时间减少。此外，司机在进入平台初期，对顾客的评价更敏感，因此及时服务有利于新司机积累良好的信誉，最近的一些工作已经关注到不同场景中顾客的异质性及优先级。

动态取送问题是车辆路径问题(VRP)的一种重要拓展，它具有规模大、实时性和动态性强的特点。目前的研究领域主要有两种：一种是面向问题的，包括对客户满意度、低碳和实时交通信息等的考虑；另一种面向启发式算法的改进和优化，包括智能水滴算法、灰狼优化算法、模糊蚁群算法和基于可变邻域搜索的算法等。因此在考虑异质司机的即时配送场景中，如何基于机器学习的方法提高按需配送的效率是当前关注的重要问题。

发明内容

本发明的目的是提供一种基于机器学习的考虑司机异质性的路径规划方法，该方法能有效地提高订单分配效率，并实现对新司机的激励，为物流服务提供商提供了一种权衡效率与公平的工具。

本发明的目的是通过以下技术方案实现的：

一种基于机器学习的考虑司机异质性的路径规划方法，所述方法包括：

步骤1、基于最大化一段运营时间内的平台长期收益，构建按需配送优化模型；

步骤2、使用基于机器学习的两阶段分类预测算法，训练预测模型以预测实时订单的类别；

步骤3、求解步骤1建立的按需配送优化模型，获得该车辆路径规划问题的最优解和最优策略。

由上述本发明提供的技术方案可以看出，上述方法能有效地提高订单分配效率，并实现对新司机的激励，为物流服务提供商提供了一种权衡效率与公平的工具。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于机器学习的考虑司机异质性的路径规划方法流程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示为本发明实施例提供的基于机器学习的考虑司机异质性的路径规划方法流程示意图，所述方法包括：

在该步骤中，首先考虑新司机激励的按需配送问题，将该问题定义为异构车辆的随机动态取货和交付问题，在服务区域G内，由新司机和普通司机构成的异构车队在一段时间内为顾客提供按需配送服务，已知下单时间分布的顾客请求在一天的服务时间内随机到达，每个订单请求都关联着一个取餐点、一个送餐点、一个预期配送时长约束/>和一个预期延迟容忍时长/>；每个订单的预计配送时间由平台预测得到并告知顾客，取餐服务时间和送餐服务时间均为/>；车辆的初始地点在服务区内随机产生并在最后的服务地点结束服务，并假设司机按照平台的建议确定自己配送顺序和路径，并且不能拒绝指派的订单；

本发明考虑了司机的异质性，由于众包司机受工作经验的影响，不同类型司机的交付时间存在差异，普通司机比新司机拥有更丰富的经验，因此更加熟悉餐厅的备餐状况、送餐流程、以及取货和送货地点；每个订单的配送时间由取餐行驶时间、餐厅等待时间、送餐旅行时间和等待取餐时间构成；一般而言，司机可以根据导航确定大致的配送路径，但是经验不足的新司机可能将花费更多的服务时间去寻找餐厅地点、顾客地点、等待餐厅备餐和等待顾客取餐等；因此本申请假设两种类型司机的配送时间的不同主要体现在取餐地点和送餐地点服务时间的差异，假设新司机配送每个订单比普通司机额外花费的取餐和送餐服务时间均为均值为的常量；

本发明主要研究一个多目标的问题，除了保证较高的服务水平外，我们还旨在提高平台对新司机的激励，因此在研究中考虑了平台对新司机的激励成本。实践中，在新司机的保护期阶段，新司机的服务能力相对较低，使得配送订单及预期日均收入较少；另外平台还有提高新司机留存率的需要，因此平台往往通过更多指派订单或者提供一定的货币补贴以增加新司机的预期日均收入和提高配送熟练度，假设平台为新司机提供激励的平均每单成本为；

再将车辆路径规划问题的决策过程转化为多目标的马尔可夫决策过程模型，所述马尔可夫决策过程模型包含五个要素：系统状态、决策变量、奖励与外生信息、状态转移和目标函数，其中：

决策点，/>是决策者需要执行决策动作的时间点，决策者在第/>个新顾客到达的时间/>时做出决策；

系统状态，表示为元组/> ，系统状态包含在当前时间，即决策点做出决策所需要的信息，这些信息包括当前时间/>、新请求/>、尚未服务的订单集合/>、餐厅集/>和路线计划/>；车辆集表示为，每个车辆对应一条路径，每条路径所包含的信息有：车辆的起点和目的地、当前的路线计划、订单的估计交付时间、订单的期望交付时间和车辆属性；初始状态/>是在/>且/>时，/>，即初始决策时间从一天中的第0分钟开始，所以/>，三个空集/>表示顾客集、尚未服务的订单集和餐厅集都为空集，此时没有顾客、尚未服务的订单和依据偏好排序的顾客准备下单的备选餐厅集合列表；其中，初始路线计划/>中每个车辆路径仅包含初始停车点；

决策变量为；用/>表示一组决策变量，/>表示其中的一个决策变量，为/>个备选餐厅，更新暂定路线/>，并计算此路线的预计到达时间/>，将/>传达给客户，满足客户配送时长约束的配送服务将被接受；具体实现中，每个和/>是一个/>维的向量，调度员为区域内现有车辆试探性地更新临时可行路径并计算路径代价，按照订单插入代价最小的原则选择司机路线/>，并计算其预计配送时间/>返回给客户；

外生信息包括当前客户对餐厅的选择，客户/>依据个人偏好函数决定对餐厅的选择，偏好函数以每个餐厅预计配送时长输入，结合预期配送时长约束/>，选择下单的餐厅或者拒绝点餐；/>表示客户是否接受平台提供的服务，表示客户接受平台提供的服务，/>表示当前订单的流失；因此在决策点/>及状态/>，系统做出决策/>，并根据客户的选择更新路径计划，导致决策后状态；此时实现奖励/>；此外，外生信息还包括潜在新客户订单的到达或决策过程的终止；

奖励函数为；其中，每个决策关联着一个奖励/>，表示平台服务订单获得的收入，奖励函数计算公式为：/>；其中，/>为平台配送的每单收入；/>为每分钟延迟成本；/>为延迟时长，/> 且，/>为实际配送时间，/>为下单前的预期配送时长容忍约束，/>为配送结束后顾客的预期延迟容忍时长；/>表示该订单由新司机的车辆装载并服务；/>是平台激励新司机配送的平均每单激励成本；

状态转移函数表示为；当下一个顾客/>的请求到达时，会引起系统状态从/>过渡到/>；此时系统时间为决策点/>；尚未服务的顾客集合/>取决于外生信息和路径决策；餐厅/>取决于顾客的选择；通过移除所有到达时间小于/>的取送点截断路线/>，得到路线计划/>；当系统时间，即决策点/>大于服务时间/>的结束时刻/>时，决策过程终止；

该马尔可夫决策过程模型的解决方案是确定一个策略，为每个系统状态指导决策行为，目标是找到一种策略，使初始状态/>开始时的预期总收益最大化：

；

其中，表示在系统状态/>时，根据策略/>做出的决策；/>表示系统初始状态。

在该步骤中，使用基于机器学习的两阶段分类预测算法预测订单类型的过程具体为：

首先使用K均值聚类算法对历史配送数据进行聚类，以获取同质订单组，其中使用轮廓系数和肘部法确定K均值聚类算法的K值，即聚类样本的最优分类数；历史配送数据被划分为配送难度具有明显差异的类别，配送难度低的订单将会优先指派给新司机；本发明中，以聚类中心的预计配送时间这一特征区分订单配送难易程度，将预计配送时间较短的订单类型，标记为新司机易于服务的优先订单；通过实验证明，订单样本构成的数据集划分为两类是较为合适的。

其中，选取聚类特征，对于订单聚类结果，影响订单配送难易程度的因素有很多，本申请是基于时间相关的特征进行分类，包括：前两个订单的平均预计配送时间、后两个订单的平均预计配送时间和距离最近下单高峰期的时长；

接着以订单聚类结果的订单类别作为预测目标，训练一个随机森林分类预测器，实时预测到达的订单类型，具体来说：选取与订单聚类结果特征相似的预测特征，包括前两个订单的平均预计配送时间和距离最近下单高峰期的时长；训练得到随机森林分类预测器，并多次预测取平均值以评估该预测器的准确性。

具体实现中，所述训练一个随机森林分类预测器，实时预测到达的订单类型，具体过程为：

首先在订单聚类结果中随机抽取适量样本，构建数据集，根据路网的时空特性，提取影响订单类型预测结果的相关特征；

对构建的数据集进行清洗和预处理，并划分为训练集与验证集；

创建随机森林分类预测器，使用训练集对该预测器进行训练，并在验证集上得到预测结果；

计算该预测器的准确率和召回率，以验证该预测器的准确性。

在该步骤中，具体是通过近似订单分配和路径规划算法获得订单的配送方案，通过策略搜索算法寻找最优策略，所述近似订单分配和路径规划算法的具体过程为：

给定一个新顾客和状态/>，为/>个备选餐厅，更新暂定路线，暂定路线/>按照以顾客偏好排列的备选餐厅/>的集合依次更新，考虑到实际应用场景，将区域内所有餐厅地理位置使用K均值聚类算法，以多个聚类中心表示取餐点集合，将下单的顾客/>和备选餐厅/>试探性插入各候选车辆，构建临时路径；遍历所有车辆，使用最便宜插入(CI)启发式搜索算法，寻找配送代价最小的可行路径，并计算该配送代价最小的可行路径的预计配送时间/>；

其中，每辆车的临时可行路径更新方式为：遍历路径上的每个插入点，将取送订单动作插入路径，得到暂定路径；计算新订单插入该路径前后配送代价之差，迭代搜索配送代价最小的路径为每辆车的最佳路线；其中，每条路径由取餐动作和送餐动作构成，取餐动作包含路径行驶时间和在餐厅处的等待取餐时间，送餐动作同理；

其中，路径配送代价的具体计算过程为：

计算新订单配送代价不仅要考虑车辆总配送时间的增加，还要考虑对路径上之前客户承诺配送时间延期的影响；首先，需要满足约束条件；其中，/>和/>分别表示在决策前状态/>和决策后状态/>时，前往餐厅/>的车辆/>在路径上配送所有顾客的总预计配送时间；/>表示由于订单插入而移动路径上先前客户的惩罚因子；/>表示路径上所有顾客配送动作的移动时间之和；/>表示允许将路径上之前客户移动到稍后时间的分钟数；

若在订单分配策略中未考虑新司机激励，则初始配送代价的计算公式为：

；

表示在决策后状态/>时车辆/>配送餐厅/>的订单/>的初始配送代价；

若在订单分配策略中考虑对新司机的激励，则计算最终配送代价为：

；

其中，优先参数的获取过程为：获取当前新顾客请求/>的信息，包括顾客的下单时间及地理位置；接着根据已知信息和特征值，预测此订单类别；如果某一车辆路径由新司机提供配送，新订单为优先订单并且配送时间不超过顾客容忍的配送时间，则为新司机配送路线代价设置大于零的优先参数/>，这样新司机的路径将有更大概率成为配送新订单的最佳方案；如果不满足这些条件，则将优先参数/>设置为0；

最后计算配送方案的预计配送时长，并报告给顾客，如果预计配送时长/>超过顾客可接受的阈值/>，则表示该配送方案的路径为不可行路径，然后根据顾客的餐厅偏好函数依次遍历所有候选餐厅，如果没有可行路径，顾客将拒绝下单；

由于本问题的目标是确定最佳决策策略，通过策略搜索算法寻找最优策略，具体过程为：

给定一组优先参数和一组实现/>；通过对各优先参数迭代以确定最佳优先参数/>和最佳策略/>，每个实现/>被视为一个包含请求时间、请求位置和每个餐厅配送时间的列表；

具体迭代过程为：首先给定一个优先参数，通过计算状态空间的奖励函数评估该优先参数/>所对应的策略/>；如果策略/>的值高于当前的最佳策略/>，则存储该优先参数/>和对应的策略/>；按此方式对优先参数/>进行迭代，最终得到最佳优先参数/>和最佳策略/>。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

下面以具体的实例对本发明是实施例所述方法的效果进行仿真说明：

1.实验内容：为了评估算法性能，本发明随机生成了不同顾客和司机规模实施例，首先设置模型初始参数：

关于顾客，假设平台在一天中的上午九点到晚上九点接受服务，即，；顾客在平台服务时间内自发要求送餐，期望订单请求数量/>有不同的规模，300、450和600。根据经验，按照4：5：6的比例设置因午餐下单高峰的订单增量、因晚餐下单高峰的订单增量和常规订单的总订单数量，午高峰和晚高峰的下单时间分布分别为和/>，常规订单的下单时间服从均匀分布。平台如实告知顾客每个餐厅的预计交付时长；假设顾客的预期配送时长容忍/>是60分钟，每个顾客的预期延迟容忍/>是10分钟，超过10分钟的延迟将带来每分钟0.15元的延迟成本/>。

关于车队，车队设置为由20%比例的新司机和普通司机构成的异质车队，每辆车日均订单数量是30个，司机数量根据订单规模分别设置为10，15，20；新司机的额外取餐和送餐的服务时间为3分钟。假定司机的恒定速度为30公里/时，服务区距离以欧几里得距离计算，假设每个流失的订单将为平台带来5元的收入，平台激励新司机配送的每单激励成本为2元。

关于实现细节，设为所描述的带有优先参数/>的策略，对于候选优先参数集合中的每个/>，本发明定义策略/>；在每种实例设置下运行1800个模拟实现/>，并选择最大化平台收入的优先参数/>，对于所有实例，我们将设置移动约束/>为15分钟。

本发明将基于两阶段的分类预测算法的分类优先策略与现有技术其他三种启发式订单分配规则进行比较，所有的策略都是为了确定订单的优先参数，以平衡车队服务质量和新司机激励，通过枚举的方式得到每个实例设置的最佳优先参数/>。为了分析不同策略的改进效果，本发明将优先参数/>为0的不考虑新司机激励的策略作为的基准模型，计算四种启发式策略下各指标的平均值以评估策略性能，本发明的评价指标为平台收入改进和新司机配送订单量的改进，现有技术其他三种订单分配策略包括：

(1)固定：该策略对一天中的所有订单使用固定的优先参数，表示为：

；

(2)紧迫度：该策略依据订单的紧迫度为异质司机分配订单，订单预期配送时间越长，越有可能因为未来的订单捆绑导致超过顾客容忍时间而拒绝平台提供的服务。为此，计算预期配送时间与顾容忍配送时间的差值，该策略随着差值的减小，新司机的优先参数减小，服务能力较低的新司机为顾客提供服务的概率就越小，表示为：

；

(3)离峰时长：该策略利用不同下单时刻的订单到达率差异分配订单。送餐服务有显著的高峰期，高峰期相对于一般时期运力资源紧张，强大配送能力显得更为重要。因此为了防止订单的大量流失，根据订单下单时刻距离最近的高峰期的时长，将远离下单高峰期的订单更多地分配给新司机，表示为：

；

2.实验结果

表1：不同策略下的系统性能

	固定	紧迫度	离峰时长	本申请订单分类
					平台收入改进(%)	1.25	3.77	3.03	4.42
新司机配送订单量改进(%)	12.03	16.36	27.78	18.93

基于本发明实施例的方法（即订单分类），最终规划结果性能如上表1所示，与基础策略相比，四种订单分配策略（即固定、紧迫度、离峰时长以及本申请的订单分类）的解决方案的平均改进效果，总体而言，本申请基于机器学习方法的订单分类策略能够提高平台的运营收入并增加新司机配送的订单量，该策略的收入平均提高4.42%，同时新司机配送的订单量提高18.93%。

由此可见，本发明实施例所述方法能有效提高订单分配效率，并实现对新司机的激励，有助于即时配送物流平台更好地权衡服务质量和新司机激励，提供更高效的智能物流调度系统。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种基于机器学习的考虑司机异质性的路径规划方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于机器学习的考虑司机异质性的路径规划方法，其特征在于，在步骤1中，首先考虑新司机激励的按需配送问题，将该问题定义为异构车辆的随机动态取货和交付问题，在服务区域G内，由新司机和普通司机构成的异构车队在一段时间内为顾客提供按需配送服务，已知下单时间分布的顾客请求在一天的服务时间内随机到达，每个订单请求都关联着一个取餐点、一个送餐点、一个预期配送时长约束/>和一个预期延迟容忍时长/>；每个订单的预计配送时间由平台预测得到并告知顾客，取餐服务时间和送餐服务时间均为/>；车辆的初始地点在服务区内随机产生并在最后的服务地点结束服务，并假设司机按照平台的建议确定自己配送顺序和路径，并且不能拒绝指派的订单；

假设两种类型司机的配送时间的不同主要体现在取餐地点和送餐地点服务时间的差异，假设新司机配送每个订单比普通司机额外花费的取餐和送餐服务时间均为均值为的常量；假设平台为新司机提供激励的平均每单成本为/>；

系统状态，表示为元组/> ，系统状态包含在当前时间/>，即决策点做出决策所需要的信息，这些信息包括当前时间/>、新请求/>、尚未服务的订单集合/>、餐厅集/>和路线计划/>；车辆集表示为，每个车辆对应一条路径，每条路径所包含的信息有：车辆的起点和目的地、当前的路线计划、订单的估计交付时间、订单的期望交付时间和车辆属性；初始状态/>是在/>且/>时，/>，即初始决策时间从一天中的第0分钟开始，所以/>，三个空集/>表示顾客集、尚未服务的订单集和餐厅集都为空集，此时没有顾客、尚未服务的订单和依据偏好排序的顾客准备下单的备选餐厅集合列表；其中，初始路线计划/>中每个车辆路径仅包含初始停车点；

决策变量为；用/>表示一组决策变量，/>表示其中的一个决策变量，为/>个备选餐厅，更新暂定路线/>，并计算此路线的预计到达时间/>，将/>传达给客户，满足客户配送时长约束的配送服务将被接受；具体实现中，每个/>和是一个/>维的向量，调度员为区域内现有车辆试探性地更新临时可行路径并计算路径代价，按照订单插入代价最小的原则选择司机路线/>，并计算其预计配送时间/>返回给客户；

外生信息包括当前客户对餐厅的选择，客户/>依据个人偏好函数/>决定对餐厅的选择，偏好函数以每个餐厅预计配送时长输入，结合预期配送时长约束/>，选择下单的餐厅或者拒绝点餐；/>表示客户是否接受平台提供的服务，/>表示客户接受平台提供的服务，/>表示当前订单的流失；因此在决策点/>及状态/>，系统做出决策/>，并根据客户的选择更新路径计划，导致决策后状态/>；此时实现奖励/>；此外，外生信息还包括潜在新客户订单的到达或决策过程的终止；

奖励函数为；其中，每个决策关联着一个奖励/>，表示平台服务订单获得的收入，奖励函数计算公式为：/>；其中，/>为平台配送的每单收入；/>为每分钟延迟成本；/>为延迟时长，/> 且/>，为实际配送时间，/>为下单前的预期配送时长容忍约束，/>为配送结束后顾客的预期延迟容忍时长；/>表示该订单由新司机的车辆装载并服务；/>是平台激励新司机配送的平均每单激励成本；

该马尔可夫决策过程模型的解决方案是确定一个策略，为每个系统状态/>指导决策行为，目标是找到一种策略，使初始状态/>开始时的预期总收益最大化：

；

3.根据权利要求1所述基于机器学习的考虑司机异质性的路径规划方法，其特征在于，在步骤2中，使用基于机器学习的两阶段分类预测算法预测订单类型的过程具体为：

首先使用K均值聚类算法对历史配送数据进行聚类，以获取同质订单组，其中使用轮廓系数和肘部法确定K均值聚类算法的K值，即聚类样本的最优分类数；历史配送数据被划分为配送难度具有明显差异的类别，配送难度低的订单将会优先指派给新司机；以聚类中心的预计配送时间这一特征区分订单配送难易程度，将预计配送时间较短的订单类型，标记为新司机易于服务的优先订单；

其中，选取聚类特征，对于订单聚类结果，影响订单配送难易程度的因素有很多，包括：前两个订单的平均预计配送时间、后两个订单的平均预计配送时间和距离最近下单高峰期的时长；

接着以订单聚类结果的订单类别作为预测目标，训练一个随机森林分类预测器，实时预测到达的订单类型，具体来说：

选取与订单聚类结果特征相似的预测特征，包括前两个订单的平均预计配送时间和距离最近下单高峰期的时长；训练得到随机森林分类预测器，并多次预测取平均值以评估该预测器的准确性。

4.根据权利要求3所述基于机器学习的考虑司机异质性的路径规划方法，其特征在于，所述训练一个随机森林分类预测器，实时预测到达的订单类型，具体过程为：

5.根据权利要求1所述基于机器学习的考虑司机异质性的路径规划方法，其特征在于，在步骤3中，具体是通过近似订单分配和路径规划算法获得订单的配送方案，通过策略搜索算法寻找最优策略，所述近似订单分配和路径规划算法的具体过程为：

给定一个新顾客和状态/>，为/>个备选餐厅，更新暂定路线/>，暂定路线/>按照以顾客偏好排列的备选餐厅/>的集合依次更新，考虑到实际应用场景，将区域内所有餐厅地理位置使用K均值聚类算法，以多个聚类中心表示取餐点集合，将下单的顾客/>和备选餐厅/>试探性插入各候选车辆，构建临时路径；遍历所有车辆，使用最便宜插入启发式搜索算法，寻找配送代价最小的可行路径，并计算该配送代价最小的可行路径的预计配送时间/>；

其中，路径配送代价的具体计算过程为：

计算新订单配送代价不仅要考虑车辆总配送时间的增加，还要考虑对路径上之前客户承诺配送时间延期的影响；首先，需要满足约束条件；其中，和/>分别表示在决策前状态/>和决策后状态/>时，前往餐厅/>的车辆/>在路径上配送所有顾客的总预计配送时间；/>表示由于订单插入而移动路径上先前客户的惩罚因子；表示路径上所有顾客配送动作的移动时间之和；/>表示允许将路径上之前客户移动到稍后时间的分钟数；

；

通过策略搜索算法寻找最优策略，具体过程为：

具体迭代过程为：首先给定一个优先参数，通过计算状态空间的奖励函数评估该优先参数/>所对应的策略/>；如果策略/>的值高于当前的最佳策略/>，则存储该优先参数和对应的策略/>；按此方式对优先参数/>进行迭代，最终得到最佳优先参数/>和最佳策略/>。