CN116415882A

CN116415882A - 一种骑手-无人车协同配送的即时配送订单分配系统

Info

Publication number: CN116415882A
Application number: CN202310226012.5A
Authority: CN
Inventors: 陆淼嘉; 闫新宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2023-07-11

Abstract

本发明提出一种骑手‑无人车协同配送的即时配送订单分配系统，包括基于多智能体的无人车与骑手协同配送仿真平台和基于深度强化学习和最大效用理论的订单分配决策系统；协同配送仿真平台建立一个能模拟一个区域内即时配送中常规流程及供需关系的多智能体仿真模型，订单分配决策系统构建订单分配决策模型；订单分配决策模型与多智能体仿真模型交互、训练、迭代，订单分配决策系统训练结果收敛后，向协同配送仿真平台输入实时即时配送需求信息即可实现对订单调度的实时决策，得到配送订单分配的优化方案。本发明能够帮助物流运营人员在动态连续需求下采取较优订单分配决策，实现智慧城市配送系统的改造和物流企业的降本增效。

Description

一种骑手-无人车协同配送的即时配送订单分配系统

技术领域

本发明属于物流订单分配优化技术领域，涉及一种即时配送场景下考虑骑手和无人车异质性和订单配送未来收益的订单分配优化系统(计算机智能计算与运用)。

背景技术

近年来，随着线上购物的迅速发展，与之配套的即时配送服务逐渐成为城市物流的重要组成部分。即时配送服务是通过配送员将消费者在网络平台上提交的货物运输需求在两小时内快速交付的服务，配送时效是决定其服务质量的重要因素。典型的即时配送内容包括生鲜制品、外卖、药物、紧急文件等。近年来即时配送行业保持了较高的增长速度，而为了保证在需求激增的情况下仍能有较好的时效性，大量人工被投入到配送服务中。因此，即时配送的人工成本占到总运营成本中一半以上。无人车因其更容易控制、配送能力受天气影响小、不需要休息和轮换等优点被广泛地看作未来可替代人工的配送方式，并已在中国、美国、英国、瑞士、日本、爱沙尼亚等多国开始试点运行。但由于无人车无法很好地完成无电梯楼宇场景下的订单交付以及退换货场景下与客户交流协商等任务，且政府还没有出台针对无人车的监管、事故责任等的成熟法律法规，在可预见的一段时间内如2023-2028年，无人车与骑手协同配送将作为一种过渡状态，共同服务于即时配送场景的订单交付。

目前对于订单在无人车与骑手之间的分配还没有现成的方法和优化的路线，沿用过去纯人工配送中的方法会忽略无人车与骑手的异质性而无法较好地发挥无人车的潜力，且现有的基于启发式算法的订单分配方法较少能在大规模动态需求下兼顾优化效果和计算时间，进而导致成本和效率上的不足。例如专利CN109598366A提出了一种外卖配送的调度优化方法，基于改进的蚁群算法和变邻域局部搜索策略，结合自适应修正参数的机制，引导算法进行有效的全局搜索并提高局部优化能力，但没有考虑订单的动态性和配送人员的异质性；专利CN114970103A考虑了配送人员经验和实际配送情况导致的行驶时间随机性，将仿真方法和启发式算法结合求解了配送的订单分配和路径规划，但没有考虑实时加入的动态订单。

现有的即时配送订单分配方法大多立足于只存在一种配送方式的问题场景，运用启发式算法或精确算法在仅考虑当前订单的情况下进行配送资源调度优化，不能直接用于多种配送模式协同配送的场景，且优化结果可能制约对未来订单的优化潜力，同时以启发式算法为基础往往需要在计算时间和优化效果间做出权衡。

发明内容

本发明的目的在于克服先有技术不足，公开一种适用于无人车和骑手协同配送的订单分配系统，既考虑即时配送订单分配的未来收益，又考虑不同配送方式在关键参数上的异质性，并能基于当下信息实时得到订单分配结果，从而能够帮助物流运营人员在动态连续需求下采取较优订单分配决策，实现智慧城市配送系统的改造和物流企业的降本增效。

技术方案：

一种骑手-无人车协同配送的即时配送订单分配系统，包括基于多智能体的无人车与骑手协同配送仿真平台和基于深度强化学习和最大效用理论的订单分配决策系统，逻辑关系为：所述订单分配决策系统中使用的深度强化学习算法需要策略训练和评估的环境，和最大效用理论效用评估的特征参数，皆来自于基于多智能体的无人车与骑手协同配送仿真平台。

进一步的，所述协同配送仿真平台，即建立一个能模拟一个区域内即时配送中常规流程及供需关系的多智能体仿真模型；所述订单分配决策系统，即构建订单分配决策模型，包括基于深度强化学习的配送模式选择和基于最大效用理论的特定配送车辆分配两部分，所述订单分配决策模型与多智能体仿真模型交互、训练、迭代，所述订单分配决策系统训练结果收敛后，向所述协同配送仿真平台输入实时即时配送需求信息即可实现对订单调度的实时决策，得到配送订单分配的优化方案。

本发明提出的订单分配决策方法在仿真模型中进行构建和训练后可以在实际使用中，随着新的订单信息和决策反馈记录的加入而继续训练迭代，从而建立对应用场景针对性更强、对决策效果预测更准确的神经网络，获得实时的订单匹配决策。因此，基于本发明提出的方法理论上可以运用于所有地区即时配送中无人车和骑手的协同配送的订单分配。

与现有技术相比，本发明具有如下有益效果：

1、本发明提出了一种适用于无人车和骑手协同配送的订单分配系统，既能科学地反映即时配送的运营过程又适用于运营决策的实际需要，可以帮助物流供应商评估并改善无人车配送的运营管理策略，同时该模型还具有应用于其他领域研究的潜力，特别是存在两个及以上服务模式的订单分配决策，如同一运营平台下的人类驾驶出租车和无人驾驶出租车的订单分配决策。

2、本发明提出了结合多智能体仿真和深度强化学习的基于仿真的优化决策方案，为决策者创造一个人工动态环境，设定不同的交互规则和奖励规则，观察与之相关的行为结果，最终为实时订单分配提供决策支持。本发明完善了动态环境下订单分配的理论体系，也为骑手与无人车协同配送订单分配问题提出了解决方案，可助力于无人车配送的大规模应用落地。

本发明为骑手与无人车协同配送订单分配提供了技术方案，也可应用于其他同一运营系统下的不同运营模式的订单分配决策如同一运营平台下的人类驾驶出租车和无人驾驶出租车的订单分配决策。

附图说明

图1是本发明系统关系示意图。

图2是无人车与骑手协同配送即时配送订单配送整体流程。

具体实施方式

下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明，本申请的优点和特征将更加清楚。

需要说明的是，本申请的实施例有较佳的实施性，并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现，且这应被本申请实施例所属技术领域的技术人员所理解。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限定。因此，示例性实施例的其它示例可以具有不同的值。

本申请的附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本申请实施例的目的，并非是限定本申请可实施的限定条件。任何结构的修饰、比例关系的改变或大小的调整，在不影响本申请所能产生的效果及所能达成的目的下，均应落在本申请所揭示的技术内容所能涵盖的范围内。且本申请各附图中所出现的相同标号代表相同的特征或者部件，可应用于不同实施例中。

本申请实施例中阐述的即时配送的配送对象主要是生鲜、药品、商超等具有集中性的配送站作为配送起点的商品。本申请实例面向的是一个8km×5km生鲜配送服务区域，平均每天有1500个订单需要进行配送。客户下单时间如表1所示，深夜订单(22:00-6:00)占到总订单量的8％，订单下单的高峰期集中在10:30-13:00和20:00-21:00，分别占总订单量的24％和15％。客户可接受最大配送时间如表2所示。30分钟以内的占6％，31-60分钟以内的占44％，61-90分钟以内的占27％，91-210分钟以内的占17％，211分钟以上的占6％。

表1客户下单时间分布

表2客户可接受最大配送时间

如图1所示，本实例展示了一种即时配送中无人车与骑手协同配送的订单分配系统，包括基于多智能体的无人车与骑手协同配送仿真平台和基于深度强化学习和最大效用理论的订单分配决策系统，逻辑关系为：所述订单分配决策系统中使用的深度强化学习算法需要策略训练和评估的环境，和最大效用理论效用评估的特征参数，皆来自于基于多智能体的无人车与骑手协同配送仿真平台。

进一步的，两者的逻辑关系为：所述协同配送仿真平台，即建立一个能模拟一个区域内即时配送中常规流程及供需关系的多智能体仿真模型；所述订单分配决策系统，即构建订单分配决策模型，包括基于深度强化学习的配送模式选择和基于最大效用理论的特定配送车辆分配两部分，所述订单分配决策模型与多智能体仿真模型交互、训练、迭代，所述订单分配决策系统训练结果收敛后，向所述协同配送仿真平台输入实时即时配送需求信息即可实现本发明系统对订单调度的实时决策，得到配送订单分配的优化方案。

进一步的，所述协同配送仿真平台包括多智能体仿真模型，具体为客户智能体建模、骑手/无人车智能体建模、配送站智能体建模，以及还包括仿真环境搭建模块。仿真环境下条件假设为：(1)所有无人车和骑手从配送站出发，最后返回配送站；(2)所有客户只能由无人车或骑手服务；(3)所有骑手或无人车拥有相同的车载容量和电池容量；(4)所有骑手或无人车每次行程至少配送一个订单；(5)骑手工作时间为6:00-22:00，无人车工作时间为24小时；(6)配送站拥有客户需要的所有货物，不需要去别的配送站调货，客户也不会因为商品库存不足而被拒单。

所述协同配送仿真平台中的多智能体仿真模型agent-based modeling用于模拟即时配送中的常规流程以及电商平台、骑手或无人车、客户三方的行为与互动，从而为订单分配算法构建训练和评估的环境。本发明构建的多智能体仿真模型可以根据输入的实际运营中获得的订单数据、配送员与无人车的配送能力参数、配送区域的地理信息和道路网络，初始化配送需求和供给的分布，模拟真实配送过程来分配订单和调度骑手与无人车。在多智能体仿真模型中构建了三类智能体，以便模拟即时配送中的相关利益方，分别为：客户、骑手或无人车、配送站，以下分别对这三类智能体进行定义。

所述客户智能体建模，客户的属性包括位置、下单时间、最大可接受配送时间、满意度，客户的主要行为包括在下单时间提交订单和在配送完成时计算自身满意度。其中，满意度是客户在订单完成配送时根据配送时间对配送完成情况进行评估的结果，为一个非负且不大于1的值，具体计算方式如下：

其中D_i和T_i分别为客户i的最大可接受配送时间和下单时间，A_ji为骑手或无人车j完成客户i订单配送的时间，若这一订单无法成功配送则满意度取0。

所述骑手/无人车智能体建模，骑手和无人车是行为逻辑相同但拥有不同属性取值的同一类智能体，其属性包括每公里运营成本、当前位置、速度、最大容量、配送任务列表、剩余续航里程、工作时间段，主要行为包括取货、规划配送路径、更换电池、移动、记录移动轨迹和距离。其中，每次返回配送站取货时和送完一个订单后，骑手和无人车都会检查剩余续航里程，若不足10公里则返回配送站更换电池并重置续航里程。无人车和骑手运营的具体参数如表3。骑手的排班计划如表4。

表3无人车和骑手运营的具体参数

项目	无人车	骑手
			最高行驶速度(km/h)	40	40
最大车载容量(orders)	15	10
			更换电池时间(s)	60	60
电池续航里程(km)	100	60
			工作时间	24/7	6:00-22:00
每公里运营成本(RMB)	1.0	2.0

表4骑手排班计划

工作时间	工作骑手人数
		6:00-7:00	4
7:00-20:00	25
		20:00-22:00	5

所述配送站智能体建模，配送站是决策客户提出的订单由何种方式配送(骑手或无人车)及具体由哪个骑手或无人车配送的智能体，同时也是骑手/无人车取货、更换电池的场所和配送的起终点。其属性包括位置和待分配订单列表，主要行为包括决策订单的配送方式、选择具体的配送骑手或无人车、更新待分配订单列表。

所述仿真环境搭建模块，搭建的仿真环境包括即道路、住宅等地理信息及时间信息，地理信息来自于shapefile文件导入，时间信息更新步长为1分钟。

在仿真环境中各个智能体交互行为，包括如下定义：客户下单、订单分配、骑手或无人车取货、骑手或无人车移动、骑手或无人车更换电池、客户收货等各类事件。各类事件的具体内容和在时间线上的发生顺序如下(如图2所示)：

S1环境时间到达客户的下单时间时，客户向配送站发送下单信号，配送站将对应订单放入待分配订单列表；

S2对待分配订单列表中的每个订单，提取订单特征、骑手和无人车时空分布特征、骑手和无人车剩余容量情况、骑手和无人车预计返回配送站时间，以此为依据先基于深度强化学习决策订单的配送模式(骑手或无人车)，再基于效用最大理论决策具体配送的骑手或无人车；

S3骑手和无人车在配送站取货并根据已接受的订单规划配送路径，然后从配送站出发沿路网逐个前往客户位置进行配送；

S4骑手和无人车移动过程中持续检测剩余续航里程，不足以在送达当前订单后前往下一订单客户位置再返回配送站时，修改配送路径以在送达当前订单后先返回配送站更换电池，并且取已分配给该骑手或无人车的订单。骑手和无人车送完所有订单空车返回配送站后，若剩余续航里程不足10公里时也提出更换电池需求，并且取已分配给该骑手或无人车的订单；

S5骑手或无人车到达客户位置后，客户取货并计算配送用时并评估满意度。

所述构建并训练订单分配决策系统包括特征提取模块、基于深度强化学习的配送模式选择模块和基于最大效用理论的特定配送车辆分配模块：

基于深度强化学习的配送模式选择模块基于深度Q网络算法进行实现，通过特征提取层(即Q网络输入层)从仿真环境对待分配订单列表中的每个订单，提取订单特征、骑手和无人车时空分布特征、骑手和无人车剩余容量情况、骑手和无人车预计返回配送站时间，输入基于深度强化学习的配送模式选择模块；

基于深度强化学习的配送模式选择模块充分考虑即时配送中订单连续性及动态性，运行无人车和骑手协同配送场景下的订单分配决策，决定每个订单使用何种配送模式配送，从而实现最大化未来收益；

基于最大效用理论的特定配送车辆分配模块基于最大效用理论，决定每个订单使用哪个具体无人车或骑手进行配送。

进一步的，基于深度强化学习的配送模式选择模块，具体包括马可夫决策模型和深度强化学习训练算法，其中：

所述马可夫决策模型的建模，在决策配送模式时本发明将这一问题建模为马尔可夫决策过程，该过程使智能体能通过合理的决策最大化长期累积收益进而实现长期收益的最优化。本发明中这一过程的各部分定义如下：

(1)状态：状态s_t用于描述某一决策时刻的问题场景，由三部分组成，包括决策时间点、需求信息、供给信息。需求信息即待分配的订单的信息，包括位置、最大可接受配送时间和下单时间。供给信息是决策所需的骑手或无人车的信息，包括位置、剩余容量以及预计返回配送站取货的时间。

(2)动作：动作a_t是配送站智能体最终做出的决策。本发明中设置了两种动作，即将订单设为骑手配送和将订单设为无人车配送，具体操作上体现为将某一订单放入分配给骑手配送的订单列表或无人车配送的订单列表。

(3)奖励：奖励R_t是智能体在状态s_t下采取了动作a_t以后在当下获得的收益。在决定分配方式并确定配送骑手或无人车后，基于预计送达时间和运营费用计算的奖励会反馈给配送站智能体。

(4)状态转移：当某一订单被放入某一配送方式的订单列表后，该订单即从配送站的待配送订单列表中删去，骑手和无人车的位置、剩余容量、预计返回时间也随之更新，状态s_t转移为下一状态s_t′。

(5)折扣因子：折扣因子γ用于计算未来获得的奖励的现值以平衡对未来收益及当下收益的重视程度。

所述深度强化学习训练算法具体使用深度Q网络算法进行求解：

所述深度Q网络算法，基于马可夫决策模型中以上定义可以按公式(2)导出在状态s_t下采取动作a_t的长期累积收益Q(s_t，a_t)，进而可以在已知Q(s_t，a_t)的情况下选择长期累积收益最大的动作以实现考虑长期收益的决策制定。其中对Q(s_t，a_t)的预测，本发明通过使用反向传播深度神经网络提取状态及动作特征来实现，模型的训练即Q网络的更新主要是通过最小化分别由具有相同初始参数的Q网络和目标网络产生的Q估计值和Q目标值之间的均方差来实现的，这一最小化的目标函数如公式(3)所示。

其中r代表在状态s下采取动作a的即时奖励，

和θ_i分别是目标Q网络和Q网络的参数，两者在初始化时相同，在后续训练中每隔一段时间将θ_i的值拷贝到/>

中。

深度Q网络算法的详细过程如以下的伪代码所示：

所述基于最大效用理论的特定配送车辆分配模块：在通过深度强化学习训练算法确定配送模式后，本发明将基于最大效用理论决策执行配送该订单的具体车辆(某一个骑手或无人车)，即对每一订单逐个计算若干骑手或若干无人车配送该订单的效用值并选择效用值最大的骑手或无人车，执行对其的配送任务。

基于骑手或无人车与客户的当前的特征参数，订单分配效用值的计算方法如公式(4)所示。

其中

为客户i到决策时刻为止已经等待的时间，d_ij为骑手或无人车j由于配送客户i的订单而增加的行驶距离，v_j为骑手或无人车j的平均行驶速度，D_rj为骑手或无人车j的剩余续航里程，d_o为骑手或无人车j配送尚未完成的订单还需行驶的距离。α_w，α_e，α_r为三个取值在0到1之间的权重系数。此效用值的计算将使已经等待较长时间的订单优先由剩余续航里程更长、接单后新增配送距离较短的骑手或无人车配送。基于最大效用理论的特定配送车辆分配可使订单分配在决策时更好地考虑到供需双方的各异性。

以该区域过去一段时间的订单数据为基础运行仿真，使分配决策模型中的Q网络在仿真环境中进行学习训练，直至仿真中全天订单的客户满意度总和收敛，之后将分配决策模型连接到实际订单分配系统中，对实际订单分配执行实时决策。

因为无人车与骑手协同配送，无人车参与的深入程度与自动驾驶技术发展、无人车配送运营法律法规紧密相关，因此通过改变无人车与骑手的数量配比，构建了包括纯骑手配送和无人车和骑手协同配送的共8种场景，如表5所示。

表5不同场景下的无人车与骑手车队数量

场景编号	无人车数量	骑手数量
			1-23	1	23
2-20	2	20
			3-18	3	18
4-16	4	16
			5-14	5	14
8-8	8	8
			12-2	12	2
BAU	0	25

针对本实例中该区域一天共1500个订单的配送，本发明构建的基于深度强化学习和最大效用理论的分配策略与基于贪婪算法的分配策略、基于KM算法的分配策略在总客户满意度和总运营成本两方面进行比较，结果如表6和表7所示：

表6总客户满意度

表7总运营成本

相比于基于贪婪算法和KM算法的传统分配策略，本发明方法在该实例中在相同的骑手和无人车数量组合下最大可提升7.62％的总客户满意度、降低60.33％的总运营成本，由这一结果可知本发明所述的基于深度强化学习和最大效用理论的订单分配决策方法在服务水平和运营成本上均可改善即时配送服务的现有水平。

上述描述仅是对本申请较佳实施例的描述，并非是对本申请范围的任何限定。任何熟悉该领域的普通技术人员根据上述揭示的技术内容做出的任何变更或修饰均应当视为等同的有效实施例，均属于本申请技术方案保护的范围。

Claims

1.一种骑手-无人车协同配送的即时配送订单分配系统，其特征在于，包括基于多智能体的无人车与骑手协同配送仿真平台和基于深度强化学习和最大效用理论的订单分配决策系统，逻辑关系为：所述订单分配决策系统中使用的深度强化学习算法需要策略训练和评估的环境，和最大效用理论效用评估的特征参数，皆来自于基于多智能体的无人车与骑手协同配送仿真平台。

2.如权利要求1所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，

所述协同配送仿真平台，即建立一个能模拟一个区域内即时配送中常规流程及供需关系的多智能体仿真模型；

所述订单分配决策系统，即构建订单分配决策模型，包括基于深度强化学习的配送模式选择和基于最大效用理论的特定配送车辆分配两部分，所述订单分配决策模型与多智能体仿真模型交互、训练、迭代，所述订单分配决策系统训练结果收敛后，向所述协同配送仿真平台输入实时即时配送需求信息即可实现对订单调度的实时决策，得到配送订单分配的优化方案。

3.如权利要求2所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，

所述协同配送仿真平台包括多智能体仿真模型，具体为客户智能体建模、骑手/无人车智能体建模、配送站智能体建模，以及还包括仿真环境搭建模块；仿真环境下条件假设为：(1)所有无人车和骑手从配送站出发，最后返回配送站；(2)所有客户只能由无人车或骑手服务；(3)所有骑手或无人车拥有相同的车载容量和电池容量；(4)所有骑手或无人车每次行程至少配送一个订单；(5)骑手工作时间为6:00-22:00，无人车工作时间为24小时；(6)配送站拥有客户需要的所有货物，不需要去别的配送站调货，客户也不会因为商品库存不足而被拒单；

所述客户智能体建模，客户的属性包括位置、下单时间、最大可接受配送时间、满意度，客户的主要行为包括在下单时间提交订单和在配送完成时计算自身满意度；其中，满意度是客户在订单完成配送时根据配送时间对配送完成情况进行评估的结果，为一个非负且不大于1的值，具体计算方式如下：

其中D_i和T_i分别为客户i的最大可接受配送时间和下单时间，A_ji为骑手或无人车j完成客户i订单配送的时间，若这一订单无法成功配送则满意度取0；

所述骑手/无人车智能体建模，骑手和无人车是行为逻辑相同但拥有不同属性取值的同一类智能体，其属性包括每公里运营成本、当前位置、速度、最大容量、配送任务列表、剩余续航里程、工作时间段，主要行为包括取货、规划配送路径、更换电池、移动、记录移动轨迹和距离；其中，每次返回配送站取货时和送完一个订单后，骑手和无人车都会检查剩余续航里程，若不足10公里则返回配送站更换电池并重置续航里程；

所述配送站智能体建模，配送站是决策客户提出的订单由何种方式配送及具体由哪个骑手或无人车配送的智能体，同时也是骑手/无人车取货、更换电池的场所和配送的起终点；其属性包括位置和待分配订单列表，主要行为包括决策订单的配送方式、选择具体的配送骑手或无人车、更新待分配订单列表；

4.如权利要求3所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，在仿真环境中各个智能体交互行为，包括如下定义：客户下单、订单分配、骑手或无人车取货、骑手或无人车移动、骑手或无人车更换电池、客户收货等各类事件；各类事件的具体内容和在时间线上的发生顺序如下：

S2对待分配订单列表中的每个订单，提取订单特征、骑手和无人车时空分布特征、骑手和无人车剩余容量情况、骑手和无人车预计返回配送站时间，以此为依据先基于深度强化学习决策订单的配送模式，再基于效用最大理论决策具体配送的骑手或无人车；

S4骑手和无人车移动过程中持续检测剩余续航里程，不足以在送达当前订单后前往下一订单客户位置再返回配送站时，修改配送路径以在送达当前订单后先返回配送站更换电池，并且取已分配给该骑手或无人车的订单；骑手和无人车送完所有订单空车返回配送站后，若剩余续航里程不足10公里时也提出更换电池需求，并且取已分配给该骑手或无人车的订单；

5.如权利要求2所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，构建并训练订单分配决策系统，包括特征提取模块、基于深度强化学习的配送模式选择模块和基于最大效用理论的特定配送车辆分配模块：

基于深度强化学习的配送模式选择模块基于深度Q网络算法进行实现，通过特征提取层即Q网络输入层从仿真环境对待分配订单列表中的每个订单，提取订单特征、骑手和无人车时空分布特征、骑手和无人车剩余容量情况、骑手和无人车预计返回配送站时间，输入基于深度强化学习的配送模式选择模块；

6.如权利要求5所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，基于深度强化学习的配送模式选择模块，具体包括马可夫决策模型和深度强化学习训练算法，其中：

所述马可夫决策模型的建模，在决策配送模式时将这一问题建模为马尔可夫决策过程，该过程使智能体能通过合理的决策最大化长期累积收益进而实现长期收益的最优化；这一过程的各部分定义如下：

(1)状态：状态s_t用于描述某一决策时刻的问题场景，由三部分组成，包括决策时间点、需求信息、供给信息；需求信息即待分配的订单的信息，包括位置、最大可接受配送时间和下单时间；供给信息是决策所需的骑手或无人车的信息，包括位置、剩余容量以及预计返回配送站取货的时间；

(2)动作：动作a_t是配送站智能体最终做出的决策；设置了两种动作，即将订单设为骑手配送和将订单设为无人车配送，具体操作上体现为将某一订单放入分配给骑手配送的订单列表或无人车配送的订单列表；

(3)奖励：奖励R_t是智能体在状态s_t下采取了动作a_t以后在当下获得的收益；在决定分配方式并确定配送骑手或无人车后，基于预计送达时间和运营费用计算的奖励会反馈给配送站智能体；

(4)状态转移：当某一订单被放入某一配送方式的订单列表后，该订单即从配送站的待配送订单列表中删去，骑手和无人车的位置、剩余容量、预计返回时间也随之更新，状态s_t转移为下一状态s_t′；

(5)折扣因子：折扣因子γ用于计算未来获得的奖励的现值以平衡对未来收益及当下收益的重视程度；

所述深度Q网络算法，基于马可夫决策模型中以上定义可以按公式(2)导出在状态s_t下采取动作a_t的长期累积收益Q(s_t，a_t)，进而可以在已知Q(s_t，a_t)的情况下选择长期累积收益最大的动作以实现考虑长期收益的决策制定；其中对Q(s_t，a_t)的预测，通过使用反向传播深度神经网络提取状态及动作特征来实现，模型的训练即Q网络的更新是通过最小化分别由具有相同初始参数的Q网络和目标网络产生的Q估计值和Q目标值之间的均方差来实现的，这一最小化的目标函数如公式(3)所示；

其中r代表在状态s下采取动作a的即时奖励，

中。

7.如权利要求5所述的骑手-无人车协同配送的即时配送订单分配系统，其特征在于，所述基于最大效用理论的特定配送车辆分配模块：在通过深度强化学习训练算法确定配送模式后，将基于最大效用理论决策执行配送该订单的具体车辆，即对每一订单逐个计算若干骑手或若干无人车配送该订单的效用值并选择效用值最大的骑手或无人车，执行对其的配送任务；

基于骑手或无人车与客户的当前的特征参数，订单分配效用值的计算方法如公式(4)所示；

其中

为客户i到决策时刻为止已经等待的时间，d_ij为骑手或无人车j由于配送客户i的订单而增加的行驶距离，v_j为骑手或无人车j的平均行驶速度，D_rj为骑手或无人车j的剩余续航里程，d_o为骑手或无人车j配送尚未完成的订单还需行驶的距离；α_w，α_e，α_r为三个取值在0到1之间的权重系数。