CN114119159B

CN114119159B - 一种网约车实时订单匹配和空闲车辆调度方法及系统

Info

Publication number: CN114119159B
Application number: CN202111433060.9A
Authority: CN
Inventors: 石兵; 罗逸恺; 鲁艳; 潘玉婷; 李帅; 李顺
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-05-28
Anticipated expiration: 2041-11-29
Also published as: CN114119159A

Abstract

本发明公开了一种网约车实时订单匹配和空闲车辆调度方法及系统，首先将网约车实时订单匹配和空闲车辆调度建模成马尔可夫决策过程，使用基于动态规划的值迭代算法进行车辆价值函数评估，然后基于价值函数进行实时订单匹配与空闲车辆调度，最后通知获得匹配的车辆完成相应的订单以及未获得匹配的空闲车辆行驶到相应的区域。本发明不仅考虑了当前的订单和车辆状态，还考虑了车辆和订单完成匹配后的状态价值变化，从而最大化长期的社会福利。同时，本发明实现了对空闲车辆的有效利用，提高了平台的服务率，有利于网约车平台长期稳定运营。

Description

一种网约车实时订单匹配和空闲车辆调度方法及系统

技术领域

本发明属于网约车对象匹配及调度技术领域，涉及一种网约车实时订单匹配和空闲车辆调度的方法及系统，具体涉及一种基于价值函数进行网约车实时订单匹配和空闲车辆调度的方法及系统。

技术背景

随着互联网经济以及移动智能设备的不断发展，人们生活水平的提高，各种网约车平台纷纷涌现，网约车已成为大众出行的主要选择方式。网约车平台通过使用移动互联网技术将潜在的出行需求与司机联系起来，从而可以更有效地利用空闲的车辆，满足人们不断增长的出行需求。网约车提供的出行服务显著降低了车辆搜索乘客的时间和乘客的等待时间。

典型的网约车打车服务通常遵循以下过程：乘客在任意时间任意地点发起乘车订单请求，其中包含起始点、终点等信息。网约车平台收集乘客订单请求的信息，决定如何将订单与附近的空闲车辆进行匹配，同时决定乘客应该支付的金额。乘客接受平台制定的价格，则完成叫车过程，等待车辆后续的接送服务。订单匹配旨在找到车辆和订单之间的最佳匹配，这对于网约车打车服务至关重要。但是，现如今网约车打车服务中的订单匹配问题的研究没有考虑到平台和乘客的长期整体收益，即长期社会福利，同时，在当前轮次没有获得匹配的车辆在路网上长期的随机行驶不利于也后续的订单匹配，从而影响网约车平台的长期稳定运营和乘客是否愿意继续选择平台提供的出行服务。

发明内容

为了解决上述技术问题，本发明提供了一种能最大化长期社会福利的，基于价值函数进行网约车实时订单匹配和空闲车辆调度的方法及系统。

本发明的方法所采用的技术方案是：一种网约车实时订单匹配和空闲车辆调度方法，包括以下步骤：

步骤1：收集乘客提交的网约车实时订单和网约车司机的相关信息；

步骤2：基于历史的订单数据获取车辆的在不同时空状态下的价值；

具体包括以下子步骤：

步骤2.1：将实时订单匹配和空闲车辆调度过程建模为马尔可夫决策过程MDP，每一个轮次的决策对应为匹配订单、静止和车辆调度；

每台车辆视作独立的智能体，对状态S、动作A及奖励值r属性进行定义：

每台车辆的状态S定义为一个三元组，s＝(t,g,c)∈S，其中t∈T为时间序号，g∈G为车辆所在的区域序号，c为车辆单位行驶成本，体现车辆类型的差异,其中S表示所有车辆的状态集合，T表示所有的时间序号集合，G表示所有车辆的区域序号集合；

动作a∈A＝{a₁,a₂,a₃}，实时订单匹配和空闲车辆调度中主要包含三种类型的动作；第一种类型的动作a₁是给车辆分配一个订单，在这种情况下车辆将会前往乘客发起订单的起始点接乘客，然后将乘客送到终点；第二种类型的动作a₂是静止，在这种情况下车辆将在一个区域静止一段时间；第三种类型的动作a₃是调度空闲车辆去临近区域；

使用奖励值r表示乘客和平台整体的收益之和，即社会福利；车辆的动作为静止时奖励为0，车辆的动作为调度时奖励为负；奖励值r计算公式如下：

r＝p_o-C_Θ(o)；

其中p_o表示订单o的支付金额，C_Θ(o)表示车辆Θ(o)完成订单o所需要的成本；持续T个轮次的订单o，能提供R的社会福利，累计奖励值R_γ计算公式如下：

其中γ为折扣因子，用来控制MDP对未来的展望程度；r_t表示第t个轮次的奖励值；

步骤2.2：收集历史出行数据构建历史状态转移元组；

历史状态转移元组D＝{(s_i,a_i,r_i,s_i′)}，表示智能体在s_i状态下执行动作a_i获得即时奖励值r_i并转移到下一个状态s_i′；

步骤2.3：初始化车辆状态价值函数V(s)，对于每个车辆状态价值，将其赋值为0；

车辆状态价值函数显示了车辆在当前时空状态下未来可能产生的潜在社会福利；

步骤2.4：使用基于动态规划的值迭代算法反向递推计算每个状态下的价值V(s_i)，从而更新得到最终的状态价值函数V(s)；

步骤3：根据待匹配的订单集合车辆集合/>和步骤2中得到的车辆状态价值函数进行实时订单匹配和空闲车辆调度；

步骤4：通知获得匹配的车辆完成相应的订单；

步骤5：通知未获得匹配的空闲车辆行驶到相应的区域。

本发明的系统所采用的技术方案是：一种网约车实时订单匹配和空闲车辆调度系统，包括以下模块：

模块1，用于收集乘客提交的网约车实时订单和网约车司机的相关信息；

模块2，用于基于历史的订单数据获取车辆的在不同时空状态下的价值；

具体包括以下子模块：

模块2.1，用于将实时订单匹配和空闲车辆调度过程建模为马尔可夫决策过程MDP，每一个轮次的决策对应为匹配订单、静止和车辆调度；

r＝p_o-C_Θ(o)；

模块2.2，用于收集历史出行数据构建历史状态转移元组；

模块2.3，用于初始化车辆状态价值函数V(s)，对于每个车辆状态价值，将其赋值为0；

模块2.4，用于使用基于动态规划的值迭代算法反向递推计算每个状态下的价值V(s_i)，从而更新得到最终的状态价值函数V(s)；

模块3，用于根据待匹配的订单集合车辆集合/>和模块2中得到的车辆状态价值函数进行实时订单匹配和空闲车辆调度；

模块4：用于通知获得匹配的车辆完成相应的订单；

模块5：用于通知未获得匹配的空闲车辆行驶到相应的区域。

本发明定义车辆价值函数，基于此设计实时订单匹配和空闲车辆调度方法，针对网约车司机和乘客提交的实时订单实现了一对一匹配，同时考虑到未被匹配到订单的网约车司机在路网上随机行驶可能会对后续决策产生影响，给未被匹配到订单的网约车司机也安排了合理的路线。

在过去的网约车订单匹配方法中，或是使用基于轮次的订单匹配算法将车辆和订单进行匹配，虽然能最大化每个轮次平台的期望收益，但是忽略了网约车平台与乘客的整体收益和长期社会福利；或对于本轮次未匹配到订单的网约车采用随机行驶的策略，忽略了对后续订单匹配等问题的影响。而本发明使用基于车辆价值函数进行实时订单匹配和空闲车辆调度，实现了对空闲车辆的有效利用，提高了平台的服务率，并且在保证了乘客长期收益的同时，也给平台带来了较高的收益，实现长期社会福利最大化。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的订单匹配和空闲车辆调度流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明的主要目的在于提供一种基于价值函数的网约车实时订单匹配方法和空闲车辆调度策略，实现对空闲车辆的有效利用，提高平台的服务率，同时保证平台的长期稳定运营，实现长期社会福利最大化。

请见图1，本发明提供的一种基于价值函数进行网约车实时订单匹配和空闲车辆调度方法，其特征在于，包括以下步骤：

具体实现包含以下子步骤：

步骤2.1：将实时订单匹配和空闲车辆调度过程建模为马尔可夫决策过程(MarkovDecision Process，MDP)，每一个轮次的决策对应为匹配订单、静止和车辆调度；

步骤2.2：收集历史出行数据构建历史状态转移元组；

车辆状态价值函数显示了车辆在当前时空状态下未来可能产生的潜在社会福利

本发明将每个车辆视作独立的智能体，下面对MDP中的属性进行详细的定义。

状态(State)：每一个车辆的状态定义为一个三元组，s＝(t,g,c)∈S，其中为时间序号，g∈G为车辆所在的区域序号，c为车辆单位行驶成本，体现了车辆类型的差异,其中S表示所有车辆的状态集合，T表示所有的时间序号集合，G表示所有车辆的区域序号集合。

动作(Action)：本发明探讨的实时订单匹配和空闲车辆调度问题中主要包含三种类型的动作A＝{a₁,a₂,a₃}。第一种类型的动作是给车辆分配一个订单。在这种情况下车辆将会前往乘客发起订单的起始点接乘客，然后将乘客送到终点。第二种类型的动作是静止。在这种情况下车辆将在一个区域静止一段时间。第三种类型的动作是调度空闲车辆去临近区域。平台会调度空闲车辆去往邻近区域，使得空闲车辆能够尽快获取订单。值得注意的是，车辆调度的动作被视作虚假的订单。

奖励(Reward)：本发明定义奖励值r为乘客和平台整体的收益之和，即社会福利。值得注意的是，车辆的动作为静止时奖励为0，车辆的动作为调度时奖励为负(车辆的行驶成本)。奖励值r计算公式如下：

r＝p_o-C_Θ(o) (1)

其中p_o表示订单o的支付金额，C_Θ(o)表示车辆Θ(o)完成订单o所需要的成本。进一步可以得出一个持续T个轮次的订单o，能提供R的社会福利，累计奖励值R_γ计算公式如下：

通过一个例子来进一步解释上述累计奖励值计算公式。假设一个司机在A地获得一个订单o，订单的起始点为B地，终点为C地。订单o的支付p_o＝16，预计需要3分钟完成整个行程。假设每个轮次之间的时间间隔为1分钟，折扣因子γ＝0.9。假设车辆的初始状态s＝(0,A,1)，完成A→B→C整个行程里程为4个单位长度，则完成整个行程后车辆的状态s′＝(3,C,1)。根据公式(2)得出累计奖励值

平台收集历史出行数据构建历史状态转移元组D＝{(s_i,a_i,r_i,s_i′)}，表示智能体在s_i状态下执行动作a_i获得即时奖励值r_i并转移到下一个状态s_i′。

当智能体执行的动作是匹配订单时，智能体获得即时奖励R_γ并进行状态转移，TD更新规则为：

V(s)＝V(s)+α[R_γ+γV(s′)-V(s)] (3)

其中s＝(t,g,c)表示当前时刻车辆的状态，表示完成匹配订单后车辆的状态，/>表示订单的目的地，Δt₁表示从t时刻出发接到乘客并送达乘客到目的地/>需要的时间。V(s)表示当前时刻车辆的状态价值，α表示对价值估计更新的步长，γ表示折扣因子，V(s′)代表完成匹配订单后车辆的状态价值；

当智能体执行动作为静止时，智能体的即时奖励为0，TD(时序差分算法，Temporal-Difference)更新规则为：

V(s)＝V(s)+α[0+γV(s″)-V(s)] (4)

由于智能体执行了静止动作，智能体的位置没有发生改变，即s″＝(t+1,g,c)；

当智能体执行的动作为空闲车辆调度时，构造一个虚拟的订单，订单的支付为0，订单的起始点为g，订单的目的地为g的某一个邻近区域。TD更新规则为：

V(s)＝V(s)+α[R_γ′+γV(s″′)-V(s)] (5)

其中R_γ′表示累计收益，用公式(2)进行计算，对应订单的支付为0。s″′＝(t+Δt₂,g′,c)表示车辆完成调度后的状态，g′∈g_near表示g的一个邻近区域。

具体地，将订单匹配和空闲车辆调度问题转化为一个二部图最大权匹配问题，在每一个轮次t，订单集合O_t和车辆集合V_t为二部图的两个不相交顶点集合，采用匈牙利算法求解此二部图最大权匹配问题得到订单集合与车辆集合的最优匹配即为所述订单匹配原则；对于每个空闲的车辆v，平台虚构了若干个从车辆v当前位置去往其邻近区域g∈g_near的订单o′，同订单匹配问题一样，它也被插入到二部图中，所述的空闲车辆调度原则也包括在求解二部图最大权匹配问题得到的最优匹配中。

本实施例的输入信息包括订单集合，车辆集合和车辆状态价值函数。

请见图2，具体实现包含以下子步骤：

步骤3.1：获得匹配的订单集合O^W，匹配结果Θ，社会福利SW和获得匹配订单的支付价格P,令订单集合O^W，匹配结果Θ，支付价格P都为空集，令社会福利SW为0；

步骤3.2：初始化每一轮次的订单集合和车辆集合/>订单集合/>中插入当前轮次乘客提交的订单和之前轮次未匹配且还未被取消的订单，车辆集合/>中插入当前轮次没有正在服务订单的车辆，即空闲车辆；

步骤3.3：根据订单集合、车辆集合和车辆价值函数初始化二部图，在每一个轮次t，订单集合O_t和车辆集合V_t为二部图的两个不相交顶点集合。每条边<o,v>表示车辆v能够在订单o的最大等待时间内接到订单o对应的乘客，每条边的权值被初始化为0；(本实施例将订单匹配与空闲车辆调度问题建模成二部图最大权匹配问题，最后要求解此二部图得到订单匹配原则和空闲车辆调度原则)；

步骤3.4：对于每个订单车辆对<o,v>计算车辆v完成订单o造成的车辆状态价值的差值ΔV，并将其作为二部图的边的权重；

本实施例中，每条边<o,v>上的权重为车辆v完成订单o之后状态价值的差值ΔV，计算公式如下：

其中s表示车辆v和订单o匹配时的状态，s′表示车辆v将订单o对应乘客送到目的地时的状态，Δt_o,v表示车辆v完成这趟行程需要的时间，R_γ为累计奖励值；订单集合O_t包含当前轮次乘客提交的订单和之前轮次未匹配且还未被取消的订单，乘客在提交订单o后若没有在最大等待时间之前被车辆接到，乘客会取消订单；车辆集合V_t包括当前轮次没有正在服务订单的车辆，即空闲车辆。

步骤3.5：若差值大于零，将订单车辆对被插入二部图中；

本实施例中，对于每个空闲的车辆v，虚构了若干个从车辆v当前位置去往其邻近区域g∈g_near的订单o′，同订单匹配时一样计算其对应状态价值的差值ΔV′，并插入到二部图中。

步骤3.6：对二部图进行求解得到订单集合和车辆集合的最优匹配结果，即得到订单匹配原则和空闲车辆调度原则；

步骤3.7：计算当前轮次的社会福利；

步骤3.8：记录当前轮次的结果；

步骤3.9：更新获得订单车辆的行程，并从订单集合剔除已获得匹配的订单集合。

由于每一个轮次的订单匹配和空闲车辆调度都是“一对一”的形式，本实施例将订单匹配和空闲车辆调度问题转化为一个二部图最大权匹配问题。在每一个轮次t，订单集合O_t和车辆集合V_t为二部图的两个不相交顶点集合。每条边<o,v>表示车辆v能够在订单o的最大等待时间内接到订单o对应的乘客。每条边<o,v>上的权重为车辆v完成订单o之后状态价值的差值ΔV，计算公式如下：

其中s表示车辆v和订单o匹配时的状态，s′表示车辆v将订单o对应乘客送到目的地时的状态，Δt_o,v表示车辆v完成这趟行程需要的时间，R_γ为累计奖励。订单集合O_t包含当前轮次乘客提交的订单和之前轮次未匹配且还未被取消的订单(假设乘客在提交订单o后若没有在最大等待时间之前被车辆接到，乘客会取消订单)。车辆集合V_t包括当前轮次没有正在服务订单的车辆，即空闲车辆。

构建二部图时，首先根据订单集合和车辆集合初始化二部图，对于每个订单车辆对<o,v>计算车辆v完成订单o造成的车辆状态价值的差值ΔV，并将其作为二部图的边的权重。值得注意的是，只有ΔV>0的订单车辆对<o,v>被插入二部图中，同时如果车辆v不能在订单o的最大等待时间之内接到订单o对应的乘客，那么其对应ΔV＝0。对于每个空闲的车辆v，本发明虚构了若干个从车辆v当前位置去往其邻近区域g∈g_near的订单o′。同订单匹配时一样计算其对应状态价值的差值ΔV′，并插入到二部图中，并使用匈牙利算法对二部图进行求解。

步骤4：通知获得匹配的车辆完成相应的订单；

步骤5：通知未获得匹配的空闲车辆行驶到相应的区域。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种网约车实时订单匹配和空闲车辆调度方法，其特征在于，包括以下步骤：

具体包括以下子步骤：

每台车辆的状态S定义为一个三元组，s＝(t，g，c)∈S，其中t∈T为时间序号，g∈G为车辆所在的区域序号，c为车辆单位行驶成本，体现车辆类型的差异，其中S表示所有车辆的状态集合，T表示所有的时间序号集合，G表示所有车辆的区域序号集合；

动作a∈A＝{a₁，a₂，a₃}，实时订单匹配和空闲车辆调度中主要包含三种类型的动作；第一种类型的动作a₁是给车辆分配一个订单，在这种情况下车辆将会前往乘客发起订单的起始点接乘客，然后将乘客送到终点；第二种类型的动作a₂是静止，在这种情况下车辆将在一个区域静止一段时间；第三种类型的动作a₃是调度空闲车辆去临近区域；

r＝p_o-C_Θ(o)；

步骤2.2：收集历史出行数据构建历史状态转移元组；

历史状态转移元组D＝{(s_i，a_i，r_i，s_i′)}，表示智能体在s_i状态下执行动作a_i获得即时奖励值r_i并转移到下一个状态s_i′；

其中，当智能体执行的动作是匹配订单时，智能体获得即时奖励值R_γ并进行状态转移，TD更新规则为：

V(s)＝V(s)+α[R_γ+γV(s′)-V(s)]；

其中，s＝(t，g，c)表示当前时刻车辆的状态，表示完成匹配订单后车辆的状态，/>表示订单的目的地，Δt₁表示从t时刻出发接到乘客并送达乘客到目的地需要的时间；V(s)表示当前时刻车辆的状态价值，α表示对价值估计更新的步长，γ表示折扣因子，V(s′)表示完成匹配订单后车辆的状态价值；

当智能体执行动作为静止时，智能体的即时奖励值为0，TD更新规则为：

V(s)＝V(s)+α[0+γV(s″)-V(s)]；

由于智能体执行了静止动作，智能体的位置没有发生改变，即s″＝(t+1，g，c)；

当智能体执行的动作为空闲车辆调度时，会构造一个虚拟的订单，订单的支付为0，订单的起始点为g，订单的目的地为g的某一个邻近区域；TD更新规则为：

V(s)＝V(s)+α[R_γ′+γV(s″′)-V(s)]；

其中R_γ′表示累计奖励值，对应订单的支付为0；s″′＝(t+Δt₂，g′，c)表示车辆完成调度后的状态，g′∈g_near表示g的一个邻近区域；

步骤4：通知获得匹配的车辆完成相应的订单；

步骤5：通知未获得匹配的空闲车辆行驶到相应的区域。

2.根据权利要求1所述的网约车实时订单匹配和空闲车辆调度方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：初始化获得匹配的订单集合O^W，匹配结果Θ，社会福利SW和获得匹配订单的支付价格P，令订单集合O^W，匹配结果Θ，支付价格P都为空集，令社会福利SW为0；

步骤3.3：根据订单集合、车辆集合和车辆价值函数初始化二部图，在每一个轮次t，订单集合O_t和车辆集合V_t为二部图的两个不相交顶点集合；每条边<o，v>表示车辆v能够在订单o的最大等待时间内接到订单o对应的乘客，每条边的权值被初始化为0；

步骤3.4：对于每个订单车辆对<o，v>计算车辆v完成订单o造成的车辆状态价值的差值ΔV，并将其作为二部图的边的权重；

步骤3.5：若差值大于零，将订单车辆对插入二部图中；

步骤3.6：利用匈牙利算法对构建好的二部图进行求解，得到订单集合和车辆集合的最优匹配结果，即得到订单匹配原则和空闲车辆调度原则；

步骤3.7：计算当前轮次的社会福利；

步骤3.8：记录当前轮次的结果；

3.根据权利要求2所述的网约车实时订单匹配和空闲车辆调度方法，其特征在于，步骤3.4中，每条边<o，v>上的权重为车辆v完成订单o之后状态价值的差值ΔV，计算公式如下：

其中s表示车辆v和订单o匹配时的状态，s′表示车辆v将订单o对应乘客送到目的地时的状态，Δt_o，v表示车辆v完成这趟行程需要的时间，R_γ为累计奖励值；订单集合O_t包含当前轮次乘客提交的订单和之前轮次未匹配且还未被取消的订单，乘客在提交订单o后若没有在最大等待时间之前被车辆接到，乘客会取消订单；车辆集合V_t包括当前轮次没有正在服务订单的车辆，即空闲车辆。

4.根据权利要求2所述的网约车实时订单匹配和空闲车辆调度方法，其特征在于，步骤3.5中，对于每个空闲的车辆v，虚构了若干个从车辆v当前位置去往其邻近区域g∈g_near的订单o′，同订单匹配时一样计算其对应状态价值的差值ΔV′，并插入到二部图中。

5.一种网约车实时订单匹配和空闲车辆调度系统，其特征在于，包括以下模块：

具体包括以下子模块：

r＝p_o-C_Θ(o)；

模块2.2，用于收集历史出行数据构建历史状态转移元组；

V(s)＝V(s)+α[R_γ+γV(s′)-V(s)]；

V(s)＝V(s)+α[0+γV(s″)-V(s)]；

V(s)＝V(s)+α[R_γ′+γV(s″′)-V(s)]；

模块4：用于通知获得匹配的车辆完成相应的订单；

模块5：用于通知未获得匹配的空闲车辆行驶到相应的区域。