CN113240339B - 一种面向大规模打车平台的任务匹配公平方法 - Google Patents

一种面向大规模打车平台的任务匹配公平方法 Download PDF

Info

Publication number
CN113240339B
CN113240339B CN202110642749.6A CN202110642749A CN113240339B CN 113240339 B CN113240339 B CN 113240339B CN 202110642749 A CN202110642749 A CN 202110642749A CN 113240339 B CN113240339 B CN 113240339B
Authority
CN
China
Prior art keywords
driver
order
matching
drivers
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110642749.6A
Other languages
English (en)
Other versions
CN113240339A (zh
Inventor
童咏昕
史鼎元
宋冰晨
徐毅
许可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110642749.6A priority Critical patent/CN113240339B/zh
Publication of CN113240339A publication Critical patent/CN113240339A/zh
Application granted granted Critical
Publication of CN113240339B publication Critical patent/CN113240339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0639Item locations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种面向大规模打车平台的任务匹配公平方法,属于计算机领域;具体是:首先,针对某城市,以固定时间频率将打车场景中空闲的在线司机和未服务的订单组成二分图;更新当前时间窗内的二分图各边权;然后,在更新完边权的二分图上,计算出每个在线司机对应的订单匹配;最后,对在线司机与对应订单的匹配结果进行学习,更新价值函数,用于下一个时间窗的评估;同时,根据更新的价值函数引导空闲的在线司机进入订单热区,避免在线学习的冷启动。本发明加入引导策略,调度司机到附近价值高的网格,实现了各司机的收益公平;同时,将公平性检查嵌入到查找增广路过程中,没有增加额外的时间复杂度。

Description

一种面向大规模打车平台的任务匹配公平方法
技术领域
本发明属于计算机软件领域,涉及一种时空众包任务匹配方法,具体是一种面向大规模打车平台的任务匹配公平方法。
背景技术
现有技术中,面向大规模打车平台的任务匹配方法大部分都侧重于提供理论性能保证;为了得到理论保证,现有方法通常会对司机和订单(任务)之间复杂的时序依赖做出简单的假设,导致在现实应用中无法达到预期效果;通过使用强化学习来提高打车平台的运行效率,不仅在模拟环境中实现了最佳性能并且已经成功部署到现实场景中。
针对公平性的匹配方法可分为两类:静态和动态。静态公平任务匹配中,工人和任务都是静态的,而在大规模打车场景中司机(工人)和订单(任务)都是动态出现,因此司机和订单之间的公平匹配属于动态公平匹配问题。在动态公平匹配领域,一些工作针对云计算和web请求分配问题研究的是如何实现多台服务器之间的负载均衡。然而,这些工作的优化目标是服务器(工人)为同样数量或价值的计算或web请求(任务)提供服务。这一公平目标不适用于打车场景,因为在打车场景中工人是司机,每个司机具有不同的工作时间以及时序依赖的工作范围。
发明内容
针对上述问题,本发明考虑真实大规模打车场景的特性,基于强化学习兼顾公平和效率;提出了一种面向大规模打车平台的任务匹配公平方法,通过计算司机的收益率并通过公平性的量化指标进行验证,同时利用强化学习明确司机与订单匹配之间的时序依赖关系,学习可感知未来的匹配策略,并引导司机进入订单热区,达到了司机之间的收入公平性和平台总体效率双优化的效果。
所述的面向大规模打车平台的任务匹配公平方法,具体步骤如下:
步骤一、针对某城市,以固定时间频率将打车场景中空闲的在线司机和未服务的订单组成二分图;
二分图中的节点为司机和订单,司机和订单之间如果满足约束限制的空间距离,则两者之间存在一条边;
约束限制条件是指:在线空闲司机和未服务订单的空间直线距离小于阈值,阈值根据实际情况人为设定;
步骤二、初始化并更新当前时间窗内的二分图的边权;
具体过程为:
首先,将二分图的边权初始化为订单的价格;
订单价格为根据打车用户的出发地和目的地,打车平台自行计算的价格。
然后,根据初始的订单价格,利用价值函数更新所有二分图的边权;
更新公式为:
Figure BDA0003108662330000021
p为订单被取消的概率,pr为司机接受订单r的初始订单价格;y为折扣因子;τr为订单r完成需花费的时间;dr为订单r的目的地位置;
Figure BDA0003108662330000022
为司机w的状态,包括司机当前位置
Figure BDA0003108662330000023
和当前时间窗t;
Figure BDA0003108662330000024
为状态价值函数;
步骤三、在更新完边权的二分图上,计算出每个在线司机对应的订单匹配。
具体过程为:
首先,利用BFS对二分图进行分解,对分解后的每个子图进行判断,如果子图只包含一个订单对应多个司机,或一个司机对应多个订单,直接从中选择权值最大的边作为匹配结果。
否则,针对每个子图,在KM算法中使用DFS递归查找增广路;具体如下:
从司机w1出发,当访问到一个未匹配的订单r1,将该订单r1和司机w1匹配;否则,司机w1访问到一个已经和其他司机匹配的订单r2,则从该订单r2对应的匹配司机w2出发执行DFS查找增广路,判断司机w2是否在新的增广路上找到了新的匹配订单,如果没有,则司机w1继续访问其他订单;否则,司机w2在新的增广路上找到了新的匹配订单r3,按照KM算法将司机w1和订单r2匹配,将司机w2和订单r3匹配;
为了满足公平性限制,对司机w1和订单r2匹配,司机w2和订单r3匹配后,判断司机w1和w2的收益率差距是否超过公平性限制;如果是,则放弃司机w1和订单r2匹配,保留w2和订单r2匹配;否则匹配成功。
司机收益率Fw计算公式为:
Figure BDA0003108662330000025
其中,T表示一天,t表示一个时间窗,
Figure BDA0003108662330000026
是二元指示器,如果司机w在线则
Figure BDA0003108662330000027
如果司机从平台下线则
Figure BDA0003108662330000028
Figure BDA0003108662330000029
表示司机在当前时间窗内的效率,如果司机和某个订单r匹配且订单没有被取消,则
Figure BDA00031086623300000210
否则
Figure BDA00031086623300000211
ξ(t)是权重因子。
步骤四、对在线司机与对应订单的匹配结果进行学习,更新价值函数,并返回步骤二用于下一个时间窗的评估;
具体为:
首先,对每个匹配结果中的司机价值函数更新,计算公式为:
Figure BDA0003108662330000031
其中,β为学习率,Δw的计算方式如下。
Figure BDA0003108662330000032
然后,根据同一个地理位置的多个司机共享价值函数,将价值函数简化为:
Figure BDA0003108662330000033
其中,l表示该城市所有可能打车的位置集合;w:lw是指在同一个地理位置的所有司机;Δw简化为:
Figure BDA0003108662330000034
接着,将城市分为六边形网格和正方形网格,并找到各司机所在位置属于的六边形网格和正方形网格,得到两个价值函数H()和S(),选取司机所属网格附近网格的平均价值函数进行平滑,公式如下:
Figure BDA0003108662330000035
其中,DIRH指定了六边形层用于光滑的有向偏移量,DIRS指定了正方形层用于光滑的有向偏移量,H()是城市空间的六边形层对应的价值函数,S()是城市空间的正方形层对应的价值函数。
步骤五、根据更新的价值函数引导空闲的在线司机进入订单热区,避免在线学习的冷启动。
具体为:
LAF按照引导策略将空闲的在线司机调度到附近的价值高的六边形网格所在区域;
引导策略为:对于每个空闲时间超过阈值的在线司机,分别计算各司机的收益率,并将收益率按从小到大排序,然后依次根据如下公式计算各司机被调往的六边形网格g。
Figure BDA0003108662330000036
其中,Ah表示城市空间的所有六边形网格集合,dist表示司机被调往的格子和当前所在网格之间的距离。
本发明的优点在于:
1)、一种面向大规模打车平台的任务匹配公平方法,适应高度动态的交通,符合实际情况,方法时间效率高,适用于大规模的打车应用;
2)、一种面向大规模打车平台的任务匹配公平方法,使用在线强化学习建模司机和订单的匹配问题,在线学习可以快速捕捉当前供需时空分布的变化,并根据变化及时调整价值函数。
3)、一种面向大规模打车平台的任务匹配公平方法,在空间离散化方面,将城市空间划分为两层结构——六边形层和正方形层,六边形层用于捕捉与主干道形状类似的放射状径向模式,正方形层用于捕捉与经纬度平行的规则区域。
4)、一种面向大规模打车平台的任务匹配公平方法,为了避免价值函数的冷启动问题加入引导策略,调度司机到附近价值高的网格,实现了各司机的收益公平。
5)、一种面向大规模打车平台的任务匹配公平方法,将公平性检查嵌入到查找增广路过程中,没有增加额外的时间复杂度。
6)、一种面向大规模打车平台的任务匹配公平方法,考虑司机订单二分图的稀疏性对其进行分解,在子图上执行匹配,并且对于只有单个司机或者单个订单的二分图进行特判处理,可以极大地提高匹配速度。
附图说明
图1为本发明一种面向大规模打车平台的任务匹配公平方法的原理图;
图2为本发明一种面向大规模打车平台的任务匹配公平方法的流程图;
图3a为本发明实施例中17:00时的六边形网格对应的价值函数示意图;
图3b为本发明实施例中17:00时的正方形网格对应的价值函数示意图。
具体实施方式
下面将结合附图对本发明作进一步详细说明。
本发明一种面向大规模打车平台的任务匹配公平方法,实施平台是使用Python构建的模拟器;通过模拟器加载订单数据,模拟司机和乘客的行为(即司机的上下线、调度司机的位置变化、空车的随机游走以及乘客拒单等),以固定频率(如2s)调用LAF(learningto assign with fairness),每次调用时输入为当前时间窗(如2s)下空闲的司机和未服务的订单组成的二分图,LAF依次执行评估、匹配、学习和引导四个步骤之后,向模拟器输出司机和订单的匹配结果。
如图1所示,评估是指将输入二分图的边权初始化为订单的(估计)价格,基于学习的重加权模块将根据价值函数更新边权,使得边权同时反映即时收益和未来收益;匹配是指高效的双目标匹配模块在考虑效率和公平的前提下,在调整完边权的二分图上计算出一个司机与订单的匹配。学习是指重加权模块将从匹配结果中学习,得到一个新的价值函数以用于下一个时间窗的评估步骤;引导是指根据新价值函数引导空闲司机进入订单热区(订单数量多的地区),以避免在线学习的冷启动。
所述的基于学习的重加权模块应用在线强化学习来建模当前匹配对未来效率和公平的影响。高效的双目标匹配模块将公平性检查嵌入到查找增广路过程中,在满足公平性限制的同时最大化效率;效率被定义为打车平台上所有司机一天的总收入,是本模块的最大化优化目标。高效的双目标匹配模块在有权二分图的基础上执行带有限制条件的KM算法求得司机订单匹配结果。
所述的面向大规模打车平台的任务匹配公平方法,如图2所示,具体步骤如下:
步骤一、针对某城市,以固定时间频率将打车场景中空闲的在线司机和未服务的订单组成二分图;
二分图中的节点为司机和订单,司机和订单之间如果满足约束限制的空间距离,则两者之间存在一条边;
约束限制条件是指:一个在线空闲司机和一个未服务订单的空间直线距离小于阈值(如小于3km),阈值根据实际情况人为设定;
打车场景中,每个在线司机被认为是一个智能体,每个时间窗内,司机作为智能体可以采取两种动作——接受订单r或者保持空闲状态,对应的即时收益为订单价格pr和0。司机w的状态由他所在位置
Figure BDA0003108662330000051
和时间窗t确定,基于学习的重加权模块的核心是司机遵从策略π得到的状态价值函数
Figure BDA0003108662330000052
其中策略π的目标是优化效率(平台总收入,即所有司机收入的总和)和公平(司机群体收入公平性)。
步骤二、初始化并更新当前时间窗内的二分图的边权;
具体过程为:
首先,将二分图的边权初始化为订单的价格;
订单价格为根据打车用户的出发地和目的地,打车平台自行计算的价格。
然后,根据初始的订单价格,利用状态价值函数对输入二分图的每条边重新计算TD(0)误差结合订单取消概率p作为权重:
权重的物理含义为司机w选择接受订单r相比留在原地可以多获得的期望收入。
更新公式为:
Figure BDA0003108662330000053
p为订单被取消的概率,pr为司机接受订单r的初始订单价格;y为折扣因子;τr为订单r完成需花费的时间;dr为订单r的目的地位置;
Figure BDA0003108662330000054
为司机w的状态;
Figure BDA0003108662330000055
为状态价值函数;
步骤三、在更新完边权的二分图上,计算出每个在线司机对应的订单匹配。
具体过程为:
首先,利用BFS对二分图进行分解,对分解后的每个子图进行特判,如果子图只包含一个订单对应多个司机,或一个司机对应多个订单,直接从中选择权值最大的边作为匹配结果,提高了匹配速度。否则,针对每个子图,在KM算法中使用DFS递归查找增广路;具体如下:
从司机w1出发,当访问到一个未匹配的订单r1,将该订单r1和司机w1匹配;否则,司机w1访问到一个已经和其他司机匹配的订单r2,则从该订单r2对应的匹配司机w2出发执行DFS查找增广路,判断司机w2是否在新的增广路上找到了新的匹配订单,如果没有,则司机w1继续访问其他订单;否则,司机w2在新的增广路上找到了新的匹配订单r3,按照KM算法将司机w1和订单r2匹配,将司机w2和订单r3匹配;
为了满足公平性限制,对司机w1和订单r2匹配,司机w2和订单r3匹配后执行公平性检查,判断司机w1和w2的收益率差距是否超过公平性限制;如果是,则放弃司机w1和订单r2匹配,保留w2和订单r2匹配;否则匹配成功。
司机收益率Fw也称为时序加权分期收入,计算公式为:
Figure BDA0003108662330000061
其中,T表示一天,t表示一个时间窗(如2秒),
Figure BDA0003108662330000062
是二元指示器,如果司机w在线则
Figure BDA0003108662330000063
如果司机从平台下线则
Figure BDA0003108662330000064
Figure BDA0003108662330000065
表示司机在当前时间窗内的效率,如果司机和某个订单r匹配且订单没有被取消,则
Figure BDA0003108662330000066
否则
Figure BDA0003108662330000067
ξ(t)是权重因子,LAF将该权重设置为当前时间窗所在小时司机群体收入的中位数,用于平衡订单一天内在时空分布上的剧烈变化。
根据司机收益率,可以以熵的形式定义司机群体收入公平性的量化指标,进行验证;
Figure BDA0003108662330000068
如果F数值大则说明司机群体内收入差距很大,反之则说明司机群体内收入分布比较公平;如果每个司机的收益率是一样的,那么F=0。
上述方法的时间复杂度为O(N2M),其中M=max(|W(t)|,|R(t)|),N=min(|W(t)|,|R(t)|),W(t)是当前时间窗t的司机集合,R(t)是当前时间窗t的订单集合。
步骤四、对在线司机与对应订单的匹配结果进行学习,更新价值函数,并返回步骤二用于下一个时间窗的评估;
价值函数根据匹配结果通过价值迭代的方法学习得到,具体为:
首先,对每个匹配结果中的司机价值函数更新,计算公式为:
Figure BDA0003108662330000069
其中,β为学习率,Δw的计算方式如下。
Figure BDA00031086623300000610
在进行价值迭代的过程中司机的策略π也在隐式地改进以优化效率和公平目标,由于策略π不是所求,为了简化表示后面的写法中省略π。
然后,为了减少司机智能体需要探索的状态数量,实现有效的强化学习,除了对时空进行离散化(时间离散化是指将一天划分为若干等长的时间片如20分钟,空间离散化是指将一个城市划分为若干规则多边形,每个多边形称为一个网格),还要1.对司机的状态简化,即只使用司机所在位置
Figure BDA0003108662330000071
确定他的状态,2.多个司机共享同一个价值函数,因此价值函数更新的方式可以改写为:
Figure BDA0003108662330000072
其中,l表示该城市所有可能打车的位置集合;w:lw是指在同一个地理位置的所有司机;Δw简化为:
Figure BDA0003108662330000073
接着,在空间离散化方面,LAF将城市空间划分为两层结构——六边形网格层和正方形网格层,即城市被分为六边形网格和正方形网格,因此司机的位置使用这些网格来表示。找到各司机所在位置属于的六边形网格和正方形网格,得到两个价值函数H()和S(),从图3(a)中可以看出,六边形层可以显示出与主干道形状类似的放射状径向图案,而正方形层边界与经纬度平行,适用于规则区域,从图3(b)中可以看出一些繁忙区域。
LAF对六边形层和正方形层对应的价值函数进行平滑,公式如下:
Figure BDA0003108662330000074
其中,DIRH指定了六边形层用于光滑的有向偏移量,DIRS指定了正方形层用于光滑的有向偏移量,H()是城市空间的六边形层对应的价值函数,S()是城市空间的正方形层对应的价值函数。
步骤五、根据更新的价值函数引导空闲的在线司机进入订单热区,避免在线学习的冷启动。
由于价值函数需要通过在线学习得到,所以在一开始价值函数会被初始化为0,导致二分图边权变成简单的即时收益pr,而缺少未来收益
Figure BDA0003108662330000075
因此,LAF会按照引导策略调度空闲的在线司机到附近的价值高的六边形网格所在区域。
引导策略具体为:对于每个空闲时间超过阈值(如5分钟)的在线司机,分别计算各司机的收益率,并将收益率按从小到大排序,然后依次根据如下公式计算各司机被调往的六边形网格g。
Figure BDA0003108662330000076
其中,Ah表示城市空间的所有六边形网格集合,dist表示司机被调往的格子和当前所在网格之间的距离。
上述引导策略综合考虑了司机被调往的格子和当前所在格子的距离以及两个格子的价值差距,实现了调度司机到附近的价值高的六边形网格的效果。

Claims (5)

1.一种面向大规模打车平台的任务匹配公平方法,其特征在于,具体包括:首先,针对某城市,以固定时间频率将打车场景中空闲的在线司机和未服务的订单组成二分图;将当前时间窗内的二分图的边权初始化为订单的价格,并利用状态价值函数结合订单取消概率更新二分图的边权;
所述的价值函数更新二分图的边权的计算公式为:
Figure FDA0003759898970000011
p为订单被取消的概率,pr为司机接受订单r的初始订单价格;y为折扣因子;τr为订单r完成需花费的时间;dr为订单r的目的地位置;
Figure FDA0003759898970000012
为司机w的状态,包括司机当前位置
Figure FDA0003759898970000013
和当前时间窗t;
Figure FDA0003759898970000014
为状态价值函数;
在更新完边权的二分图上,对在线司机和订单进行匹配,并使各司机之间的收益率差距满足公平性限制;
对在线司机和订单进行匹配的过程为:
首先,利用BFS对二分图进行分解,对分解后的每个子图进行判断,如果子图只包含一个订单对应多个司机,或一个司机对应多个订单,直接从中选择权值最大的边作为匹配结果;否则,针对每个子图,在KM算法中使用DFS递归查找增广路;具体如下:
从司机w1出发,当访问到一个未匹配的订单r1,将该订单r1和司机w1匹配;否则,司机w1访问到一个已经和其他司机匹配的订单r2,则从该订单r2对应的匹配司机w2出发执行DFS查找增广路,判断司机w2是否在新的增广路上找到了新的匹配订单,如果没有,则司机w1继续访问其他订单;否则,司机w2在新的增广路上找到了新的匹配订单r3,按照KM算法将司机w1和订单r2匹配,将司机w2和订单r3匹配;
为了满足公平性限制,对司机w1和订单r2匹配,司机w2和订单r3匹配后,判断司机w1和w2的收益率差距是否超过公平性限制;如果是,则放弃司机w1和订单r2匹配,保留w2和订单r2匹配;否则匹配成功;
最后,对在线司机与对应订单的匹配结果进行学习,更新价值函数,用于下一个时间窗的评估;
所述的更新价值函数具体为:
首先,对每个匹配结果中的司机价值函数更新,计算公式为:
Figure FDA0003759898970000015
其中,β为学习率,Δw的计算方式如下:
Figure FDA0003759898970000016
然后,根据同一个地理位置的多个司机共享价值函数,将价值函数简化为:
Figure FDA0003759898970000021
其中,l表示该城市所有可能打车的位置集合;w:lw是指在同一个地理位置的所有司机;Δw简化为:
Figure FDA0003759898970000022
接着,将城市分为六边形网格和正方形网格,并找到各司机所在位置属于的六边形网格和正方形网格,根据上面的更新方法得到两个价值函数H()和S(),选取司机所属网格附近网格的平均价值函数进行平滑,公式如下:
Figure FDA0003759898970000023
其中,DIRH指定了六边形层用于光滑的有向偏移量,DIRS指定了正方形层用于光滑的有向偏移量,H()是城市空间的六边形层对应的价值函数,S()是城市空间的正方形层对应的价值函数;
同时,根据更新的价值函数引导空闲的在线司机进入订单热区,实现司机之间的收益公平。
2.如权利要求1所述的一种面向大规模打车平台的任务匹配公平方法,其特征在于,所述的二分图中的节点为司机和订单,司机和订单之间如果满足约束限制的空间距离,则两者之间存在一条边;
约束限制条件是指:在线空闲司机和未服务订单的空间直线距离小于阈值,阈值根据实际情况人为设定。
3.如权利要求1所述的一种面向大规模打车平台的任务匹配公平方法,其特征在于,所述的初始订单价格为根据打车用户的出发地和目的地,打车平台自行计算的价格。
4.如权利要求1所述的一种面向大规模打车平台的任务匹配公平方法,其特征在于,所述的司机收益率Fw计算公式为:
Figure FDA0003759898970000024
其中,T表示一天,t表示一个时间窗,
Figure FDA0003759898970000025
是二元指示器,如果司机w在线则
Figure FDA0003759898970000026
如果司机从平台下线则
Figure FDA0003759898970000027
Figure FDA0003759898970000028
表示司机在当前时间窗内的效率,如果司机和某个订单r匹配且订单没有被取消,则
Figure FDA0003759898970000029
否则
Figure FDA00037598989700000210
ξ(t)是权重因子。
5.如权利要求1所述的一种面向大规模打车平台的任务匹配公平方法,其特征在于,所述的根据更新的价值函数引导空闲的在线司机进入订单热区,具体为:
对于每个空闲时间超过阈值的在线司机,分别计算各司机的收益率,并将收益率按从小到大排序,然后依次根据如下公式计算各司机被调往的六边形网格g:
Figure FDA0003759898970000031
其中,Ah表示城市空间的所有六边形网格集合,dist表示司机被调往的格子和当前所在网格之间的距离;
最后,各司机前往各自对应的六边形网格g所在区域进行接单。
CN202110642749.6A 2021-06-09 2021-06-09 一种面向大规模打车平台的任务匹配公平方法 Active CN113240339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110642749.6A CN113240339B (zh) 2021-06-09 2021-06-09 一种面向大规模打车平台的任务匹配公平方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642749.6A CN113240339B (zh) 2021-06-09 2021-06-09 一种面向大规模打车平台的任务匹配公平方法

Publications (2)

Publication Number Publication Date
CN113240339A CN113240339A (zh) 2021-08-10
CN113240339B true CN113240339B (zh) 2022-08-30

Family

ID=77137413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642749.6A Active CN113240339B (zh) 2021-06-09 2021-06-09 一种面向大规模打车平台的任务匹配公平方法

Country Status (1)

Country Link
CN (1) CN113240339B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660784A (zh) * 2022-11-07 2023-01-31 首约科技(北京)有限公司 运营模拟方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761482A (zh) * 2016-05-10 2016-07-13 北京交通大学 基于公平性的出租车实时预约方法及系统
CN109784523A (zh) * 2019-03-19 2019-05-21 南京邮电大学 一种基于多目标优化的网约车智能分配订单方法
CN110110871A (zh) * 2018-02-01 2019-08-09 北京嘀嘀无限科技发展有限公司 一种订单分配的方法和系统
CN112700049A (zh) * 2020-12-30 2021-04-23 北京邮电大学 一种订单派发方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930157B2 (en) * 2017-04-26 2021-02-23 Dropoff, Inc. Systems and methods for automated real-time and advisory routing within a fleet of geographically distributed drivers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761482A (zh) * 2016-05-10 2016-07-13 北京交通大学 基于公平性的出租车实时预约方法及系统
CN110110871A (zh) * 2018-02-01 2019-08-09 北京嘀嘀无限科技发展有限公司 一种订单分配的方法和系统
CN109784523A (zh) * 2019-03-19 2019-05-21 南京邮电大学 一种基于多目标优化的网约车智能分配订单方法
CN112700049A (zh) * 2020-12-30 2021-04-23 北京邮电大学 一种订单派发方法及装置

Also Published As

Publication number Publication date
CN113240339A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
US11393341B2 (en) Joint order dispatching and fleet management for online ride-sharing platforms
CN111862579B (zh) 一种基于深度强化学习的出租车调度方法及系统
Zheng et al. Order dispatch in price-aware ridesharing
Liang et al. An integrated reinforcement learning and centralized programming approach for online taxi dispatching
Richards et al. Coordination and control of multiple UAVs
Shi et al. Memory-based ant colony system approach for multi-source data associated dynamic electric vehicle dispatch optimization
US20220156693A1 (en) Computerized system and method for developing optimized cargo transportation solutions
Hosseinian et al. P-GWO and MOFA: two new algorithms for the MSRCPSP with the deterioration effect and financial constraints (case study of a gas treating company)
CN114237222B (zh) 一种基于强化学习的取送货车辆路径规划方法
CN113240339B (zh) 一种面向大规模打车平台的任务匹配公平方法
CN114119159A (zh) 一种网约车实时订单匹配和空闲车辆调度方法及系统
Luo et al. Dynamic taxi service planning by minimizing cruising distance without passengers
Haliem et al. AdaPool: A diurnal-adaptive fleet management framework using model-free deep reinforcement learning and change point detection
Zade et al. Multi-objective scheduling technique based on hybrid hitchcock bird algorithm and fuzzy signature in cloud computing
CN115713130A (zh) 基于超参数网络权重分配深度强化学习的车辆调度方法
Situ et al. A parallel ant colony system based on region decomposition for taxi-passenger matching
Tran et al. Adaptive passenger-finding recommendation system for taxi drivers with load balancing problem
Wang et al. Recommending-and-grabbing: A crowdsourcing-based order allocation pattern for on-demand food delivery
Xi et al. Hmdrl: Hierarchical mixed deep reinforcement learning to balance vehicle supply and demand
Natalia et al. Completion of capacitated vehicle routing problem (cvrp) and capacitated vehicle routing problem with time windows (cvrptw) using bee algorithm approach to optimize waste picking transportation problem
CN115328210A (zh) 路径规划方法、装置、终端设备以及存储介质
KR20220113302A (ko) 인공 신경망 기반의 부동산 투자 큐레이션 시스템 및 그 방법
Ümit et al. A school bus routing problem using genetic algorithm by reducing the number of buses
Huang et al. Effective credit assignment deep policy gradient multi-agent reinforcement learning for vehicle dispatch
US20240177003A1 (en) Vehicle repositioning determination for vehicle pool

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant