CN114723125A - 一种结合深度学习和多任务优化的城际车订单分配方法 - Google Patents
一种结合深度学习和多任务优化的城际车订单分配方法 Download PDFInfo
- Publication number
- CN114723125A CN114723125A CN202210339414.1A CN202210339414A CN114723125A CN 114723125 A CN114723125 A CN 114723125A CN 202210339414 A CN202210339414 A CN 202210339414A CN 114723125 A CN114723125 A CN 114723125A
- Authority
- CN
- China
- Prior art keywords
- order
- route
- optimization
- scene
- orders
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000005012 migration Effects 0.000 claims abstract description 28
- 238000013508 migration Methods 0.000 claims abstract description 28
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 230000001174 ascending effect Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种结合深度学习和多任务优化的城际车订单分配方法,包括:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor‑Critic算法训练构建的注意力机制深度网络模型;采用训练好的模型并结合多任务优化进行订单分配优化。本发明提供的方法不仅能够实现“离线训练,在线分配”对同一场景下的订单进行分配,而且能够对新开通的城际路线订单进行预测,而多任务优化可以同时对多条不同城市间城际出行订单进行分配,通过不同线路的相似性进行迁移分别得到彼此的最优分配集合。
Description
技术领域
本发明涉及调度规划和人工智能领域,特别是指一种结合深度学习和多任务优化的城际车订单分配方法。
背景技术
随着社会经济和互联网的快速发展和城乡一体化的发展,人民生活水平有了显著提升,同时人们对出行的要求越来越高,这就使得人们出行需求的激增与落后的交通方式之间的矛盾越来越明显。近年来很多年轻人都选择进行跨城上班,主要的交通方式就是地铁、动车或者大巴车等几种形式,并且对于很多城市交通中公路客运公司来说没有足够的自主性以及个性化,人们经常面临抢票难,时间赶,上下车地点离目标地方远等问题。导致每天的通勤时间比工作时间都久,相比城际交通方式而言网约车的出现大大改善了城内人们的出行需求,网约车平台的出现将人与车高效的连接起来,极大的满足了人们随心出行的需求。
不同于城内的网约出行,城际网约车服务主要是为了解决不同城市之间的跨城出行问题。它主要借助统一的管理系统和订单中心,方便高效的达到车与人之间“点对点”的形式。城际网约车发挥移动互联的优势,匹配供需关系。乘客通过手机发布出行需求,企业平台通过匹配出行需求,派发车辆将乘客从其发布的上车地点送至下车地点,提供城市间门到门的运输服务。城际网约车通过合理的供需分配,避免了传统进站客运模式的城市内换乘,减少了乘客出行时间,保障了乘客出行品质,同时在减少交通拥堵和保护环境方面也有一定意义。在城际网约车服务中,影响服务质量和乘客体验的最大因素就是订单如何分配的问题,订单分配问题是指在满足一定的约束条件和客户的需求下,对两个城市之间的订单进行合理分配,从而减少车辆的空载率,减少乘客的等待时间和延误时间等。
城际网约车订单分配问题属于车辆路径问题(Vehicle Routing Problem,VRP)的一种变形。由于该问题是一个NP难问题,当客户订单数量足够多时,针对同一场景下的不同线路订单传统分配方法往往需要从零开始进行分配,导致效率低下严重影响用户的使用体验。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种结合深度学习和多任务优化的城际车订单分配方法,本发明提供的方法不仅能够实现“离线训练,在线分配”对同一场景下的订单进行分配,而且能够对新开通的城际路线订单进行预测,而多任务优化可以同时对多条不同城市间城际出行订单进行分配,通过不同线路的相似性进行迁移分别得到彼此的最优分配集合。
本发明采用如下技术方案:
一种结合深度学习和多任务优化的城际车订单分配方法,包括:
根据城际网约出行的实际问题进行数学建模,并确定其优化目标;
利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;
采用训练好的模型并结合多任务优化进行订单分配优化。
具体地,根据城际网约出行的实际问题进行数学建模,并确定其优化目标,具体为:
城际网约出行的数学问题模型可以定义为:minF={f1,f2,f3},模型的三个目标具体定义如下:
其中,f1表示当前订单分配方案中所有司机完成每个订单的行驶距离之和,而Distj表示一组订单中第j条路径的行驶距离;f2表示某条线路的订单分配方案中司机在其完成的订单中所行驶距离或者行驶时间的最大值;f3表示某条线路的订单分配方案的所有路径中由于司机达到时间超过乘客预定时间导致乘客产生的等待时间之和,Delayj表示某订单中第j路径中客户需要的等待时间,M表示路径的总数。
具体地,所述采用训练好的模型并结合多任务优化进行订单分配优化,具体为:
步骤3.1:根据不同应用场景加载调用训练好的模型,所述应用场景包括第一场景和第二场景,第一场景为已开通的线路;第二场景为新开通线路;若为第一种场景,首先判断已开通线路中是否存在未处理的订单,若存在则进入步骤3.2,否则进入等待状态直到有新订单出现,并进入步骤3.2;若为第二场景,则进入步骤3.3;
步骤3.2:将未处理的订单数据或新订单数据进行读取并获取训练好的模型所需的特征值,调用训练好的模型对未处理的订单或新订单进行分配,得到每条路线的订单的集合,并进入步骤3.4;
步骤3.3:对于第二场景的新线路,则从历史订单数据、未处理的订单数据或新订单数据获取与新线路存在共同的出发城市且订单量最大的已开通路线路,分别将设定时段内该已开通路线路的历史订单数据、未处理的订单数据或新订单数据与新开通路线所产生的订单作为训练好的模型的输入,得到对应的初始订单序列解集合,并进入步骤3.4;
步骤3.4:将步骤3.3或者步骤3.4模型得到路线的集合作为两个初始种群P1,P2,并将其投影到同一搜索空间中作为一个初始联合种群P;根据每条线路所优化的目标对联合种群P中的个体进行评价并升序排序,从排序后的联合种群中选择所优化的目标值最小的个个体,其中P表示种群的规模,K表示路线数,并进入步骤3.5;
步骤3.5:通过步骤3.4得到的个体作为进化种群的父代,分别从父代的个体选取来自不同任务中的同一个解,并通过交叉操作进行迁移得到新的集合,对比迁移前后的解,若迁移后的解优于迁移前则将迁移后的解进行更新外部存档F,并进入步骤3.6;
步骤3.6:当进化代数到达设置阈值时,从得到的外部存档F中,根据时间段选取对应的应用场景的订单分配方案,将分配方案的订单从订单队列S中删除,并对分配了订单的车辆状态标记为“执行任务”;
步骤3.6:循环执行,至外部存档F为空集。
本发明另一实施例提供一种结合深度学习和多任务优化的城际车订单分配系统,包括:
建模单元:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;
训练单元:利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;
分配优化单元:采用训练好的模型并结合多任务优化进行订单分配优化。
具体地,所述建模单元中,根据城际网约出行的实际问题进行数学建模,并确定其优化目标,具体为:
城际网约出行的数学问题模型可以定义为:minF={f1,f2,f3},模型的三个目标具体定义如下:
其中,f1表示当前订单分配方案中所有司机完成每个订单的行驶距离之和,而Distj表示一组订单中第j条路径的行驶距离;f2表示某条线路的订单分配方案中司机在其完成的订单中所行驶距离或者行驶时间的最大值;f3表示某条线路的订单分配方案的所有路径中由于司机达到时间超过乘客预定时间导致乘客产生的等待时间之和,Delayj表示某订单中第j路径中客户需要的等待时间,M表示路径的总数。
具体地,所述分配优化单元中,采用训练好的模型并结合多任务优化进行订单分配优化,具体为:
步骤3.1:根据不同应用场景加载调用训练好的模型,所述应用场景包括第一场景和第二场景,第一场景为已开通的线路;第二场景为新开通线路;若为第一种场景,首先判断已开通线路中是否存在未处理的订单,若存在则进入步骤3.2,否则进入等待状态直到有新订单出现,并进入步骤3.2;若为第二场景,则进入步骤3.3;
步骤3.2:将未处理的订单数据或新订单数据进行读取并获取训练好的模型所需的特征值,调用训练好的模型对未处理的订单或新订单进行分配,得到每条路线的订单的集合,并进入步骤3.4;
步骤3.3:对于第二场景的新线路,则从历史订单数据、未处理的订单数据或新订单数据获取与新线路存在共同的出发城市且订单量最大的已开通路线路,分别将设定时段内该已开通路线路的历史订单数据、未处理的订单数据或新订单数据与新开通路线所产生的订单作为训练好的模型的输入,得到对应的初始订单序列解集合,并进入步骤3.4;
步骤3.4:将步骤3.3或者步骤3.4模型得到路线的集合作为两个初始种群P1,P2,并将其投影到同一搜索空间中作为一个初始联合种群P;根据每条线路所优化的目标对联合种群P中的个体进行评价并升序排序,从排序后的联合种群中选择所优化的目标值最小的个个体,其中P表示种群的规模,K表示路线数,并进入步骤3.5;
步骤3.5:通过步骤3.4得到的个体作为进化种群的父代,分别从父代的个体选取来自不同任务中的同一个解,并通过交叉操作进行迁移得到新的集合,对比迁移前后的解,若迁移后的解优于迁移前则将迁移后的解进行更新外部存档F,并进入步骤3.6;
步骤3.6:当进化代数到达设置阈值时,从得到的外部存档F中,根据时间段选取对应的应用场景的订单分配方案,将分配方案的订单从订单队列S中删除,并对分配了订单的车辆状态标记为“执行任务”;
步骤3.6:循环执行,至外部存档F为空集。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提供一种结合深度学习和多任务优化的城际车订单分配方法,包括:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;采用训练好的模型并结合多任务优化进行订单分配优化。本发明提供的方法不仅能够实现“离线训练,在线分配”对同一场景下的订单进行分配,而且能够对新开通的城际路线订单进行预测,而多任务优化可以同时对多条不同城市间城际出行订单进行分配,通过不同线路的相似性进行迁移分别得到彼此的最优分配集合。
(2)本发明提出通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型,为订单实时分配的实现提供了可能。
(3)本发明提出结合多任务优化,在利用模型得到初步订单分配方案后利用不同线路之间的相似性进行知识迁移,提高订单分配方案的质量;且对初步订单分配做出了参考,提高了订单分配的效率和质量。
附图说明
图1为本发明实施例提供的注意力机制深度网络模型结构图;
图2为本发明实施例提供的注意力机制深度网络模型训练流程图;
图3为本发明实施例提供的多任务优化流程图。
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
城际网约车订单分配问题属于车辆路径问题(Vehicle Routing Problem,VRP)的一种变形。由于该问题是一个NP难问题,当客户订单数量足够多时,针对同一场景下的不同线路订单传统分配方法往往需要从零开始进行分配,导致效率低下严重影响用户的使用体验。而随着人工智能技术和云计算平台的快速发展,深度学习技术已经在很多领域打破了传统方法的壁垒,取得了突破性的成果。作为深度学习的一个重要方向,深度强化学习主要用于做序列决策,即根据当前的环境状态做出动作选择,并根据动作的反馈不断调整自身的策略,从而达到设定的目标。强化学习中根据智能体的动作与环境做交互的过程与组合优化在决策空间内进行决策变量的选择十分相似,而且深度强化学习可以“离线训练,在线决策”使得实时解决组合优化问题成了可能,因此使用深度强化学习方法解决传统的多目标车辆路径问题是一个很好的选择。
本发明主要针对城际网约车提出一种高效的结合深度强化学习和多任务优化的城际网约车订单分配方法,该发明不仅能够实现“离线训练,在线分配”对同一场景下的订单进行分配,而且能够对新开通的城际路线订单进行预测,而多任务优化可以同时对多条不同城市间城际出行订单进行分配,通过不同线路的相似性进行迁移分别得到彼此的最优分配集合。
为实现以上目的,本发明针对城际网约车出行提出的一种结合深度强化学习和多任务优化的城际网约车订单分配方法,所述方法包括以下三个要点:1、根据城际网约出行的实际问题进行数学建模,并确定其优化目标;2、以车辆作为主体,目标值作为奖励值(损失函数)运用到马尔可夫决策中,构建深度网络模型利用强化学习对进行训练通过损失函数来获得最优模型;3、使用训练好的模型并结合多任务优化算法进行优化。
首先在本发明实施例中,设定在跨城出行的场景下存在多条不同的线路需要进行分配。本发明实施例以两条不同的真实城际网约车路线为例:城市A到城市B,城市A到城市C分别记为:L1,L2。其中城市A作为中心城市而言到城市B和城市C的路线相对其他路线而言相似性较高。
步骤1:根据城际网约车出行订单分配的实际需求,对城际网约车问题进行建模。订单分配的合理性其目的在于提高用户的乘车体验,而对订单分配影响最大的因素为以下三点:一、司机在完成所有订单后的总行驶距离;二、司机在某条线路中的所有订单中所行驶距离的最大值;三、某线路中所有订单乘客在上车前的总等待时间。
对于司机在完成所有订单后的总行驶距离而言,代表着司机在完成所有订单后是否存在因订单分配不合理而造成绕路浪费资源的情况等,因此该值越小说明该订单分配方案造成的资源浪费最少;
对于司机在某条线路中的所有订单中所行驶距离的最大值而言,代表一条线路的所有订单的时间跨度,时间跨度越小则代表司机在一天的时间内完成订单的数量越多,因此该值越小说明订单分配方案的效果越好,以提高司机的接单效率;
对于乘客的等待时间而言,城际网约出行主要采取的是拼车模式,乘客一般需要至少提前半小时发布需求,因此当司机达到时间超过乘客预定时间导致乘客产生的等待时间往往可能在半小时之上,因此其是影响乘客服务体验最大的因素,合理的订单分配方案应该保证乘客的等待时间应该最小。数学模型具体定义见步骤2。
步骤2:将城际网约车出行问题建模为一个包含三个目标的多目标优化问题minF={f1,f2,f3},本发明中订单分配的方案X是由M条路径组成的集合,表示为X={r1,r2,...,rM},对于ri={ci,1,ci,2,…,c(i,j)}是由订单的乘客的接单顺序构成的路径,ci,j表示第i条路径的第j个乘客且每个乘客都有其各自预约的上车时间和最大运行司机迟到时间(即乘客的时间窗)。
对问题模型的三个目标定义如下:
(1)一组订单中司机的总行驶距离(f1):
(2)一组订单中司机最长路径行驶时间(f2):
(3)乘客总等待时间(f3):
上面描述的两个目标定义中涉及到Distj、Wj和Delayj的计算。下面对其进行详细说明。
Distj:Distj表示第j条路径中司机完成该路径所有订单的行驶距离,计算过程如下:
在城际网约车出行问题中,本发明只考虑司机在接送位于同一条路径中的所有乘客之间的行驶距离。具体地,本发明中我们将司机在第j条路径的出发城市到所有乘客预定上车点的行驶距离计算如下:
其中,dc(i,j)c(i+1,j)表示第j条线路中的车辆从第i个乘客到第i+1个乘客的距离。本发明中的距离均为以地图坐标来计算的欧氏距离。
Wj:Wj表示一组订单方案中第j订单路线中司机产生的等待时间。如果车辆提前到达乘客预定上车点,则必须要等到乘客在下单时预定的最早开始服务时间(上车)时,系统才能将该单设为接单成功状态会影响下个订单的接单时间,因此会产生等待时间。其计算过程如下:
其中,bc(i,j)为第j路径中第i个乘客的预定的上车时间;ac(i,j)为第j条路径中车辆到达乘客i的时间。其计算过程如下:
ac(i,j)=lc(i-1,j)+tc(i-1,j)c(i,j)
其中,lc(i-1,j)为第j条路径中车辆离开第i-1个乘客的时间,tc(i-1,j)c(i,j)为第j条路径中车辆从乘客第i-1个到第i个乘客的行驶时间(设速度为1,距离为地图坐标两点间的欧式距离),当车辆从车场驶出时lc=0。
则Wj的计算方式如下:
其中,wc(i,j)为第j条订单路线中司机到第i个乘客上车点所产生的等待时间。
Delayj:Delayj表示第j条路径中乘客的等待时间,如果司机到达乘客上车点的时间晚于乘客下单时预定的上车时间,且不迟于乘客的最大允许迟到时间,则乘客会等待车辆的到达,从而产生等待时间。其计算过程如下:
其中,delayc(i,j)为第j路径中车辆在第i个乘客产生的延迟时间,其计算过程如下:
其中,ec(i,j)为第j路径中第i个乘客最大允许迟到时间。
步骤3:本发明中主要致力于解决跨城的网约出行问题,而对于该场景一般均采取拼车的运营模式,例如从城市A到城市B出行,乘客需要至少提前半小时预约订单,并选定出行人数;对于城际网约出行车辆多采用7人座车型,因此对于一辆车而已需要在保证不超过车辆容量的前提下进行接单。所以对于单一场景的城际网约出行的订单需要满足车辆容量约束条件:
每条路径上的车辆载客量在任何时间都不能超过车辆总容量如下:
在满足车辆容量的前提下,由于乘客在下单时会选定一个最大允许司机迟到时间md,即车辆不能晚于乘客的最大允许迟到时间到达乘客(针对一些加急订单情况,需要司机一定要在乘客能接受的最大时间窗内赶到)。并且对于城际网约企业需要接单车辆在车场关闭之前返回车场,因此每个车场均设有关闭时间所以对于单一场景的城际网约出行的订单分配需要满足乘客和车场对于司机的时间约束条件如下:
步骤4:本发明将多目标优化问题minF={f1,f2,f3}利用加权求和的方法分解成15标量子问题,每个子问题有一个对应权重向量。权重值代表的每个子问题所侧重的目标函数不同,子问题得到的值×对应权重向量才为其真正的目标函数,每个子问题之间通过基于邻域的参数传递策略进行参数传递。子问题的目标函数计算过程如下:
其中,待优化的目标分量有m个(即分解的子问题个数,本发明中针对3个目标的城际网约出行问题m=3),fk(π)为解π(访问乘客订单序列)的第k个目标函数值,λuk为第u个子问题中第k个目标函数的权重值。
步骤5:本发明根据问题定义构建了一个注意力机制深度网络模型,记作Model1,其结构如图1所示。步骤4中的每个子问题均以Model1为通过Actor-Critic算法进行训练。该模型主要将订单中的一系列订单数据以图结构进行计算,图中的每个节点表示一个乘客的数据特征。模型首先对输入的节点数据进行线性转换主要是将节点中的特征信息转为模型所需的高维向量,这过程成为信息嵌入。转换后的向量通过编码器Encoder进行编码,之后利用解码器Decoder对编码器得到的信息进行解码。其中,节点输入时的线性转换过程如下:
在解码过程中本发明根据设定的上下文向量和未访问节点来计算出所有未访问节点的选择概率,并通过随机抽样或者贪心策略选取下一个访问的节点(由于实际的城际网约出行的订单数量比较庞大因此两种方式效果相差不大,本发明中主要通过随机抽样来选取),直到所有的点都被访问为止,每次选取一个节点上述订单状态都要进行一次更新。对于上下文向量本发明中采用原始图嵌入节点信息(训练数据经过线性转换后的节点),车场嵌入信息(问题类初始的车场信息经过线性转换后的信息),车辆最后访问的节点信息(由订单状态得出),车辆容量信息(由订单状态得出)组成。
其中,概率计算过程如下:
步骤6:本发明构建了一个符合实际城际网约出行的模拟环境用于Actor-Critic算法训练。主要包括城际网约出行的问题类、订单状态及对每条线路的目标值计算等三部分。
对于城际网约出行的问题类,在本发明中将实际的城际网约车的某条路线(比如城市A到城市B)的历史订单数据进行读取,筛选出有用的数据特征如司机接单的出发地坐标、车辆容量、乘客的预约时间、车场坐标、车场关闭时间及司机的到达时间等,处理后的数据作为构造问题类的对应初始数据。
对于问题状态,主要包括司机当前的位置坐标、车辆剩余容量、剩余未分配乘客、司机下一个接单乘客位置及人数几个关键数据。订单状态在训练过程中主要起到更新的作用,每当分配给一个司机订单后对订单中的对问题的状态进行更新,以便于对司机分配合理的订单。
对于目标值的计算,是在所有乘客订单分配完成后(所有节点都被访问)根据得到的订单节点序列,计算出每条路径对应的三个目标值作为Actor-Critic算法的损失函数,算法根据损失函数来得到最优模型。
步骤7:经过训练后得到模型Model1将其保存,可以直接调用。本发明中主要针对两种使用场景,第一种为已开通的线路;第二种为新开通线路。在调用模型之前需要对使用场景进行判断,本发明中通过设置标志sign值来对于两种场景进行区分:第一种场景sign=0,第二种场景sign=1。其中,默认sign=0。
首先根据sign值来区分应用场景:
当sign=0时,需要判断所需分配的已存在线路L1、L2中是否有新订单产生,若有新订单产生则进入步骤8;否则进入等待状态直到有新订单出现,并进入步骤8。
当sign=1时,进入步骤9。
步骤8:当有新订单产生时,加载并调用步骤5所训练好的模型。分别将L1、L2中同一时段产生的新订单作为模型的输入数据进行求解,得到线路L1、L2对应的初始订单序列解S1,S2,并进入步骤10。
步骤9:假设存在一条新开的线路L3(城市A到城市D)。首先对新开通的路线起止城市进行分析,从历史数据中选取有相同城市的路线作为源线路,新开通的路线作为目标线路。若历史数据中不存在含有与新路线相同城市的路线,则随机选取一条本省或者邻省订单量最大的线路作为源线路,新开通的路线作为目标线路。本发明中,根据历史订单数据中可以查找到已经开通路线L1,L2分别对应城市A到城市B,城市A到城市C均与线路L3有共同的出发城市则从L1,L2中选取一条订单量最大的线路,本发明中以L1为例,分别将L1某一时段的历史订单数据或者新订单数据与线路L3新开通路线所产生的订单作为模型的输入,得到对应的初始订单序列解S1,S2,并进入步骤10。
步骤10:将由模型得到的两条不同线路的初始订单序列,即解S1,S2作为任务种群P1,P2,进行多任务优化;主要根据两条线路间的相似性来对解S1,S2进行进一步优化,并进入步骤11。
步骤11:在本发明的多任务优化过程中,主要包括子种群的构造和遗传算子两部分。其中子种群的构造过程如下:将任务种群P1,P2进行合并,即投影到同一搜索空间中,构成一个联合种群P;按照两条路线L1、L2所要优化的目标对联合种群P进行升序排序,从排序后的联合种群中选择所优化的目标值最小的个个体(其中P表示种群的规模,K表示路线数本发明中K=2),重复上述过程直到P1,P2都被构造为止。
而遗传算子操作中,本发明首先对种群P1,P2进行交叉操作,产生临时种群t1和t2,使用锦标赛选择法从临时种群t1和t2分别选取一个解。主要过程如下:从P1,P2中以随机抽样或者根据相似度概率(本发明中设为0.001)来迭代选择两个解作为父代个体,并以概率pm(本发明中pm=0.9)进行交配,即选择的两个父代个体的解(订单序列)被重新组合以产生两个子代解(构成两个新的订单序列),进入步骤12。
步骤12:对迁移前后的解进行比较,如果结果迁移后的解要优于迁移前则将迁移后的解进行更新外部存档F,并进入步骤13。
步骤13:根据得到的外部存档F中,通过设置阈值H(本发明中H=100)作为终止条件,当进化迭代数达到H时,最终得到多个非占优的分配方案。当订单分配时处于高峰时间段(工作日[6:00-8:00]、[17:00-18:00],周末和节假日)时,从外部存档F中选取总等待时间(f3)最小的分配方案;当处于正常出行时间段时(除高峰时间段外的其他时间)时,从外部存档F中随机选取一个方案或者总行驶距离最小f1的方案。并将处理的订单从订单队列S中删除,将分配了订单的车辆状态标记为“执行任务”,并进入步骤14。
步骤14:将外部存档F设为空集,返回步骤4。
如图2为本发明实施例提供的注意力机制深度网络模型训练流程图;如图3为本发明实施例提供的多任务优化流程图。
本发明另一实施例提供一种结合深度学习和多任务优化的城际车订单分配系统,包括:
建模单元:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;
训练单元:利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;
分配优化单元:采用训练好的模型并结合多任务优化进行订单分配优化。
本发明提供一种结合深度学习和多任务优化的城际车订单分配方法,包括:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;采用训练好的模型并结合多任务优化进行订单分配优化。本发明提供的方法不仅能够实现“离线训练,在线分配”对同一场景下的订单进行分配,而且能够对新开通的城际路线订单进行预测,而多任务优化可以同时对多条不同城市间城际出行订单进行分配,通过不同线路的相似性进行迁移分别得到彼此的最优分配集合。
本发明提出通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型,为订单实时分配的实现提供了可能。
本发明提出结合多任务优化,在利用模型得到初步订单分配方案后利用不同线路之间的相似性进行知识迁移,提高订单分配方案的质量;且对初步订单分配做出了参考,提高了订单分配的效率和质量。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (6)
1.一种结合深度学习和多任务优化的城际车订单分配方法,其特征在于,包括:
根据城际网约出行的实际问题进行数学建模,并确定其优化目标;
利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;
采用训练好的模型并结合多任务优化进行订单分配优化。
2.根据权利要求1所述的一种结合深度学习和多任务优化的城际车订单分配方法,其特征在于,根据城际网约出行的实际问题进行数学建模,并确定其优化目标,具体为:
城际网约出行的数学问题模型可以定义为:minF={f1,f2,f3},模型的三个目标具体定义如下:
其中,f1表示当前订单分配方案中所有司机完成每个订单的行驶距离之和,而Distj表示一组订单中第j条路径的行驶距离;f2表示某条线路的订单分配方案中司机在其完成的订单中所行驶距离或者行驶时间的最大值;f3表示某条线路的订单分配方案的所有路径中由于司机达到时间超过乘客预定时间导致乘客产生的等待时间之和,Delayj表示某订单中第j路径中客户需要的等待时间,M表示路径的总数。
3.根据权利要求1所述的一种结合深度学习和多任务优化的城际车订单分配方法,其特征在于,所述采用训练好的模型并结合多任务优化进行订单分配优化,具体为:
步骤3.1:根据不同应用场景加载调用训练好的模型,所述应用场景包括第一场景和第二场景,第一场景为已开通的线路;第二场景为新开通线路;若为第一种场景,首先判断已开通线路中是否存在未处理的订单,若存在则进入步骤3.2,否则进入等待状态直到有新订单出现,并进入步骤3.2;若为第二场景,则进入步骤3.3;
步骤3.2:将未处理的订单数据或新订单数据进行读取并获取训练好的模型所需的特征值,调用训练好的模型对未处理的订单或新订单进行分配,得到每条路线的订单的集合,并进入步骤3.4;
步骤3.3:对于第二场景的新线路,则从历史订单数据、未处理的订单数据或新订单数据获取与新线路存在共同的出发城市且订单量最大的已开通路线路,分别将设定时段内该已开通路线路的历史订单数据、未处理的订单数据或新订单数据与新开通路线所产生的订单作为训练好的模型的输入,得到对应的初始订单序列解集合,并进入步骤3.4;
步骤3.4:将步骤3.3或者步骤3.4模型得到路线的集合作为两个初始种群P1,P2,并将其投影到同一搜索空间中作为一个初始联合种群P;根据每条线路所优化的目标对联合种群P中的个体进行评价并升序排序,从排序后的联合种群中选择所优化的目标值最小的个个体,其中P表示种群的规模,K表示路线数,并进入步骤3.5;
步骤3.5:通过步骤3.4得到的个体作为进化种群的父代,分别从父代的个体选取来自不同任务中的同一个解,并通过交叉操作进行迁移得到新的集合,对比迁移前后的解,若迁移后的解优于迁移前则将迁移后的解进行更新外部存档F,并进入步骤3.6;
步骤3.6:当进化代数到达设置阈值时,从得到的外部存档F中,根据时间段选取对应的应用场景的订单分配方案,将分配方案的订单从订单队列S中删除,并对分配了订单的车辆状态标记为“执行任务”;
步骤3.6:循环执行,至外部存档F为空集。
4.一种结合深度学习和多任务优化的城际车订单分配系统,其特征在于,包括:
建模单元:根据城际网约出行的实际问题进行数学建模,并确定其优化目标;
训练单元:利用已存在的线路的历史订单信息作为训练数据,通过强化学习Actor-Critic算法训练构建的注意力机制深度网络模型;
分配优化单元:采用训练好的模型并结合多任务优化进行订单分配优化。
5.根据权利要求4所述的一种结合深度学习和多任务优化的城际车订单分配系统,其特征在于,所述建模单元中,根据城际网约出行的实际问题进行数学建模,并确定其优化目标,具体为:
城际网约出行的数学问题模型可以定义为:minF={f1,f2,f3},模型的三个目标具体定义如下:
其中,f1表示当前订单分配方案中所有司机完成每个订单的行驶距离之和,而Distj表示一组订单中第j条路径的行驶距离;f2表示某条线路的订单分配方案中司机在其完成的订单中所行驶距离或者行驶时间的最大值;f3表示某条线路的订单分配方案的所有路径中由于司机达到时间超过乘客预定时间导致乘客产生的等待时间之和,Delayj表示某订单中第j路径中客户需要的等待时间,M表示路径的总数。
6.根据权利要求4所述的一种结合深度学习和多任务优化的城际车订单分配系统,其特征在于,所述分配优化单元中,采用训练好的模型并结合多任务优化进行订单分配优化,具体为:
步骤3.1:根据不同应用场景加载调用训练好的模型,所述应用场景包括第一场景和第二场景,第一场景为已开通的线路;第二场景为新开通线路;若为第一种场景,首先判断已开通线路中是否存在未处理的订单,若存在则进入步骤3.2,否则进入等待状态直到有新订单出现,并进入步骤3.2;若为第二场景,则进入步骤3.3;
步骤3.2:将未处理的订单数据或新订单数据进行读取并获取训练好的模型所需的特征值,调用训练好的模型对未处理的订单或新订单进行分配,得到每条路线的订单的集合,并进入步骤3.4;
步骤3.3:对于第二场景的新线路,则从历史订单数据、未处理的订单数据或新订单数据获取与新线路存在共同的出发城市且订单量最大的已开通路线路,分别将设定时段内该已开通路线路的历史订单数据、未处理的订单数据或新订单数据与新开通路线所产生的订单作为训练好的模型的输入,得到对应的初始订单序列解集合,并进入步骤3.4;
步骤3.4:将步骤3.3或者步骤3.4模型得到路线的集合作为两个初始种群P1,P2,并将其投影到同一搜索空间中作为一个初始联合种群P;根据每条线路所优化的目标对联合种群P中的个体进行评价并升序排序,从排序后的联合种群中选择所优化的目标值最小的个个体,其中P表示种群的规模,K表示路线数,并进入步骤3.5;
步骤3.5:通过步骤3.4得到的个体作为进化种群的父代,分别从父代的个体选取来自不同任务中的同一个解,并通过交叉操作进行迁移得到新的集合,对比迁移前后的解,若迁移后的解优于迁移前则将迁移后的解进行更新外部存档F,并进入步骤3.6;
步骤3.6:当进化代数到达设置阈值时,从得到的外部存档F中,根据时间段选取对应的应用场景的订单分配方案,将分配方案的订单从订单队列S中删除,并对分配了订单的车辆状态标记为“执行任务”;
步骤3.6:循环执行,至外部存档F为空集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339414.1A CN114723125B (zh) | 2022-04-01 | 一种结合深度学习和多任务优化的城际车订单分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210339414.1A CN114723125B (zh) | 2022-04-01 | 一种结合深度学习和多任务优化的城际车订单分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114723125A true CN114723125A (zh) | 2022-07-08 |
CN114723125B CN114723125B (zh) | 2024-06-28 |
Family
ID=
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439071A (zh) * | 2022-11-09 | 2022-12-06 | 成都运荔枝科技有限公司 | 一种冷链物流运输订单处理方法和系统 |
CN116862573A (zh) * | 2023-09-05 | 2023-10-10 | 华侨大学 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
CN117610694A (zh) * | 2024-01-23 | 2024-02-27 | 北京白龙马云行科技有限公司 | 多租户的订单分配的方法、装置、设备及存储介质 |
CN117910782A (zh) * | 2024-03-19 | 2024-04-19 | 华侨大学 | 基于完全子图和插入式遗传算法的城际拼车静态调度方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104599168A (zh) * | 2015-02-02 | 2015-05-06 | 北京嘀嘀无限科技发展有限公司 | 叫车订单的分配方法和装置 |
US20180012153A1 (en) * | 2015-01-29 | 2018-01-11 | Beijing Didi Infinity Technology And Development C O., Ltd. | Order allocation system and method |
US20180315319A1 (en) * | 2017-04-26 | 2018-11-01 | Dropoff, Inc. | Systems and methods for automated real-time and advisory routing within a fleet of geographically distributed drivers |
CN109948854A (zh) * | 2019-03-21 | 2019-06-28 | 华侨大学 | 一种基于多目标优化的城际网约车订单分配方法 |
US20200074354A1 (en) * | 2018-09-04 | 2020-03-05 | Didi Research America, Llc | System and method for ride order dispatching and vehicle repositioning |
CN111553530A (zh) * | 2020-04-27 | 2020-08-18 | 华侨大学 | 一种城际网约车包车出行运力预测与出行推荐方法及系统 |
CN113692609A (zh) * | 2019-02-26 | 2021-11-23 | 北京嘀嘀无限科技发展有限公司 | 通过订单车辆分布匹配以订单派发的多代理增强学习 |
CN113947348A (zh) * | 2021-09-27 | 2022-01-18 | 华为技术有限公司 | 一种订单分配方法及装置 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180012153A1 (en) * | 2015-01-29 | 2018-01-11 | Beijing Didi Infinity Technology And Development C O., Ltd. | Order allocation system and method |
CN104599168A (zh) * | 2015-02-02 | 2015-05-06 | 北京嘀嘀无限科技发展有限公司 | 叫车订单的分配方法和装置 |
US20180315319A1 (en) * | 2017-04-26 | 2018-11-01 | Dropoff, Inc. | Systems and methods for automated real-time and advisory routing within a fleet of geographically distributed drivers |
US20200074354A1 (en) * | 2018-09-04 | 2020-03-05 | Didi Research America, Llc | System and method for ride order dispatching and vehicle repositioning |
CN113692609A (zh) * | 2019-02-26 | 2021-11-23 | 北京嘀嘀无限科技发展有限公司 | 通过订单车辆分布匹配以订单派发的多代理增强学习 |
CN109948854A (zh) * | 2019-03-21 | 2019-06-28 | 华侨大学 | 一种基于多目标优化的城际网约车订单分配方法 |
CN111553530A (zh) * | 2020-04-27 | 2020-08-18 | 华侨大学 | 一种城际网约车包车出行运力预测与出行推荐方法及系统 |
CN113947348A (zh) * | 2021-09-27 | 2022-01-18 | 华为技术有限公司 | 一种订单分配方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115439071A (zh) * | 2022-11-09 | 2022-12-06 | 成都运荔枝科技有限公司 | 一种冷链物流运输订单处理方法和系统 |
CN116862573A (zh) * | 2023-09-05 | 2023-10-10 | 华侨大学 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
CN116862573B (zh) * | 2023-09-05 | 2023-12-05 | 华侨大学 | 基于增量训练的城际网约车短期出行需求预测方法及系统 |
CN117610694A (zh) * | 2024-01-23 | 2024-02-27 | 北京白龙马云行科技有限公司 | 多租户的订单分配的方法、装置、设备及存储介质 |
CN117610694B (zh) * | 2024-01-23 | 2024-04-09 | 北京白龙马云行科技有限公司 | 多租户的订单分配的方法、装置、设备及存储介质 |
CN117910782A (zh) * | 2024-03-19 | 2024-04-19 | 华侨大学 | 基于完全子图和插入式遗传算法的城际拼车静态调度方法 |
CN117910782B (zh) * | 2024-03-19 | 2024-05-14 | 华侨大学 | 基于完全子图和插入式遗传算法的城际拼车静态调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021248607A1 (zh) | 一种基于深度强化学习的出租车调度方法及系统 | |
CN102044149B (zh) | 一种基于时变客流的城市公交运营协调方法与装置 | |
CN110458456B (zh) | 基于人工智能的需求响应式公交系统的调度方法及系统 | |
CN105678411B (zh) | 一种旅客列车运行方案图编制方法 | |
Qin et al. | Reinforcement learning for ridesharing: A survey | |
Qin et al. | Multi-agent reinforcement learning-based dynamic task assignment for vehicles in urban transportation system | |
CN112348258B (zh) | 一种基于深度q网络的共享单车预测调度方法 | |
Qian et al. | A Decision‐Making Model Using Machine Learning for Improving Dispatching Efficiency in Chengdu Shuangliu Airport | |
CN112417753A (zh) | 一种基于城市公共交通资源联合调度方法 | |
Chang et al. | A cooperative strategy for optimizing vehicle relocations and staff movements in cities where several carsharing companies operate simultaneously | |
Ma et al. | Dynamic vehicle routing problem for flexible buses considering stochastic requests | |
Attanasio et al. | Real-time fleet management at Ecourier Ltd | |
Wang et al. | Good or mediocre? A deep reinforcement learning approach for taxi revenue efficiency optimization | |
CN114723125A (zh) | 一种结合深度学习和多任务优化的城际车订单分配方法 | |
CN114723125B (zh) | 一种结合深度学习和多任务优化的城际车订单分配方法 | |
CN116562538A (zh) | 一种考虑轨道交通接驳的微循环公交调度优化方法及装置 | |
CN115186905A (zh) | 一种用于城际网约车路径规划的多任务优化方法及系统 | |
Chow et al. | Adaptive scheduling of mixed bus services with flexible fleet size assignment under demand uncertainty | |
Chen et al. | An order dispatch system based on reinforcement learning for ride sharing services | |
Engelhardt et al. | Simulating ride-pooling services with pre-booking and on-demand customers | |
CN112734111A (zh) | 一种水平运输任务agv动态时间预估方法 | |
Li et al. | A Multiline Customized Bus Planning Method Based on Reinforcement Learning and Spatiotemporal Clustering Algorithm | |
Rousseau et al. | SMART Mobility. Modeling Workflow Development, Implementation, and Results Capstone Report | |
Wu et al. | Multi-agent deep reinforcement learning based real-time planning approach for responsive customized bus routes | |
CN116227770B (zh) | 基于pd模型的群体智能路径规划优化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |