CN113205220A - 一种面向实时订单数据的无人机物流配送全局规划方法 - Google Patents
一种面向实时订单数据的无人机物流配送全局规划方法 Download PDFInfo
- Publication number
- CN113205220A CN113205220A CN202110517463.5A CN202110517463A CN113205220A CN 113205220 A CN113205220 A CN 113205220A CN 202110517463 A CN202110517463 A CN 202110517463A CN 113205220 A CN113205220 A CN 113205220A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- action sequence
- order
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 109
- 230000002787 reinforcement Effects 0.000 claims abstract description 9
- 238000002922 simulated annealing Methods 0.000 claims abstract description 8
- 230000001960 triggered effect Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000012966 insertion method Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000013136 deep learning model Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 16
- 230000036961 partial effect Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0835—Relationships between shipper or supplier and carriers
- G06Q10/08355—Routing methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种面向实时订单数据的无人机物流配送全局规划方法,首先接收新触发的实时订单数据,并提取当前无人机执行状态,对每架无人机预分配订单;之后根据深度学习模型指针网络,融合外部信息生成部分动作序列,并用启发式算法两元素优化进行优化;再使用贪心插入的方法,构造出中间动作序列,并用模拟退火框架进行可行性验证;之后根据预规划的执行动作序列提取出环境状态,传递给通过深度强化学习框架PPO训练出的订单分配智能体进行订单分配;订单分配之后,根据订单分配结果、预规划计算的动作序列,提取出各无人机执行订单的方案,并将无人机的配送方案发布出来。本发明适用于订单不断生成的动态情境。
Description
技术领域
本发明涉及一种面向实时订单数据的无人机物流配送全局规划方法,基于深度学习、深度强化学习以及启发式算法进行包括订单执行动作序列、订单分配在内的配送方案的规划,使得规划出的执行方案在满足无人机载荷、续行的约束条件下最小化所有订单的等待时间。属于无人机物流配送调度算法的技术领域。
背景技术
近年来中国物流业高速发展,如何减小快递运输的成本成为有价值的研究课题。而快递从发货到收货,“最后一公里”——快递集中运送到本地快递站之后从快递站到收件人手里这段过程的末端运输,却因为传统解决方案(无论是自行取货还是雇人送货上门)带来的交通不便、时间不便、人力成本高等不利条件,使得这段过程有与之短距离不相匹配的高昂代价。随着无人机技术的发展和通讯技术的进步,将无人机和物流结合,采用无人机物流的方式完成“最后一公里”的配送成为探索的方向,而针对无人机物流的优秀无人机配送规划算法的研究也势在必行。
无人机物流配送调度问题是NP问题,在给定无人机载荷、续行约束条件下,最小化所有订单等待时间的优化算法具有很高的复杂度、计算量、优化难度。之前的调度算法将问题建模为VRP(车辆路径问题),针对静态场景进行规划,且运行模式属于多无人机合作运送一个仓库中订单的局部模式。此类方法不能适用于订单实时触发的动态情景,且特定无人机只处理一个仓库订单的局部规划模式缺乏灵活性,由于其解空间大小受限于局部规划的模式,难以获得更优的解。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种面向实时订单数据的无人机物流配送全局规划方法,面向实时订单数据,在订单实时触发的动态情境中,根据无人机当前执行状态进行订单预分配,使用基于深度学习与启发式方法,生成订单执行的动作序列,并根据深度强化学习训练的智能体进行订单分配,从而获得满足无人机载荷、续行约束条件同时最小化所有订单等待时间的全局规划。
技术方案:一种面向实时订单数据的无人机物流配送全局规划方法,根据如下步骤进行全局规划:
步骤(1),输入新订单数据;
步骤(2),根据当前无人机订单执行的状态、新触发的订单信息,提取出所有无人机状态,即当前位置、待取货任务队列、待送达任务队列;
步骤(3),对每一架无人机进行新订单的预分配,将新订单加入待取货队列;
步骤(4),根据训练出的深度学习网络,即融合了外部信息的指针网络,处理待取货任务的取货动作、待送达任务的送达动作,生成每架无人机的部分动作序列;
步骤(5),使用启发式方法两元素优化,对每架无人机的部分动作序列进行优化;
步骤(6),使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列;
步骤(7),使用模拟退火框架,对每架无人机中间动作序列分别进行可行性验证,并优化生成最终的预规划订单执行动作序列;
步骤(8),根据生成的预规划订单执行动作序列,计算出每架无人机执行新订单的代价、载荷,提取出环境的状态;
步骤(9),根据深度强化学习PPO框架训练出的深度网络构成的订单分配智能体,在接受环境状态后,做出决策将订单分配给某架无人机;
步骤(10),根据新订单的分配结果、预规划订单执行动作序列提取各个无人机执行订单的动作序列,该接受分配的无人机根据本次预规划订单执行动作序列来执行,而其他无人机则按照据之前订单规划出的动作序列继续执行;
步骤(11)将所有无人机配送方案以动作序列的形式发布出来。
有益效果:
现有的无人机物流配送调度算法存在以下主要问题:
(1)不适用与订单实时生成的动态情景。现有算法建模的VRP(车辆路径问题)处理的是多架无人机配送一个仓库中存货问题,属于一次性的静态规划,不能处理送货上门订单实时触发、需要持续响应不断更新配送方案的动态情景;
(2)没有进行全局规划。VRP的配送模式属于多架无人机共同处理一个仓库的合作模式,即对每一架无人机只负责一个仓库的货物,属于在局部解空间进行优化,不如每一架无人机都处理全局订单的全局规划模式。
与现有技术相比,本发明提供的面向实时订单数据的无人机物流配送全局规划方法,针对订单实时触发的动态情景,使用深度学习与启发式方法求解订单执行、订单分配的方案,在全局范围进行规划,从而获得更优的配送方案。
附图说明
图1为基于无人机物流配送全局规划模块的无人机物流配送规划流程图;
图2为本发明实施例的全局规划方法总流程图;
图3为本发明实施例的两元素优化算法优化部分动作序列的流程图;
图4为本发明实施例的贪心插入算法获得中间动作序列的流程图;
图5为本发明实施例的模拟退火框架进行动作序列可行性验证的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于无人机物流配送全局规划模块的无人机物流配送规划流程如图1所示。当货物运抵本地快递点之后,规划平台开始持续接收订单配送需求(听单);当平台接收到新的订单需求,就将接到的订单传递给无人机物流配送全局规划模块,全局规划模块根据无人机执行状态、新订单信息规划并发布满足无人机载荷、续行的约束条件且最小化订单等待总时间的配送方案,无人机根据配送方案继续配送,如此循环往复,不断规划新接收到的订单;当平台接收订单配送需求的通道关闭后(不再听单),无人机物流配送规划流程结束。
整个无人机物流配送的核心部分是其中的全局规划模块,本实施例的全局规划模块流程图如图2所示,使用基于深度学习与启发式方法相结合的算法,处理实时订单情景的无人机物流配送,并进行全局规划,求解出满足约束条件且最小化订单总等待时间的优秀配送方案。
当新订单被接单之后,全局规划模块接受到这一订单,规划开始:
步骤(1)接受输入新订单数据;
步骤(2)根据当前无人机订单执行的状态、新触发的订单信息,提取出所有无人机状态,即当前位置、待取货任务队列、待送达任务队列;
步骤(3)对每一架无人机进行新订单的预分配,将新订单加入待取货队列;
步骤(4)根据训练出的深度学习网络,即融合了外部信息的指针网络,处理待取货任务的取货动作、待送达任务的送达动作,生成每架无人机的部分动作序列;
在提取出无人机的当前状态之后,对每架无人机分别使用融合外部信息的指针网络生成其部分动作序列。该指针网络属于深度学习模型,基于LSTM(长短期记忆网络)与注意力机制实现。
ui=vT·tanh(Wref·ri+Wq·q) (1)
(1)式中ui表示解码环节针对编码环节第i个隐状态计算出的注意力值,v表示注意力向量,其转置之后于后面相乘,tanh是双曲正切激活函数,Wref表示对于编码部分的注意力矩阵,ri是第i个编码环节的隐状态,Wq表示解码部分的注意力矩阵,q表示当前解码环节的输入,需要融合外部信息:
q=Dense1(Dense2(qraw):minfo:miget:miput:mimerge) (2)
(2)式中Dense1与Dense2表示两个不同的深度学习全连接层,qraw表示根据上一时刻注意力机制指针从编码输入中选中的值作为当前时刻解码的输入,minfo、miget、miput、mimerge为根据外部信息提取出的地图信息、待取货信息、待送达信息以及取货送货可合并完成的信息。之后对之前编码阶段的注意力值做处理:
A(ref,q;Wref,Wq,v)=softmax(u) (3)
上式中,A表示注意力函数,其参数分别为上述介绍过的ref(即是ri构成的向量)、q、Wref、Wq和v,通过softmax函数处理(1)式得到的u从而获得整体的注意力函数值。之后指针网络根据:
n=argmax(A(ref,q;Wref,Wq,v)) (4)
直接选中第n个编码阶段的输入元素作为下一个解码阶段的输入。(4)中argmax表示选择使得值最大的参数,里面的A即是(3)计算出的注意力函数值。通过解码过程的不断迭代,就可以运用融合外部信息的指针网络生成无人机的部分动作序列。
步骤(5)使用启发式方法两元素优化,对每架无人机的部分动作序列进行优化,该过程如图3所示,具体步骤如下:
对每架无人机执行以下步骤:
步骤(51)输入待优化的部分动作序列;
步骤(52)判断是否已经迭代设定轮数,“是”转步骤(56),“否”转步骤(53);
步骤(53)随机选择动作序列中两点;
步骤(54)翻转两点之间的动作序列,并与前后部分拼接形成新的序列;
步骤(55)通过计算执行代价评判新的动作序列,如果值比原序列小,说明新的动作序列更好,就将原动作序列更新为新动作序列,否则不做处理;转步骤(52);
步骤(56)输出优化后的部分动作序列;
步骤(6)使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列,该过程如图4所示,具体步骤如下:
对每架无人机执行以下步骤:
步骤(61)输入部分动作序列;
步骤(62)判断该无人机是否有待送达订单,“是”转步骤(63),“否”转步骤(67);
步骤(63)处理下一个待送达订单的送达动作;
步骤(64)定位该订单送达动作的所有可能位置;
步骤(65)遍历所有可能位置依次插入该订单的送达动作;
步骤(66)计算所有生成的新动作序列的执行代价,找到最低的作为插入该订单的新动作序列,转步骤(62);
步骤(67)输出中间动作序列;
步骤(7)使用模拟退火框架,对每架无人机中间动作序列分别进行可行性验证,并优化生成最终的预规划订单执行动作序列,该过程如图5所示,具体步骤如下:
对每架无人机执行以下步骤:
步骤(71)输入中间动作序列;
步骤(72)判断是否达到某种终止条件,“是”转步骤(76),“否”转步骤(73);
步骤(73)随机选择动作序列中两点交换以生成新的动作序列;
步骤(74)模拟该无人机按照此新的动作序列执行的结果,考察在执行过程中是否满足载荷、续行的约束条件;
步骤(75)用执行代价(不满足可行性则执行代价设置极大)评估新的动作序列,与原动作序列相比较,以一定概率接受:
上式中,p表示接受的概率,e是自然常数,T表示模拟退火系统当前的温度,s′与s分别表示新的和原来的动作序列,f为评估函数,衡量的指标是所有订单的总等待时间。之后转步骤(72);
步骤(76)输出最终动作序列;
步骤(8)根据生成的预规划订单执行动作序列,计算出每架无人机执行新订单的代价、载荷,提取出环境的状态;
步骤(9)根据深度强化学习PPO框架训练出的深度网络构成的订单分配智能体,根据环境状态做出决策将订单分配给某架无人机;
当前环境提取出的状态信息,包含无人机的接单前、后执行代价以及当前的载荷,被传给订单分配智能体,用以做订单分配决策。
订单分配智能体是一个3层的深度神经网络:
at=Dense1(Dense2(Dense3(st))) (6)
(6)式中,该智能体由Dense1、Dense2和Dense33个全连接层构成,接受当前环境的状态st,最终输出这一时刻的动作at,即订单分配的结果。这个智能体由深度强化学习框架PPO训练生成,用于训练反馈的回馈函数为:
ry=-(ΔCt+ασ(ct+1))(1+βVσ(Lt+1)) (7)
上式中,rt表示这一时刻环境反馈的回馈函数,ΔCt为动作选择的接单无人机所带来的代价负载增量,α为超参数,ct+1为下一时刻的所有无人机代价负载,σ表示其标准差,β为超参数,lt+1为下一时刻所有无人机载荷,Vσ表示其标准差系数。
步骤(10)根据新订单的分配结果、预规划订单执行动作序列提取各个无人机执行订单的动作序列,该接受分配的无人机根据本次预规划订单执行动作序列来执行,而其他无人机则按照据之前订单规划出的动作序列继续执行;
步骤(11)将所有无人机配送方案以动作序列的形式发布出来。
在发布配送方案之后,本次全局规划结束。
Claims (10)
1.一种面向实时订单数据的无人机物流配送全局规划方法,其特征在于,首先输入新订单数据,并提取当前无人机状态,对每架无人机预分配订单;之后根据深度学习模型指针网络,融合外部信息生成部分动作序列,并用启发式算法两元素优化进行优化;再使用贪心插入的方法,构造出中间动作序列,并用模拟退火框架进行可行性验证,生成最终的预规划订单执行动作序列;之后根据预规划的执行动作序列提取出环境状态,传递给通过深度强化学习框架PPO训练出的订单分配智能体进行订单分配;订单分配之后,根据订单分配结果、预规划计算的动作序列,提取出各无人机执行订单的方案。
2.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,根据当前无人机订单执行的状态、新触发的订单信息,提取出所有无人机状态,所述无人机状态包括当前位置、待取货任务队列、待送达任务队列;
所述对每架无人机预分配订单是指对每一架无人机进行新订单的预分配,将新订单加入待取货队列。
3.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,所述根据深度学习模型指针网络,融合外部信息生成部分动作序列是指:根据训练出的深度学习网络,即融合了外部信息的指针网络,处理待取货任务的取货动作、待送达任务的送达动作,生成每架无人机的部分动作序列。
4.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,所述构造出中间动作序列是指,使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列。
5.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,将所有无人机执行订单的方案以动作序列的形式发布出来。
6.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,在提取出无人机的当前状态之后,对每架无人机分别使用融合外部信息的指针网络生成其部分动作序列;该指针网络属于深度学习模型,基于LSTM与注意力机制实现;
(1)式中ui表示解码环节针对编码环节第i个隐状态计算出的注意力值,v表示注意力向量,其转置之后于后面相乘,tanh是双曲正切激活函数,Wref表示对于编码部分的注意力矩阵,ri是第i个编码环节的隐状态,Wq表示解码部分的注意力矩阵,q表示当前解码环节的输入,需要融合外部信息:
q=Dense1(Dense2(qraw):minfo:miget:miput:mlmerge) (2)
(2)式中Dense1与Dense2表示两个不同的深度学习全连接层,qraw表示根据上一时刻注意力机制指针从编码输入中选中的值作为当前时刻解码的输入,minfo、miget、miput、mimerge为根据外部信息提取出的地图信息、待取货信息、待送达信息以及取货送货可合并完成的信息;之后对之前编码阶段的注意力值做处理:
A(ref,q;Wref,Wq,v)=softmax(u) (3)
上式中,A表示注意力函数,其参数分别为上述介绍过的ref(即是ri构成的向量)、q、Wref、Wq和v,通过softmax函数处理(1)式得到的u从而获得整体的注意力函数值;之后指针网络根据:
n=argmax(A(ref,q;Wref,Wq,v)) (4)
直接选中第n个编码阶段的输入元素作为下一个解码阶段的输入;(4)中argmax表示选择使得值最大的参数,里面的A即是(3)计算出的注意力函数值。通过解码过程的不断迭代,就可以运用融合外部信息的指针网络生成无人机的部分动作序列。
7.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,使用启发式方法两元素优化,对每架无人机的部分动作序列进行优化,具体步骤如下:
对每架无人机执行以下步骤:
步骤(51)输入待优化的部分动作序列;
步骤(52)判断是否已经迭代设定轮数,“是”转步骤(56),“否”转步骤(53);
步骤(53)随机选择动作序列中两点;
步骤(54)翻转两点之间的动作序列,并与前后部分拼接形成新的序列;
步骤(55)通过计算执行代价评判新的动作序列,如果值比原序列小,说明新的动作序列更好,就将原动作序列更新为新动作序列,否则不做处理;转步骤(52);
步骤(56)输出优化后的部分动作序列。
8.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,使用贪心插入的方法,将各无人机未完成的待送达任务的送货动作插入到其部分动作序列中,生成每架无人机的中间动作序列,对每架无人机执行以下步骤:
步骤(61)输入部分动作序列;
步骤(62)判断该无人机是否有待送达订单,“是”转步骤(63),“否”转步骤(67);
步骤(63)处理下一个待送达订单的送达动作;
步骤(64)定位该订单送达动作的所有可能位置;
步骤(65)遍历所有可能位置依次插入该订单的送达动作;
步骤(66)计算所有生成的新动作序列的执行代价,找到最低的作为插入该订单的新动作序列,转步骤(62);
步骤(67)输出中间动作序列;
9.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,使用模拟退火框架,对每架无人机中间动作序列分别进行可行性验证,并优化生成最终的预规划订单执行动作序列,对每架无人机执行以下步骤:
步骤(71)输入中间动作序列;
步骤(72)判断是否达到某种终止条件,“是”转步骤(76),“否”转步骤(73);
步骤(73)随机选择动作序列中两点交换以生成新的动作序列;
步骤(74)模拟该无人机按照此新的动作序列执行的结果,考察在执行过程中是否满足载荷、续行的约束条件;
步骤(75)用执行代价(不满足可行性则执行代价设置极大)评估新的动作序列,与原动作序列相比较,以一定概率接受:
上式中,p表示接受的概率,e是自然常数,T表示模拟退火系统当前的温度,s′与s分别表示新的和原来的动作序列,f为评估函数,衡量的指标是所有订单的总等待时间;之后转步骤(72);
步骤(76)输出最终动作序列。
10.根据权利要求1所述的面向实时订单数据的无人机物流配送全局规划方法,其特征在于,根据生成的预规划订单执行动作序列,计算出每架无人机执行新订单的代价、载荷,提取出环境的状态;根据深度强化学习PPO框架训练出的深度网络构成的订单分配智能体,根据环境状态做出决策将订单分配给某架无人机;
当前环境提取出的状态信息,包含无人机的接单前、后执行代价以及当前的载荷,被传给订单分配智能体,用以做订单分配决策;
订单分配智能体是一个3层的深度神经网络:
at=Dense1(Dense2(Dense3(st))) (6)
(6)式中,该智能体由Dense1、Dense2和Dense33个全连接层构成,接受当前环境的状态st,最终输出这一时刻的动作at,即订单分配的结果;这个智能体由深度强化学习框架PPO训练生成,用于训练反馈的回馈函数为:
rt=-(ΔCt+ασ(ct+1))(1+βVσ(Lt+1)) (7)
上式中,rt表示这一时刻环境反馈的回馈函数,ΔCt为动作选择的接单无人机所带来的代价负载增量,α为超参数,ct+1为下一时刻的所有无人机代价负载,σ表示其标准差,β为超参数,Lt+1为下一时刻所有无人机载荷,Vσ表示其标准差系数;
根据新订单的分配结果、预规划订单执行动作序列提取各个无人机执行订单的动作序列,该接受分配的无人机根据本次预规划订单执行动作序列来执行,而其他无人机则按照据之前订单规划出的动作序列继续执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517463.5A CN113205220A (zh) | 2021-05-12 | 2021-05-12 | 一种面向实时订单数据的无人机物流配送全局规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517463.5A CN113205220A (zh) | 2021-05-12 | 2021-05-12 | 一种面向实时订单数据的无人机物流配送全局规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113205220A true CN113205220A (zh) | 2021-08-03 |
Family
ID=77031981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110517463.5A Pending CN113205220A (zh) | 2021-05-12 | 2021-05-12 | 一种面向实时订单数据的无人机物流配送全局规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205220A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113516440A (zh) * | 2021-09-13 | 2021-10-19 | 季华实验室 | 一种联合配送方法及装置 |
CN113589845A (zh) * | 2021-08-10 | 2021-11-02 | 西北工业大学 | 一种基于无人机的即时交付调度方法 |
CN116050779A (zh) * | 2023-01-16 | 2023-05-02 | 农业农村部南京农业机械化研究所 | 基于列维模拟退火算法的植保无人机动态调度方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341918A1 (en) * | 2017-05-24 | 2018-11-29 | Tata Consultancy Services Limited | System and method for dynamic fleet management |
CN110641700A (zh) * | 2019-08-23 | 2020-01-03 | 西南交通大学 | 面向社区的无人机配送系统与配送方法 |
CN110807236A (zh) * | 2018-08-03 | 2020-02-18 | 深圳先进技术研究院 | 一种基于多机器人的仓储物流仿真系统 |
US20200074354A1 (en) * | 2018-09-04 | 2020-03-05 | Didi Research America, Llc | System and method for ride order dispatching and vehicle repositioning |
-
2021
- 2021-05-12 CN CN202110517463.5A patent/CN113205220A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180341918A1 (en) * | 2017-05-24 | 2018-11-29 | Tata Consultancy Services Limited | System and method for dynamic fleet management |
CN110807236A (zh) * | 2018-08-03 | 2020-02-18 | 深圳先进技术研究院 | 一种基于多机器人的仓储物流仿真系统 |
US20200074354A1 (en) * | 2018-09-04 | 2020-03-05 | Didi Research America, Llc | System and method for ride order dispatching and vehicle repositioning |
CN110641700A (zh) * | 2019-08-23 | 2020-01-03 | 西南交通大学 | 面向社区的无人机配送系统与配送方法 |
Non-Patent Citations (1)
Title |
---|
SANGHYUN KIM等: "motion planning by reinforcement learning for an unmanned aerial vehicle in virtual open space with static obstacles", 《2020 20TH INTERNATIONAL CONFERENCE ON CONTROL,AUTOMATION AND SYSTEMS》, 1 December 2020 (2020-12-01), pages 784 - 787 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113589845A (zh) * | 2021-08-10 | 2021-11-02 | 西北工业大学 | 一种基于无人机的即时交付调度方法 |
CN113516440A (zh) * | 2021-09-13 | 2021-10-19 | 季华实验室 | 一种联合配送方法及装置 |
CN116050779A (zh) * | 2023-01-16 | 2023-05-02 | 农业农村部南京农业机械化研究所 | 基于列维模拟退火算法的植保无人机动态调度方法 |
CN116050779B (zh) * | 2023-01-16 | 2024-01-30 | 农业农村部南京农业机械化研究所 | 基于列维模拟退火算法的植保无人机动态调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113205220A (zh) | 一种面向实时订单数据的无人机物流配送全局规划方法 | |
CN109919358B (zh) | 一种基于神经网络时空注意力机制的实时站点流量预测方法 | |
CN112418497B (zh) | 一种面向制造物联的物料配送路径优化方法 | |
CN113191484B (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN111537945A (zh) | 基于联邦学习的智能电表故障诊断方法及设备 | |
CN109544998B (zh) | 一种基于分布估计算法的航班时隙分配多目标优化方法 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
Khmeleva et al. | Fuzzy-logic controlled genetic algorithm for the rail-freight crew-scheduling problem | |
CN115759917A (zh) | 一种基于改进混合蚁群算法的物流路径规划方法 | |
Rahili et al. | Optimal routing for autonomous taxis using distributed reinforcement learning | |
CN113687651B (zh) | 一种按需派送车辆的路径规划方法及装置 | |
Hani et al. | Simulation based optimization of a train maintenance facility | |
Paul et al. | A graph-based reinforcement learning framework for urban air mobility fleet scheduling | |
Gao et al. | An efficient evolutionary algorithm based on deep reinforcement learning for large-scale sparse multiobjective optimization | |
CN112241177B (zh) | 基于时间线状态路标的启发式航天器任务规划方法 | |
CN114237222A (zh) | 一种基于强化学习的取送货车辆路径规划方法 | |
CN113269341A (zh) | 一种基于双目标lp的网约车在线订单匹配方法 | |
Wang et al. | Research on Hybrid Real-Time Picking Routing Optimization Based on Multiple Picking Stations. | |
CN117236541A (zh) | 基于注意力指针网络的分布式物流配送路径规划方法及系统 | |
CN116882883A (zh) | 一种利用大数据的电网物资配送路径规划方法 | |
Zhou et al. | A novel mission planning method for UAVs’ course of action | |
CN115841286A (zh) | 一种基于深度强化学习的外卖配送路径规划方法 | |
De Zarza et al. | Decentralized Platooning Optimization for Trucks: A MILP and ADMM-based Convex Approach to Minimize Latency and Energy Consumption | |
CN114237259A (zh) | 一种基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质 | |
CN112270047A (zh) | 基于数据驱动的群体智能计算的城市车辆路径优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |