CN110956311A - 一种基于强化学习的超启发算法的车辆路径优化方法 - Google Patents

一种基于强化学习的超启发算法的车辆路径优化方法 Download PDF

Info

Publication number
CN110956311A
CN110956311A CN201911116073.6A CN201911116073A CN110956311A CN 110956311 A CN110956311 A CN 110956311A CN 201911116073 A CN201911116073 A CN 201911116073A CN 110956311 A CN110956311 A CN 110956311A
Authority
CN
China
Prior art keywords
value
state
fit
learning
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911116073.6A
Other languages
English (en)
Other versions
CN110956311B (zh
Inventor
张景玲
冯勤炳
余孟凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911116073.6A priority Critical patent/CN110956311B/zh
Publication of CN110956311A publication Critical patent/CN110956311A/zh
Application granted granted Critical
Publication of CN110956311B publication Critical patent/CN110956311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0835Relationships between shipper or supplier and carriers
    • G06Q10/08355Routing methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于强化学习的超启发算法的车辆路径优化方法,包括以下步骤:步骤1车辆路径问题分析;步骤2初始化;步骤3经验池、序列池存储;步骤4解的接受保留;步骤5判断经验池容量,容量足够则进入步骤8学习,未满,则进入步骤6;步骤6选择Action;步骤7保留最优解;步骤8选择学习样本,并初始化神经网络;步骤9神经网络学习更新;步骤10更新目标值网络;步骤11判断学习结束情况,学习未结束,则进入步骤8继续学习更新;反之,则进入步骤6选择Action,返回主循环;步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。本发明提供了一种高层选择策略为强化学习的超启发算法的车辆路径优化方法。

Description

一种基于强化学习的超启发算法的车辆路径优化方法
技术领域
本发明涉及一种物流配送、电子商务、智能优化、计算机应用领域,尤其涉及的是一种车辆路径优化方法。
背景技术
车辆路径问题是一个NP-Hard问题,求解最优解相对困难。现有的车辆路径优化方法,包括精确算法,传统启发式算法和智能算法。精确算法,例如:分支定界法,最小化K-trees,动态规划算法等,能求得全局最优解,但是当客户点规模扩大时,求解时间呈指数增长。传统启发式算法,例如节约法,两阶段法等,相较于精确算法,能够更加有效地找寻最优解,但同样在大规模问题上,效率不佳。智能算法,例如蚁群算法,遗传算法,禁忌搜索算法等,因其既能得到优解,又能保证效率的优点,得到许多研究者青睐。但对传统智能算法的设计,设计者往往需要同时具备计算机算法设计基础以及所需解决问题领域的专业知识,缺乏通用性。近年来,超启发算法因其高效性和通用性的特点,被提出来用于解决跨领域的组合优化问题。同时,人工智能的发展,也使强化学习算法越来越受人关注,其在多种领域的表现尤为亮眼。
发明内容
为了保证算法在求解VRP问题上具有通用性的要求,同时达到利用强化学习算法根据结果优化超启发算法的选择策略,提升算法性能的目的,本发明提出了一种高层策略可移植的基于强化学习的超启发式算法的车辆路径优化方法。
本发明解决其技术问题所采用的技术方案是:
一种基于强化学习的超启发算法的车辆路径优化方法,所述方法包括以下步骤:
步骤1车辆路径问题分析,采用Augerat’s instances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;
假定配送中心设为i=0,客户点设为L(i=1,2,3,…,L),最多车辆数设为K(k=1,2,3,…K),每辆车具有相同载重量为q,每个客户点需求量设为di(i=1,2,3,…,L),客户i到客户j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合;
步骤2初始化,先生成Npop组个体的种群,得到最小路径k,利用聚类思想划分,k块区域,得KC块,由KC块随机挑选生成可行解组P(pi=p1,p2,p3,…,pNP),计算种群适应度f(fi=f1,f2,f3,…,fNP);随机挑选一组可行解pi以及对应适应度值fi,设PB为最优解个体,FB为最优适应度值,设LLH算子数量为NA,Action取值为(1,2,3,…,NA)整数,初始化PB=pi,FB=fi,State=0,Action=random(NA),随机挑选一个范围NA中的数;
步骤3经验池、序列池存储,操作上步Action后,产生的个体为Ind,适应度值fit,根据适应度值,判断立即回报值Reward,此时状态即为“下一个状态”,判断该State和Statet所属状态,利用式(1)计算Statet值:
Figure BDA0002274081600000021
State=-(fit-fit')/fit'+Ck (1)
设由EP代表经验池,将上述值存入,则EPnE=[State,Action,Reward,Statet],nE代表经验池中数据组数;当达到设定次数后,判断此时State值所属状态,如果为15≤State≤25,则此时Action为路径内算子,对此时的序列进行筛选,质量优则存入SP,SP代表序列池,反之,则更新序列;SP设常量Qsp为容量,且每次对比SP中序列,若此时序列在SP中有对应序列集,则SP中该序列计数一次,当SP容量已满,则刷新对比次数最少的序列;
步骤4解的接受保留,判断,如果fit<fit’,则说明此时解的适应度值更好,则保存解及解的适应度值,令State=Statet,fit’=fit;如果fit≥fit’,则采用模拟退火判别,若概率p>随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时Statet=State,fit’=fit’;
步骤5判断经验池容量,判断经验池内组数nE,n≥NE,则进入步骤8学习环节,否则,进入步骤6选择Action步骤;
步骤6选择Action,设置epsilon值,若随机值>epsilon,将State值,输入估值网络,输出Qe值,取max(Qe)所对应的Action,若随机值<epsilon,则根据此时State值,令Action=random(NA),此时NA为对应State值的算子序号;
步骤7保留最优解,若fit<=FB,FB=fit,PB=Ind,反之则舍弃;
步骤8选择学习样本,并初始化神经网络,从EP中随机挑选NS组,作为学习样本,记为ESP,初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt
步骤9神经网络学习更新,估值网络中输入
Figure BDA0002274081600000031
为ESP样本中第nS个样本中的State值,计算后取
Figure BDA0002274081600000032
目标值网络中输入
Figure BDA0002274081600000033
计算后取max(Qt),利用式(2),计算损失值Loss,更新估值网络ωe和be
Loss=((Reward+γ·max(Qt))-Qe(Action))2 (2)
步骤10更新目标值网络,判断学习代数Ln≥LN,则令ωt、bt替代ωe、be的值;
步骤11判断学习结束情况,若学习代数Ln≤(3/4)*NS,则进入步骤8继续学习更新,反之,则进入步骤6选择Action,返回主循环;
步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。
2、如权利要求1所述的一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述步骤2中,生成初始种群组的过程如下:
2.1)对于第k条路径,先设配送中心点为i=0,即该路径两端点都为i=0;随机挑选客户点L(i=1,2,3,…,L),加入首尾点中间,判断该车辆现载重量情况;
2.2)从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第k+1条路径;将超超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;
2.3)多次进行上述操作,生成设定数量个体的种群,数量为Npop,对Npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为k,将k作为划分块的数量;
2.4)计算所有客户点与仓库点的距离ci-0(i=1,2,3,…,L),为了节省聚类分类的时间,将ci-0升序排列,只取前k个点作为聚类中心点,设为LKC(KC=1,2,3,…,k),KC代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;
2.5)随机排列KC块,按车辆载重量分配,依KC块排列顺序,随机挑选客户,若KC块中客户点未能满足k车辆载重,则向KC+1块中随机抽取客户点,直至满足,反之则向后延用至k+1辆车,共组成k条路径,由此产生一个初始解个体。
本发明的有益效果主要表现在:求解标准算例set A,set E和set P的CVRP问题时,能取得较好的效果及求解稳定性。在优化过程中,高层基于强化学习算法的选择策略设计,引导算法在不同时刻,使用不同底层算子,加强全局搜索的能力;高层接受准则的运用,有助于控制算法收敛速度;序列池的设计,优化算法的搜索过程。此外,针对不同的问题,设计新的底层算子可以将算法高层策略应用到新的问题领域。
附图说明
图1是一种基于强化学习的超启发算法的车辆路径优化方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于强化学习的超启发算法的车辆路径优化方法,包括以下步骤:
步骤1车辆路径问题分析,采用Augerat’s instances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;
假定配送中心设为i=0,客户点设为L(i=1,2,3,…,L),最多车辆数设为K(k=1,2,3,…K),每辆车具有相同载重量为q,每个客户点需求量设为di(i=1,2,3,…,L),客户i到客户j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合,它包含了所有的客户点,每个客户点只出现一次,并且划分为k条路径由k辆车同时配送,每条路径包含一定数量的客户点,路径的起始点都是配送中心;可行解的要求:能够包含所有客户,且每个客户点只出现一次;在满足车辆标准载重量的条件下,确定由k辆车运输;每条路径起始点、终点皆为配送中心;
实际实验中使用的参数有Q值函数中折扣率γ=0.8,epsilon初始值=0.5,迭代最大代数Gmax=10^6,经验池NE=800,学习挑选样本NS=600,种群数Npop=10。
步骤2初始化,第G=0代,先生成Npop组个体的种群,得到最小路径k,随机挑选生成可行解组P(pi=p1,p2,p3,…,pNP),计算种群适应度f(fi=f1,f2,f3,…,fNP),随机挑选一组可行解pi以及对应适应度值fi,设PB为最优解个体,FB为最优适应度值,设LLH算子数量为NA,Action取值为(1,2,3,…,NA)整数,初始化PB=pi,FB=fi,State=0,Action=random(NA),随机挑选一个范围NA中的数;
生成初始种群组步骤:
步骤2.1对于第k条路径,先设配送中心点为i=0,即该路径两端点都为i=0;随机挑选客户点L(i=1,2,3,…,L),加入首尾点中间,判断该车辆现载重量情况;
步骤2.2从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第k+1条路径;将超超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;
步骤2.3多次进行上述操作,生成一定数量个体的种群,数量为Npop。对Npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为k,将k作为划分块的数量;
步骤2.4计算所有客户点与仓库点的距离ci-0(i=1,2,3,…,L)。为了节省聚类分类的时间,将ci-0升序排列,只取前k个点作为聚类中心点,设为LKC(KC=1,2,3,…,k),KC代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;
步骤2.5随机排列KC块,按车辆载重量分配,依KC块排列顺序,随机挑选客户,若KC块中客户点未能满足k车辆载重,则向KC+1块中随机抽取客户点,直至满足,反之则向后延用至k+1辆车,共组成k条路径,由此产生一个初始解个体;
步骤3经验池、序列池存储,操作上步初始化的Action后,产生的个体为Ind,适应度值fit,根据适应度值,判断立即回报值Reward,若当前解的质量比上代解的质量提升,则Reward=1;未提升则Reward=0;质量下降,则Reward=-1。此时状态即为“下一个状态”,判断该State和Statet所属状态,利用上述时(1)计算Statet值,设由EP代表经验池,将上述值存入,则EPnE=[State,Action,Reward,Statet],nE代表经验池中数据组数,当达到设定次数后,判断此时State值所属状态,如果为15≤State≤25,则此时Action为路径内算子,对此时的序列进行筛选,质量优则存入SP,SP代表序列池,反之,则更新序列。SP设常量Qsp为容量,且每次对比SP中序列,若此时序列在SP中有对应序列集,则SP中该序列计数一次,当SP容量已满,则刷新对比次数最少的序列;
步骤4解的接受保留,判断,如果fit<fit’,则说明此时解的适应度值更好,则保存解及解的适应度值,令State=Statet,fit’=fit;如果fit≥fit’,则采用模拟退火判别,若概率p>随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时Statet=State,fit’=fit’;
步骤5判断经验池容量,判断经验池内组数nE,n≥NE,则进入步骤8学习环节,否则,进入步骤6选择Action步骤;
步骤6选择Action,设置epsilon值,若随机值>epsilon,将State值,输入估值网络,输出Qe值,取max(Qe)所对应的Action,若随机值<epsilon,则根据此时State值,令Action=random(NA),此时NA为对应State值的算子序号;其中,Action有具体为以下三大类算子:局部优化算子、变异算子和破坏与重构算子,将变异算子与破坏重构算子合为一类,如表1,表1为底层算子表:
Figure BDA0002274081600000071
表1
局部优化算子,主要是通过点或者部分交换以及重定位的方式,对路径进行优化,作用后能够绝对判别作用效果(Reward值大,则效果好,反之效果差),变异算子,主要起到扰动作用,作用后作用效果并非可以绝对判别,1)—3)是路径内局部优化算子;4)—6)是路径间局部优化算子;7)—11)为变异算子。
步骤7保留最优解,若fit<=FB,FB=fit,PB=Ind,反之则舍弃;
步骤8选择学习样本,并初始化神经网络,从EP中随机挑选NS组,作为学习样本,记为ESP。初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt
步骤9神经网络学习更新,估值网络中输入
Figure BDA0002274081600000081
为ESP样本中第nS个样本中的State值,计算后取
Figure BDA0002274081600000082
目标值网络中输入
Figure BDA0002274081600000083
计算后取max(Qt),利用式(2),计算损失值Loss,更新估值网络ωe和be
步骤10更新目标值网络,判断学习代数Ln≥LN,则令ωt、bt替代ωe、be的值;
步骤11判断学习结束情况,若学习代数Ln≤(3/4)*NS,则进入步骤8继续学习更新。反之,则进入步骤6选择Action,返回主循环;
步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。
本发明在CVRP车辆路径上算法具有较强的搜索能力和稳定性,除了可以用于求解车辆路径问题,还可以通过改变底层算子的设计应用于其他的组合优化问题。补充说明,以上实施例仅用于说明本发明的技术方案,并非对其限制。本领域的技术人员应当理解本发明的技术特征,可对前述技术方案进行修改,或者等同替换其中的部分技术特征,但不能使其技术方案的本质脱离本发明的实施例技术方案的精神和范围。

Claims (2)

1.一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述方法包括以下步骤:
步骤1车辆路径问题分析,采用Augerat’s instances数据集,车辆路径问题的成本矩阵的元素是欧几里得距离;
假定配送中心设为i=0,客户点设为L(i=1,2,3,…,L),最多车辆数设为K(k=1,2,3,…K),每辆车具有相同载重量为q,每个客户点需求量设为di(i=1,2,3,…,L),客户i到客户j的距离设为cij,优化的目标是行驶距离最短,一个完整的解包含了全部路径的集合;
步骤2初始化,先生成Npop组个体的种群,得到最小路径k,利用聚类思想划分,k块区域,得KC块,由KC块随机挑选生成可行解组P(pi=p1,p2,p3,…,pNP),计算种群适应度f(fi=f1,f2,f3,…,fNP);随机挑选一组可行解pi以及对应适应度值fi,设PB为最优解个体,FB为最优适应度值,设LLH算子数量为NA,Action取值为(1,2,3,…,NA)整数,初始化PB=pi,FB=fi,State=0,Action=random(NA),随机挑选一个范围NA中的数;
步骤3经验池、序列池存储,操作上步Action后,产生的个体为Ind,适应度值fit,根据适应度值,判断立即回报值Reward,此时状态即为“下一个状态”,判断该State和Statet所属状态,利用式(1)计算Statet值:
Figure FDA0002274081590000011
State=-(fit-fit')/fit'+Ck (1)
设由EP代表经验池,将上述值存入,则EPnE=[State,Action,Reward,Statet],nE代表经验池中数据组数;当达到设定次数后,判断此时State值所属状态,如果为15≤State≤25,则此时Action为路径内算子,对此时的序列进行筛选,质量优则存入SP,SP代表序列池,反之,则更新序列;SP设常量Qsp为容量,且每次对比SP中序列,若此时序列在SP中有对应序列集,则SP中该序列计数一次,当SP容量已满,则刷新对比次数最少的序列;
步骤4解的接受保留,判断,如果fit<fit’,则说明此时解的适应度值更好,则保存解及解的适应度值,令State=Statet,fit’=fit;如果fit≥fit’,则采用模拟退火判别,若概率p>随机值,则同样保留好解,同时更新状态,反之,则舍去该解,此时Statet=State,fit’=fit’;
步骤5判断经验池容量,判断经验池内组数nE,n≥NE,则进入步骤8学习环节,否则,进入步骤6选择Action步骤;
步骤6选择Action,设置epsilon值,若随机值>epsilon,将State值,输入估值网络,输出Qe值,取max(Qe)所对应的Action,若随机值<epsilon,则根据此时State值,令Action=random(NA),此时NA为对应State值的算子序号;
步骤7保留最优解,若fit<=FB,FB=fit,PB=Ind,反之则舍弃;
步骤8选择学习样本,并初始化神经网络,从EP中随机挑选NS组,作为学习样本,记为ESP,初始化估值网络和目标网络的阈值和权值ωe、be、ωt和bt
步骤9神经网络学习更新,估值网络中输入
Figure FDA0002274081590000021
Figure FDA0002274081590000022
为ESP样本中第nS个样本中的State值,计算后取
Figure FDA0002274081590000023
目标值网络中输入
Figure FDA0002274081590000024
计算后取max(Qt),利用式(2),计算损失值Loss,更新估值网络ωe和be
Loss=((Reward+γ·max(Qt))-Qe(Action))2 (2)
步骤10更新目标值网络,判断学习代数Ln≥LN,则令ωt、bt替代ωe、be的值;
步骤11判断学习结束情况,若学习代数Ln≤(3/4)*NS,则进入步骤8继续学习更新,反之,则进入步骤6选择Action,返回主循环;
步骤12程序结束,输出车辆路径距离最优值及最优值路径序列。
2.如权利要求1所述的一种基于强化学习的超启发算法的车辆路径优化方法,其特征在于,所述步骤2中,生成初始种群组的过程如下:
2.1)对于第k条路径,先设配送中心点为i=L+1,即该路径两端点都为i=L+1;随机挑选客户点L(i=1,2,3,…,L),加入首尾点中间,判断该车辆现载重量情况;
2.2)从剩下的客户点中继续随机挑选,依次加入路线,直到超出标准载重量,则产生第k+1条路径;将超超出标准载重量的点,加入新路线中;重复循环,当所有客户点都被选取,则一个初始种群个体生成;
2.3)多次进行上述操作,生成设定数量个体的种群,数量为Npop,对Npop个个体进行路径判断,选出具有最短路径数的个体,记最短路径数为k,将k作为划分块的数量;
2.4)计算所有客户点与仓库点的距离ci-L+1(i=1,2,3,…,L),为了节省聚类分类的时间,将ci-L+1升序排列,只取前k个点作为聚类中心点,设为LKC(KC=1,2,3,…,k),KC代表聚类块,以除聚类中心点外的其他客户点,与各聚类中心的距离最短为原则,进行聚类;
2.5)随机排列KC块,按车辆载重量分配,依KC块排列顺序,随机挑选客户,若KC块中客户点未能满足k车辆载重,则向KC+1块中随机抽取客户点,直至满足,反之则向后延用至k+1辆车,共组成k条路径,由此产生一个初始解个体。
CN201911116073.6A 2019-11-15 2019-11-15 一种基于强化学习的超启发算法的车辆路径优化方法 Active CN110956311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911116073.6A CN110956311B (zh) 2019-11-15 2019-11-15 一种基于强化学习的超启发算法的车辆路径优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911116073.6A CN110956311B (zh) 2019-11-15 2019-11-15 一种基于强化学习的超启发算法的车辆路径优化方法

Publications (2)

Publication Number Publication Date
CN110956311A true CN110956311A (zh) 2020-04-03
CN110956311B CN110956311B (zh) 2023-04-07

Family

ID=69977308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911116073.6A Active CN110956311B (zh) 2019-11-15 2019-11-15 一种基于强化学习的超启发算法的车辆路径优化方法

Country Status (1)

Country Link
CN (1) CN110956311B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN116029641A (zh) * 2023-03-30 2023-04-28 浙江工业大学 基于超启发式算法的成品油二次配送路径生成及优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409075A (zh) * 2015-03-24 2017-11-28 华为技术有限公司 用于网络时间序列数据的自适应的基于异常检测的预测器
CN108182812A (zh) * 2018-01-03 2018-06-19 浙江师范大学 基于强化学习的城市道路交叉口生态驾驶行为优化方法
US20180197083A1 (en) * 2017-01-11 2018-07-12 International Business Machines Corporation Neural network reinforcement learning
CN109800910A (zh) * 2019-01-10 2019-05-24 浙江工业大学 一种基于禁忌搜索的超启发式算法的车辆路径优化方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409075A (zh) * 2015-03-24 2017-11-28 华为技术有限公司 用于网络时间序列数据的自适应的基于异常检测的预测器
US20180197083A1 (en) * 2017-01-11 2018-07-12 International Business Machines Corporation Neural network reinforcement learning
CN108182812A (zh) * 2018-01-03 2018-06-19 浙江师范大学 基于强化学习的城市道路交叉口生态驾驶行为优化方法
CN109800910A (zh) * 2019-01-10 2019-05-24 浙江工业大学 一种基于禁忌搜索的超启发式算法的车辆路径优化方法
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARIF DJUNAIDY,AHMAD MUKLASON: "Solving Multi-objective Vehicle Routing Problem Using Hyper-heuristic Method By Considering Balance of Route Distances", 《2019 INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATIONS TECHNOLOGY (ICOIACT)》 *
左思翔: "基于深度强化学习的无人驾驶智能决策控制研究", 《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》 *
张景玲 等: "基于强化学习的超启发算法求解有容量车辆路径问题", 《计算机集成制造系统》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN114237222A (zh) * 2021-11-16 2022-03-25 华南理工大学 一种基于强化学习的取送货车辆路径规划方法
CN116029641A (zh) * 2023-03-30 2023-04-28 浙江工业大学 基于超启发式算法的成品油二次配送路径生成及优化方法

Also Published As

Publication number Publication date
CN110956311B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109919376B (zh) 多车场与多车型车辆路径调度控制方法
CN109800910B (zh) 一种基于禁忌搜索的超启发式算法的车辆路径优化方法
CN111144568A (zh) 一种多目标城市物流配送路径规划方法
CN113343575B (zh) 基于改进蚁群算法的多目标车辆路径优化方法
CN110956311B (zh) 一种基于强化学习的超启发算法的车辆路径优化方法
CN112269382B (zh) 一种机器人多目标路径规划方法
CN110472792B (zh) 一种基于离散蝙蝠算法的物流配送车辆路径优化方法
CN114399043B (zh) 一种基于非支配排序粒子群遗传算法的车辆位置路由方法
CN116187896B (zh) 绿色车辆路径问题求解方法、装置、计算机设备以及介质
CN108960508B (zh) 基于量子蝙蝠算法的铸造造型及熔炼批量计划获取方法
CN109559062A (zh) 一种合作式物流问题的任务分配与路径规划方法
CN111784072B (zh) 一种车辆路径问题的优化方法及装置
CN112013829A (zh) 基于多目标优化的多uav/ugv协同长时作业路径规划方法
CN111709560A (zh) 一种基于改进蚁群算法的解决车辆路径问题方法
CN111798067A (zh) 基于自适应大邻域搜索算法的自动驾驶汽车配送路径规划方法
CN115545608A (zh) 基于不确定需求下的绿色物流车辆路径优化方法及应用
CN109840625B (zh) 一种快递员群路径导航的方法
Fan et al. Generalized data distribution iteration
CN112016750A (zh) 一种改进的解决带约束车辆路径问题的方法
CN115062868B (zh) 一种预聚类的车辆配送路径规划方法和装置
CN116205550A (zh) 基于自适应离散粒子群算法的物流园车辆取货调度方法
CN114444737B (zh) 基于迁移学习的路面养护智能规划方法
CN115470651A (zh) 一种基于蚁群算法的带道路与时间窗车辆路径优化方法
CN115146866A (zh) 一种考虑实际多约束的多条等效最优路径规划方法
CN114154394A (zh) 一种基于改进蚁群算法的并行时间窗车辆路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant