CN115907254A - 一种基于进化的多目标强化学习的车辆路线规划方法 - Google Patents

一种基于进化的多目标强化学习的车辆路线规划方法 Download PDF

Info

Publication number
CN115907254A
CN115907254A CN202211471616.8A CN202211471616A CN115907254A CN 115907254 A CN115907254 A CN 115907254A CN 202211471616 A CN202211471616 A CN 202211471616A CN 115907254 A CN115907254 A CN 115907254A
Authority
CN
China
Prior art keywords
vehicle
target
task
route planning
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211471616.8A
Other languages
English (en)
Inventor
高振
刘禹峤
杨雷
代钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202211471616.8A priority Critical patent/CN115907254A/zh
Publication of CN115907254A publication Critical patent/CN115907254A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于进化的多目标强化学习的车辆路线规划方法,涉及路径规划技术领域。该方法将多目标车辆路线规划问题建模为马尔可夫决策过程,通过MMPPO与物流系统环境的交互来学习一组帕累托最优车辆路线策略;从预热阶段开始,随机产生多个学习任务并执行MMPPO来产生后代群体;每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略;预热阶段结束后,进入进化阶段,任务总体和外部帕累托存档都将基于后代群体进行更新,再从任务总体中为每个权重向量选择多个新的学习任务。在MMPPO算法收敛时输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡,决策者可以选择符合当前偏好的方案。

Description

一种基于进化的多目标强化学习的车辆路线规划方法
技术领域
本发明涉及路径规划技术领域,尤其涉及一种基于进化的多目标强化学习的车辆路线规划方法。
背景技术
在电子商务的发展下,配送成本已成为最大的负担,几乎占总物流成本的一半。这就需要设计出更高效车辆路线规划方法,以降低总的物流成本。车辆路线规划问题是一个著名的NP-hard组合优化问题,其目的是优化具有容量约束的车队的路线,以满足客户需求。目前,开发最佳车辆路线规划方案已在工业中和学术界引起了极大的兴趣。
越来越多的研究关注于车辆路线规划中的各种问题。根据需要优化的目标数量,现存的车辆路线规划方案两类,即单目标和多目标优化。在车辆路线规划方案中,大量研究研究单目标优化问题。这些方案仅考虑一个目标进行优化,例如,车辆行驶路线长度或所有车辆的行驶时间。除此之外,车辆路线规划方案中主要采样两种优化技术,即传统优化算法和深度强化学习算法。例如,Zhao J和Mao M等人提出了基于联合强化学习和局部搜索的车辆路线规划方案并最小化总路线长度。Li J和Ma Y等人探究了异构容量的车辆路线规划问题并提出了基于强化学习的方案以最小化所有车辆之间的最大行驶时间。Kalakanti A K和Verma S等人提出了基于强化学习的车辆路线规划方案并最小化总路线成本(例如,时间或者距离)。这些车辆路线规划方案考虑以单个目标为优化目标并采用强化学习算法通过和环境不断交互快速得到最佳的车辆路线规划方案。然而,这些方法只考虑一种优化目标,这通常不符合实际情况。这是因为在现实情况下,物流系统可能有多个需求,例如,道路运输成本、车辆装卸成本、仓库的仓储成本和仓储的均衡度。Jiao L和Peng Z等人提出了基于多阶段启发式算法的车辆路线规划方案并最大化车辆运输的总重量。Azad U和Behera B K等人提出了基于量子近似优化算法的车辆路线规划方法并最小化车辆行驶的距离。这些方法采用了传统优化算法来解决车辆路线规划问题。然而,这些方法通常需要大量的数学运算,导致收敛性差。此外,这些方法在很大程度上依赖于精确的数学建模和专业知识,这不适合动态的物流系统。
除此之外,在车辆路线规划方案中可能存在多种优化目标相互冲突的情况。例如,在设计车辆路线规划方案,不仅考虑了配送过程中车上货物配送完成所需时间最小,而且还考虑了车辆本身行驶过程中的成本最小(例如,车辆的能耗或者油耗)。然而,这两种目标就存在冲突。一些研究工作致力于解决多目标优化问题并尝试解决多目标冲突的问题。例如,Niu Y和Shao J等人提出了多目标进化算法的车辆路线规划方案并最小化使用的车辆数量,总的车辆行驶距离和司机的报酬。Cai Y和Cheng M探究了多目标的车辆路线规划问题并提出了基于混合进化多任务算法的车辆路线规划方案。Elgharably N和Easa S等人探究了随机多目标车辆路线规划问题并提出了基于启发式算法的方案。de Jonge D和BistaffaF等人探究了具有自动协商功能的多目标车辆路线规划问题并提出了基于启发式算法的方案。赵建峰等人以平均道路运输成本、平均车辆装卸成本、仓库的仓储成本、仓储的均衡度和货物运输的剩余时间为优化目标并提出了基于车联网及云计算平台的电动车物流的多目标优化调度算法。张娟萍等人以装卸成本、平均满意度和剩余为优化目标并提出了云计算环境下基于改进粒子群算法的物流车辆路线规划方案。这些方法考虑了多个优化目标并采用传统优化算法来解决车辆路线规划问题。这些方法首先通过加权的方式和将多个目标汇总为一个标量单目标,然后优化这个目标。然而,这些方法可能忽略了优化目标之间存在的冲突。这是因为使用加权和的方式通常是有偏见的,因此这些方案很难使得多个目标之间取得平衡,导致一个次优解。除此之外,这些方法采用了传统的优化技术,例如,启发式算法,博弈论算法。然而,这些方法很难适应动态的物流系统。这是因为动态性和不确定性经常发生在这些方法的执行过程中,导致高计算负担和缓慢响应。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于进化的多目标强化学习的车辆路线规划方法,通过多任务多目标的近端策略优化算法(MMPPO)与物流系统环境的交互来学习一组帕累托最优车辆路线策略,实现车辆路线的规划。
为解决上述技术问题,本发明所采取的技术方案是:一种基于进化的多目标强化学习的车辆路线规划方法,包括以下步骤:
步骤1、对多目标车辆路线规划问题进行描述;
车辆路线规划系统环境由n个客户和一个仓库组成,即n+1个节点;di,j表示每两节点之间的距离并且是已知的;车辆路线规划的总体目标是确定由同质车队m执行的路线集,以服务具有不确定需求q的给定客户集n;每个客户i都与一个时间窗口TW[αii]相关联和一个不确定的服务时间si;αi是客户能够接受服务的最早时间,而βi是客户能够由车辆k提供服务的最晚时间;车辆路线规划的优化目标是最小化预期的总旅行成本,最小化预期的燃料消耗率,以及最大化预期的客户满意度;除此之外,每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车,而且分配给一辆车的所有客户的总需求不超过其容量Q;
步骤2、对车辆路线规划问题进行数学建模;
设定起始客户为第一个节点,即仓库;给定车辆k,Xi,i∈(1,n)代表当前车辆访问的节点,Yi代表当前车辆下一个要访问的节点;当前车辆从当前节点到终点要经过m条路线,节点Xi与节点Yi的距离
Figure BDA0003958684920000031
与每个边相关联,代表在路线k上从节点
Figure BDA0003958684920000032
到节点
Figure BDA0003958684920000033
的距离;
Figure BDA0003958684920000034
表示决策变量并且决定了路线k上要访问的下一个客户i的值;
Figure BDA0003958684920000035
变量代表路线k上的弧的起始节点的值;二元变量
Figure BDA0003958684920000036
代表路线k上所有可能相连接的弧;如果
Figure BDA0003958684920000037
属于路线k,则
Figure BDA0003958684920000038
的值为1,否则为0;
通过以下公式(1)-(3)来定义车辆路线规划问题:
Figure BDA0003958684920000039
Figure BDA00039586849200000310
Figure BDA00039586849200000311
并满足以下约束:
Figure BDA00039586849200000312
Figure BDA00039586849200000313
Figure BDA00039586849200000314
Figure BDA00039586849200000315
Figure BDA00039586849200000316
Figure BDA00039586849200000317
Figure BDA00039586849200000318
Figure BDA00039586849200000319
Figure BDA00039586849200000320
Figure BDA00039586849200000321
Figure BDA00039586849200000322
其中,f1、f2和f3均表示目标函数,第一个目标函数的第一项
Figure BDA00039586849200000323
Figure BDA00039586849200000324
是计算从所有k条路线的预期旅行时间计算出的预期总旅行成本,其中m表示路线的条数;
Figure BDA0003958684920000041
表示从
Figure BDA00039586849200000416
Figure BDA00039586849200000417
的预期行驶时间;Ct表示单位时间的成本;第二项
Figure BDA0003958684920000042
Figure BDA0003958684920000043
代表每辆车的固定运营成本,其中F是车辆运营成本;第三项
Figure BDA0003958684920000044
为反映车辆提前到达的情况,引起客户的工作等待成本,第四项
Figure BDA0003958684920000045
为反映车辆延迟到达仓库的情况的仓库等待成本;Ce是提前到达客户处的成本,而Cd是延迟到达仓库的成本;第二个目标函数(2)用于最小化燃料消耗的预期成本;Cfuel表示单位燃料成本,
Figure BDA0003958684920000046
是两个节点之间的距离,p0是车辆空载的燃料消耗率,a是燃料消耗率和车辆负荷之间的线性回归系数;γ=(p*-p0)/Q,其中p*是车辆满负荷的燃料消耗率;
Figure BDA0003958684920000047
表示一个路线上的车辆总重;第三个目标函数(3)用于使预期的客户满意度最大化;E(SVi)为预期顾客满意值,是衡量在所有顾客需求得到满足的情况下,每个顾客对时间窗口TW的偏差,SVi表示车辆到达的时间与时间窗口上限βi之间的时间差;约束条件(4)和(5)确保每条路线的起点和终点都是仓库;约束条件(6)确保k条路线中的每条路线不被分割;约束(7)和(8)确定了节点的取值范围,而约束(9)和(10)确保每个客户正好被访问一次;E(qYj)为预期的客户需求Qk为车辆的容量,q表示客户的需求;约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力;不等式约束(12)和(13),代表了时间窗口约束,每个客户i有一个时间窗口TW[aii];到下一个客户的预期行程时间是
Figure BDA0003958684920000048
约束(14)是非负性约束,保证节点
Figure BDA0003958684920000049
Figure BDA00039586849200000410
两个变量只能是整数值;
步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程,并且使用三个元组U={S,A,r}来定义这个过程,其中,S为状态空间、A为行动空间和r为奖励函数;具体定义如下:
(1)状态空间S:在马尔科夫决策过程中,每个状态st=(Kt,Mt,Ot,qt,Ot)∈S;其中,Kt是车辆状态,Mt表示车辆的线路集合,Qt表示车辆的容量状态,qt表示客户的需求状态,Ot表示车辆和客户的位置集合;
(2)行动空间A:行动空间中的动作at定义为选择要访问的车辆和节点,即
Figure BDA00039586849200000411
Figure BDA00039586849200000412
在时间间隔t,所选节点
Figure BDA00039586849200000413
将由车辆
Figure BDA00039586849200000414
服务;
(3)奖励函数r:定义奖励函数为:
Figure BDA00039586849200000415
其中,t表示时间间隔,T表示车辆行驶时间,E表示车辆行驶燃料消耗,S表示客户满意度,ε1、ε2和ε3分别为三个优化目标f1、f2、f3的惩罚系数;
步骤4、采用基于多任务多目标的近端策略优化MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题;
一、MMPPO算法的定义:
用元组
Figure BDA0003958684920000051
表示一个学习任务,其中w为权向量,
Figure BDA0003958684920000052
πθ是目标策略用来选择动作;
Figure BDA00039586849200000513
是用于收集策略车辆路径的样本策略;
Figure BDA0003958684920000053
是评价所选择动作的多目标函数;通过与物流系统环境的相互作用,利用样本策略
Figure BDA00039586849200000514
升级车辆路线集合;生成的车辆路线集合被用来更新目标策略πθ
设定一个裁剪的代理目标,以惩罚变化幅度大于设定阈值的策略,最终裁剪的代理目标损失函数
Figure BDA0003958684920000054
定义如下:
Figure BDA0003958684920000055
其中,
Figure BDA0003958684920000056
是时间步长t的扩展优势函数,即向量值优势函数At中所有元素的加权和;
根据贝尔曼方程,At的定义如下:
Figure BDA0003958684920000057
其中,λ∈[0,1]是用于调整方差和偏差之间的权衡参数;γ是折扣因子;
Figure BDA0003958684920000058
是裁剪函数,它约束了Δ的取值;Δ表示裁剪函数的输入,∈表示裁剪的范围;St+k表示第t+k时刻的状态;
价值函数损失定义如下:
Figure BDA0003958684920000059
其中,
Figure BDA00039586849200000510
是价值函数,
Figure BDA00039586849200000511
是目标值函数;
二、采用MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题,包括预热阶段和进化阶段;
(1)预热阶段:
在此阶段,随机生成z个学习任务;这些任务共享相同的状态空间、动作空间和奖励功能,但它们的动态是不同的;
任务生成过程描述如下:首先生成z个均匀分布的权重向量{w1,...,wz},每个权重向量从单位样本中采样;
Figure BDA00039586849200000512
是对于任务数量的目标在单位样本中按照间隔1/δ采样的点,其中,δ>0是沿着每个目标轴考虑的分割数;为了获得单位样本中中间权重向量,令δ>l,l为优化目标个数;
其次,随机初始z个目标策略网络
Figure BDA0003958684920000061
初始化相应的样本策略网络
Figure BDA0003958684920000062
其参数设置与目标策略网络相同,即
Figure BDA0003958684920000063
然后,随机初始化z个多目标值网络
Figure BDA0003958684920000064
在每个多目标值网络中,输出层中的神经元数量与优化目标相同;
最后,将学习任务集表示为Ω={Γ1,..,Γz},其中
Figure BDA0003958684920000065
生成任务后,运行多目标的近端策略优化算法MMPPO以获得后代群体P';其中每个学习任务Γi'∈Ω通过执行MAPPO算法进行预定义迭代次数Φ来优化;在每次迭代后将每个新的学习任务存储在后代群体P'中来改进原始MMPPO算法,即保留所有MMPPO算法在后代群体中产生的学习任务;
(2)进化阶段:
在该阶段,设定任务总体为P,并使用多个缓冲器来存储P;首先基于后代群体P'更新任务总体P;采用缓冲策略来更新P,令Pnum和Psize分别表示缓冲区的数量及其大小;这些缓存空间被均匀的划分为Pnum个缓冲区,每个缓冲区最多存储Psize个学习任务;根据目标策略的目标值
Figure BDA0003958684920000066
和参考点Zref,将与目标策略πθ相关联的任务存储到相应的缓冲区中;
对于任意缓冲区,将根据任务到参考点Zref的距离按降序排序任务;如果任务数超过Psize,只保留该缓冲区中的第一个Psize任务;最后,所有缓冲区中的学习任务形成一个新的任务群体;
外部累帕托用于存储进化阶段中发现的非主导策略;在每次一迭代中,基于后代群体P'更新外部累帕托;对于后代群体P'中每个学习任务的目标策略πθ,如果外部累帕托中没有策略支配
Figure BDA0003958684920000067
将移除πθ的策略;
对于每个权重向量wi'∈W,从任务总体P中选择最佳的学习任务来更新学习任务集Ω;首先,计算每个学习任务Γj'∈P,j'=1,...,|P|的目标策略πθ的目标向量
Figure BDA0003958684920000068
在时间步t,状态st被输入到
Figure BDA0003958684920000069
而后将输出动作
Figure BDA00039586849200000610
即在时间间隔t,所选节点
Figure BDA00039586849200000611
将由车辆
Figure BDA00039586849200000612
服务;车辆将采取动作at并接收奖励rt和下一个状态st+1;在T个时间步后获得立即奖励集合{r1,...,rT},计算目标向量
Figure BDA0003958684920000071
其中“+”是向量加法;然后,基于wi'
Figure BDA0003958684920000072
在总体任务P中选出z个最佳的学习任务;最后,将z个选定的学习任务添加到学习任务集Ω;以学习任务集Ω和zevo为输入来运行MMPPO算法获得P',其中zevo是进化阶段中预定义的任务迭代次数;
当完成预定数量的进化世代时,进化阶段结束;存储在外部累帕托中的所有非支配策略被输出为车辆路线规划问题的近似累帕托最优策略。
本发明方法将多目标车辆路线规划问题建模为马尔可夫决策过程,通过多任务多目标的近端策略优化算法MMPPO与物流系统环境的交互来学习一组帕累托最优车辆路线策略;从预热阶段开始,随机产生多个学习任务并通过执行MMPPO来产生后代群体;每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略;预热阶段结束后,进入进化阶段,任务总体和外部帕累托存档都将基于后代群体进行更新,再从任务总体中为每个权重向量选择多个新的学习任务。MMPPO算法对这些任务进行了优化,以生成新一代的后代群体P'。MMPPO算法一旦收敛,就会输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡,决策者可以选择符合当前偏好的方案。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于进化的多目标强化学习的车辆路线规划方法,将多目标车辆路线规划问题建模为马尔可夫决策过程,并提出了多任务多目标的近端策略优化算法MMPPO,将MMPPO算法与物流系统环境的交互来学习一组帕累托最优车辆路线策略。从预热阶段开始,随机产生n个学习任务并通过执行MMPPO算法来产生后代群体。每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略。预热阶段结束后进入进化阶段,任务总体和外部帕累托存档都将基于后代群体进行更新,然后,从任务总体中为每个权重向量选择z个新的学习任务。MMPPO算法对这些任务进行了优化,以生成新一代的后代群体。MMPPO算法一旦收敛,就会输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡,决策者可以选择符合当前偏好的方案。本发明方法在反转世代距离(Inverted GenerationalDistance(IGD))和超体积(Hyper Volume(HV))这两个性能评价指标上均取得了更好的优化目标之间的平衡,对解决多目标车辆路线规划问题非常具有潜力,有助于决策者选择与当前客户偏好最匹配的车辆路线。
附图说明
图1为本发明实施例提供的一种基于进化的多目标强化学习的车辆路线规划方法的流程图;
图2为本发明实施例提供的车辆路线规划示意图;
图3为本发明实施例提供的三个优化目标问题的15个均匀分布的权向量;
图4为本发明实施例提供的四种算法在IGD性能评价指标上的收敛曲线图;
图5为本发明实施例提供的四种算法在HV性能评价指标上的收敛曲线图;
图6为本发明实施例提供的四种算法在旅行总时间方面的性能对比图;
图7为本发明实施例提供的四种算法在燃料消耗方面的性能对比图;
图8为本发明实施例提供的四种算法在客户满意度方面的性能对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,一种基于进化的多目标强化学习的车辆路线规划方法,包括以下步骤:
步骤1、对多目标车辆路线规划问题进行描述;
车辆路线规划系统环境由n个客户和一个仓库组成,即n+1个节点;di,j表示每两节点之间的距离并且是已知的;车辆路线规划的总体目标是确定由同质车队m执行的路线集,以服务具有不确定需求q的给定客户集n;每个客户i都与一个时间窗口TW[αii]相关联和一个不确定的服务时间si;αi是客户能够接受服务的最早时间,而βi是客户能够由车辆k提供服务的最晚时间;车辆路线规划的优化目标是最小化预期的总旅行成本,最小化预期的燃料消耗率,以及最大化预期的客户满意度;除此之外,每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车,而且分配给一辆车的所有客户的总需求不超过其容量Q;
步骤2、对于车辆路线规划问题进行数学建模;
设定起始客户为第一个节点,即仓库;给定车辆k,Xi,i∈(1,n)代表当前车辆访问的节点,Yi代表当前车辆下一个要访问的节点;如图1所示,当前车辆从当前节点到终点要经过m条路线,节点Xi与节点Yi的距离
Figure BDA0003958684920000081
与每个边相关联,代表在路线k上从节点
Figure BDA0003958684920000082
到节点
Figure BDA0003958684920000083
的距离;
Figure BDA0003958684920000084
表示决策变量并且决定了路线k上要访问的下一个客户i的值;
Figure BDA0003958684920000085
变量代表路线k上的弧的起始节点的值;二元变量
Figure BDA0003958684920000086
代表路线k上所有可能相连接的弧;如果
Figure BDA0003958684920000087
属于路线k,则
Figure BDA0003958684920000088
的值为1,否则为0;
通过以下公式(1)-(3)来定义车辆路线规划问题:
Figure BDA0003958684920000091
Figure BDA0003958684920000092
Figure BDA0003958684920000093
并满足以下约束:
Figure BDA0003958684920000094
Figure BDA0003958684920000095
Figure BDA0003958684920000096
Figure BDA0003958684920000097
Figure BDA0003958684920000098
Figure BDA0003958684920000099
Figure BDA00039586849200000910
Figure BDA00039586849200000911
Figure BDA00039586849200000912
Figure BDA00039586849200000913
Figure BDA00039586849200000914
其中,f1、f2和f3均表示目标函数,第一个目标函数的第一项
Figure BDA00039586849200000915
Figure BDA00039586849200000916
是计算从所有k条路线的预期旅行时间计算出的预期总旅行成本,其中m表示路线的条数;
Figure BDA00039586849200000917
表示从
Figure BDA00039586849200000918
Figure BDA00039586849200000919
的预期行驶时间;Ct表示单位时间的成本;第二项
Figure BDA00039586849200000920
Figure BDA00039586849200000921
代表每辆车的固定运营成本,其中F是车辆运营成本;第三项
Figure BDA00039586849200000922
为反映车辆提前到达的情况,引起客户的工作等待成本,第四项
Figure BDA00039586849200000923
为反映车辆延迟到达仓库的情况的仓库等待成本;Ce是提前到达客户处的成本,而Cd是延迟到达仓库的成本;第二个目标函数(2)用于最小化燃料消耗的预期成本;Cfuel表示单位燃料成本,
Figure BDA00039586849200000924
是两个节点之间的距离,p0是车辆空载的燃料消耗率,α是燃料消耗率和车辆负荷之间的线性回归系数;γ=(p*-p0)/Q,其中p*是车辆满负荷的燃料消耗率;
Figure BDA0003958684920000101
表示一个路线上的车辆总重;第三个目标函数(3)用于使预期的客户满意度最大化;E(SVi)为预期顾客满意值,是衡量在所有顾客需求得到满足的情况下,每个顾客对时间窗口TW的偏差,SVi表示车辆到达的时间与时间窗口上限βi之间的时间差;约束条件(4)和(5)确保每条路线的起点和终点都是仓库;约束条件(6)确保k条路线中的每条路线不被分割;也就是说,如果一辆车到达了一个客户,它最终又离开了客户;约束(7)和(8)确定了节点的取值范围,而约束(9)和(10)确保每个客户正好被访问一次;对于每个客户,预期的客户需求E(qYj)是以已知的,分布存在的,而且每辆车都有一个有限的容量Qk,q表示客户的需求,并且客户需求是独立的,只有当车辆到达客户时才知道;约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力;不等式约束(12)和(13),代表了时间窗口约束,每个客户i有一个时间窗口TW[αii];到下一个客户的预期行程时间是
Figure BDA0003958684920000102
约束(14)是非负性约束,保证节点
Figure BDA0003958684920000103
Figure BDA0003958684920000104
两个变量只能是整数值;
步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程,并且使用三个元组U={S,A,r}来定义这个过程,其中,S为状态空间、A为行动空间和r为奖励函数;具体定义如下:
(1)状态空间S:在马尔科夫决策过程中,每个状态st=(Kt,Mt,Qt,qt,Ot)∈S;其中,Kt是车辆状态,Mt表示车辆的线路集合,Qt表示车辆的容量状态,qt表示客户的需求状态,Ot表示车辆和客户的位置集合;
(2)行动空间A:行动空间中的动作at定义为选择要访问的车辆和节点(客户或车辆段),即
Figure BDA0003958684920000105
在时间间隔t,所选节点
Figure BDA0003958684920000106
将由车辆
Figure BDA0003958684920000107
服务(或访问);
(3)奖励函数r:车辆路线规划的目标是最小化车辆行驶的时间成本,燃料成本和最大化客户满意度。定义奖励函数为:
Figure BDA0003958684920000108
其中,t表示时间间隔,T表示车辆行驶时间,E表示车辆行驶燃料消耗,S表示客户满意度,ε1、ε2和ε3分别为三个优化目标f1、f2、f3的惩罚系数;这是因为在强化学习中会使奖励最大化,因此满足我们的优化目标。此外,当车辆的行驶时间超过了客户的预期时间,将对三个优化目标的奖励进行惩罚。因此,惩罚系数ε1、ε2和ε3分别用于减少这三个优化目标的奖励值。
步骤4、采用基于多任务多目标的近端策略优化(MMPPO)算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题;
本步骤旨在通过与物流系统环境的交互来学习一组帕累托最优车辆路线策略,其伪代码如表1所示的算法1,算法框架如图2所示。首先,本发明提出了基于多任务多目标的近端策略优化(MMPPO)算法的车辆路线方案,其伪代码如表2所示的算法2。从预热阶段开始,随机产生z个学习任务。通过执行MMPPO算法来产生后代群体。每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略。预热阶段结束后,进入进化阶段,任务总体和外部帕累托存档都将基于后代群体进行更新,然后,从任务总体中为每个权重向量选择z个新的学习任务。最后,对这些任务进行优化,以生成新一代的后代群体P'。当完成预设数量的后代后,进化阶段将结束。接下来,我们详细阐述MMPPO算法的定义和训练过程(即,预热和进化阶段)。
一、MMPPO算法的定义:
用元组
Figure BDA0003958684920000111
表示一个学习任务,其中w为权向量,
Figure BDA0003958684920000112
πθ是目标策略用来选择动作;
Figure BDA00039586849200001112
是用于收集策略车辆路径的样本策略;
Figure BDA0003958684920000113
是评价所选择动作的多目标函数;通过与物流系统环境的相互作用,利用样本策略
Figure BDA00039586849200001113
升级车辆路线集合;生成的车辆路线集合被用来更新目标策略πθ
为了避免目标策略更新幅度过大,设定一个裁剪的代理目标,以惩罚变化幅度大于设定阈值的策略,最终裁剪的代理目标损失函数
Figure BDA0003958684920000114
定义如下:
Figure BDA0003958684920000115
其中,
Figure BDA0003958684920000116
是时间步长t的扩展优势函数,即向量值优势函数At中所有元素的加权和;
根据贝尔曼方程,At的定义如下:
Figure BDA0003958684920000117
其中,λ∈[0,1]是用于调整方差和偏差之间的权衡参数;γ是折扣因子;
Figure BDA0003958684920000118
是裁剪函数,它约束了Δ的取值;Δ表示裁剪函数的输入,∈表示裁剪的范围;St+k表示第t+k时刻的状态;
价值函数损失定义如下:
Figure BDA0003958684920000119
其中,
Figure BDA00039586849200001110
是价值函数,
Figure BDA00039586849200001111
是目标值函数;通过这种扩展,可以直接调整在先前学习过程中训练的值函数,以优化具有新权重向量的相同策略。
二、采用MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题,包括预热阶段和进化阶段;
(1)预热阶段:
在此阶段,随机生成z个学习任务;这些任务共享相同的状态空间、动作空间和奖励功能,但它们的动态是不同的;这种动态意味着每个学习任务在运行一次MMPPO后将生成各种新的子任务;一般来说,这些由不同任务生成的后代学习任务具有很大的差异,因为它们具有不同的权重向量和神经网络参数。
任务生成过程描述如下:首先生成z个均匀分布的权重向量{w1,...,wz},每个权重向量从单位样本中采样;
Figure BDA0003958684920000121
是对于任务数量的目标在单位样本中按照间隔1/δ采样的点,其中,δ>0是沿着每个目标轴考虑的分割数;为了获得单位样本中中间权重向量,令δ>l,l为优化目标个数;例如,对于具有三个目标(l=3)的车辆路线规划问题,如果每个目标轴考虑四个分割(δ=4),
Figure BDA0003958684920000122
生成15个均匀分布的权重向量。这些权重向量如图3所示。
其次,随机初始z个目标策略网络
Figure BDA0003958684920000123
初始化相应的样本策略网络
Figure BDA0003958684920000124
其参数设置与目标策略网络相同,即
Figure BDA0003958684920000125
i'=1,...,z,然后,随机初始化z个多目标值网络
Figure BDA0003958684920000126
在每个多目标值网络中,输出层中的神经元数量与优化目标相同;
最后,将学习任务集表示为Ω={Γ1,..,Γz},其中
Figure BDA0003958684920000127
生成任务后,运行多目标的近端策略优化算法MMPPO以获得后代群体P';如算法2所示,其中每个学习任务Γi'∈Ω通过执行MAPPO算法进行预定义迭代次数Φ(在该阶段等于nwarm)来优化;在每次迭代后将每个新的学习任务存储在后代群体P'中来改进原始MMPPO算法;
对于进化学习算法来说,设计适当的操作以在进化过程中生成高质量的后代学习任务是非常重要的。这是因为高质量的后代学习任务继承了父母任务的优秀特征,这有助于保持种群多样性和改善全局探索。
我们算法中的MMPPO在生成后代群体P'时起着至关重要的作用。然而,原始MMPPO仅在Φ迭代后存储P'中的最后一个学习任务,这可能会丢失大量有前途的学习任务。为了克服这一缺点,我们通过在每次迭代后将每个新的学习任务存储在P'中来改进原始MMPPO。换句话说,我们保留了所有MMPPO算法在后代群体中产生的学习任务。因此,运行一次MMPPO可以获得z个Φ的新的学习任务,其中z是学习任务的数量。改进的MMPPO可以产生高质量的后代群体,从而增强原始我们算法的多目标优化性能。
预热阶段可以提供一组有价值的学习任务,其中策略位于搜索空间中的高性能区域。从这些任务开始,我们算法的学习过程具有低噪音,因此更有可能获得优异的多目标优化结果。
(2)进化阶段:
在该阶段,设定任务总体为P,使用了许多高性能缓冲器来存储P;首先基于后代群体P'更新任务总体P(算法1的步骤9)。任务总体更新过程如表3所示的算法3。采用缓冲策略来更新P,为了多样性和性能良好,我们使用了许多高性能缓冲器来存储P。令Pnum和Psize分别表示高性能缓冲区的数量及其大小;这些高性能缓存空间被均匀的划分为Pnum个性能缓冲区,每个缓冲区最多存储Psize个学习任务;根据目标策略的目标值
Figure BDA0003958684920000131
和参考点Zref,将与目标策略πθ相关联的任务存储到相应的性能缓冲区中;
对于任意高性能缓冲区,将根据任务到参考点Zref的距离按降序排序任务;如果任务数超过Psize,只保留该缓冲区中的第一个Psize任务;最后,所有高性能缓冲区中的学习任务形成一个新的任务群体;
外部累帕托用于存储进化阶段中发现的非主导策略,在每次一迭代中,基于后代群体P'更新外部累帕托(算法1的步骤10);对于后代群体P'中每个学习任务的目标策略πθ,如果外部累帕托中没有策略支配
Figure BDA0003958684920000132
将移除πθ的策略;
对于每个权重向量wi'∈W,从任务总体P中选择最佳的学习任务来更新学习任务集Ω;首先,计算每个学习任务Γj'∈P,j'=1,...,|P|的目标策略πθ的目标向量
Figure BDA0003958684920000133
在时间步t,状态st被输入到
Figure BDA0003958684920000134
而后将输出动作
Figure BDA0003958684920000135
即在时间间隔t,所选节点
Figure BDA0003958684920000136
将由车辆
Figure BDA0003958684920000137
服务;车辆将采取动作at并接收奖励rt和下一个状态st+1;在T个时间步后获得立即奖励集合{r1,...,rT},计算目标向量
Figure BDA0003958684920000138
其中“+”是向量加法;然后,基于wi'
Figure BDA0003958684920000139
在总体任务P中选出z个最佳的学习任务;最后,将z个选定的学习任务添加到学习任务集Ω;以学习任务集Ω和zevo为输入来运行MMPPO算法获得P',其中zevo是进化阶段中预定义的任务迭代次数;
当完成预定数量的进化世代时,进化阶段结束;存储在外部累帕托中的所有非支配策略被输出为车辆路线规划问题的近似累帕托最优策略;这些政策对应于车辆行驶时间、燃料消耗和客户满意度之间的不同权衡,有助于决策者在设计复杂的车辆路线规划方案时在冲突问题/关注点之间做出妥协。
表1车辆路线规划问题的进化多目标强化学习
Figure BDA0003958684920000141
Figure BDA0003958684920000151
表2多任务多目标PPO(MMPPO)算法
Figure BDA0003958684920000152
表3任务总体更新算法
Figure BDA0003958684920000153
Figure BDA0003958684920000161
为了验证本发明方法的有效性,本实施例将本发明方法与现有三种车辆路线规划方法(Reinforcement Learning and Local Search based Vehicle Route PlanningAlgorithm,Multi-objective Evolutionary based Vehicle Route PlanningAlgorithm和基于改进粒子群算法的物流车辆路径规划算法)进行对比。为了简明起见,将本发明以及对比算法的名称分别简称为EMORL-VRP,RLLS-VRP,MO-VRPSD和PS-VRP。首先,探究了不同演化代数(Generation)对于IGD和HV评价指标值的影响,如图4、5所示。从这两个图可以看出,本发明方法在反转世代距离(Inverted Generational Distance(IGD))和超体积(HyperVolume(HV))两个性能评价指标上均取得了更好的优化目标之间的平衡,例如,相比于其他的算法,本发明降低了IGD值为8.77%~17.23%;和提高了HV值为8.77%~28.35%。这是因为本发明在EMORL-VRP中改进了原始的MMPPO,在每次迭代后将每个新的学习任务存储在子代群体中,即本发明将MMPPO产生的所有学习任务保存。改进后的MMPPO可以产生高质量的子代群体,从而提高EMORL-VRP的性能。
其次,本发明探究了不同算法在车辆行驶时间、总的车辆燃料消耗和总的客户满意度方面的性能,如图6-8所示,相比于现有的算法,本发明方法总的车辆行驶时间(Normalized Delay)降低了8.44%~18.12%;总的车辆燃料消耗(Normalized FuelConsumption)降低了24.93%~31.45%;总的客户满意度(Normalized CustomerSatisfaction)提高了10.13%~21.67%。这是因为对于车辆路径规划问题,本发明提出了一种高效的进化学习算法来寻找帕累托集的近似值,能够更好的平衡多个优化目标之间的冲突,从而得到较低的车辆行驶时延和燃料消耗以及较高的客户满意度。因此,以上对比结果表明本发明方法对解决多目标车辆路线规划问题非常具有潜力,有助于决策者选择与当前客户偏好最匹配的车辆路线。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (7)

1.一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:
步骤1、对多目标车辆路线规划问题进行描述;
步骤2、对车辆路线规划问题进行数学建模;
步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程;
步骤4、求解建模为马尔科夫决策过程的多目标车辆路线规划问题,得到车辆路线规划问题的最优策略。
2.根据权利要求1所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤1将多目标车辆路线规划问题描述为;
车辆路线规划系统环境由n个客户和一个仓库组成,即n+1个节点;di,j表示每两节点之间的距离并且是已知的;车辆路线规划的总体目标是确定由同质车队m执行的路线集,以服务具有不确定需求q的给定客户集n;每个客户i都与一个时间窗口TW[αii]相关联和一个不确定的服务时间si;αi是客户能够接受服务的最早时间,而βi是客户能够由车辆k提供服务的最晚时间;车辆路线规划的优化目标是最小化预期的总旅行成本,最小化预期的燃料消耗率,以及最大化预期的客户满意度;除此之外,每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车,而且分配给一辆车的所有客户的总需求不超过其容量Q。
3.根据权利要求2所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤2对车辆路线规划问题进行数学建模的具体方法为:
设定起始客户为第一个节点,即仓库;给定车辆k,Xi,i∈(1,n)代表当前车辆访问的节点,Yi代表当前车辆下一个要访问的节点;当前车辆从当前节点到终点要经过m条路线,节点Xi与节点Yi的距离
Figure FDA0003958684910000011
与每个边相关联,代表在路线k上从节点
Figure FDA0003958684910000012
到节点
Figure FDA0003958684910000013
的距离;
Figure FDA0003958684910000014
表示决策变量并且决定了路线k上要访问的下一个客户i的值;
Figure FDA0003958684910000015
变量代表路线k上的弧的起始节点的值;二元变量
Figure FDA0003958684910000016
代表路线k上所有可能相连接的弧;如果
Figure FDA0003958684910000017
属于路线k,则
Figure FDA0003958684910000018
的值为1,否则为0;
通过以下公式(1)-(3)来定义车辆路线规划问题:
Figure FDA0003958684910000019
Figure FDA00039586849100000110
Figure FDA0003958684910000021
并满足以下约束:
Figure FDA0003958684910000022
Figure FDA0003958684910000023
Figure FDA0003958684910000024
Figure FDA0003958684910000025
Figure FDA0003958684910000026
Figure FDA0003958684910000027
Figure FDA0003958684910000028
Figure FDA0003958684910000029
Figure FDA00039586849100000210
Figure FDA00039586849100000211
Figure FDA00039586849100000212
其中,f1、f2和f3均表示目标函数,第一个目标函数的第一项
Figure FDA00039586849100000213
Figure FDA00039586849100000214
是计算从所有k条路线的预期旅行时间计算出的预期总旅行成本,其中m表示路线的条数;
Figure FDA00039586849100000215
表示从
Figure FDA00039586849100000216
Figure FDA00039586849100000217
的预期行驶时间;Ct表示单位时间的成本;第二项
Figure FDA00039586849100000218
代表每辆车的固定运营成本,其中F是车辆运营成本;第三项
Figure FDA00039586849100000219
Figure FDA00039586849100000220
为反映车辆提前到达的情况,引起客户的工作等待成本,第四项
Figure FDA00039586849100000221
Figure FDA00039586849100000222
为反映车辆延迟到达仓库的情况的仓库等待成本;Ce是提前到达客户处的成本,而Cd是延迟到达仓库的成本;第二个目标函数(2)用于最小化燃料消耗的预期成本;Cfuel表示单位燃料成本,
Figure FDA00039586849100000223
是两个节点之间的距离,p0是车辆空载的燃料消耗率,α是燃料消耗率和车辆负荷之间的线性回归系数;γ=(p*-p0)/Q,其中p*是车辆满负荷的燃料消耗率;
Figure FDA00039586849100000224
表示一个路线上的车辆总重;第三个目标函数(3)用于使预期的客户满意度最大化;E(SVi)为预期顾客满意值,是衡量在所有顾客需求得到满足的情况下,每个顾客对时间窗口TW的偏差,SVi表示车辆到达的时间与时间窗口上限βi之间的时间差;约束条件(4)和(5)确保每条路线的起点和终点都是仓库;约束条件(6)确保k条路线中的每条路线不被分割;约束(7)和(8)确定了节点的取值范围,而约束(9)和(10)确保每个客户正好被访问一次;E(qYj)为预期的客户需求Qk为车辆的容量,q表示客户的需求;约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力;不等式约束(12)和(13),代表了时间窗口约束,每个客户i有一个时间窗口TW[αii];到下一个客户的预期行程时间是
Figure FDA0003958684910000031
约束(14)是非负性约束,保证节点
Figure FDA0003958684910000032
Figure FDA0003958684910000033
两个变量只能是整数值。
4.根据权利要求3所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤3将多目标车辆路线规划问题建模为马尔科夫决策过程时,使用三个元组U={S,A,r}来定义这个过程,其中,S为状态空间、A为行动空间和r为奖励函数,具体定义如下:
(1)状态空间S:在马尔科夫决策过程中,每个状态st=(Kt,Mt,Qt,qt,Ot)∈S;其中,Kt是车辆状态,Mt表示车辆的线路集合,Qt表示车辆的容量状态,qt表示客户的需求状态,Ot表示车辆和客户的位置集合;
(2)行动空间A:行动空间中的动作at定义为选择要访问的车辆和节点,即
Figure FDA0003958684910000034
Figure FDA0003958684910000035
在时间间隔t,所选节点
Figure FDA0003958684910000036
将由车辆
Figure FDA0003958684910000037
服务;
(3)奖励函数r:定义奖励函数为:
Figure FDA0003958684910000038
其中,t表示时间间隔,T表示车辆行驶时间,E表示车辆行驶燃料消耗,S表示客户满意度,ε1、ε2和ε3分别为三个优化目标f1、f2、f3的惩罚系数。
5.根据权利要求4所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤4采用基于多任务多目标的近端策略优化MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题,得到车辆路线规划问题的近似累帕托最优策略,具体方法为:
一、MMPPO算法的定义:
用元组
Figure FDA0003958684910000039
表示一个学习任务,其中w为权向量,
Figure FDA00039586849100000310
πθ是目标策略用来选择动作;
Figure FDA00039586849100000313
是用于收集策略车辆路径的样本策略;
Figure FDA00039586849100000311
是评价所选择动作的多目标函数;通过与物流系统环境的相互作用,利用样本策略
Figure FDA00039586849100000314
升级车辆路线集合;生成的车辆路线集合被用来更新目标策略πθ
设定一个裁剪的代理目标,以惩罚变化幅度大于设定阈值的策略,最终裁剪的代理目标损失函数
Figure FDA00039586849100000312
定义如下:
Figure FDA0003958684910000041
其中,
Figure FDA0003958684910000042
是时间步长t的扩展优势函数,即向量值优势函数At中所有元素的加权和;
根据贝尔曼方程,At的定义如下:
Figure FDA0003958684910000043
其中,λ∈[0,1]是用于调整方差和偏差之间的权衡参数;γ是折扣因子;
Figure FDA0003958684910000044
是裁剪函数,它约束了Δ的取值;Δ表示裁剪函数的输入,∈表示裁剪的范围;St+k表示第t+k时刻的状态;
价值函数损失定义如下:
Figure FDA0003958684910000045
其中,
Figure FDA0003958684910000046
是价值函数,
Figure FDA0003958684910000047
是目标值函数;
二、采用MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题,包括预热阶段和进化阶段。
6.根据权利要求5所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述预热阶段的任务生成过程描述如下:首先生成z个均匀分布的权重向量{w1,...,wz},每个权重向量从单位样本中采样;
Figure FDA0003958684910000048
是对于任务数量的目标在单位样本中按照间隔1/δ采样的点,其中,δ>0是沿着每个目标轴考虑的分割数;为了获得单位样本中中间权重向量,令δ>l,l为优化目标个数;
其次,随机初始z个目标策略网络
Figure FDA0003958684910000049
初始化相应的样本策略网络
Figure FDA00039586849100000410
其参数设置与目标策略网络相同,即
Figure FDA00039586849100000411
然后,随机初始化z个多目标值网络
Figure FDA00039586849100000412
在每个多目标值网络中,输出层中的神经元数量与优化目标相同;
最后,将学习任务集表示为Ω={Γ1,..,Γz},其中
Figure FDA00039586849100000413
生成任务后,运行多目标的近端策略优化算法MMPPO以获得后代群体P';其中每个学习任务Γi'∈Ω通过执行MAPPO算法进行预定义迭代次数Φ来优化;在每次迭代后将每个新的学习任务存储在后代群体P'中来改进原始MMPPO算法,即保留所有MMPPO算法在后代群体中产生的学习任务。
7.根据权利要求6所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述进化阶段的具体方法为:
在该阶段,设定任务总体为P,并使用多个缓冲器来存储P;首先基于后代群体P'更新任务总体P;采用缓冲策略来更新P,令Pnum和Psize分别表示缓冲区的数量及其大小;这些缓存空间被均匀的划分为Pnum个缓冲区,每个缓冲区最多存储Psize个学习任务;根据目标策略的目标值
Figure FDA0003958684910000059
和参考点Zref,将与目标策略πθ相关联的任务存储到相应的缓冲区中;
对于任意缓冲区,将根据任务到参考点Zref的距离按降序排序任务;如果任务数超过Psize,只保留该缓冲区中的第一个Psize任务;最后,所有缓冲区中的学习任务形成一个新的任务群体;
外部累帕托用于存储进化阶段中发现的非主导策略;在每次一迭代中,基于后代群体P'更新外部累帕托;对于后代群体P'中每个学习任务的目标策略πθ,如果外部累帕托中没有策略支配
Figure FDA0003958684910000051
将移除πθ的策略;
对于每个权重向量wi'∈W,从任务总体P中选择最佳的学习任务来更新学习任务集Ω;首先,计算每个学习任务Γj'∈P,j'=1,...,|Q|的目标策略πθ的目标向量
Figure FDA0003958684910000052
在时间步t,状态st被输入到
Figure FDA0003958684910000053
而后将输出动作
Figure FDA0003958684910000054
即在时间间隔t,所选节点
Figure FDA0003958684910000055
将由车辆
Figure FDA0003958684910000056
服务;车辆将采取动作at并接收奖励rt和下一个状态st+1;在T个时间步后获得立即奖励集合{r1,...,rT},计算目标向量
Figure FDA0003958684910000057
其中“+”是向量加法;然后,基于wi'
Figure FDA0003958684910000058
在总体任务P中选出z个最佳的学习任务;最后,将z个选定的学习任务添加到学习任务集Ω;以学习任务集Ω和zevo为输入来运行MMPPO算法获得P',其中zevo是进化阶段中预定义的任务迭代次数;
当完成预定数量的进化世代时,进化阶段结束;存储在外部累帕托中的所有非支配策略被输出为车辆路线规划问题的近似累帕托最优策略。
CN202211471616.8A 2022-11-23 2022-11-23 一种基于进化的多目标强化学习的车辆路线规划方法 Pending CN115907254A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211471616.8A CN115907254A (zh) 2022-11-23 2022-11-23 一种基于进化的多目标强化学习的车辆路线规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211471616.8A CN115907254A (zh) 2022-11-23 2022-11-23 一种基于进化的多目标强化学习的车辆路线规划方法

Publications (1)

Publication Number Publication Date
CN115907254A true CN115907254A (zh) 2023-04-04

Family

ID=86495912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211471616.8A Pending CN115907254A (zh) 2022-11-23 2022-11-23 一种基于进化的多目标强化学习的车辆路线规划方法

Country Status (1)

Country Link
CN (1) CN115907254A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127857A (zh) * 2023-04-12 2023-05-16 中国科学院地理科学与资源研究所 面向分类的生活垃圾收运路径多目标优化方法及系统
CN116432690A (zh) * 2023-06-15 2023-07-14 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117933869A (zh) * 2024-03-21 2024-04-26 中国科学技术大学 一种基于机器学习的考虑司机异质性的路径规划方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127857A (zh) * 2023-04-12 2023-05-16 中国科学院地理科学与资源研究所 面向分类的生活垃圾收运路径多目标优化方法及系统
CN116127857B (zh) * 2023-04-12 2023-09-22 中国科学院地理科学与资源研究所 面向分类的生活垃圾收运路径多目标优化方法及系统
CN116432690A (zh) * 2023-06-15 2023-07-14 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN116432690B (zh) * 2023-06-15 2023-08-18 中国人民解放军国防科技大学 基于马尔科夫的智能决策方法、装置、设备及存储介质
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN116673968B (zh) * 2023-08-03 2023-10-10 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN117933869A (zh) * 2024-03-21 2024-04-26 中国科学技术大学 一种基于机器学习的考虑司机异质性的路径规划方法

Similar Documents

Publication Publication Date Title
CN115907254A (zh) 一种基于进化的多目标强化学习的车辆路线规划方法
Pasha et al. Exact and metaheuristic algorithms for the vehicle routing problem with a factory-in-a-box in multi-objective settings
CN111144568B (zh) 一种多目标城市物流配送路径规划方法
CN111860754B (zh) 基于蚁群以及遗传算法的agv调度方法
Fan The vehicle routing problem with simultaneous pickup and delivery based on customer satisfaction
Li et al. Multi-depot vehicle routing problem with time windows under shared depot resources
US20220156693A1 (en) Computerized system and method for developing optimized cargo transportation solutions
Rada-Vilela et al. A comparative study of multi-objective ant colony optimization algorithms for the time and space assembly line balancing problem
Brønmo et al. Column generation approaches to ship scheduling with flexible cargo sizes
CN113343575B (zh) 基于改进蚁群算法的多目标车辆路径优化方法
Lu et al. The Fourth‐Party Logistics Routing Problem Using Ant Colony System‐Improved Grey Wolf Optimization
Mandal et al. A memetic NSGA-II for the bi-objective mixed capacitated general routing problem
CN116187896B (zh) 绿色车辆路径问题求解方法、装置、计算机设备以及介质
Zhang et al. Application on cold chain logistics routing optimization based on improved genetic algorithm
Xu et al. Dynamic pickup and delivery problem with transshipments and LIFO constraints
CN114897217A (zh) 一种生鲜电商前置仓选址-路径规划方法
CN115759917A (zh) 一种基于改进混合蚁群算法的物流路径规划方法
CN114048924A (zh) 基于混合遗传算法的多配送中心选址-配送路径规划方法
Sarbijan et al. Multi-fleet feeder vehicle routing problem using hybrid metaheuristic
Tan et al. A multiobjective evolutionary algorithm for solving vehicle routing problem with time windows
CN114444809A (zh) 一种数据驱动下的多目标露天矿卡路径优化方法
Natalia et al. Completion of capacitated vehicle routing problem (cvrp) and capacitated vehicle routing problem with time windows (cvrptw) using bee algorithm approach to optimize waste picking transportation problem
Chen et al. Multiconstrained network intensive vehicle routing adaptive ant colony algorithm in the context of neural network analysis
CN116187531A (zh) 一种用于成品油二次物流配送车辆调度优化的求解算法
Ibrahim et al. An improved ant colony optimization algorithm for vehicle routing problem with time windows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination