CN115907254A

CN115907254A - 一种基于进化的多目标强化学习的车辆路线规划方法

Info

Publication number: CN115907254A
Application number: CN202211471616.8A
Authority: CN
Inventors: 高振; 刘禹峤; 杨雷; 代钰
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-04-04

Abstract

本发明提供一种基于进化的多目标强化学习的车辆路线规划方法，涉及路径规划技术领域。该方法将多目标车辆路线规划问题建模为马尔可夫决策过程，通过MMPPO与物流系统环境的交互来学习一组帕累托最优车辆路线策略；从预热阶段开始，随机产生多个学习任务并执行MMPPO来产生后代群体；每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略；预热阶段结束后，进入进化阶段，任务总体和外部帕累托存档都将基于后代群体进行更新，再从任务总体中为每个权重向量选择多个新的学习任务。在MMPPO算法收敛时输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡，决策者可以选择符合当前偏好的方案。

Description

一种基于进化的多目标强化学习的车辆路线规划方法

技术领域

本发明涉及路径规划技术领域，尤其涉及一种基于进化的多目标强化学习的车辆路线规划方法。

背景技术

在电子商务的发展下，配送成本已成为最大的负担，几乎占总物流成本的一半。这就需要设计出更高效车辆路线规划方法，以降低总的物流成本。车辆路线规划问题是一个著名的NP-hard组合优化问题，其目的是优化具有容量约束的车队的路线，以满足客户需求。目前，开发最佳车辆路线规划方案已在工业中和学术界引起了极大的兴趣。

越来越多的研究关注于车辆路线规划中的各种问题。根据需要优化的目标数量，现存的车辆路线规划方案两类，即单目标和多目标优化。在车辆路线规划方案中，大量研究研究单目标优化问题。这些方案仅考虑一个目标进行优化，例如，车辆行驶路线长度或所有车辆的行驶时间。除此之外，车辆路线规划方案中主要采样两种优化技术，即传统优化算法和深度强化学习算法。例如，Zhao J和Mao M等人提出了基于联合强化学习和局部搜索的车辆路线规划方案并最小化总路线长度。Li J和Ma Y等人探究了异构容量的车辆路线规划问题并提出了基于强化学习的方案以最小化所有车辆之间的最大行驶时间。Kalakanti A K和Verma S等人提出了基于强化学习的车辆路线规划方案并最小化总路线成本(例如，时间或者距离)。这些车辆路线规划方案考虑以单个目标为优化目标并采用强化学习算法通过和环境不断交互快速得到最佳的车辆路线规划方案。然而，这些方法只考虑一种优化目标，这通常不符合实际情况。这是因为在现实情况下，物流系统可能有多个需求，例如，道路运输成本、车辆装卸成本、仓库的仓储成本和仓储的均衡度。Jiao L和Peng Z等人提出了基于多阶段启发式算法的车辆路线规划方案并最大化车辆运输的总重量。Azad U和Behera B K等人提出了基于量子近似优化算法的车辆路线规划方法并最小化车辆行驶的距离。这些方法采用了传统优化算法来解决车辆路线规划问题。然而，这些方法通常需要大量的数学运算，导致收敛性差。此外，这些方法在很大程度上依赖于精确的数学建模和专业知识，这不适合动态的物流系统。

除此之外，在车辆路线规划方案中可能存在多种优化目标相互冲突的情况。例如，在设计车辆路线规划方案，不仅考虑了配送过程中车上货物配送完成所需时间最小，而且还考虑了车辆本身行驶过程中的成本最小(例如，车辆的能耗或者油耗)。然而，这两种目标就存在冲突。一些研究工作致力于解决多目标优化问题并尝试解决多目标冲突的问题。例如，Niu Y和Shao J等人提出了多目标进化算法的车辆路线规划方案并最小化使用的车辆数量，总的车辆行驶距离和司机的报酬。Cai Y和Cheng M探究了多目标的车辆路线规划问题并提出了基于混合进化多任务算法的车辆路线规划方案。Elgharably N和Easa S等人探究了随机多目标车辆路线规划问题并提出了基于启发式算法的方案。de Jonge D和BistaffaF等人探究了具有自动协商功能的多目标车辆路线规划问题并提出了基于启发式算法的方案。赵建峰等人以平均道路运输成本、平均车辆装卸成本、仓库的仓储成本、仓储的均衡度和货物运输的剩余时间为优化目标并提出了基于车联网及云计算平台的电动车物流的多目标优化调度算法。张娟萍等人以装卸成本、平均满意度和剩余为优化目标并提出了云计算环境下基于改进粒子群算法的物流车辆路线规划方案。这些方法考虑了多个优化目标并采用传统优化算法来解决车辆路线规划问题。这些方法首先通过加权的方式和将多个目标汇总为一个标量单目标，然后优化这个目标。然而，这些方法可能忽略了优化目标之间存在的冲突。这是因为使用加权和的方式通常是有偏见的，因此这些方案很难使得多个目标之间取得平衡，导致一个次优解。除此之外，这些方法采用了传统的优化技术，例如，启发式算法，博弈论算法。然而，这些方法很难适应动态的物流系统。这是因为动态性和不确定性经常发生在这些方法的执行过程中，导致高计算负担和缓慢响应。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于进化的多目标强化学习的车辆路线规划方法，通过多任务多目标的近端策略优化算法(MMPPO)与物流系统环境的交互来学习一组帕累托最优车辆路线策略，实现车辆路线的规划。

为解决上述技术问题，本发明所采取的技术方案是：一种基于进化的多目标强化学习的车辆路线规划方法，包括以下步骤：

步骤1、对多目标车辆路线规划问题进行描述；

车辆路线规划系统环境由n个客户和一个仓库组成，即n+1个节点；d_i,j表示每两节点之间的距离并且是已知的；车辆路线规划的总体目标是确定由同质车队m执行的路线集，以服务具有不确定需求q的给定客户集n；每个客户i都与一个时间窗口TW[α_i,β_i]相关联和一个不确定的服务时间s_i；α_i是客户能够接受服务的最早时间，而β_i是客户能够由车辆k提供服务的最晚时间；车辆路线规划的优化目标是最小化预期的总旅行成本，最小化预期的燃料消耗率，以及最大化预期的客户满意度；除此之外，每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车，而且分配给一辆车的所有客户的总需求不超过其容量Q；

步骤2、对车辆路线规划问题进行数学建模；

设定起始客户为第一个节点，即仓库；给定车辆k，X_i,i∈(1,n)代表当前车辆访问的节点，Y_i代表当前车辆下一个要访问的节点；当前车辆从当前节点到终点要经过m条路线，节点X_i与节点Y_i的距离

与每个边相关联，代表在路线k上从节点

到节点

的距离；

表示决策变量并且决定了路线k上要访问的下一个客户i的值；

变量代表路线k上的弧的起始节点的值；二元变量

代表路线k上所有可能相连接的弧；如果

属于路线k，则

的值为1，否则为0；

通过以下公式(1)-(3)来定义车辆路线规划问题：

并满足以下约束：

其中，f₁、f₂和f₃均表示目标函数，第一个目标函数的第一项

是计算从所有k条路线的预期旅行时间计算出的预期总旅行成本，其中m表示路线的条数；

表示从

到

的预期行驶时间；C_t表示单位时间的成本；第二项

代表每辆车的固定运营成本，其中F是车辆运营成本；第三项

为反映车辆提前到达的情况，引起客户的工作等待成本，第四项

为反映车辆延迟到达仓库的情况的仓库等待成本；C_e是提前到达客户处的成本，而C_d是延迟到达仓库的成本；第二个目标函数(2)用于最小化燃料消耗的预期成本；C_fuel表示单位燃料成本，

是两个节点之间的距离，p₀是车辆空载的燃料消耗率，a是燃料消耗率和车辆负荷之间的线性回归系数；γ＝(p^*-p₀)/Q，其中p^*是车辆满负荷的燃料消耗率；

表示一个路线上的车辆总重；第三个目标函数(3)用于使预期的客户满意度最大化；E(SV_i)为预期顾客满意值，是衡量在所有顾客需求得到满足的情况下，每个顾客对时间窗口TW的偏差，SV_i表示车辆到达的时间与时间窗口上限β_i之间的时间差；约束条件(4)和(5)确保每条路线的起点和终点都是仓库；约束条件(6)确保k条路线中的每条路线不被分割；约束(7)和(8)确定了节点的取值范围，而约束(9)和(10)确保每个客户正好被访问一次；E(qY_j)为预期的客户需求Q_k为车辆的容量，q表示客户的需求；约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力；不等式约束(12)和(13)，代表了时间窗口约束，每个客户i有一个时间窗口TW[a_i,β_i]；到下一个客户的预期行程时间是

约束(14)是非负性约束，保证节点

和

两个变量只能是整数值；

步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程，并且使用三个元组U＝{S,A,r}来定义这个过程，其中，S为状态空间、A为行动空间和r为奖励函数；具体定义如下：

(1)状态空间S：在马尔科夫决策过程中，每个状态s_t＝(K_t，M_t，O_t，q_t，O_t)∈S；其中，K_t是车辆状态，M_t表示车辆的线路集合，Q_t表示车辆的容量状态，q_t表示客户的需求状态，O_t表示车辆和客户的位置集合；

(2)行动空间A：行动空间中的动作a_t定义为选择要访问的车辆和节点，即

在时间间隔t，所选节点

将由车辆

服务；

(3)奖励函数r：定义奖励函数为：

其中，t表示时间间隔，T表示车辆行驶时间，E表示车辆行驶燃料消耗，S表示客户满意度，ε₁、ε₂和ε₃分别为三个优化目标f₁、f₂、f₃的惩罚系数；

步骤4、采用基于多任务多目标的近端策略优化MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题；

一、MMPPO算法的定义：

用元组

表示一个学习任务，其中w为权向量，

π_θ是目标策略用来选择动作；

是用于收集策略车辆路径的样本策略；

是评价所选择动作的多目标函数；通过与物流系统环境的相互作用，利用样本策略

升级车辆路线集合；生成的车辆路线集合被用来更新目标策略π_θ；

设定一个裁剪的代理目标，以惩罚变化幅度大于设定阈值的策略，最终裁剪的代理目标损失函数

定义如下：

其中，

是时间步长t的扩展优势函数，即向量值优势函数A_t中所有元素的加权和；

根据贝尔曼方程，A_t的定义如下：

其中，λ∈[0,1]是用于调整方差和偏差之间的权衡参数；γ是折扣因子；

是裁剪函数，它约束了Δ的取值；Δ表示裁剪函数的输入，∈表示裁剪的范围；S_t+k表示第t+k时刻的状态；

价值函数损失定义如下：

其中，

是价值函数，

是目标值函数；

二、采用MMPPO算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题，包括预热阶段和进化阶段；

(1)预热阶段：

在此阶段，随机生成z个学习任务；这些任务共享相同的状态空间、动作空间和奖励功能，但它们的动态是不同的；

任务生成过程描述如下：首先生成z个均匀分布的权重向量{w₁,...,w_z}，每个权重向量从单位样本中采样；

是对于任务数量的目标在单位样本中按照间隔1/δ采样的点，其中，δ>0是沿着每个目标轴考虑的分割数；为了获得单位样本中中间权重向量，令δ>l，l为优化目标个数；

其次，随机初始z个目标策略网络

初始化相应的样本策略网络

其参数设置与目标策略网络相同，即

然后，随机初始化z个多目标值网络

在每个多目标值网络中，输出层中的神经元数量与优化目标相同；

最后，将学习任务集表示为Ω＝{Γ₁,..,Γ_z}，其中

生成任务后，运行多目标的近端策略优化算法MMPPO以获得后代群体P'；其中每个学习任务Γi_'∈Ω通过执行MAPPO算法进行预定义迭代次数Φ来优化；在每次迭代后将每个新的学习任务存储在后代群体P'中来改进原始MMPPO算法，即保留所有MMPPO算法在后代群体中产生的学习任务；

(2)进化阶段：

在该阶段，设定任务总体为P，并使用多个缓冲器来存储P；首先基于后代群体P'更新任务总体P；采用缓冲策略来更新P，令P_num和P_size分别表示缓冲区的数量及其大小；这些缓存空间被均匀的划分为P_num个缓冲区，每个缓冲区最多存储P_size个学习任务；根据目标策略的目标值

和参考点Z_ref，将与目标策略π_θ相关联的任务存储到相应的缓冲区中；

对于任意缓冲区，将根据任务到参考点Z_ref的距离按降序排序任务；如果任务数超过P_size，只保留该缓冲区中的第一个P_size任务；最后，所有缓冲区中的学习任务形成一个新的任务群体；

外部累帕托用于存储进化阶段中发现的非主导策略；在每次一迭代中，基于后代群体P'更新外部累帕托；对于后代群体P'中每个学习任务的目标策略π_θ，如果外部累帕托中没有策略支配

将移除π_θ的策略；

对于每个权重向量w_i'∈W，从任务总体P中选择最佳的学习任务来更新学习任务集Ω；首先，计算每个学习任务Γ_j'∈P,j'＝1,...,|P|的目标策略π_θ的目标向量

在时间步t，状态s_t被输入到

而后将输出动作

即在时间间隔t，所选节点

将由车辆

服务；车辆将采取动作a_t并接收奖励r_t和下一个状态s_t+1；在T个时间步后获得立即奖励集合{r₁,...,r_T}，计算目标向量

其中“+”是向量加法；然后，基于w_i'和

在总体任务P中选出z个最佳的学习任务；最后，将z个选定的学习任务添加到学习任务集Ω；以学习任务集Ω和z_evo为输入来运行MMPPO算法获得P'，其中z_evo是进化阶段中预定义的任务迭代次数；

当完成预定数量的进化世代时，进化阶段结束；存储在外部累帕托中的所有非支配策略被输出为车辆路线规划问题的近似累帕托最优策略。

本发明方法将多目标车辆路线规划问题建模为马尔可夫决策过程，通过多任务多目标的近端策略优化算法MMPPO与物流系统环境的交互来学习一组帕累托最优车辆路线策略；从预热阶段开始，随机产生多个学习任务并通过执行MMPPO来产生后代群体；每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略；预热阶段结束后，进入进化阶段，任务总体和外部帕累托存档都将基于后代群体进行更新，再从任务总体中为每个权重向量选择多个新的学习任务。MMPPO算法对这些任务进行了优化，以生成新一代的后代群体P'。MMPPO算法一旦收敛，就会输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡，决策者可以选择符合当前偏好的方案。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于进化的多目标强化学习的车辆路线规划方法，将多目标车辆路线规划问题建模为马尔可夫决策过程，并提出了多任务多目标的近端策略优化算法MMPPO，将MMPPO算法与物流系统环境的交互来学习一组帕累托最优车辆路线策略。从预热阶段开始，随机产生n个学习任务并通过执行MMPPO算法来产生后代群体。每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略。预热阶段结束后进入进化阶段，任务总体和外部帕累托存档都将基于后代群体进行更新，然后，从任务总体中为每个权重向量选择z个新的学习任务。MMPPO算法对这些任务进行了优化，以生成新一代的后代群体。MMPPO算法一旦收敛，就会输出一组非主导的车辆路线方案。这些方案对应于不同目标之间的权衡，决策者可以选择符合当前偏好的方案。本发明方法在反转世代距离(Inverted GenerationalDistance(IGD))和超体积(Hyper Volume(HV))这两个性能评价指标上均取得了更好的优化目标之间的平衡，对解决多目标车辆路线规划问题非常具有潜力，有助于决策者选择与当前客户偏好最匹配的车辆路线。

附图说明

图1为本发明实施例提供的一种基于进化的多目标强化学习的车辆路线规划方法的流程图；

图2为本发明实施例提供的车辆路线规划示意图；

图3为本发明实施例提供的三个优化目标问题的15个均匀分布的权向量；

图4为本发明实施例提供的四种算法在IGD性能评价指标上的收敛曲线图；

图5为本发明实施例提供的四种算法在HV性能评价指标上的收敛曲线图；

图6为本发明实施例提供的四种算法在旅行总时间方面的性能对比图；

图7为本发明实施例提供的四种算法在燃料消耗方面的性能对比图；

图8为本发明实施例提供的四种算法在客户满意度方面的性能对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，一种基于进化的多目标强化学习的车辆路线规划方法，包括以下步骤：

步骤1、对多目标车辆路线规划问题进行描述；

步骤2、对于车辆路线规划问题进行数学建模；

设定起始客户为第一个节点，即仓库；给定车辆k，X_i,i∈(1,n)代表当前车辆访问的节点，Y_i代表当前车辆下一个要访问的节点；如图1所示，当前车辆从当前节点到终点要经过m条路线，节点X_i与节点Y_i的距离

与每个边相关联，代表在路线k上从节点

到节点

的距离；

变量代表路线k上的弧的起始节点的值；二元变量

代表路线k上所有可能相连接的弧；如果

属于路线k，则

的值为1，否则为0；

通过以下公式(1)-(3)来定义车辆路线规划问题：

并满足以下约束：

表示从

到

的预期行驶时间；C_t表示单位时间的成本；第二项

代表每辆车的固定运营成本，其中F是车辆运营成本；第三项

是两个节点之间的距离，p₀是车辆空载的燃料消耗率，α是燃料消耗率和车辆负荷之间的线性回归系数；γ＝(p^*-p₀)/Q，其中p^*是车辆满负荷的燃料消耗率；

表示一个路线上的车辆总重；第三个目标函数(3)用于使预期的客户满意度最大化；E(SV_i)为预期顾客满意值，是衡量在所有顾客需求得到满足的情况下，每个顾客对时间窗口TW的偏差，SV_i表示车辆到达的时间与时间窗口上限β_i之间的时间差；约束条件(4)和(5)确保每条路线的起点和终点都是仓库；约束条件(6)确保k条路线中的每条路线不被分割；也就是说，如果一辆车到达了一个客户，它最终又离开了客户；约束(7)和(8)确定了节点的取值范围，而约束(9)和(10)确保每个客户正好被访问一次；对于每个客户，预期的客户需求E(qY_j)是以已知的，分布存在的，而且每辆车都有一个有限的容量Q_k，q表示客户的需求，并且客户需求是独立的，只有当车辆到达客户时才知道；约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力；不等式约束(12)和(13)，代表了时间窗口约束，每个客户i有一个时间窗口TW[α_i,β_i]；到下一个客户的预期行程时间是

约束(14)是非负性约束，保证节点

和

两个变量只能是整数值；

(1)状态空间S：在马尔科夫决策过程中，每个状态s_t＝(K_t，M_t，Q_t，q_t，O_t)∈S；其中，K_t是车辆状态，M_t表示车辆的线路集合，Q_t表示车辆的容量状态，q_t表示客户的需求状态，O_t表示车辆和客户的位置集合；

(2)行动空间A：行动空间中的动作a_t定义为选择要访问的车辆和节点(客户或车辆段)，即

在时间间隔t，所选节点

将由车辆

服务(或访问)；

(3)奖励函数r：车辆路线规划的目标是最小化车辆行驶的时间成本，燃料成本和最大化客户满意度。定义奖励函数为：

其中，t表示时间间隔，T表示车辆行驶时间，E表示车辆行驶燃料消耗，S表示客户满意度，ε₁、ε₂和ε₃分别为三个优化目标f₁、f₂、f₃的惩罚系数；这是因为在强化学习中会使奖励最大化，因此满足我们的优化目标。此外，当车辆的行驶时间超过了客户的预期时间，将对三个优化目标的奖励进行惩罚。因此，惩罚系数ε₁、ε₂和ε₃分别用于减少这三个优化目标的奖励值。

步骤4、采用基于多任务多目标的近端策略优化(MMPPO)算法求解建模为马尔科夫决策过程的多目标车辆路线规划问题；

本步骤旨在通过与物流系统环境的交互来学习一组帕累托最优车辆路线策略，其伪代码如表1所示的算法1，算法框架如图2所示。首先，本发明提出了基于多任务多目标的近端策略优化(MMPPO)算法的车辆路线方案，其伪代码如表2所示的算法2。从预热阶段开始，随机产生z个学习任务。通过执行MMPPO算法来产生后代群体。每个学习任务都使用其相关的样本策略通过与车辆路线规划环境交互来收集一组车辆路线策略。预热阶段结束后，进入进化阶段，任务总体和外部帕累托存档都将基于后代群体进行更新，然后，从任务总体中为每个权重向量选择z个新的学习任务。最后，对这些任务进行优化，以生成新一代的后代群体P'。当完成预设数量的后代后，进化阶段将结束。接下来，我们详细阐述MMPPO算法的定义和训练过程(即，预热和进化阶段)。

一、MMPPO算法的定义：

用元组

表示一个学习任务，其中w为权向量，

π_θ是目标策略用来选择动作；

是用于收集策略车辆路径的样本策略；

为了避免目标策略更新幅度过大，设定一个裁剪的代理目标，以惩罚变化幅度大于设定阈值的策略，最终裁剪的代理目标损失函数

定义如下：

其中，

根据贝尔曼方程，A_t的定义如下：

价值函数损失定义如下：

其中，

是价值函数，

是目标值函数；通过这种扩展，可以直接调整在先前学习过程中训练的值函数，以优化具有新权重向量的相同策略。

(1)预热阶段：

在此阶段，随机生成z个学习任务；这些任务共享相同的状态空间、动作空间和奖励功能，但它们的动态是不同的；这种动态意味着每个学习任务在运行一次MMPPO后将生成各种新的子任务；一般来说，这些由不同任务生成的后代学习任务具有很大的差异，因为它们具有不同的权重向量和神经网络参数。

是对于任务数量的目标在单位样本中按照间隔1/δ采样的点，其中，δ>0是沿着每个目标轴考虑的分割数；为了获得单位样本中中间权重向量，令δ>l，l为优化目标个数；例如，对于具有三个目标(l＝3)的车辆路线规划问题，如果每个目标轴考虑四个分割(δ＝4),

生成15个均匀分布的权重向量。这些权重向量如图3所示。

其次，随机初始z个目标策略网络

初始化相应的样本策略网络

其参数设置与目标策略网络相同，即

i'＝1,...,z，然后，随机初始化z个多目标值网络

最后，将学习任务集表示为Ω＝{Γ₁,..,Γ_z}，其中

生成任务后，运行多目标的近端策略优化算法MMPPO以获得后代群体P'；如算法2所示，其中每个学习任务Γi_'∈Ω通过执行MAPPO算法进行预定义迭代次数Φ(在该阶段等于n_warm)来优化；在每次迭代后将每个新的学习任务存储在后代群体P'中来改进原始MMPPO算法；

对于进化学习算法来说，设计适当的操作以在进化过程中生成高质量的后代学习任务是非常重要的。这是因为高质量的后代学习任务继承了父母任务的优秀特征，这有助于保持种群多样性和改善全局探索。

我们算法中的MMPPO在生成后代群体P'时起着至关重要的作用。然而，原始MMPPO仅在Φ迭代后存储P'中的最后一个学习任务，这可能会丢失大量有前途的学习任务。为了克服这一缺点，我们通过在每次迭代后将每个新的学习任务存储在P'中来改进原始MMPPO。换句话说，我们保留了所有MMPPO算法在后代群体中产生的学习任务。因此，运行一次MMPPO可以获得z个Φ的新的学习任务，其中z是学习任务的数量。改进的MMPPO可以产生高质量的后代群体，从而增强原始我们算法的多目标优化性能。

预热阶段可以提供一组有价值的学习任务，其中策略位于搜索空间中的高性能区域。从这些任务开始，我们算法的学习过程具有低噪音，因此更有可能获得优异的多目标优化结果。

(2)进化阶段：

在该阶段，设定任务总体为P，使用了许多高性能缓冲器来存储P；首先基于后代群体P'更新任务总体P(算法1的步骤9)。任务总体更新过程如表3所示的算法3。采用缓冲策略来更新P，为了多样性和性能良好，我们使用了许多高性能缓冲器来存储P。令P_num和P_size分别表示高性能缓冲区的数量及其大小；这些高性能缓存空间被均匀的划分为P_num个性能缓冲区，每个缓冲区最多存储P_size个学习任务；根据目标策略的目标值

和参考点Z_ref，将与目标策略π_θ相关联的任务存储到相应的性能缓冲区中；

对于任意高性能缓冲区，将根据任务到参考点Z_ref的距离按降序排序任务；如果任务数超过P_size，只保留该缓冲区中的第一个P_size任务；最后，所有高性能缓冲区中的学习任务形成一个新的任务群体；

外部累帕托用于存储进化阶段中发现的非主导策略，在每次一迭代中，基于后代群体P'更新外部累帕托(算法1的步骤10)；对于后代群体P'中每个学习任务的目标策略π_θ，如果外部累帕托中没有策略支配

将移除π_θ的策略；

在时间步t，状态s_t被输入到

而后将输出动作

即在时间间隔t，所选节点

将由车辆

其中“+”是向量加法；然后，基于w_i'和

当完成预定数量的进化世代时，进化阶段结束；存储在外部累帕托中的所有非支配策略被输出为车辆路线规划问题的近似累帕托最优策略；这些政策对应于车辆行驶时间、燃料消耗和客户满意度之间的不同权衡，有助于决策者在设计复杂的车辆路线规划方案时在冲突问题/关注点之间做出妥协。

表1车辆路线规划问题的进化多目标强化学习

表2多任务多目标PPO(MMPPO)算法

表3任务总体更新算法

为了验证本发明方法的有效性，本实施例将本发明方法与现有三种车辆路线规划方法(Reinforcement Learning and Local Search based Vehicle Route PlanningAlgorithm，Multi-objective Evolutionary based Vehicle Route PlanningAlgorithm和基于改进粒子群算法的物流车辆路径规划算法)进行对比。为了简明起见，将本发明以及对比算法的名称分别简称为EMORL-VRP,RLLS-VRP,MO-VRPSD和PS-VRP。首先，探究了不同演化代数(Generation)对于IGD和HV评价指标值的影响，如图4、5所示。从这两个图可以看出，本发明方法在反转世代距离(Inverted Generational Distance(IGD))和超体积(HyperVolume(HV))两个性能评价指标上均取得了更好的优化目标之间的平衡，例如，相比于其他的算法，本发明降低了IGD值为8.77％～17.23％；和提高了HV值为8.77％～28.35％。这是因为本发明在EMORL-VRP中改进了原始的MMPPO，在每次迭代后将每个新的学习任务存储在子代群体中，即本发明将MMPPO产生的所有学习任务保存。改进后的MMPPO可以产生高质量的子代群体，从而提高EMORL-VRP的性能。

其次，本发明探究了不同算法在车辆行驶时间、总的车辆燃料消耗和总的客户满意度方面的性能，如图6-8所示，相比于现有的算法，本发明方法总的车辆行驶时间(Normalized Delay)降低了8.44％～18.12％；总的车辆燃料消耗(Normalized FuelConsumption)降低了24.93％～31.45％；总的客户满意度(Normalized CustomerSatisfaction)提高了10.13％～21.67％。这是因为对于车辆路径规划问题，本发明提出了一种高效的进化学习算法来寻找帕累托集的近似值，能够更好的平衡多个优化目标之间的冲突，从而得到较低的车辆行驶时延和燃料消耗以及较高的客户满意度。因此，以上对比结果表明本发明方法对解决多目标车辆路线规划问题非常具有潜力，有助于决策者选择与当前客户偏好最匹配的车辆路线。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于进化的多目标强化学习的车辆路线规划方法，其特征在于：

步骤1、对多目标车辆路线规划问题进行描述；

步骤2、对车辆路线规划问题进行数学建模；

步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程；

步骤4、求解建模为马尔科夫决策过程的多目标车辆路线规划问题，得到车辆路线规划问题的最优策略。

2.根据权利要求1所述的一种基于进化的多目标强化学习的车辆路线规划方法，其特征在于：所述步骤1将多目标车辆路线规划问题描述为；

车辆路线规划系统环境由n个客户和一个仓库组成，即n+1个节点；d_i,j表示每两节点之间的距离并且是已知的；车辆路线规划的总体目标是确定由同质车队m执行的路线集，以服务具有不确定需求q的给定客户集n；每个客户i都与一个时间窗口TW[α_i,β_i]相关联和一个不确定的服务时间s_i；α_i是客户能够接受服务的最早时间，而β_i是客户能够由车辆k提供服务的最晚时间；车辆路线规划的优化目标是最小化预期的总旅行成本，最小化预期的燃料消耗率，以及最大化预期的客户满意度；除此之外，每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车，而且分配给一辆车的所有客户的总需求不超过其容量Q。

3.根据权利要求2所述的一种基于进化的多目标强化学习的车辆路线规划方法，其特征在于：所述步骤2对车辆路线规划问题进行数学建模的具体方法为：

与每个边相关联，代表在路线k上从节点

到节点

的距离；

变量代表路线k上的弧的起始节点的值；二元变量

代表路线k上所有可能相连接的弧；如果

属于路线k，则

的值为1，否则为0；

通过以下公式(1)-(3)来定义车辆路线规划问题：

并满足以下约束：

表示从

到

的预期行驶时间；C_t表示单位时间的成本；第二项

代表每辆车的固定运营成本，其中F是车辆运营成本；第三项

表示一个路线上的车辆总重；第三个目标函数(3)用于使预期的客户满意度最大化；E(SV_i)为预期顾客满意值，是衡量在所有顾客需求得到满足的情况下，每个顾客对时间窗口TW的偏差，SV_i表示车辆到达的时间与时间窗口上限β_i之间的时间差；约束条件(4)和(5)确保每条路线的起点和终点都是仓库；约束条件(6)确保k条路线中的每条路线不被分割；约束(7)和(8)确定了节点的取值范围，而约束(9)和(10)确保每个客户正好被访问一次；E(qY_j)为预期的客户需求Q_k为车辆的容量，q表示客户的需求；约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力；不等式约束(12)和(13)，代表了时间窗口约束，每个客户i有一个时间窗口TW[α_i,β_i]；到下一个客户的预期行程时间是