CN111415048A

CN111415048A - 一种基于强化学习的车辆路径规划方法

Info

Publication number: CN111415048A
Application number: CN202010280643.1A
Authority: CN
Inventors: 高健; 蒋佳浩
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-14
Anticipated expiration: 2040-04-10
Also published as: CN111415048B

Abstract

本发明提供一种基于强化学习的车辆路径规划方法，将客户节点的状态序列作为输入信息，将输入信息送往决策网络，决策网络依据动作值函数选择动作并计算规划车辆行进路线。本发明基于历史配送数据以强化学习算法来训练模型，从而达到在道路交通状况和配送目标节点数变化的情况下动态规划行车路径的目的。本方法考虑现实生活中复杂多变的道路交通情况和配送目标数不定的配送任务，动态调整行车路线，从而提高运输效率并降低成本。

Description

一种基于强化学习的车辆路径规划方法

技术领域

本发明涉及智能交通领域，具体而言，尤其涉及一种基于强化学习的车辆路径规划方法。

背景技术

车辆路径有效规划是物流管理、公交与出租客运、以及从事相关领域运营等服务的重要环节，有助于提高运输效率并降低成本。

Oriol Vinyals等(Vinyals O,Fortunato M,Jaitly N.Pointer networks[C]Advances in Neural Information Processing Systems.2015:2692-2700.)提出了一种简单而有效的架构称为Pointer Net来学习组合优化问题，该模型首次采用机器学习的方法来求组合优化问题，在sequence-to-sequence和Neural Turing Machines的基础上使用神经注意机制解决了可变大小输出字典的问题，并采用监督学习的方式来训练模型，以纯粹的数据驱动方法来学习计算难以处理的问题的近似解。

Irwan Bello等(Bello I,Pham H,Le Q V,et al.Neural combinatorialoptimization with reinforcement learning[J].arXiv preprint arXiv:1611.09940,2016.)改进了Vinyals等^[1]提出的指针网络，提出了一种利用强化学习和神经网络来解决组合优化问题的框架-神经组合优化，其中决策指针网络由两个长短期记忆网络(LSTM)构成，采用Policy-gradient算法优化决策网络。为将神经网络作为解决组合优化问题的通用工具提供了一条有趣的研究途径。

Khalil E等(Khalil E,Dai H,Zhang Y,et al.Learning combinatorialoptimization algorithms over graphs[C]Advances in Neural InformationProcessing Systems.2017:6348-6358.)提出了一个端到端的机器学习框架，称为S2V-DQN，用于为图上的NP-hard组合优化问题自动设计贪心启发式算法，方法的核心是深度图嵌入与强化学习的结合。框架主要由两部分组成，首先采用Structure2Vec图形嵌入网络形嵌入网络对当前的图对当前的图形结构进行编码，采用采用强化学习中的Deep QLearning DQN算法进行训练，优化决策网络。学习策略的行为类似于逐步构建解决方案的元算法，其动作由图形嵌入网络在解决方案的当前状态上确定。该框架的主要优点是充分利用了图的结构来学习启发式算法，学习得到的启发式算法在相似的图结构中可以通用。

上述提到的方法都是在已知模型的情况下进行求解的，即已知各个节点之间的二维欧几里德距离。然而在现实配送中通常存在配送时间最短，或在规定时间内完成配送的目标。配送时间通常受到城市交通状况的影响，而交通情况在每个时间段通常是变化的，即在每个时间段两个节点之间的权重(时间)不是固定不变的，而且每天配送任务的目标节点数也是在某个范围内动态变化的。现实中通常我们可以得到的是某个区域内配送过程中记录的历史数据，即从某个节点到某个节点在某个时间段花费了多长的时间，基于历史配送数据采用机器学习的方法基于不同节点数来规划配送路线，达到最小化配送时间的目标，上述方法不适用于此类问题的求解。

发明内容

根据上述提出的现有方法与交通情况在每个时间段均有变化且配送节点数不定的实际情况不适配的技术问题，而提供了一种基于强化学习的车辆路径规划方法。本发明基于历史配送数据以强化学习算法来训练模型，从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。

本发明采用的技术手段如下：

1、一种基于强化学习的车辆路径规划方法，将客户节点的状态序列作为输入信息，将输入信息送往决策网络，决策网络依据动作值函数选择动作并计算规划车辆行进路线；

所述决策网络的工作过程包括：

S1、初始化所有节点的状态序列，所述状态序列包括节点访问状态和当前时刻信息；

S2、采用卷积神经网络编码当前状态序列，提取当前状态序列的特征向量

输入到全连接神经网络，计算输出当前状态下所有动作对应的Q值；

S3、采用e-greedy策略根据每个动作对应的Q值选择动作a，a∈A,其中A为动作集；

S4、在当前环境状态序列下执行动作a，计算得到下一个访问节点，访问该节点并得到新的状态序列；

S5、若所有客户节点已全部访问，则转到步骤S6，否则更新当前状态序列，转到步骤S2；

S6、根据训练数据构成的有向图预估决策得到的路径序列时长；

S7、修改探索记录中每个时间步的奖励为路径序列时长的负数；

S8、将本轮探测的所有探索记录存入经验回放集合R中；

S9、从经验回放集合R中随机采样n条数据，基于DQN算法优化决策网络参数。

较现有技术相比，本发明具有以下优点：

本发明基于历史配送数据以强化学习算法来训练模型，从而达到在道路交通状态和配送目标节点数变化的情况下动态规划行车路径的目的。与在有模型的基础上进行路径规划的方法相比，该方法可以适应复杂多变的道路交通情况和配送目标节点数不定的情况，动态调整行车路线，从而提高运输效率并降低成本。

基于上述理由本发明可在物流管理，公交与出租客运以及相关领域运营等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为实施例中训练数据的预处理示意图。

图2为实施例中状态转换示意图。

图3为实施例中模型整体训练流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提出一种基于强化学习的车辆路径规划方法，将客户节点的状态序列作为输入信息，将输入信息送往决策网络，决策网络依据动作值函数选择动作并计算规划车辆行进路线。

具体的，本发明实施例基于历史配送数据以强化学习算法来训练模型，从而达到在道路交通状态和目标节点数变化的情况下动态规划行车路径的目的。本发明实施例中决策网络的工作过程包括：

S1、初始化所有节点的状态序列，所述状态序列包括节点访问状态和当前时刻信息。

输入到全连接神经网络，计算输出每个动作对应的评价Q值，Q值是通过神经网络计算输出。

S3、采用e-greedy策略根据每个动作对应的Q值选择动作a，a∈A,其中A为动作集。

S4、在当前环境状态序列下执行动作a，计算得到下一个访问节点，访问该节点并得到新的状态序列。

S5、若所有客户节点已全部访问，则转到步骤S6，否则更新当前状态序列，转到步骤S2。

S6、根据训练数据构成的有向图预估决策得到的路径序列时长。

S7、修改探索记录中每个时间步的奖励为路径序列时长的负数。

S8、将本轮探测的所有探索记录存入经验回放集合R中。

S10、每隔e轮，测试模型表现，具体为：从所有客户节点中随机选取n个节点，

其中N为所有客户节点数，采用当前训练得到的模型决策规划配送路线，预估计算路程时长，与LKH(Lin-Kernighan-Helsgaun)算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较，评估当前模型优劣。

由图1所示，本发明实施例中，时段加权有向图根据历史配送数据构建的。具体实施时，从某个地区的包裹配送路线信息中获取训练数据集，其中路线信息包含起始节点、到达节点、出发时间、到达时间等。时段加权有向图的构建主要包括两个部分：

(1)按时段归类划分数据集：作为本发明较佳的实施方式，将24小时从零点开始划分为24个时段，每个时段间隔为1小时，将路线信息依据出发时间归类划分到相应的时段。

(2)构建时段加权有向图：基于每个时间段的路线数据构建加权有向图，边的始点为路线起始节点，终点为到达节点，权重为花费时长。两个节点之间可能存在多条边或不存在边，存在多条边即表示在该时间段两个节点之间存在多个不同配送时间，不存在边即表示在该时间段两个节点之间在训练数据集中不存在数据。

本发明实施例中，采用强化习中的Deep Q-learning算法来训练决策网络模型，模型构建中强化学习中各要素定义如下：

环境要素E：客户节点集N和仓库节点D构成的有向图，边权重为从一个节点到另一个节点的路程所需时间(单位：h)。定义E＝<G₁,G₂,…,G₂₄>，由24个时间段的有向图组成。

状态空间X：定义状态序列S＝{s_i,i＝1,…,n}，s_i＝(y,t)表示节点i在t时刻的状态，其中节点访问状态y包含两种：已被访问表示为0，未被访问表示为1，t表示当前时刻。所有节点的当前状态组成的序列表示为当前的环境状态，所有可能的环境状态构成状态空间X。

状态转换函数：定义状态转换函数为f，S′＝f(S)，f的具体定义如下:①y更新：访问i节点，则y_i＝0，y_k＝y_k for k≠i，仅更新被访问的节点i的y，其余节点的y不变。②所有节点的t更新为当前时刻。

动作A：定义动作集A为3个启发式算法，其中定义0号策略为考虑全部未访问节点的LKH算法，考虑全局优化。定义1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法，考虑局部优化。定义2号策略为贪婪策略，考虑当前优化。

策略π：定义策略π为e-greedy策略，以ε的概率从所有动作中随机选择一个，以1-e的概率选取当前最优动作即Q值最大的动作，定义如下：

其中，集合A中的三种策略以等概率方式被选择。

(6)奖励函数R：在E中执行策略π产生轨迹<s₀,a₀,r₁,s₁,a₁,r₂,...,s_T-1,a_T-1,r_T,s_T>，定义r₁＝r₂＝...＝r_T＝-time，其中time表示为决策模型得到的路径序列总预估时长。该序列中所有“状态-动作”对得到的奖励都定义为time的负数，其中预估路程时长根据24个时间段的有向图预估得到，某个时间段两个节点之间的路程距离估计为节点间所有弧权重的中位数，没有弧的节点间的时间预估为可能取得的最大时间。

下面通过一个具体的应用实例，对本发明的技术方案和效果做进一步的说明。

获取得到北京市某地区的N个配送点的包裹配送路线信息,其中路线信息包含起始节点、到达节点、出发时间、到达时间等，将以上数据作为模型的训练数据集。

训练数据集预处理：

(1)按时段归类划分数据集：将24小时从零点开始划分为24个时段，每个时段间隔为1小时，将路线信息依据出发时间归类划分到相应的时段。

(2)构建时段加权有向图：基于每个时间段的路线数据构建加权有向图，边的始点为路线起始节点，终点为到达节点，权重为花费时长，分别为24个时段构建加权有向图。

模型训练：

重复以下步骤训练episode轮：

S1、随机选取其中的n个节点，其中

N为该区域内的总节点数。

S2、初始化客户节点的状态序列S，包括节点访问状态和当前时刻信息。

S3、采用卷积神经网络编码当前状态序列，提取当前状态序列的特征向量φ(S)，输入到全连接神经网络，计算输出当前状态下所有动作对应的Q值。

S4、采用e-greedy策略根据每个动作对应的Q值选择动作a，动作a为3个启发式算法中的一个。

S5、在当前状态下执行动作a，计算得到下一个访问节点，访问该节点并依据状态转换模型得到新的状态S'。

S6、若所有客户节点已全部访问，则转到步骤S7，否则更新当前状态为S'，转到步骤S3。

S7、根据训练数据构成的有向图预估当前路径序列时长，采用分段预估的方法，时长预估为两个节点间所有边权重的均值，路径总时长为包含所有路段预估时长之和。

S8、修改探索记录中每个时间步的奖励为路程时间的负数。

S9、将本轮探测的所有探索记录存入经验回放集合R中。

S10、从经验回放集合R中随机采样n条数据，基于DQN(Deep Q Learning)算法优化决策网络参数。

S11、每隔e轮，测试模型表现，具体为：从所有客户节点中随机选取n个节点,

其中N为所有客户节点数，采用当前训练得到的模型决策规划配送路线，预估计算路程时长，与LKH算法、2-opt算法、贪婪算法等计算得到的路程序列时长进行比较，评估当前模型优劣。

模型训练完成可用于指导该地区包裹配送路线的规划，例如某日，该地区有x个包裹需要配送，获取到相关的配送目标信息，输入到训练完成的模型中，模型决策输出配送该x个包裹的最佳路线序列信息。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于强化学习的车辆路径规划方法，其特征在于，将客户节点的状态序列作为输入信息，将输入信息送往决策网络，决策网络依据动作值函数选择动作并计算规划车辆行进路线；

所述决策网络的工作过程包括：

S8、将本轮探测的所有探索记录存入经验回放集合R中；

2.根据权利要求1所述的基于强化学习的车辆路径规划方法，其特征在于，所述时段加权有向图根据历史配送数据构建，且所述时段加权有向图各边的始点为路线起始节点，终点为到达节点，权重为花费时长。

3.根据权利要求1或2所述的基于强化学习的车辆路径规划方法，其特征在于，所述状态序列表示为S＝{s_i,i＝1,...,n}，s_i＝(y,t)表示节点i在t时刻的状态，其中节点访问状态y包含两种：已被访问表示为0，未被访问表示为1，t表示当前时刻。

4.根据权利要求3所述的基于强化学习的车辆路径规划方法，其特征在于，S4中“得到新的状态序列”包括：

a.仅更新被访问的节点的节点访问状态，其余节点的节点访问状态不变；

b.更新所有节点的当前时刻信息。

5.根据权利要求1所述的基于强化学习的车辆路径规划方法，其特征在于，所述动作集A包括3个启发式算法：

0号策略为考虑全部未访问节点的LKH算法；

1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法；

2号策略为贪婪策略。

6.根据权利要求1所述的基于强化学习的车辆路径规划方法，其特征在于，所述决策网络的工作过程还包括：S10、每隔e轮，测试模型表现，具体为：

从所有客户节点中随机选取n个节点,

其中N为所有客户节点数，采用当前训练得到的模型决策规划配送路线，预估计算路程时长，与对比算法计算得到的路程序列预估时长进行比较，评估当前模型优劣，所述对比算法为LKH算法、2-opt算法或者贪婪算法。