CN115545350B

CN115545350B - 综合深度神经网络与强化学习的车辆路径问题求解方法

Info

Publication number: CN115545350B
Application number: CN202211498003.3A
Authority: CN
Inventors: 陈荣元; 邓乔木; 周鲜成; 申立智; 李甜霞; 何志雄; 陈浪
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2024-01-16
Anticipated expiration: 2042-11-28
Also published as: CN115545350A

Abstract

本发明公开了综合深度神经网络与强化学习的车辆路径问题求解方法，涉及强化学习技术领域，利用Struc2Vec图结构对实际路网进行特征提取，并更新不同状态下路径图的特征信息；构建Actor‑Critic网络与Critic网络，由LSTM网络组成编码器与解码器的神经元，将特征信息导入Actor‑Critic网络进行编码与解码；利用随机策略梯度下降算法对Actor‑Critic网络进行参数训练，将ActorNet的实际奖励值与CriticNet的预估奖励值进行均方误差计算，同时对Actor指针网络进行修正计算损失函数生成车辆下一个将要访问的客户点；降低了求解时间，且获得更优质配送路径方案。

Description

综合深度神经网络与强化学习的车辆路径问题求解方法

技术领域

本发明属于强化学习以及车辆路径领域，涉及强化学习技术，具体是综合深度神经网络与强化学习的车辆路径问题求解方法。

背景技术

由于近十年电子商务行业的快速发展，物流运输业作为货物运输的渠道越来越受到重视。庞大的物流行业对应着巨大的物流需求，随之而来的是我国的年度物流总成本一年比一年高；如何优化物流配送，减少物流总成本非常重要；

车辆路径问题通常可以描述为：给定一组需求点，一队同类型运输车辆从物流中心出发，为所有需求点提供送货服务。需求点的订单需求和服务时间窗口已知。问题以优化车辆行驶距离、车辆使用数或运输总费用为目标；

车辆路径问题已经被证明是一个NP-hard问题，即无法找到可在多项式时间复杂度内求解的方法；因此传统方案只能获得近似最优解或启发式算法；但是传统的启发式算法对于求解大规模需求点来说无法应对，过长的求解时长不能让物流企业实时制定合理的车辆配送方案；

随着深度学习与强化学习的发展，基于分布式神经网络的强化学习算法能够更好的解决这些难题，在车辆路径领域已经有多种强化学习方法被广泛使用，从而进一步减少对大规模车辆路径算例的求解时长；

为此，提出综合深度神经网络与强化学习的车辆路径问题求解方法。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出综合深度神经网络与强化学习的车辆路径问题求解方法，该综合深度神经网络与强化学习的车辆路径问题求解方法将实际货物运输路线抽象成无向图的形式；并利用Strut2Vec的图结构对实际路网进行特征提取，通过Strut2Vec根据对应的图结构递归提取物流配送中心与客户点的特征信息，并对不同状态下路径图中的特征信息进行更新；然后构建Actor-Critic网络与Critic网络，由长短期记忆网络(LSTM)组成其编码器与解码器的神经元，随后将特征信息导入Actor-Critic网络进行编码与解码；接着利用随机策略梯度下降算法对Actor-Critic网络进行参数训练，将ActorNet产生的实际奖励值与CriticNet产生的预估奖励值进行均方误差计算，同时对Actor指针网络进行修正计算损失函数以此生成车辆下一个将要访问的客户点；大幅度降低了求解时间，并能获得更优质的车辆配送路径方案。

为实现上述目的，根据本发明的第一方面的实施例提出综合深度神经网络与强化学习的车辆路径问题求解方法，包括以下步骤：

步骤一：将车辆路径抽象为一个无向图的形式；将无向图标记为G；其中，无向图中的每个节点分别代表具有货物需求的收货点；每个节点均具有需求数量属性；无向图的每条边代表每个收货点之间的路径；

步骤二：利用Strut2Vec根据对应的无向图G的结构递归提取节点的特征；

步骤三：构建Actor-Critic网络；包括使用编码器将图信息、节点状态以及包括起始点的初始无向图作为输入，生成图形结构和节点特征的编码；以及使用解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点；

步骤四：训练Actor-Critic网络；包括定义奖励函数，并使用随机策略梯度下降方法训练指针网络ActorNet；以及根据指针网络ActorNet输出的策略，使用随机梯度下降对每个策略产生的价值进行预测的方式训练价值网络CriticNet；再将指针网络ActorNet产生的实际奖励值与价值网络CriticNet产生的预估奖励值求得均方误差作为优化目标，采用随机梯度下降的方式进行训练Actor-Critic网络；

步骤五：使用训练好的Actor-Critic网络求解车辆路径问题；

Strut2Vec提取节点特征的方式为对节点的属性和边的属性用不同的参数Θ进行非线性映射到神经网络中，经过r次迭代后得到每个节点点及其与邻点边的特征信息；r为预先设置的迭代次数参数；参数Θ根据每条边的距离以及来往时间按照一定比例通过指针网络训练而得；Strut2Vec将算例中的每一个点嵌入一个初始化为0的P维特征；其中，P代表每个节点的属性的数量；然后对所有的嵌入特征进行同步更新；更新函数如下：

其中，i、j分别代表不同的节点；x_i表示节点i的多维节点特征，为节点i的所有相邻节点点，f(；Θ)是特征矩阵一个非线性参数映射，/>和/>是节点i、j的路线迭代参数，/>是车辆k从节点i行驶到节点j的距离参数，/>是车辆k从节点i行驶到节点j的燃料参数，/>是车辆k从节点i行驶到节点j的时间参数；

所述编码器与解码器均属于循环神经网络，内部神经元由若干个LSTM网络组成；

所述编码器将图信息、节点状态以及包括起始点的初始无向图经过LSTM网络转换为P维的特征信息，并经过LSTM处理后的原始数据作为解码器的初始输入；LSTM将节点信息转化为P维特征信息步骤如下：

其中σ是sigmoid函数，W_f,W_i,W_C,W_C是模型待训练的参数，对应的b是模型的偏置参数，b_f,b_i,b_C,b_o是模型偏差参数；h_i-1表示的是节点i-1阶段的隐藏层信息，表示的是节点i迭代R次后的路线信息；F_i表示的是LSTM网络中的遗忘门，对上一节点传进来的信息有选择的进行忘记；I_i为输入门，对上一节点的信息有选择的输入，O_i为输出门，决定是否使用隐藏层状态；/>表示候选记忆单元，/>和/>表示的是节点i、i-1的记忆单元；

先将起始节点的信息输入指针网络，然后将其他节点的信息随机进行输入，最后，根据所有节点生成的P维的特征信息，编码器生成图形结构和节点特征的编码，并将其作为初始单元内存状态输入编码器；

采用LSTMs单元构建了PTRNET解码器的递归神经网络模型，解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点；在每一步中根据注意力机制，把这个权重最大的元素就相当于指针网络的指针，作为最终的输出；注意力机制的定义如下公式表示：

其中，k代表来往各个节点之间的运输车；π是概率策略，即每要访问下一个节点，都会产生一个概率π(i)，π(<i)即是指产生的概率π(i)的个数要小于节点个数i；v^T是注意力向量，W^enc,W^dec是注意力矩阵，A是注意力函数，C^dec是在给定所有节点都嵌入的情况下，编码器产生图结构和节点特征的编码，同时也是节点的记忆单元；W^enc、W^dec均是注意力矩阵；其中W^enc代表编码器中的节点的注意力矩阵，W^dec代表解码器中的注意力矩阵；注意力矩阵的目的在于以矩阵形式获得节点的全部信息，因此注意力矩阵的计算究其根本还是X与X^T在做向量点积,其中X为节点的输入序列，X^T为X的转置；

是/>动态状态下k车经历过的点的集合；softmax是归一函数；/>和/>分别为节点i、j的记忆单元；

指针网络输出的选择下个客户点π(i)的概率定义为：

其中，表示的状态/>选择下一个访问节点i的概率函数；

指针网络ActorNet通过将节点信息输入编码器与解码器生成下一个将要访问节点的概率，并且计算初步的奖励；计算奖励的方式为：

在给定的环境状态下，指针网络输出智能体每一步的动作概率向量，根据该概率向量以采样选择方式输出联合策略；每一个策略与环境进行交互，在条件约束下完成客户的需求就会生成奖励值，奖励值可以设置为完成需求的次数；如果违反约束或未完成客户需求，就会得到一定的惩罚值；最终的累积奖励是所有策略与环境交互产生的奖励值减去惩罚值；奖励函数就是累计奖励，定义的奖励函数为：

其中是根据实际经验设置的达成目标的奖励函数，/>是根据实际经验设置的违反约束的惩罚函数；采用随机策略梯度下降的方法进行训练，公式如下：

其中是一个基线函数，由价值网络CriticNet生成；

价值网络CriticNet由若干LSTM网络组成，LSTM网络处理由编码器隐藏层输入的信息，最后由两个全连接的ReLU层进行解码；采用随机梯度下降的方式进行训练Actor-Critic网络使用的公式为：

在经过若干次数的迭代后，生成近似最优解；即获取近似最优的送货路线。

与现有技术相比，本发明的有益效果是：

1、本发明综合利用深度神经网络与强化学习的车辆路径问题求解方法，本发明引入深度神经网络与强化学习的概念，利用Strut2Vec的图结构对实际路网进行特征提取，并将其导入PtrNet指针网络进行编码与解码。同时利用Critic网络对Actor指针网络进行修正，生成车辆下一个将要访问的客户点，最终获得完整的车辆配送路径方案；

2、本发明综合利用深度神经网络与强化学习的车辆路径问题求解方法，本发明对比传统启发式算法能够精准求解大规模车辆路径问题，大幅度降低了求解时间，并能获得更优质的车辆配送路径方案，这为物流企业降低物流成本的同时也能更合理的实时制定车辆配送路径方案；

3、本发明综合利用深度神经网络与强化学习的车辆路径问题求解方法，通过Strut2Vec根据对应的图结构递归提取物流配送中心与客户点的特征信息，并对不同状态下路径图中的特征信息进行更新；然后构建Actor-Critic网络与Critic网络，由长短期记忆网络(LSTM)组成其编码器与解码器的神经元，随后将特征信息导入Actor-Critic网络进行编码与解码；接着利用随机策略梯度下降算法对Actor-Critic网络进行参数训练，将ActorNet产生的实际奖励值与CriticNet产生的预估奖励值进行均方误差计算，同时对Actor指针网络进行修正计算损失函数以此生成车辆下一个将要访问的客户点；最终通过不断迭代生成完整的车辆配送路径方案，实现对车辆路径问题的求解。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，综合深度神经网络与强化学习的车辆路径问题求解方法，包括以下步骤：

步骤五：使用训练好的Actor-Critic网络求解车辆路径问题；

在一个优选的实施例中，所述无向图G的每个节点均具有需求数量、坐标、送货时间窗等属性；且每条边均带有距离以及来往时长等属性；

struc2vec是使用层次结构来测量不同节点的相似性，并构建多层图来编码结构相似性并生成节点的结构上下文的工具；struc2vec在捕获节点的结构身份方面表现出色；它通过明确关注结构同一性而克服了它们的局限性；struc2vec在节点标签更依赖于其角色或结构身份的分类任务中具有优势；最后，生成表示的不同模型往往会捕获不同的属性。

在一个优选的实施例中，Strut2Vec提取节点特征的方式为对节点的属性和边的属性用不同的参数Θ进行非线性映射到神经网络中，经过r次迭代后得到每个节点点及其与邻点边的特征信息；r为预先设置的迭代次数参数；参数Θ根据每条边的距离以及来往时间按照一定比例通过指针网络训练而得；Strut2Vec将算例中的每一个点嵌入一个初始化为0的P维特征；其中，P代表每个节点的属性的数量；然后对所有的嵌入特征进行同步更新；更新函数如下：

可以理解的是，本实施例所列的四种参数仅为参数示例，在实际应用中可以根据具体情况添加或修改参数；修改或添加参数均在本发明的保护范围内；此嵌入更新规则是基于图的拓扑结构计算的，节点i的多维节点特征通过函数f向相邻节点传播；

其中，所述编码器与解码器均属于循环神经网络，内部神经元由若干个LSTM网络组成；

LSTM即长短期记忆网络，是RNN的改进版网络结构；被提出用来解决RNN在长序列训练过程中的梯度消失和梯度爆炸问题；LSTM网络常被用来解决具有时序性数据的分析问题；

在一个优选的实施例中，所述编码器将图信息、节点状态以及包括起始点的初始无向图经过LSTM网络转换为P维的特征信息，并经过LSTM处理后的原始数据作为解码器的初始输入；LSTM将节点信息转化为P维特征信息步骤如下：

先将起始节点的信息输入指针网络，然后将其他节点的信息随机进行输入，节点的信息包括：距离，类型，油耗，货物需求容量，最后，根据所有节点生成的P维的特征信息，编码器生成图形结构和节点特征的编码，并将其作为初始单元内存状态输入编码器；

PTRNET为指针网络，其包含编码器encoder和解码器decoder部分，是一种能够生成可变大小输出序列的神经网络架构；因为指针网络输出序列的长度取决于输入序列，这解决了传统序列到序列(seq2seq)模型必须固定序列长度的限制；

PRTNET解码器是指在整个Actor-Critic网络中，PRTNET即指针网络充当解码器的部分，即根据输入序列，生成每个节点的注意力分数，再根据选择规则，输出注意力分数最大(或最小)的节点作为下一个要访问的节点，以此递归，直至生成完整的序列；

在一个优选的实施例中，采用LSTMs单元构建了PTRNET解码器的递归神经网络模型，解码器也是将原始数据转换成隐藏层状态，只是将其中的上下文信息由编码器中的上下文信息替代维解码器中的上下文信息；解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点；在每一步中根据注意力机制，把这个权重最大的元素就相当于指针网络的指针，作为最终的输出；注意力机制的定义如下公式表示：

是S动态状态下k车经历过的点的集合；softmax是归一函数；/>和/>分别为节点i、j的记忆单元；

指针网络输出的选择下个客户点π(i)的概率定义为：

其中，表示的状态/>选择下一个访问节点i的概率函数；

可以理解的是，Actor-Critic网络：包括两部分，行动者(Actor)和评价者(Critic)。其中Actor使用策略函数，负责生成动作(Action)并和环境交互。而Critic使用价值函数，负责评估Actor的表现，并指导Actor下一阶段的动作；Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率。

Actor Critic优点为可以进行单步更新,相较于传统的回合更新要快；

指针网络ActorNet：即Actor-Critic网络中的Actor部分，在本发明中将其作为指针网络的部分；主要用于在每一步都会生成对输入元素的概率分布。以此更新actor网络的损失；

价值网络CriticNet：即Actor-Critic网络中的critic网络；

在一个优选的实施例中，指针网络ActorNet通过将节点信息输入编码器与解码器生成下一个将要访问节点的概率，并且计算初步的奖励；计算奖励的方式为：

其中是一个基线函数，由价值网络CriticNet生成；S为节点状态，Υ为奖励值，Pr为状态转移概率，B为访问节点的总个数；/>为状态S下的奖励值的梯度，为任意状态下的梯度表示；

在一个优选的实施例中，价值网络CriticNet由若干LSTM网络组成，LSTM网络处理由编码器隐藏层输入的信息，最后由两个全连接的ReLU层进行解码；采用随机梯度下降的方式进行训练Actor-Critic网络使用的公式为：

其中l(θ_v)表示对价值网络生成的估计奖励与指针网络之间的均方差损失，D为更新模型的批量大小，b为基线函数，Qi为当前策略策略，Ci是价值网络CriticNet，reward为Qi在价值网络CriticNet中生成的奖励值；

可以理解的是，如果均方误差越小，该方法的规划效果越好，从而Actor-Critic会对相应的策略赋予更大的权重，在下一次策略的选择上，就会优先选择权重较大的策略，在经过一定次数的迭代后，就可以生成近似最优解；即获取近似最优的送货路线；

本发明的工作原理为：

总的Actor-Critic求解车辆路径问题的具体过程如下：

步骤S1：初始化Actor的奖励参数与Critic的奖励参数

步骤S2：进行迭代，直到参数收敛,具体步骤如下：

步骤P1：随机生成物流配送中心与客户点的特征信息；

步骤P2：用Strut2Vec根据对应的图结构递归提取节点的特征；以当前状态S下的路径图用ActorNet生成车辆的访问路线以及实际的奖励值；

步骤P3：同时用CriticNet生成奖励的估计值；

步骤P4：用随机策略梯度下降的方法训练ActorNet，更新参数；

步骤P5：用随机策略梯度下降和均方误差训练CriticNet，更新参数；

步骤P6：用adam优化器对ActorNet的实际奖励进行更新；Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重；具有适用于梯度稀疏或梯度存在很大噪声的问题、很适合应用于大规模的数据及参数的场景以及参数的更新不受梯度的伸缩变换影响等特点；

步骤P7用adam优化器对CriticNet的估计奖励进行更新；

步骤S3：当参数收敛或达到预定的最大迭代次数是，算法终止。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.综合深度神经网络与强化学习的车辆路径问题求解方法，其特征在于，包括以下步骤：

步骤一：将车辆路径抽象为一个无向图的形式；将无向图标记为G；其中，无向图中的每个节点分别代表具有货物需求的收货点；无向图的每条边代表每个收货点之间的路径；节点的信息包括：距离、类型、油耗以及货物需求容量；

Strut2Vec提取节点特征的方式为对节点的属性和边的属性用不同的参数Θ进行非线性映射到神经网络中，经过r次迭代后得到每个节点及其与邻点边的特征信息；r为预先设置的迭代次数参数；参数Θ根据每条边的距离以及来往时间按照一定比例通过指针网络训练而得；Strut2Vec将算例中的每一个点嵌入一个初始化为0的P维特征；其中，P代表每个节点的属性的数量；然后对所有的嵌入特征进行同步更新；

更新函数如下：

其中，i、j分别代表不同的节点；x_i表示节点i的多维节点特征，为节点i的所有相邻节点，f(；Θ)是特征矩阵一个非线性参数映射，/>和/>是节点i、j的路线迭代参数，是车辆k从节点i行驶到节点j的距离参数，/>是车辆k从节点i行驶到节点j的燃料参数，/>是车辆k从节点i行驶到节点j的时间参数；

采用LSTMs单元构建PTRNET解码器的递归神经网络模型，解码器也是将原始数据转换成隐藏层状态，只是将其中的上下文信息由编码器中的上下文信息替代维解码器中的上下文信息；解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点；在每一步中根据注意力机制，这个权重最大的元素相当于指针网络的指针，作为最终的输出；注意力机制的定义如下公式表示：

其中，k代表来往各个节点之间的运输车；π是概率策略，即每要访问下一个节点，都会产生一个概率π(i)，π(<i)即是指产生的概率π(i)的个数要小于节点个数i；是注意力向量，W^enc,W^dec是注意力矩阵，A是注意力函数，C^dec是在给定所有节点都嵌入的情况下，编码器产生图结构和节点特征的编码，同时也是节点的记忆单元；W^enc、W^dec均是注意力矩阵；其中W^enc代表编码器中的节点的注意力矩阵，W^dec代表解码器中的注意力矩阵；

指针网络输出的选择下个客户点π(i)的概率定义为：

其中，表示的状态/>选择下一个访问节点i的概率函数；

其中是一个基线函数，由价值网络CriticNet生成；S为节点状态，Υ为奖励值，Pr为状态转移概率，B为访问节点的总个数；/>为状态S下的奖励值的梯度，/>为任意状态下的梯度表示；

在经过若干次数的迭代后，生成近似最优解；即获取近似最优的送货路线；

步骤五：使用训练好的Actor-Critic网络求解车辆路径问题；

总的Actor-Critic求解车辆路径问题的具体过程如下：

步骤S1：初始化Actor的奖励参数与Critic的奖励参数

步骤S2：进行迭代，直到参数收敛,具体步骤如下：

步骤P1：随机生成物流配送中心与客户点的特征信息；

步骤P3：同时用CriticNet生成奖励的估计值；

步骤P4：用随机策略梯度下降的方法训练ActorNet，更新参数；

步骤P6：用adam优化器对ActorNet的实际奖励进行更新；

步骤P7用adam优化器对CriticNet的估计奖励进行更新；

2.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法，其特征在于，所述编码器将图信息、节点状态以及包括起始点的初始无向图经过LSTM网络转换为P维的特征信息，并经过LSTM处理后的原始数据作为解码器的初始输入；先将起始节点的信息输入指针网络，然后将其他节点的信息随机进行输入，最后，根据所有节点生成的P维的特征信息，编码器生成图形结构和节点特征的编码，并将其作为初始单元内存状态输入编码器。