CN116681194A

CN116681194A - 基于强化学习的卡车-无人机协同路径优化方法及系统

Info

Publication number: CN116681194A
Application number: CN202310614227.4A
Authority: CN
Inventors: 李红启; 王飞龙; 詹茁芃
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-09-01

Abstract

本发明公开了一种基于强化学习的卡车‑无人机协同路径优化方法及系统。其中方法包括构建马尔科夫决策过程MDP模型；基于所述MDP模型，通过Q学习算法获得卡车‑无人机协同配送的无人机协助下的旅行商问题TSP‑D的最优解，所述Q学习算法包括在得到一个学习到的状态之后，采用局部搜索算法LS对这个状态进行局部改善；在进行动作选择时，采用大邻域搜索算法LNS获取启发式全局后效收益。通过本发明的方案使得Q学习算法在求解组合优化问题时可以有较好的收敛效果。

Description

基于强化学习的卡车-无人机协同路径优化方法及系统

技术领域

本发明一般地涉及路径优化技术领域。更具体地，本发明涉及一种基于强化学习的卡车-无人机协同路径优化方法及系统。

背景技术

随着无人机在物流领域受到越来越多的关注，一种新型交付概念被提出——无人机联合配送车协同配送包裹，从而引发了“无人机—旅行商”问题(Travelling SalesmanProblemwith Drone,TSP-D)的讨论。现有技术中，针对多车型CVRP(考虑车辆载重量限制的车辆路径问题)结合注意力机制(Attention Mechanism)，采用了DRL(深度强化学习)模型，其中DRL模型中所用到的网络结构如图1所示。在模型训练学习的过程中，在每一个学习的时间步下，设计有一个车辆解码器(vehicle decoder)用于选择当前时间步下选择使用哪一辆车进行使用；一个节点解码器(node decoder)，用于选择当前时间步下选择哪一个节点进行服务。最后使用REINFORE算法对模型中的参数进行训练，将训练好的模型用于其他算例的求解。

进一步的，DRL模型还可用于求解考虑订单动态变化的SDD(同日配送问题)，问题同时使用卡车和无人机两种运载工具，均从场站出发进行订单的配送。此外，针对FSTSP(无人机协助下的旅行商问题，相当于TSP-D的一种简化变体)，考虑卡车行驶时间的随机性，借助深度Q网络和A2C(演员-评价)机制产生了一种RL(强化学习)算法，算法可以同时处理动态行驶时间因素和卡车-无人机之间的协同关系。以上现有技术的参考文献包括：

Chen,X.,Ulmer,M.W.,&Thomas,B.W.(2022).Deep Q-learning for same-daydelivery with vehicles and drones.European Journal of Operational Research,298(3),939-952.

Liu,Z.,Li,X.,&Khojandi,A.(2022).The flying sidekick travelingsalesman problem with stochastic travel time:A reinforcement learningapproach.Transportation Research Part E:Logistics and Transportation Review,164,102816.

Li,J.,Ma,Y.,Gao,R.,Cao,Z.,Lim,A.,Song,W.,&Zhang,J.(2021).Deepreinforcement learning for solving the heterogeneous capacitated vehicleroutingproblem.IEEE Transactions on Cybernetics,52(12),13572-13585.

然而，现有技术中用于优化卡车-无人机路径的方法，均需要借助神经网络来构建大型的深度强化学习模型，通过长时间的模型参数训练从而得到可以在线下使用的模型。这种方法的弊端主要有以下两个方面：

首先，深度强化学习模型对于数据具有很高的敏感性，通过使用服从某种或者某几种分布的数据集训练得到的模型对于其他的分布的数据通常不能得到很好的求解效果；

其次，基于深度强化学习的模型中均需要使用到神经网络的相关结构，这使得在神经网络内部，很难使用当前求解优化问题的有效手段，如启发式和精确算法，进行模型训练时候的校准和引导。

发明内容

为了至少解决上述背景技术部分所描述的技术问题，本发明提出了一种基于强化学习的卡车-无人机协同路径优化方法及系统。利用本发明的方案，使用LS算法对于每一个学习步得到的状态进行迭代提升，从而协助克服状态无限的问题；使用LNS算法对于Bellman方程中的后效收益进行估计，使用更好的后效收益进行总收益的更新，从而协助克服动作无限的问题。鉴于此，本发明在如下的多个方面提供解决方案。

本发明的第一方面，提供一种基于强化学习的卡车-无人机协同路径优化方法，包括：构建马尔科夫决策过程MDP模型，所述马尔科夫决策过程MDP模型包括状态，动作，状态转移函数和收益函数；基于所述MDP模型，通过Q学习算法获得卡车-无人机协同配送的无人机协助下的旅行商问题TSP-D的最优解，所述Q学习算法包括在得到一个学习到的状态之后，采用局部搜索算法LS对这个状态进行局部改善；在进行动作选择时，采用大邻域搜索算法LNS获取启发式全局后效收益。

在一个实施例中，所述通过Q学习算法获得卡车-无人机协同配送的TSP-D问题的最优解，包括：S1：输入TSP-D的第一参数信息,及Q学习算法的第二参数信息，初始化第0个时间步的初始动态状态向量；所述第一参数信息包括节点位置、卡车速度和无人机速度信息，所述第二参数信息包括折减率参数，学习率参数；S2：调用以大邻域搜索算法LNS估计后效收益的动作选择函数，输出下一个应该执行的动作信息；S3：根据贝尔曼(Bellman)方程，在Q表中更新当前状态-动作对的收益值；S4：调用状态转移函数，根据当前状态和选择的动作，获取下一个状态信息，并调用局部搜索算法LS对获得的新的状态进行提升；S5：在新的状态下，若当卡车和无人机均回到场站，则说明当前次Q学习迭代结束，则使用获得到的解方案更新最优解方案，并调用大邻域搜索算法LNS对最优解方案进行改进，转到S6；否则转到S2，继续寻找新状态下，下一个应该执行的动作；S6：将大邻域搜索算法LNS改进之后的最优解方案中包含的状态-动作信息，在Q表中相应提高收益值，更新Q表；S7：重复上述过程，直到达到预先设定的Q学习的总迭代次数为止，输出最优解方案和最优目标函数值。

在一个实施例中，还通过随机移除和关联度移除两种LNS破坏算子，以及贪婪修复和遗憾修复两种修复算子克服状态/动作无限的问题：对于移除的客户点数量，在LNS搜索前期，移除较多的客户点，从而充分探索不同的邻域，寻找较优的邻域结构；在LNS搜索后期，移除较少的客户点，从而细致搜索局部邻域，寻找更优的解方案；对于移除完客户点之后的TSP-D路径方案，首先检验将客户点插入到卡车路径之后的变动成本，之后再检验将选定的客户点作为无人机子路径插入的变动成本；对于贪婪修复方式，在所有可行修复方案中，以50％概率选择变动成本最小的修复方案进行路径修复，以50％的概率选择变动成本次优的修复方案进行路径修复；对于遗憾修复方式，首先计算每一客户点插入到TSP-D路径方案中的路径成本序列，之后计算每一个客户点插入方案成本序列的遗憾值。

在一个实施例中，还采用动态规划的统治策略，以此来限制次优状态添加到Q表中，包括；对于两个状态S₁和S₂，当满足以下条件(1)-(6)时，状态S₁统治状态S₂，而不需要将状态S₂添加到Q表中，在生成状态S₂时，直接以状态S₁进行代替：条件(1)：状态S₁和S₂中，卡车到达的客户点相同；条件(2)：状态S₁和S₂中，无人机到达的客户点相同；条件(3)：状态S₁中，卡车到达最后一个客户点的时间不超过S₂中卡车到达最后一个客户点的时间；条件(4)：状态S₁中，卡车在最后一个客户点的等待时间不超过S₂中卡车在最后一个客户点的等待时间；条件(5)：状态S₁中，无人机到达最后一个客户点的时间不超过S₂中无人机到达最后一个客户点的时间；条件(6)：状态S₁中卡车和无人机访问的客户点集合是状态S₂中卡车和无人机访问客户点集合的子集。

在一个实施例中，还包括采用精英解学习策略对状态无限的Q学习算法进行改进：当Q学习连续迭代一定次数没有对当前解进行优化时，将Q表中除初始状态外的其他状态均进行删除，之后使用精英解集合中的解进行Q表状态的重新初始化；将精英解对应的状态反输到Q表中，相当于对之前找到的所有最优解进行再一次地学习，以提高学习的效率和学习的质量。

在一个实施例中，所述MDP模型中状态包括静态状态和动态状态两种；所述静态状态包括，节点的位置，卡车速度和无人机速度信息；所述动态状态包括，每个时间步下卡车访问的客户点、每个时间步下卡车到达客户点的时间、每个时间步下卡车在客户点的等待时间、无人机在每个时间步下所在的客户点位置、无人机在每个时间步下到达客户点的时间、和已经被卡车和无人机组合访问过的客户点的集合。

在一个实施例中，所述MDP模型中动作包括:在每个时间步下卡车到达的客户点和无人机到达的客户点。

在一个实施例中，所述MDP模型中状态转移函数包括：规定在访问完所有的客户点之前卡车不能率先返回场站，但无人机可以先返回场站，同时返回场站的载运工具不能再次出发服务客户点；所有客户点均不能被重复访问，在每一个时间步下，卡车和无人机选定动作包含的客户点均不能与之前卡车/无人机已经访问的客户点重复。

在一个实施例中，所述MDP模型中收益函数包括：通过设置弧的长度越长，收益越低，使得算法在学习的过程中尽量探索那些距离比较短的路径，从而获得更大的收益。

本发明的第二方面，提供一种基于强化学习的卡车-无人机协同路径优化系统，运行上述任一种基于强化学习的卡车-无人机协同路径优化方法。

利用本发明所提供的方案，从强化学习算法(RL)最本质的技术路线入手，借助启发式算法得到的优质解方案信息，对Q学习的学习过程进行引导和校准，从而使得Q学习在求解组合优化问题时可以有较好的收敛效果。

本发明一方面，在Q学习的过程中，同时使用大邻域搜索算法(LNS)对无人机协助下的旅行商问题(TSP-D)问题进行求解，当得到较优的解方案时，将较优解方案中的路径进行拆分，对于路径中所有弧对应的状态-动作对在Q表中的收益值进行提高和更新，从而引导Q学习向着更优解的方向进行学习。另一方面，由于TSP-D问题在使用Q学习求解时是一种状态和动作均近似无限的问题，本发明使用局部搜索算法LS对于每一个学习步得到的状态进行迭代提升，从而协助克服状态无限的问题；使用LNS算法对于Bellman方程中的后效收益进行估计，使用更好的后效收益进行总收益的更新，从而协助克服动作无限的问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出现有技术中的DRL模型中所用到的网络结构；

图2是示出根据本发明实施例的卡车-无人机协同路径优化方法；

图3是示出根据本发明实施例的MDP模型示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的发明进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

应当理解，本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施方式的目的，而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合附图来详细描述本发明的具体实施方式。

本发明的第一方面，提供了一种基于强化学习的卡车-无人机协同路径优化方法。图2是示出根据本发明实施例的本发明实施例的协同路径优化，本发明的基于强化学习的卡车-无人机协同路径优化方法可概括为包含步骤S100-S200：

步骤S100：构建马尔科夫决策过程MDP模型。

具体的，上述马尔科夫决策过程MDP模型包括状态，动作，状态转移函数和收益函数；

步骤S200：基于所述MDP模型，通过Q学习算法获得卡车-无人机协同配送的无人机协助下的旅行商问题TSP-D的最优解.

具体的，上述Q学习算法包括在得到一个学习到的状态之后，采用局部搜索算法LS对这个状态进行局部改善；在进行动作选择时，采用大邻域搜索算法LNS获取启发式全局后效收益。

本发明针对现有技术的缺陷，从强化学习算法(RL)最本质的技术路线入手，借助启发式算法得到的优质解方案信息，对Q学习的学习过程进行引导和校准，从而使得Q学习在求解组合优化问题时可以有较好的收敛效果。

在求解卡车-无人机协同路径问题之前，首先需要构建MDP模型。图3为本发明MDP的模型架构示意图，如图3所示，上述MDP模型包括：状态101，动作102，状态转移函数103和收益函数104四部分内容。

本发明的一实施例中，上述状态101具体解释如下：

TSP-D问题的状态分为静态状态和动态状态两种，静态状态包括节点的位置，卡车速度和无人机速度信息；动态状态包括，(1)每个时间步下卡车访问的客户点；(2)每个时间步下卡车到达客户点的时间；(3)每个时间步下卡车在客户点的等待时间；(4)无人机在每个时间步下所在的客户点位置；(5)无人机在每个时间步下到达客户点的时间；(6)和已经被卡车和无人机组合访问过的客户点的集合。

本发明的一实施例中，上述动作102具体解释如下：

本发明设定每个时间步下的动作包含两个维度：即在每个时间步下卡车到达的客户点和无人机到达的客户点。

本发明的一实施例中，上述状态转移函数103具体解释如下：

因为所有的客户点均需要被卡车或者无人机进行服务，所以规定在访问完所有的客户点之前卡车不能率先返回场站，但无人机可以先返回场站，同时返回场站的载运工具不能再次出发服务客户点；同时本发明规定所有客户点均不能被重复访问，所以在每一个时间步下，卡车和无人机选定动作包含的客户点均不能与之前卡车/无人机已经访问的客户点重复。

(1)卡车访问的客户点状态更新规则：若当前动作中选定的卡车客户点与当前状态卡车到达的客户点相同，则当前时间步卡车保持不动，否则卡车移动到下一个客户点。

(2)卡车到达客户点的时间更新规则：若当前时间步下卡车向前移动，则卡车到达新的客户点的时间随之更新，更新时需要考虑在当前时间步卡车等待无人机所花费的时间；若在当前时间步卡车访问的客户点下，无人机进行了原地回收，则还需要考虑无人机原地释放回收的时间。

(3)卡车在客户点的等待时间更新规则：若当前时间步卡车向前移动，同时无人机在下一个时间步和卡车进行汇合，则需要根据无人机和卡车到达汇合点的时间来衡量是否需要更新卡车的等待时间；否则若卡车在当前时间步向前移动，但无人机保持不动(或者无人机到汇合点的时间早于卡车；或者无人机同卡车一起向前移动；或者无人机进行分离)，则卡车在当前时间步的等待时间为0；若卡车保持不动，则等待时间保持不变。

(4)无人机在每个时间步下所在的客户点位置更新规则为：若当前动作中选定的无人机客户点与当前状态无人机到达的客户点相同，则当前时间步无人机保持不动，否则无人机移动到下一个客户点。在原地回收情境下，若卡车在当前时间步向前移动时，则无人机跟随卡车到达当前时间步下的卡车客户点；若卡车在当前时间步不移动时，无人机访问完子路径客户点之后返回卡车所在的位置。

(5)无人机在每个时间步下到达客户点的时间更新规则为：若无人机在当前时间步从卡车进行分离，则记录无人机到达无人机服务客户点的时间；若无人机在当前时间步从卡车进行分离并进行原地回收，则记录无人机回到释放点的时间；若无人机跟随卡车前进(包括无人机在当前时间步进行了原地回收)，则记录卡车到达下一个客户点的时间；若无人机在当前时间步和卡车进行汇合，则记录无人机到达汇合点的时间；若无人机保持不动，则保持不变。

(6)卡车和无人机组合访问过的客户点的集合更新规则为：当卡车和无人机都向前移动时，卡车访问的客户点和无人机访问的客户点的访问次数均置为1；当无人机分离，但卡车保持不动时，无人机分离后访问的客户点访问次数置为1；当卡车前移但无人机保持不动时，只有卡车访问的客户点的访问次数置为1。

本发明的一实施例中，上述收益函数104具体解释如下：

收益函数的设置方式保证了弧的长度越长，收益越低，使得算法在学习的过程中尽量探索那些距离比较短的路径，从而获得更大的收益。因为在TSP-D问题中，一个时间步下可能会涉及无人机的多个操作(考虑无人机原地回收)，为了保证每种情况下的收益值不会因为操作数量而产生明显差异，本发明针对卡车搭载无人机同时前进；分离状态的无人机向前移动，同时卡车向前移动；无人机从卡车进行分离，同时卡车向前移动；无人机从卡车上分离之后，立即进行原地回收，同时卡车向前移动；无人机从卡车上分离之后，立即进行原地回收但卡车保持不动，或者无人机分离但卡车不动中的每一种操作均进行归一化处理，使得每个操作的收益都处于一段弧行驶时间(的相反数)的水平。

需要说明的是，针对TSP-D的MDP构建可以有不同的方式，如：动作可以设计为单个维度(所有的客户点)，同时某个状态下选择动作时需要做两步决策，决策使用卡车/无人机，同时决策下一个访问的客户点。所以其他MDP形式可以作为本发明的替代方进行有效求解。

本发明采用LS和LNS结合Q学习的思想基于一个简单的事实：若在Q学习的过程中，每一步的学习状态均为最优解的一部分，同时每一步选择的动作均为最优解在当前状态下的下一个动作，则Q学习可以直接搜索到最优解。所以在得到一个Q学习到的状态之后，采用LS对这个状态进行局部改善；在进行动作选择时，采用LNS获取启发式全局后效收益；最终目的是使得，每一步的状态更新和动作选择尽可能向着最优解的方向靠近。本发明中强化学习求解TSP-D流程如下：

第一步：输入TSP-D的参数信息(MDP静态状态信息)，Q学习算法的参数信息(折减率参数，学习率参数)，初始化第0个时间步的初始动态状态向量；

第二步：调用以LNS估计后效收益的动作选择函数(改进Bellman方程)，输出下一个应该执行的动作信息；

第三步：根据传统Bellman方程，在Q表中更新当前状态-动作对的收益值；

第四步：调用状态转移函数，根据当前状态和选择的动作，获取下一个状态信息，并调用LS对获得的新的状态(一条局部路径)进行提升；

第五步：在新的状态下，若当卡车和无人机均回到场站，则说明当前次Q学习迭代结束，则使用获得到的解方案更新最优解方案，并调用LNS对最优解方案进行改进，转到第六步；否则转到第二步，继续寻找新状态下，下一个应该执行的动作；

第六步：将LNS改进之后的最优解方案中包含的状态-动作信息，在Q表中相应提高收益值，更新Q表；

第七步：重复上述过程，直到达到预先设定的Q学习的总迭代次数为止，输出最优解方案和最优目标函数值。

本发明使用LS协助Q学习克服状态无限的问题。在不考虑路径可行性的条件下，全枚举所有不包含无人机子路径的状态的空间复杂度为O(n！)，若再考虑无人机子路径，将产生更多的状态数量。本发明对于每一次Q学习得到的状态，进行多次LS搜索，若搜索到更优的状态，则将获得的更优的状态作为新的状态进行Q表的更新。这样做可以一定程度上克服状态数量无限的问题，因为无论状态数量有多少，只要每一步都以最优状态向下学习，则Q学习就可以直接向着最优解进行逼近。针对TSP-D问题，LS采用采用swap和2-opt两种不同的邻域算子进行状态的提升。

本发明使用Q学习结合LNS搜索策略协助克服动作无限的问题。对于Q学习找到的近似最优解，对其进行进一步的LNS搜索。一方面，LNS可以搜索到相对于单纯Q学习更优的解方案；另一方面，将LNS搜索到的不同结构的解方案择优重新回馈给Q学习进行进一步的学习，从而实现二者的有机耦合和相互促进的效果。

本发明针对TSP-D问题设计使用随机移除和关联度移除两种LNS破坏算子，以及贪婪修复和遗憾修复两种修复算子。对于移除的客户点数量，本发明采用动态调整移除客户点数量的方式，移除的客户点数量从50％-10％个客户点之间动态变化。在LNS搜索前期，移除较多的客户点，从而充分探索不同的邻域，寻找较优的邻域结构；在LNS搜索后期，移除较少的客户点，从而细致搜索局部邻域，寻找更优的解方案。移除客户点之后，不会破坏移除后路径的可行性，所以直接可以得到移除完客户点之后的部分TSP-D路径方案。

对于移除完客户点之后的TSP-D路径方案，本发明采用贪婪修复和遗憾修复的方式将已经移除的客户点插入到路径方案中。因为TSP-D路径方案中包含卡车路径和无人机路径两种路径种类，所以在进行某个客户点修复时，首先检验将客户点插入到卡车路径之后的变动成本，之后再检验将选定的客户点作为无人机子路径插入的变动成本。对于贪婪修复方式，在所有可行修复方案中，以50％概率选择变动成本最小的修复方案进行路径修复，以50％的概率选择变动成本次优的修复方案进行路径修复；对于遗憾修复方式，首先计算每一客户点插入到TSP-D路径方案中的路径成本序列，之后计算每一个客户点插入方案成本序列的遗憾值。在遗憾值最大的某个客户点的所有修复方案中，选择成本最小的修复方案进行路径修复。

在本发明的一实施例中，还通过状态统治策略来克服状态无限的问题。由于TSP-D只包含一条卡车-无人机路径，而状态拓展其实是一种近似动态规划算法(ADP)方法，所以不同状态之间可以采用动态规划的统治策略，以此来限制次优状态添加到Q表中，进一步协助克服状态无限的问题。

对于两个状态S1和S2，当满足以下条件(1)-(6)时，状态S1可以统治状态S2，从而不需要将状态S2添加到Q表中，在生成状态S2时，直接以状态S1进行代替。

条件(1)：状态S1和S2中，卡车到达的客户点相同；

条件(2)：状态S1和S2中，无人机到达的客户点相同；

条件(3)：状态S1中，卡车到达最后一个客户点的时间不超过S2中卡车到达最后一个客户点的时间；

条件(4)：状态S1中，卡车在最后一个客户点的等待时间不超过S2中卡车在最后一个客户点的等待时间；

条件(5)：状态S1中，无人机到达最后一个客户点的时间不超过S2中无人机到达最后一个客户点的时间；

条件(6)：状态S1中卡车和无人机访问的客户点集合是状态S2中卡车和无人机访问客户点集合的子集。

在本发明的一实施例中，还通过精英解学习策略来克服状态无限的问题。采用精英解学习策略对状态无限的Q学习算法进行改进。首先在Q学习过程中，会记录下每一次更新的最优解，并保存一个“精英解集合”。当Q学习连续迭代一定次数没有对当前解进行优化时，则执行“精英解学习策略”，将Q表中除初始状态外的其他状态均进行删除，之后使用精英解集合中的解进行Q表中状态的重新初始化。将精英解对应的状态反输到Q表中，相当于对之前找到的所有最优解进行再一次地学习，可以提高学习的效率和学习的质量。同时，为了避免对之前最优解学习产生“过拟合”，从而导致陷入局部最优解的情况发生，在进行旧状态删除时，可以只删除90％的旧状态，随机保留10％的状态作为随机扰动因子。

本发明的第二方面还提供一种基于强化学习的卡车-无人机协同路径优化系统，运行上述任一种基于强化学习的卡车-无人机协同路径优化方法。

本发明针对现有技术的缺陷，从强化学习算法(RL)最本质的技术路线入手，借助启发式算法得到的优质解方案信息，对Q学习过程进行引导和校准，从而使得Q学习在求解组合优化问题时可以有较好的收敛效果。

具体来说，在Q学习的过程中，本发明同时使用LNS对TSP-D问题进行求解，当得到较优的解方案时，将较优解方案中的路径进行拆分，对于路径中所有弧对应的状态-动作对在Q表中的收益值进行提高和更新，从而引导Q学习向着更优解的方向进行学习。

另外，由于TSP-D问题在使用Q学习求解时是一种状态和动作均近似无限的问题，本发明使用LS算法对于每一个学习步得到的状态进行迭代提升，从而协助克服状态无限的问题；使用LNS算法对于Bellman方程中的后效收益进行估计，使用更好的后效收益进行总收益的更新，从而协助克服动作无限的问题。

虽然本说明书已经示出和描述了本发明的多个实施方式，但对于本领域技术人员显而易见的是，这样的实施方式是仅以示例的方式提供的。本领域技术人员在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解在实践本发明的过程中，可以采用本文所描述的本发明实施方式的各种替代方案。所附权利要求书旨在限定本发明的保护范围，并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。

Claims

1.一种基于强化学习的卡车-无人机协同路径优化方法，其特征在于，包括：

构建马尔科夫决策过程MDP模型，所述马尔科夫决策过程MDP模型包括状态，动作，状态转移函数和收益函数；

基于所述MDP模型，通过Q学习算法获得卡车-无人机协同配送的无人机协助下的旅行商问题TSP-D的最优解，所述Q学习算法包括在得到一个学习到的状态之后，采用局部搜索算法LS对这个状态进行局部改善；在进行动作选择时，采用大邻域搜索算法LNS获取启发式全局后效收益。

2.根据权利要求1所述的路径优化方法，其特征在于，所述通过Q学习算法获得卡车-无人机协同配送的TSP-D问题的最优解，包括：

S1：输入TSP-D的第一参数信息,及Q学习算法的第二参数信息，初始化第0个时间步的初始动态状态向量；所述第一参数信息包括节点位置、卡车速度和无人机速度信息，所述第二参数信息包括折减率参数，学习率参数；

S2：调用以大邻域搜索算法LNS估计后效收益的动作选择函数，输出下一个应该执行的动作信息；

S3：根据贝尔曼(Bellman)方程，在Q表中更新当前状态-动作对的收益值；

S4：调用状态转移函数，根据当前状态和选择的动作，获取下一个状态信息，并调用局部搜索算法LS对获得的新的状态进行提升；

S5：在新的状态下，若当卡车和无人机均回到场站，则说明当前次Q学习迭代结束，则使用获得到的解方案更新最优解方案，并调用大邻域搜索算法LNS对最优解方案进行改进，转到S6；否则转到S2，继续寻找新状态下，下一个应该执行的动作；

S6：将大邻域搜索算法LNS改进之后的最优解方案中包含的状态-动作信息，在Q表中相应提高收益值，更新Q表；

S7：重复上述过程，直到达到预先设定的Q学习的总迭代次数为止，输出最优解方案和最优目标函数值。

3.根据权利要求1或2所述的路径优化方法，其特征在于，还通过随机移除和关联度移除两种LNS破坏算子，以及贪婪修复和遗憾修复两种修复算子克服状态/动作无限的问题：

对于移除的客户点数量，在LNS搜索前期，移除较多的客户点，从而充分探索不同的邻域，寻找较优的邻域结构；在LNS搜索后期，移除较少的客户点，从而细致搜索局部邻域，寻找更优的解方案；

对于移除完客户点之后的TSP-D路径方案，首先检验将客户点插入到卡车路径之后的变动成本，之后再检验将选定的客户点作为无人机子路径插入的变动成本；对于贪婪修复方式，在所有可行修复方案中，以50％概率选择变动成本最小的修复方案进行路径修复，以50％的概率选择变动成本次优的修复方案进行路径修复；对于遗憾修复方式，首先计算每一客户点插入到TSP-D路径方案中的路径成本序列，之后计算每一个客户点插入方案成本序列的遗憾值。

4.根据权利要求1或2所述的路径优化方法，其特征在于，还采用动态规划的统治策略，以此来限制次优状态添加到Q表中，包括；

对于两个状态S₁和S₂，当满足以下条件(1)-(6)时，状态S₁统治状态S₂，而不需要将状态S₂添加到Q表中，在生成状态S₂时，直接以状态S₁进行代替：

条件(1)：状态S₁和S₂中，卡车到达的客户点相同；

条件(2)：状态S₁和S₂中，无人机到达的客户点相同；

条件(3)：状态S₁中，卡车到达最后一个客户点的时间不超过S₂中卡车到达最后一个客户点的时间；

条件(4)：状态S₁中，卡车在最后一个客户点的等待时间不超过S₂中卡车在最后一个客户点的等待时间；

条件(5)：状态S₁中，无人机到达最后一个客户点的时间不超过S₂中无人机到达最后一个客户点的时间；

条件(6)：状态S₁中卡车和无人机访问的客户点集合是状态S₂中卡车和无人机访问客户点集合的子集。

5.根据权利要求1或2所述的路径优化方法，其特征在于，还包括采用精英解学习策略对状态无限的Q学习算法进行改进：

当Q学习连续迭代一定次数没有对当前解进行优化时，将Q表中除初始状态外的其他状态均进行删除，之后使用精英解集合中的解进行Q表状态的重新初始化；将精英解对应的状态反输到Q表中，相当于对之前找到的所有最优解进行再一次地学习，以提高学习的效率和学习的质量。

6.根据权利要求1所述的路径优化方法，其特征在于，所述MDP模型中状态包括静态状态和动态状态两种；

所述静态状态包括，节点的位置，卡车速度和无人机速度信息；

所述动态状态包括，每个时间步下卡车访问的客户点、每个时间步下卡车到达客户点的时间、每个时间步下卡车在客户点的等待时间、无人机在每个时间步下所在的客户点位置、无人机在每个时间步下到达客户点的时间、和已经被卡车和无人机组合访问过的客户点的集合。

7.根据权利要求1所述的路径优化方法，其特征在于，所述MDP模型中动作包括:

在每个时间步下卡车到达的客户点和无人机到达的客户点。

8.根据权利要求1所述的路径优化方法，其特征在于，所述MDP模型中状态转移函数包括:

规定在访问完所有的客户点之前卡车不能率先返回场站，但无人机可以先返回场站，同时返回场站的载运工具不能再次出发服务客户点；所有客户点均不能被重复访问，在每一个时间步下，卡车和无人机选定动作包含的客户点均不能与之前卡车/无人机已经访问的客户点重复。

9.根据权利要求1所述的路径优化方法，其特征在于，所述MDP模型中收益函数包括：

通过设置弧的长度越长，收益越低，使得算法在学习的过程中尽量探索那些距离比较短的路径，从而获得更大的收益。

10.一种基于强化学习的卡车-无人机协同路径优化系统，其特征在于，运行如权利要求1-9任一项所述的路径优化方法。