CN114237259A

CN114237259A - 一种基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质

Info

Publication number: CN114237259A
Application number: CN202111595537.3A
Authority: CN
Inventors: 向英杰; 赵越
Original assignee: Shanghai Xiangong Intelligent Technology Co ltd
Current assignee: Shanghai Xiangong Intelligent Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-03-25

Abstract

本发明提供了一种基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质，其中方法步骤包括：S1调度处理装置搜集多智能体路径规划数据，并依据浮动资源定义对其进行抽象处理；S2调度处理装置根据定义的冲突类型、规划动作、浮动资源定义设定基因编码结构，以根据步骤S1处理后的路径规划数据生成初始基因数据；S3调度处理装置调用多目标遗传算法NSGA‑II程序，并基于多目标优化模型计算获得的评价目标，来执行NSGA‑II程序中包括的生成，评价，选择计算过程，来对步骤S2生成的初始基因数据进行求解，直至达到收敛条件获得全局最优解，籍此提高路径规划质量。

Description

一种基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质

技术领域

本发明涉及多智能体路径规划领域（Multi-Agent Path Finding, MAPF），尤其涉及利用浮动资源搜索算法来处理多智能体路径规划的方法、导航服务器及可读存储介质。

背景技术

路径规划算法，是在已知起点与终点的情况下，根据地图或周围实时的环境信息搜索出一条可行路径的算法。为统一表述，本申请将用“智能体”指代规划算法的对象（例如包括：无人车、无人机、或其他能够自动导航寻路的装置、或机器均可以用智能体进行抽象）。

通常，对于单个智能体的路径规划这一需求，有着非常多成熟的解决方法，如最短路算法。常用于实际应用中的最短路算法有很多，如Dijstra算法、Floyd 算法、A-Star 算法等；这些算法都是多项式算法（计算复杂度为多项式复杂度）。但是，多智能体路径规划是一个 NP-hard 问题（不能确保在多项式时间内找到解），所以无法直接将单个智能体的路径规划算法直接拓展至多个智能体的场景。虽然目前尚未存在非常成熟且通用的多智能体路径规划算法，但依然有着非常多相关的成果。

首先，是基于规则的体系，如：1）Hierarchical Cooperative：其按一定的优先级对智能体进行排序，优先级高的智能体先进行搜路，优先级低的智能体搜路时，将会把高优先级的个体当做障碍物。2）其他特殊规则：将地图中的点特殊化，如某点只能以某种方式通过、或达成某些条件时某些边无法通过等特殊化的处理。这些方法的好处是计算复杂度低，基本上就是单个智能体规划算法的直接拓展；但是，由于这些方法没有从全局出发考虑问题，在一些复杂的情况下，如：多个智能体需要从不同的方向经过同一个路口等情况时，这些方法无法收敛。

其次，是基于搜索的体系，如：1）Conflict Based Search（CBS）：其将智能体路径中的冲突分析当做核心，每出现一个冲突，就将其作为约束加入规划模型中，随后再进行一次搜路。在每一个约束加入模型时，都需要拓展搜索树上的一个节点，而每一个节点，都需要考虑所有智能体路径的冲突情况，所以，虽然CBS可以找到全局最优解，但它的计算复杂度是指数复杂度。当智能体超过一定数量时（例如通常为10~20时），算法的计算时间就已完全不可接受。

综上所述，在现有的多智能体路径规划算法中，存在这样的难题：

1)多智能体路径规划是一个NP-hard问题，没有理论保证能在多项式时间内找到最优解；

2)对于已知的快速（多项式时间）求解算法，无法保证能找到解。

为此，在上述背景下，本发明试图提出新的分析手段，从而在一定程度上降低分析多智能体路径规划这一问题的难度，并由此提出一种新的求解方法，以至少保证其具备必定收敛的特性，使得能够获得全局最优解。

发明内容

为了实现上述目的，根据本发明的第一个方面，提供了一种基于浮动资源的多智能体路径规划方法，其方法步骤包括：

S1调度处理装置搜集多智能体路径规划数据，并依据浮动资源定义对其进行抽象处理；其中浮动资源定义为

，

为坐标点对序列，

代表一个逻辑步骤对应的执行顺序，且其具有时间上的先后顺序，用

进行抽象，以抽象化各智能体的路径规划数据；

S2调度处理装置根据定义的冲突类型、浮动资源定义设定基因编码结构，以根据步骤S1处理后的路径规划数据生成初始基因数据；

其中冲突类型包括：前向冲突，反向冲突，占位冲突，容量冲突，

其算法中基因编码结构设定为：

，其中w为原地等待的步骤次数；d为起点变换的目标点；s为原地等待与起点变换的数量，n为智能体的数量；m为算法种群大小；

S3调度处理装置调用多目标遗传算法NSGA-II程序，以执行NSGA-II程序中包括的生成、评价、选择计算过程，来对步骤S2生成的初始基因数据进行求解，直至达到收敛条件获得全局最优解。

为了实现上述目的，根据本发明的第二个方面，还提供了一种基于浮动资源的多智能体路径规划方法，步骤包括：

S1调度处理装置搜集多智能体路径规划数据，并依据浮动资源定义对其进行抽象处理；

S2调度处理装置根据定义的冲突类型、规划动作、浮动资源定义设定基因编码结构，以根据步骤S1处理后的路径规划数据生成初始基因数据；

S3调度处理装置调用多目标遗传算法NSGA-II程序，并基于多目标优化模型计算获得的评价目标，来执行NSGA-II程序中包括的生成，评价，选择计算过程，来对步骤S2生成的初始基因数据进行求解，直至达到收敛条件获得全局最优解。

根据本发明第二个方面，所述浮动资源定义为：

，其中

为坐标点对序列，

进行抽象。

根据本发明第二个方面，步骤S1中抽象过程包括：判断若智能体原地不动，则记录智能体从原地运动至原地，若智能体运动则记录其占用的浮动资源。

根据本发明第二个方面，所述冲突类型包括：前向冲突，反向冲突，占位冲突，容量冲突。

根据本发明第二个方面，所述规划动作包括：原地等待，在某一步中静止不动，等待其他智能体完成当前步骤的任务；起点变化，在其他智能体均原地等待的情况下，某一智能体移动至新地点，以新地点作为起点重新规划。

根据本发明第二个方面，步骤S2中的基因编码结构定义为：

，其中w为原地等待的步骤次数；d为起点变换的目标点；s为原地等待与起点变换的数量，n为智能体的数量；m为算法种群大小。

根据本发明第二个方面，步骤S3中多目标优化模型为拥有两个目标的多目标优化模型，即：

评价目标一：获取所有多智能体执行任务的代价；

其中，

是智能体集合，

是其中一个智能体，

是智能体对应的代价；

评价目标二：把冲突当作约束转为目标；

其中，T 是步骤集合，

是判断在步骤

时，智能体

与

是否资源冲突的布尔表达式，故

代表智能体

在步骤

所占用的浮动资源，

代表智能体 y 在步骤

所占用的浮动资源；等号表示两个浮动资源存在冲突，不等号表示不冲突，系数

用于衡量浮动资源冲突的代价，系数

用于衡量浮动资源冲突的基本代价。

为了实现上述目的，根据本发明的第三个方面，还提供了一种导航服务器，其与多智能体通通信连接，提供导航规划信息，其中所述导航服务器包括：存储模块，处理模块，通信模块，能源模块，所述能源模块为存储模块，处理模块，通信模块供能，所述存储模块存有包括权利要求1至8中任一所述的基于浮动资源的多智能体路径规划方法，以供所述处理模块执行该些步骤后获得多智能体导航规划数据，并经通信模块向多智能体发送。

为了实现上述目的，根据本发明的第四个方面，还提供了一种可读存储介质，其上存储有计算机程序，其中所述计算机程序被处理器执行时实现如上述中任一所述的基于浮动资源的多智能体路径规划方法的步骤。

本发明提供的该基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质，通过提出的“浮动资源”这一概念，可以统一多智能体路径规划中的重要参数，将问题转化为分析资源之间的关系，降低了分析的难度与不一致性；与此同时，浮动资源这一概念可以同时考虑边的容量问题，而只考虑坐标点的方法无法做到这一点（如CBS等）。其次将浮动资源的冲突这一约束转为优化目标，通过求解多目标优化模型，兼顾了在求解 MAPF 这一NP-hard 问题时的求解速度与解的质量，从而使得该算法能在多项式时间内有概率得到全局最优解，籍此提高路径规划质量。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的计算例一示例的多智能体路径规划拓扑示意图；

图2为本发明的计算例二示例的一种调度过程中被频繁占用的路口缩略示意图；

图3为本发明的计算例二示例中，根据本发明提供的基于浮动资源的多智能体路径规划方法，解得后的多智能体路径规划效果示意图。

具体实施方式

下面对本发明的具体实施方式进行详细地说明。以下示例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本领域的技术人员更好的理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“S1”、“S2”、等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，而“设置”、“布设”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况，结合现有技术来理解上述术语在本发明中的具体含义。

具体来说，对于多智能体路径规划这一问题，现有技术无法很好地克服求解时间与解的质量之间的矛盾，而只能保证满足其中一个。但在实际应用中，我们既需要稳定地给出同样的规划路径，也需要在遇到意外情况时，快速地重规划路径。所以，同时保证求解时间与解的质量，对于本领域的技术发展具有重要意义。

（一）

为此本发明提供的该基于浮动资源的多智能体路径规划方法，在优选实施方式下，其步骤包括：

其中本发明实施例中，所述调度处理装置可以是具有计算机功能的处理设备，如服务器，电脑，微处理模块等，本实施例中并不进行限制，同时该调度处理装置可以设置在调度服务系统端，也可设置于智能体中，以用于至少调度各智能体的路径。

具体的，为了系统的解释本发明的示例，在说明本发明的该基于浮动资源的多智能体路径规划方法前，发明人首先需要对相关参数及问题进行规范化定义，以解释本发明的发明构思。

在多智能体路径规划（MAPF）中，通常需要考虑及定义以下几个参数：

1)坐标点：现实世界中的真实坐标点、或逻辑坐标点，使用以下符号进行表示：

其中“

”是该坐标点的唯一编号，具体形式如

，表示坐标点

。

2)边：坐标点之间的直达路线，使用以下符号进行表示：

上述符号含义为从

指向

的边。

3) 路径

从某坐标点出发，到达某坐标点，所经过的点的集合，表示方法如下：

上述路径含义为，智能体从

出发，途径

以及其他坐标点，最终到达

。路径中，要求相邻的坐标点之间存在边。

其中本发明提供的该基于浮动资源的多智能体路径规划方法中，为统一坐标点、边、以及路径三个参数，创造性的提出了浮动资源（以下部分简述为资源）这一概念，其中本案中该浮动资源被定义为：

其中“

”为坐标点对序列，

进行抽象。

例如：浮动资源

的含义是，在

步，智能体从

出发且经过

，在

步，途径

，在

步，经过

，最终在

步，到达

。

其占用的资源序列为：

。从出发的一瞬间开始，便已离开

，故不占用资源

。

而对于省略下标 t 的资源，默认其 t=0。

步骤“t”：

步骤是本发明中一个重要的概念，故单独说明。在本发明中，步骤，代表一段连续的时间。如资源

，在 t 步骤，智能体从 V(i) 移动至 V(j)，此时 t 代表了移动过程中所有的这一段时间。即，只有当所有的智能体都完成了完整的需要的动作（一步，即到达了哪个指定位置），才可以同时一起进入下一步骤。

如智能体

与

的联合路径：

与

，其中

需要到达

，即使

先到达了

，它也不能执行下一步

，必须等待

到达

。这就是步骤在本发明中的限制作用。

于是：

1)若智能体在

占用

，可以用

表示；

2)若智能体在

占用

，可以用

表示；

3)若智能体从

开始，按路径

行驶，可以用

表示。

由此，在优选实施方式下，该步骤S1调度处理装置依据浮动资源定义对多智能体路径规划进行抽象处理：即表示，使用运动的观点看待智能体，若智能体原地不动，则认为智能体从原地运动至原地。而智能体的运动则认为需要占用一定的资源，通过分析资源之间的相互作用关系，以此解决多智能体路径规划问题。

可见使用浮动资源进行问题抽象的优势包括：

1)统一了MAPF中多个性质不同、形式不同的参数；

2)过去的方法中，智能体只能停留在坐标点上，无法考虑边的容量问题，而资源可以。

进一步的，鉴于多智能体路径规划中的难点，来自于不同的智能体之间的路径存在冲突，而 MAPF 的核心目的就是化解这些冲突，为每一个智能体寻找出没有冲突的路径。

因此本示例中，步骤S2中定义了四种冲突类型，以供后续为设定基因编码结构提供依据。

前向冲突（

与

）；

反向冲突（

与

）；

占位冲突（

与

）；

容量冲突（在 t 某一条边被超过容量上限的智能体占用）。

上述形式涵盖了本示例的所有冲突类型，现在我们只需要找到能够在多项式时间内解决所有类型的冲突的方法即可。

考虑以下两种规划动作：

原地等待（在某一步中静止不动，等待其他智能体完成当前步骤的任务）；

起点变换（在其他智能体均原地等待的情况下，某一智能体移动至新地点，以新地点作为起点重新规划，等价于该智能体变换了寻路起点）。

为此，本领域技术人员可以理解，对于任意情况下，只要存在解，那么总能通过有限次原地等待与起点变换得到。

证例如：

1) 根据MAPF解的定义，我们知道对于任意智能体，其路径在任意时刻均不会与其他智能体的路径产生冲突。

2) 假设智能体在

步需要占用坐标点

。根据1），显然，在

时智能体必定可以无冲突到达

，无论其他智能体如何运动。

3) 根据2），我们可以将所有智能体的一步运动抽象为，第一个智能体移动一步，其他智能体原地等待；然后第二个智能体移动一步，其他智能体原地等待；直到所有智能体均完成在当前步骤下的任务。于是，任意情况下，均可通过此方式抽象为原地等待与起点变换的集合，证毕。

其中，本发明示例下，优选使用多目标遗传算法NSGA-II作为求解器，根据上述资源的定义，以及上述收敛证明，本算法示例中，该基因的编码格式优选被定义为：

其中：

为原地等待的步骤次数，如

，则在

与

这两步原地不动；

d为起点变换的目标点，如

，则在

步，开始朝

移动；若

，则代表智能体会移动至最接近

但又不占用

的位置，具体见实例；

为原地等待与起点变换的数量；

n为智能体的数量；

为算法种群大小。

其中在优选实施例中，该步骤S3中的收敛条件包括：达到预设最大的迭代次数、超过设定的求解时间、一定时间内最优解没有变动、达到预设遗传的种群m上限个体数、或达到预设原地等待与起点变换的数量S上限中的至少一种。

举例来说下述示例中，现有以下基因：

根据观察，可知：

，即种群中有两个个体，每个个体编码了两个智能体，每个智能体拥有两次原地等待与起点变换的可能性。

其中的具体含义为：

1）第一个个体：

智能体1原地等待2步，在

时朝

移动；

智能体2直接朝

移动。

2）第二个个体：

智能体1原地等待1步，随后朝

移动，再朝

移动；（即做了一次起点变换）；

智能体2原地等待1步，随后朝

移动。

以此类推。（0代表空基因，用于维持算法中结构的稳定是，不参与解码过程）

由此可知，上述示例的基因编码结构，具备必定收敛的特性。

进一步的，基于上述概念，在另一优选实施方式中，该方法的步骤S3包括：调度处理装置采用多目标遗传算法NSGA-II，并基于步骤S2设定的基因编码结构，及基于多目标优化模型计算获得的评价目标，对多智能体路径规划数据进行求解，直至达到收敛条件获得全局最优解在优选实施方式下，

具体来说，该MAPF 在本发明中，还可优选被重定义为拥有两个目标的多目标优化模型：

即，步骤S3中多目标优化模型为拥有两个目标的多目标优化模型，

如：

评价目标一C：获取所有多智能体执行任务的代价；

其中，

是智能体集合，

是其中一个智能体，

是智能体对应的代价；

评价目标二L：把冲突当作约束转为目标；

其中，T 是步骤集合，

是判断在步骤

时，智能体

与

是否资源冲突的布尔表达式，故

代表智能体

在步骤

所占用的资源，

以此类推；等号表示两个资源存在冲突，不等号表示不冲突。系数

用于衡量资源冲突的代价，距离当前越近的冲突具有更大的代价；系数

用于衡量资源冲突的基本代价，基于这一定义，算法会优先解决距离当前更近的可能会发生的冲突。

根据之前的分析，显然，当路径规划的复杂程度小于逻辑次数上限时，该编码必定收敛。结合遗传算法的求解能力，本发明的算法能够有概率收敛至全局最优解。

以下将对多目标优化的求解过程进行示例说明，其中本示例下的多目标遗传算法的求解过程，采用非支配排序遗传算法作为例子，以进行说明：

根据前述实施例可知，浮动资源搜索的核心过程，就是寻找一个编码，这个编码具有提前设计好的格式，能够解码出所有智能体的具体路径，而这些智能体的路径，就是多智能体路径规划中要寻找的没有冲突的联合路径。在接下来的部分，将对如何寻找这样一个最优的编码，进行详细说明。

本实施例下，可以将其抽象为以下伪代码来说明计算逻辑。

1. 遗传算法

设定参数

根据设定的编码格式生成初始解种群

For until converge

（生成）根据当前种群生成新的解

（评价）对种群中的每个个体进行评价

（选择）根据评价的结果挑选下一代种群

End For

最优解即为种群中适应度最高的个体

遗传算法中的交叉变异，使用保留父代的方式

2. GA-交叉变异

输出：新种群

输入：当前种群

For 种群的每个个体

If 满足交叉条件

随机挑选另一个个体，与当前个体进行交叉运算

得到一个新的个体，将其加入新种群

End If

For 当前个体上的基因点位

If 满足变异条件

复制当前个体

对复制的个体对应的点位执行变异操作

得到一个新的个体，将其加入新种群

End If

End For

将当前种群合并入新种群中

遗传算法中的适应度计算（评价）

3. GA-适应度计算

输出：种群中每个个体的适应度

输入：种群

For 种群的每个个体

解码基因

For 基因中的每个 AGV（即智能体）

得到当前 AGV 的路径

End For

For 基因中的每个 AGV （i）

For 基因中的每个 AGV （j）

If AGV i 与 j 存在冲突

计算目标二的值并记录

End If

End For

计算目标一的值并记录

End For

计算目标一累和

计算目标二累和

存储当前基因的两个目标值作为适应度End For

4. 其中，对于多目标遗传中的选择，我们此处使用非支配排序遗传算法的方法。（NSGA-II），由于非支配排序遗传算法中的选择机制过于复杂，故此处我们对其进行详细说明。

4.1 Pareto-Domination

对于一个多目标优化模型

，帕累托支配的数学定义如下：

上表达式的含义为，在多目标模型 F上，x 支配 y；即所有的目标，x的目标值都不会比y的大，且至少存在一个目标，x的目标值严格比y的小。

对于一个标量，我们可以轻易地对其进行大小的比较，但是对于多个标量组成的目标函数，我们无法直接对其进行比较，而在多目标优化中，通过引入帕累托支配是比较常见的一种比较方式。

此处举一例子：

有三个个体，分别是A(3,4)，B(6,4)，C(2,5)

其含义为A的第一个目标值为3，第二个目标值为4，以此类推。

根据帕累托支配的定义，A < B，B = C, A = C

此处应该很明显可以看出，对于多目标的偏序关系，与单目标的全序关系，之间有很大的区别，虽然A支配B，但是A无法支配C，即使B与C不相互支配。（若为全序关系，则可以推导出A < C，而偏序关系不行）。

4.2．非支配排序

GA-基于非支配排序的选择机制

输出：新的种群

输入：当前种群；当前种群的多目标适应度

While 新的种群数量 < 需要的数量

计算当前种群的支配关系

挑选出当前种群中未被任何个体支配的个体

If 挑选出的个体数量 > 需要的数量 - 新种群的数量

计算挑选出的个体的拥挤度

从小到大依次选择，加入新种群至数量等于需要的数量为止

Else

直接将挑选出的个体加入新种群

End If

End While

计算例一

请参阅图1所示，该拓扑结构中，假设A车要从1去到3，B车要从3去到1，根据本发明提供的该基于浮动资源的多智能体路径规划方法的求解过程如下：

假设每条边的代价都为1

1.调度处理装置接收任务 {A:1->3, B:3->1}；生成初始基因；

假设基因结构参数，s = 2, n = 2, m = 2,

生成初始基因

{[(0,0)(0,3)][(0,0)(0,1)]}（按照最短路反解码）

{[(3,4)(1,3)][(1,1)(0,1)]}（随机生成）

含义为，两个个体（m=2），两辆车（n=2），最多两次起点变换次数（s=2）

2.调度处理装置执行遗传算法NSGA-II循环（生成、评价、选择）

2.1生成

交叉，两个基因点位排列如下：

00030001

34131101

假设交叉点位为3，则第一个个体被分割为000-30001，第二个个体为341-31101，假设变异点位为6，且变异值为0，组合得到新基因00031001，于是新种群为：

00030001

34131101

00031001

2.2评价

将三个基因解码得到路径：

00030001 -> {PA(1,2,3), PB(3,2,1)}

34131101 -> {PA(1,1,1,1,2,4,4,2,3), PB(3,3,2,1,1)}

00031101 -> {PA(1,2,3), PB(3,3,2,1)}

根据联合路径计算两个目标：

00030001 -> 移动代价C = 4，冲突L =

（第一步有冲突）（0 <

< 1; 0<

）；

34131101 -> 移动代价C = 12，冲突L = 0；

00031101 -> 移动代价C = 5，冲突L =

（第二步有冲突）；

2.3选择

对于第一个目标，第一个基因 < 第三个基因 < 第二个基因；

对于第二个目标，第二个基因 < 第三个基因 < 第一个基因；

根据帕累托支配的定义，有以下支配关系：

三个基因互相不支配；

此时三个解都应加入新种群，但3大于最开始设定的种群数量2，故需要使用拥挤度；此处可以简要理解：拥挤度即距离，适应度的函数值越远越好，由此可以确定两个解，第一个解以及第二个解，将第一个解与第二个解作为新种群开始下一次迭代，如果未达到收敛条件，跳转至3，当达到收敛条件时，将第二个目标为零，且第一个目标最小的解作为最优解。（实际有多个全局最优解，此处仅为举例）

以下编码为其中一种可能性：

{[(0,4)(0,3)][(0,0)(1,1)]} -> {PA(1,2,4,2,3), PB(3,3,2,1)}

该解第一个目标C = 7，第二个目标L = 0。

计算例二

请参阅图2所示，其为一个调度过程中被频繁占用的路口缩略图，共有六个坐标点。现有三辆车需要通过该路口，他们当前的位置、目标位置、与最短路径如下：

A：3->6, P(3, 4, 6)

B：2->5, P(2, 4, 3, 5)

C：6->1, P(6, 4, 3, 1)

显然，如果直接使用每辆车的最短路径，那么将会造成堵塞。这一点符合资源的冲突形式，即当前存在前向冲突（如果A移动至4，则还会出现占位冲突与反向冲突）。

为此根据本发明提供的该基于浮动资源的多智能体路径规划方法，此处假设步骤上限为2，种群数量为1，将最短路径编码成初始基因，其如下：

如果直接由最短路生成的路径之间没有冲突，那么显然其必定为最优解，故我们默认将解码后能得到最短路径的编码作为初始编码。上述初始编码、解码路径、与资源对应情况如下：

编码	路径	资源

通过多目标遗传算法NSGA-II求解本发明提出的多目标优化模型，取第二个目标为0的最优解个体，即满足没有冲突这一约束的个体（多目标优化的最优解有无穷多个，由于将约束目标化，故其不一定为0，即不是所有的最优解都满足资源不冲突这一约束，具体可参考Pareto-domination这一概念，本发明不再赘述），可观察到其编码为：

上述初始编码与资源对应情况如下：

编码	资源（下划线是资源对应编码中的第二组原地等待和起点变换）
		[(0,-4),<u>(1,6)</u>]	R[(3,4),<u>(3,4),(4,4),(4,6),(6,6)</u>]
[(0,0),<u>(3,5)</u>]	R[<u>(2,2),(2,2),(2,2),(2,4),(4,4),(4,3),(3,3),(3,5),(5,5)</u>]
		[(0,-2),<u>(0,1)</u>]	R[(6,4),(4,4),(4,2),<u>(4,4),(4,3),(3,3),(3,1),(1,1)</u>]

解码路径与的对应关系：

编码

与

解码结果完全等价，但是对应的步骤中占用的资源不同；

对应

对应

以此类推。

将路径合并后，可得到：

A:

B:

C:

上述路径中，智能体的变化见图3。

可见，使用资源进行分析与求解时，由于考虑了边的容量（此处边

可同时容下B与C），故规划线路比CBS等算法得到的综合代价更小，不仅路径长度和更小，完成任务的最大时间也更短。而对应的CBS得到的解如下：

A: [3, 5, 5, 3, 4, 6]

B: [2, 2, 2, 2, 2, 4, 3, 5]

C: [6, 4, 3, 1]

若假设B车可停在边 [2,4] 的中点，则本案的代价为9、耗时为4.5，而CBS的代价为10、耗时为6（默认每条边代价为1，耗时为1）。代价为所有路径的代价和，耗时为最后一个任务的完成需要时间。

由此可见，通过分析浮动资源的冲突关系，解决多智能体路径规划问题具有更好的一致性，同时由于考虑了边的容量，得到的解的质量大于等于其他只能考虑坐标点的算法。

此外，本领域技术人员根据对上述实施例的理解可以发现，本发明提出的用于解决多智能体路径规划的多目标优化模型仅为一种示例，而非唯一，本领域技术人员可以理解任意一个可以求解多目标优化的算法，在符合本发明构思的条件下也具有可以进行求解的可能，因此任何现有技术中未脱离本发明构思的前提下，所采用其它多目标优化算法的替换实施方案，皆属于本发明实施例的揭露范围，故此处不详细介绍其它多目标的求解过程。

（二）

根据本发明的第二个方面，还提供了一种导航服务器，其与多智能体通通信连接，其中所述导航服务器包括：存储模块，处理模块，通信模块，能源模块，所述能源模块为存储模块，处理模块，通信模块供能，所述处理模块与通信模块，存储模块连接，所述存储模块存有包括上述中任一所述的基于浮动资源的多智能体路径规划方法，其中所述处理模块执行该方法后执行步骤包括：

S1处理模块令通信模块与各智能体通信，获取其路径规划数据并在存储模块上存储。

S2处理模块调取存储模块中的浮动资源定义程序，对各智能体的路径规划数据进行抽象处理，其步骤包括：

S21根据浮动资源定义即

，来抽象化各智能体的路径规划数据。其中

为坐标点对序列，

进行抽象，其中该抽象处理的步骤包括：判断若智能体原地不动，则记录智能体从原地运动至原地，若智能体运动则记录其占用的浮动资源。

S3处理模块调取存储模块中的基因编码结构程序，以根据步骤S2处理后的路径规划数据生成初始基因数据。

其中该基因编码结构根据定义的冲突类型、浮动资源定义设定，本实施例中，该冲突类型包括：前向冲突，反向冲突，占位冲突，容量冲突，而本发明的算法中，示例的基因编码结构设定为：

S4处理模块调取存储模块中的多目标遗传算法NSGA-II程序，以执行NSGA-II程序中包括的生成，评价，选择计算过程，来对步骤S3生成的初始基因数据进行求解，直至达到收敛条件获得全局最优解。

其中在优选实施方式中，该收敛条件包括：达到预设最大的迭代次数、超过设定的求解时间、一定时间内最优解没有变动、达到预设遗传的种群m上限个体数、或达到预设原地等待与起点变换的数量S上限中的至少一种。

其中在优选实施方式中，该多目标遗传算法NSGA-II程序中的评价目标，优选采用两个目标的多目标优化模型计算获得，其为：

评价目标一：获取所有多智能体执行任务的代价；

其中，

是智能体集合，

是其中一个智能体，

是智能体对应的代价；

评价目标二：把冲突当作约束转为目标；

其中，T 是步骤集合，

是判断在步骤

时，智能体

与

是否资源冲突的布尔表达式，故

代表智能体

在步骤

所占用的浮动资源，

代表智能体 y 在步骤

用于衡量浮动资源冲突的代价，系数

用于衡量浮动资源冲突的基本代价。

S5处理模块将步骤S4解得的全局最优解转换为路径规划数据，以令通信模块向智能体传输。从而为智能体提供导航规划信息。

（三）

根据本发明的第三个方面，还提供了一种可读存储介质，其上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述任一实施例中所述的基于浮动资源的多智能体路径规划方法的步骤。

其中该步骤包括：

S1计算机搜集多智能体路径规划数据，并依据浮动资源定义对其进行抽象处理；

S2计算机根据定义的冲突类型、规划动作、浮动资源定义设定基因编码结构，以根据步骤S1处理后的路径规划数据生成初始基因数据；

S3计算机调用多目标遗传算法NSGA-II程序，并基于多目标优化模型计算获得的评价目标，来执行NSGA-II程序中包括的生成，评价，选择计算过程，来对步骤S2生成的初始基因数据进行求解，直至达到收敛条件获得全局最优解。

S4计算机将步骤S3解得的全局最优解转换为路径规划数据后，向智能体传输。

此外需要说明的是，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明提供的基于浮动资源的多智能体路径规划方法、导航服务器及可读存储介质，通过提出的“浮动资源”这一概念，可以统一多智能体路径规划中的重要参数，将问题转化为分析资源之间的关系，降低了分析的难度与不一致性；与此同时，浮动资源这一概念可以同时考虑边的容量问题，而只考虑坐标点的方法无法做到这一点（如CBS等）。其次将浮动资源的冲突这一约束转为优化目标，通过求解多目标优化模型，兼顾了在求解 MAPF 这一NP-hard 问题时的求解速度与解的质量，从而使得该算法能在多项式时间内有概率得到全局最优解，籍此快速地（多项式时间）、高质量地（尽可能地接近全局最优解）、稳定地（同样的情况下应保证解相同）求解多智能体路径规划结果。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员可以理解，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种基于浮动资源的多智能体路径规划方法，步骤包括：

，

为坐标点对序列，

进行抽象，以抽象化各智能体的路径规划数据；

其中基因编码结构设定为：

2.一种基于浮动资源的多智能体路径规划方法，步骤包括：

3.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中所述浮动资源定义为

，其中

为坐标点对序列，

进行抽象。

4.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中步骤S1中对多智能体路径规划进行抽象处理步骤包括：判断若智能体原地不动，则记录智能体从原地运动至原地，若智能体运动则记录其占用的浮动资源。

5.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中所述冲突类型包括：前向冲突，反向冲突，占位冲突，容量冲突。

6.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中所述规划动作包括：

原地等待，在某一步中静止不动，等待其他智能体完成当前步骤的任务；

起点变化，在其他智能体均原地等待的情况下，某一智能体移动至新地点，以新地点作为起点重新规划。

7.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中步骤S2中的基因编码结构定义为：

8.根据权利要求2所述的基于浮动资源的多智能体路径规划方法，其中步骤S3中多目标优化模型为拥有两个目标的多目标优化模型，即：

评价目标一：获取所有多智能体执行任务的代价；

其中，

是智能体集合，

是其中一个智能体，

是智能体对应的代价；

评价目标二：把冲突当作约束转为目标；

其中，T 是步骤集合，

是判断在步骤

时，智能体

与

是否资源冲突的布尔表达式，故

代表智能体

在步骤

所占用的浮动资源，

代表智能体 y 在步骤

用于衡量浮动资源冲突的代价，系数

用于衡量浮动资源冲突的基本代价。

9.一种导航服务器，其与多智能体通通信连接，提供导航规划信息，其中所述导航服务器包括：存储模块，处理模块，通信模块，能源模块，所述能源模块为存储模块，处理模块，通信模块供能，所述存储模块存有包括权利要求1至8中任一所述的基于浮动资源的多智能体路径规划方法，以供所述处理模块执行该些步骤后获得多智能体导航规划数据，并经通信模块向多智能体发送。

10.一种可读存储介质，其上存储有计算机程序，其中所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的基于浮动资源的多智能体路径规划方法的步骤。