CN117555243A

CN117555243A - 一种多智能体连续空间级路径段搜索与协同策略方法

Info

Publication number: CN117555243A
Application number: CN202410049072.9A
Authority: CN
Inventors: 欧阳博; 范红凯; 颜志; 陈舒琪
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-02-13
Anticipated expiration: 2044-01-12
Also published as: CN117555243B

Abstract

本发明涉及多智能体技术领域，具体为一种多智能体连续空间级路径段搜索与协同策略方法，包括如下步骤：1、搭建多智能体系统模型，利用任务分配器为多个智能体分配起点和终点，利用MAPF规划器规划多个智能体的无冲突路径；2、根据多个智能体的无冲突路径构建冲突检测图；3、使用混合线性整数规划将冲突检测图转换为简化冲突检测图，计算单层无冲突路径段；4、根据单层无冲突路径段构建重规划触发机制，利用重规划触发机制迭代更新可执行路径段信息，实现多层路径段的持续搜索。本发明提供一种多智能体连续空间级路径段搜索与协同策略方法，在运行过程中，可确保智能体无死锁，智能体运行更加流畅，可提高计划执行效率。

Description

一种多智能体连续空间级路径段搜索与协同策略方法

技术领域

本发明涉及多智能体技术领域，特别涉及一种多智能体连续空间级路径段搜索与协同策略方法。

背景技术

非完整智能体是指一种机器人或自主智能体，其运动受到限制，无法在各个方向上自由移动。与可以不受任何限制地向任何方向移动的完整智能体不同，非完整智能体的移动自由度有限，导致非完整智能体在转弯时耗费大量时间，从而造成路径搜索时间长，易发生碰撞与死锁。

尽管当前最先进的多智能体路径搜索算法（MAPF）可以在几分钟内有效地计算大量智能体的有界次优解决方案，但由于不切实际的假设，为非完整智能体在执行路径时带来了巨大的挑战。例如现有算法智能体将精确地遵循空间-恒定速度的时间轨迹，没有延迟或速度变化。即假设时间被离散化为时间步，并且智能体同步行动，每个时间步精确执行一个操作。然而，非完整智能体在转弯时需要经历减速、倒车和加速三个过程，这破坏了MAPF规划结果的同步性。为了确保无死锁的计划执行，一种有效的方法是创建一个动作依赖图（ADG），该图对智能体沿各自路线移动时的顺序进行编码。然而，在这种方法中，一些智能体遇到的延误可能需要其他智能体在路口等待，从而导致计划执行效率低下。

发明内容

本发明提供了一种多智能体连续空间级路径段搜索与协同策略方法，以解决现有方法会导致计划执行效率低下的技术问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种多智能体连续空间级路径段搜索与协同策略方法，包括如下步骤：

S1、搭建多智能体系统模型，包括用于向多个智能体分配任务的任务分配器、用于无冲突路径规划的MAPF规划器、用于对多个智能体进行控制的智能体控制器；首先利用任务分配器为多个智能体分配起点和终点，然后利用MAPF规划器规划多个智能体的无冲突路径；

S2、根据多个智能体的无冲突路径构建冲突检测图；

S3、使用混合线性整数规划将冲突检测图转换为简化冲突检测图，并利用简化冲突检测图计算出单层无冲突路径段；

S4、根据单层无冲突路径段构建重规划触发机制，利用重规划触发机制迭代更新可执行路径段信息，实现多层路径段的持续搜索。

进一步地，所述智能体为非完整智能体，每个智能体可以原地转动转向90度，前进到下一个单元格，并停留在指定位置。

进一步地，所述S2具体包括如下步骤：

S21、利用任务分配器给多个智能体分配任务；

S22、基于每个智能体的任务搜索到所有智能体路径；

S23、根据所有智能体路径创建所有顶点，并将每个智能体的后续操作与该智能体的Type 1边连接起来；

S24、利用S23的输出数据寻找并标记不同智能体之间的依赖关系，以表明动作之间的时间优先级，即Type 2边，完成后得到冲突检测图。

进一步地，所述S23具体包括如下步骤：

S231、针对智能体i，创建一个顶点，/>；

其中分别表示智能体i的第一个顶点和第二顶点；/>表示发送给智能体控制器的命令；/>表示智能体执行从/>移动到/>的动作的预测持续时间；/>表示否发送给仿真平台；

S232、将顶点添加到待建立的冲突检测图的顶点集合/>中；

S233、将当前顶点设置为/>；

S234、创建顶点，/>，其中/>表示第三个顶点；表示智能体执行从/>移动到/>的动作的预测持续时间；

S235、继续创建下一个顶点，并判断当前创建的顶点是否为第3至中的一个，如果是，则进入S236中，如果否，则进入到S239；

S236、创建一个顶点，包含/>，其中/>，分别表示智能体i的第k-1个顶点和第k个顶点；/>表示/>移动到/>的动作的预测持续时间；

S237、将顶点添加到待建立的冲突检测图的顶点集合/>中，添加一条边，更新当前顶点/>为/>；

S238、循环S236至S237，直至智能体i所有顶点创建完毕；

S239、循环S231至S238，直至所有智能体i，i=1,2,3,...,N的Type 1边全部连接完成。

进一步地，所述S24具体包括如下步骤：

S241、针对不同的智能体之间，首先判断是否成立，如果是，则添加一条边/>，其中/>和/>分别表示智能体j的第/>个顶点和智能体i的第一个顶点；如果不成立，则进入S242；

S242、判断是否成立，如果成立，则查找两个智能体第一次位置相等的地方，即查找第一个位置/>，然后添加一条边/>；如果不成立，则进入S243；

其中、/>表示智能体j和智能体i第一次位置相等的地方；

S243、判断且/>是否成立，如果成立，则添加两条边和/>；如果不成立，则进入S244；

S244、判断且/>是否成立，如果成立，则获取路径段，如果不成立，则进入S245；

S245、循环S241至S244，直至所有智能体i，i=1,2,3,...,N的之间的依赖关系全部寻到并标记，即所有智能体之间的Type 2边连接完成。

进一步地，所述S3具体包括如下步骤：

S31、创建Type 1边约束，即执行每个顶点的完成时间大于等于起始时间+执行时间；

S32、创建Type 2边约束，Type 2边约束包括必要约束和联合边约束；

S33、利用Type 1边约束和Type 2边约束构建MILP模型，利用MILP模型将冲突检测图转换为简化冲突检测图；并利用简化冲突检测图计算出单层无冲突路径段。

进一步地，所述S31中的Type 1边约束采用公式表示，具体如下：

；

其中，表示冲突检测图中智能体i的第/>个顶点开始执行的预测时间；/>表示冲突检测图中智能体i执行完第/>个顶点后的预测时间；/>表示智能体i的第/>个顶点；/>表示智能体i执行第/>个顶点的预测时间。

进一步地，所述S32中的必要边，其中表示所有必要边的集合；其中/>表示冲突检测图；e表示冲突检测图中的构建的边，即Type1边和Type2边的集合；

必要边约束的数学模型为：，表示/>的执行时间大于/>的完成时间；

所述S32中的联合边由两个Type 2边构成，采用公式表示具体如下：

；

其中，分别为智能体i的第k个顶点、智能体j的第r个顶点、智能体j的第l个顶点和智能体i的第q个顶点，且/>；/>表示所有联合边的集合；/>表示智能体i和智能体j之间顶点k至顶点r之间的联合边中的一条；/>表示智能体i和智能体j之间顶点/>至顶点q之间的联合边中的一条；

联合边约束采用公式表示，具体如下：

；

其中，M为无限大的数，表示冲突检测图中智能体j的第r个顶点开始执行的预测时间；/>表示冲突检测图中智能体i执行完第k个顶点后的预测时间；/>表示冲突检测图中智能体i的第q个顶点开始执行的预测时间；/>表示冲突检测图中智能体j执行完第l个顶点后的预测时间，/>表示第m条联合边选择第一条联合边或者第二条联合边，如果/>表示第m条联合边选择第一条联合边，/>表示第m条联合边选择第二条联合边。

进一步地，所述S33中的MILP模型采用公式表示，具体如下：

；

其中，为变量，且/>；/>表示约束条件；/>表示选择一辆车；表示从必要边的集合中任意选择一条边；/>表示任意从联合边中选择一条边；表示任意的意思；/>表示冲突检测图中type2边的集合。

进一步地，所述S4中的重规划触发机制包括：

约束触发模型，采用公式表示具体如下：

；

其中，表示冲突检测图中顶点v的状态；/>表示某个顶点存在必要边或者联合边，且约束条件已经满足了，则触发下一个规划；/>表示智能体i的/>层的最后一个顶点；

目标触发模型，采用公式表示具体如下：

；

其中，表示存在一个智能体i；/>表示智能体的集合；/>表示智能体i的当前位置；/>表示智能体i的任务位置，即智能体i到达的终点；/>表示智能体i在终点需要停留的时间；/>表示智能体实际在终点停留的时间；

动态触发模型，采用公式表示具体如下：

；

其中，表示存在一个位置k在智能体i的路径中；/>表示然后；/>表示智能体i的第/>个顶点位于位置/>；/>表示位置被封锁；/>表示存在一个智能体i；/>表示故障。

本发明的有益效果：

本发明提供一种多智能体连续空间级路径段搜索与协同策略方法，在运行过程中，可确保智能体无死锁，同时智能体可经历减速、倒车和加速三个过程，智能体运行更加流畅，更加贴近现实，同时可提高多智能体计划执行效率。

附图说明

图1为本发明的流程图；

图2为本发明中实施例的运行示意图，其中（a）是多智能体起点终点示意图，（b）是冲突检测图，（c）是简化的冲突检测图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是，本发明可以通过许多其他不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

参照图1，本申请实施例提供了一种多智能体连续空间级路径段搜索与协同策略方法，包括如下步骤：

S2、根据多个智能体的无冲突路径构建冲突检测图；

当计算好检测冲突图后，由于当前联合边存在两条type 2边，需要通过MILP计算删除联合边中的其中一条边，这样才能保证路径无死锁发生，删除边后的图称为简化冲突检测图；

在一些实施例中，所述智能体为非完整智能体，例如汽车或差速驱动智能体，其是直径为的圆形，并且每个网格单元足够大以包含至少一个智能体，每个智能体可以原地转动转向90度，前进到下一个单元格，并停留在指定位置。动作集表示为。每个智能体都具有自主定位自身并使用板载控制器执行操作的能力。

尽管动作的估计持续时间可能会有所不同，但假设智能体将严格遵循其预期路径并最终按计划完成其动作。一旦操作完成，智能体可以立即发出其状态信号。为了克服搬运重物的挑战，每个智能体都配备了一个命令队列，使它们能够通过组合顺序动作来优化其动作。这意味着，如果队列中有多个“前进”动作，智能体可以加速、平滑地遍历多个单元，并连续减速，从而实现更快、更高效的执行。这种方法减少了每个单独移动动作加速和减速的需要，从而提高了整体性能。尽管进行了这种优化，仍然会记录每个遍历边缘的反馈信号以提供全面的信息。

在一些实施例中，所述任务分配器与路径规划系统分开，它允许智能体在系统运行时请求合适的目标位置。如果任务数量有限，在分配所有任务后，假设任务分配者将虚拟任务分配给目标位置为充电站、出口或当前位置等。任务分配器首先更新每个智能体i的起始位置和目标位置序列/>。

我们认为每个智能体都有一个由任务分配器生成的任务队列。任务表示为元组/>。该元组描述了从起始位置的拾取阶段（表示为/>），以及随后到目标位置的运输阶段（表示为/>），其中它将大约产生/>秒（在此期间人类可以从智能体处挑选物品）。最初发出时，任务并未绑定到智能体，因此智能体可以自由地分配给任何任务。此外，任务集T可以进行动态更新，其中新任务可以随时添加到T中。

在一些实施例中，所述S2具体包括如下步骤：

S21、利用任务分配器给多个智能体分配任务；

S22、基于每个智能体的任务搜索到所有智能体路径；

S24、利用S23的输出数据寻找并标记不同智能体之间的依赖关系，以表明动作之间的时间优先级，即Type 2边，完成后得到冲突检测图。通过Type 2边可以反应动作之间的时间优先级。

在一些实施例中，所述S23具体包括如下步骤：

S231、针对智能体i，创建一个顶点，/>；

S232、将顶点添加到待建立的冲突检测图的顶点集合/>中；

S233、将当前顶点设置为/>；

S238、循环S236至S237，直至智能体i所有顶点创建完毕；

在一些实施例中，所述S24具体包括如下步骤：

其中、/>表示智能体j和智能体i第一次位置相等的地方；

在一些实施例中，所述S3具体包括如下步骤：

在一些实施例中，所述S31中的Type 1边约束采用公式表示，具体如下：

；

在一些实施例中，所述S32中的必要边，其中表示所有必要边的集合；其中/>表示冲突检测图；e表示冲突检测图中的构建的边，即Type1边和Type2边的集合；

；

其中，分别为智能体i的第k个顶点、智能体j的第r个顶点、智能体j的第l个顶点和智能体i的第q个顶点，且/>；/>表示所有联合边的集合；/>表示智能体i和智能体j之间顶点k至顶点r之间的必要边；/>表示智能体i和智能体j之间顶点/>至顶点q之间的必要边；

由于存在联合边，当前构建的CDG（冲突检测图）是一个可能导致智能体陷入僵局的有向循环图。对于联合边（两个Type 2边）在CDG中，我们只需选择其中一个Type 2边，以确保不发生碰撞。

联合边约束采用公式表示，具体如下：

；

在一些实施例中，所述S33中的MILP模型采用公式表示，具体如下：

；

最大化总成本意味着智能体能够执行更多动作，以更接近其目标位置，从而减少平均任务完成时间。

基于前文描述的单层规划，当智能体之间存在Type 2边时，并不能保证智能体之间不会发生碰撞。因此，我们根据MILP模型得到了空间级路径段，删除Type 2类型边中的其中一条可将CDG转换为简化冲突检测图。简化冲突检测图中每个智能体可以按照任意速度遵循的无碰撞路径段，直到它们到达路径段的末尾。

在一些实施例中，所述S4中的重规划触发机制包括：

约束触发模型，采用公式表示具体如下：

；

目标触发模型，采用公式表示具体如下：

；

动态触发模型，采用公式表示具体如下：

；

为了便于理解，添加下列实施例，以便于理解，具体如下：

图2中的示例来描述CDG的构建过程。首先，根据图2 (a)的示例，我们得到了由单一智能体路径求解器规划的路径。我们考虑相邻位置之间的长度为1米，并将智能体的速度设置为1米/秒。为了考虑到在转弯时需要减速、变道，然后加速的必要过程，所以在转弯到下一个位置时，智能体的速度为0.2米/秒。例如，智能体1从位置D过渡到A大约需要5秒钟。

其次，基于这些路径，我们创建了顶点和Type 1边。在图2(b)中，每个顶点表示智能体需要执行的具体行为。例如，智能体1的初始顶点表示它需要从位置B到C执行直行动作，对应的预测持续时间为1。Type 1边确保了智能体行动的连续性。

第三，构建不同智能体之间的必要和联合边。在智能体1和智能体2之间存在一条反向路径段{C,D}，因此添加了联合边，并带有边约束。类似地，在智能体1和智能体3之间添加了顶点约束。对于智能体2和智能体3，智能体2必须确保智能体3离开起始位置开始移动，因此添加了必要边以约束智能体2。

第四，我们可以看到在图2(b)中存在CDG的两个联合边，它选择了和，由于/>属于必要边，因此必须满足智能体2和智能体3之间的约束关系，即智能体2从位置F移动到位置E必须确保智能体3已经离开其起始位置E。根据MILP模型将CDG转换为简化冲突检测图，如图2（c）,我们可以得到每个智能体的可执行路径。在第1层中，空间级路径如下:/>。

第五，我们根据重规划触发条件，迭代更新可执行路径段信息，直至智能体最终到达终点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多智能体连续空间级路径段搜索与协同策略方法，其特征在于，包括如下步骤：

S2、根据多个智能体的无冲突路径构建冲突检测图；

2.根据权利要求1所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述智能体为非完整智能体，每个智能体能原地转动转向90度，前进到下一个单元格，并停留在指定位置。

3.根据权利要求1所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S2具体包括如下步骤：

S21、利用任务分配器给多个智能体分配任务；

S22、基于每个智能体的任务搜索到所有智能体路径；

4.根据权利要求3所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S23具体包括如下步骤：

S231、针对智能体i，创建一个顶点，/>；

S232、将顶点添加到待建立的冲突检测图的顶点集合/>中；

S233、将当前顶点设置为/>；

S234、创建顶点，/>，其中/>表示第三个顶点；/>表示智能体执行从/>移动到/>的动作的预测持续时间；

S236、创建一个顶点，包含/>，其中/>，/>分别表示智能体i的第k-1个顶点和第k个顶点；/>表示/>移动到/>的动作的预测持续时间；

S238、循环S236至S237，直至智能体i所有顶点创建完毕；

5.根据权利要求4所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S24具体包括如下步骤：

S241、针对不同的智能体之间，首先判断是否成立，如果是，则添加一条边，其中/>和/>分别表示智能体j的第/>个顶点和智能体i的第一个顶点；如果不成立，则进入S242；

其中、/>表示智能体j和智能体i第一次位置相等的地方；

S244、判断且/>是否成立，如果成立，则获取路径段/>，如果不成立，则进入S245；

6.根据权利要求5所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S3具体包括如下步骤：

S31、创建Type 1边约束，即执行每个顶点的完成时间大于等于起始时间加执行时间；

7.根据权利要求6所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S31中的Type 1边约束采用公式表示，具体如下：

；

其中，表示冲突检测图中智能体i的第/>个顶点开始执行的预测时间；/>表示冲突检测图中智能体i执行完第/>个顶点后的预测时间；/>表示智能体i的第/>个顶点；表示智能体i执行第/>个顶点的预测时间。

8.根据权利要求7所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S32中的必要边，其中/>表示所有必要边的集合；其中/>表示冲突检测图；e表示冲突检测图中的构建的边，即Type1边和Type2边的集合；

必要边约束的数学模型为：，表示/>的执行时间大于/>的完成时间；其中，/>表示冲突检测图中智能体j的第/>个顶点开始执行的预测持续时间；/>表示冲突检测图中智能体i执行完第k个顶点后的预测持续时间；

；

联合边约束采用公式表示，具体如下：

；

9.根据权利要求8所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S33中的MILP模型采用公式表示，具体如下：

；

其中，为变量，且/>；/>表示约束条件；/>表示选择一辆车；/>表示从必要边的集合中任意选择一条边；/>表示任意从联合边中选择一条边；/>表示任意的意思；/>表示冲突检测图中type2边的集合。

10.根据权利要求9所述的多智能体连续空间级路径段搜索与协同策略方法，其特征在于，所述S4中的重规划触发机制包括：

约束触发模型，采用公式表示具体如下：

；

目标触发模型，采用公式表示具体如下：

；

动态触发模型，采用公式表示具体如下：

；