CN117492446A

CN117492446A - 一种基于组合混合优化的多智能体合作规划方法及系统

Info

Publication number: CN117492446A
Application number: CN202311788538.9A
Authority: CN
Inventors: 国萌; 唐子力; 陈俊锋
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-02-02

Abstract

本发明公布了一种基于组合混合优化的多智能体合作规划方法及系统，通过设计Nash稳定任务分配算法NSCOAL和混合优化算法HGGHS，将多智能体组合混合优化部分解耦成多智能体合作规划任务分配层次和混合优化层次，实现多智能体的合作规划；系统包括：任务分配层、混合优化层、MPC控制器。本发明可用于多机器人协同运输、多智能体协同抓捕等涉及多智能体多模态协作的实际应用场景。

Description

一种基于组合混合优化的多智能体合作规划方法及系统

技术领域

本发明涉及多智能体系统的合作规划技术，包括异构自主机器人团队的协同任务规划和运动控制，特别是在多智能体系统中的任务分配、运动规划以及它们的集成；具体涉及一种基于组合混合优化的多智能体合作规划方法及系统，是一种基于交错式动态稳定智能体联盟形成和多智能体协作行为混合优化，适用于多智能体多种合作任务和复杂障碍物场景的任务-行为协同规划技术。

背景技术

在多智能体系统技术领域，现有技术中，异构自主机器人团队可以通过协同工作来完成那些对于单个机器人来说非常具有挑战性的任务，如协作运输、动态拦截和监控等。允许机器人团队同时协同工作可以显著提高整个团队的综合性能和能力。然而，机器人团队的协作协调面临着复杂性和挑战。这涉及到两个核心方面：(1)一方面，对于给定的任务集合，不同的机器人子团队可以协同完成这些任务。然而，由于机器人数量和能力的差异，不同子团队的合作成本可能相差甚远。因此，适当的任务分配对于整体性能至关重要。但这通常具有与机器人数量和任务数量成指数关系的复杂度。(2)另一方面，给定一个任务分配方案后，每个机器人子团队的执行通常可以归结为一个最优控制问题，即如何协同机器人以最小化与任务相关的成本，同时满足动态和几何约束。由于整个协作机器人团队的联合状态-控制空间具有长时间跨度和高维度的特征，使得精确优化的复杂度非常高。

在多智能体系统中，任务规划将任务分解为子任务，然后将其分配给团队的过程。为了解决这个问题，可以选择不同的优化准则，如MinSUM，它最小化所有智能体成本之和，以及MinMAX，它最小化所有智能体成本的最大值。这些问题包括一对一分配问题、多车辆路径问题和联盟形成问题等。现有的代表性的方法包括匈牙利方法、混合整数线性规划(MILP)、基于搜索的方法和基于市场的方法。然而，这些方法往往假设任务-智能体成本是静态和已知的，这在协作任务中并不总是容易获得的，甚至是无效的，因为一个智能体参与任务的收益取决于哪些其他智能体也参与任务。在多智能体系统中，运动规划为每个智能体设计控制策略以完成给定任务。这包括协作导航、编队、群集等任务。然而，由于任务的不同动态和几何约束，这些运动规划问题仍然具有挑战性。

多智能体系统的任务规划和运动规划一起形成了多智能体系统的任务和运动规划(Task And Motion Planning, TAMP)。该领域已有的工作侧重于自主装配、组装操作等，强调在协作操作中的物理稳定性和顺序可行性，但由于考虑的智能体数量较少，因此忽略了组合方面的问题。而在多智能体追逃博弈问题中，现有包括通过采用贪心的分配策略(greedyassignment)，如顺序选择最近目标或最大匹配对(maximum matching)，这些方案侧重于解决组合复杂度，而对运动规划进行简化处理。对于更加复杂的多智能体系统的任务和运动规划，目前尚缺乏能够同时处理任务分配和协作控制设计的有效技术方案。

发明内容

为了克服上述现有技术存在的不足，本发明提出了一种基于组合混合优化的多智能体合作规划方法及系统，通过将多智能体组合混合优化问题部分解耦成多智能体合作规划任务分配层次和混合优化层次，设计Nash稳定任务分配算法(NSCOAL)和混合优化算法(HGGHS)，具有更小的时间复杂度和更高效的优化，规划实时性高，特别适用于动态和复杂障碍物环境中具有复杂动力学约束的无人集群的实时规划。

本发明将组合混合优化问题部分解耦成多智能体合作规划任务分配层次和混合优化层次。在任务分配层次，本发明提出的Nash稳定任务分配算法(NSCOAL)通过迭代进行的切换操作，使得解的质量随规划时间单调递增。NSCOAL的时间复杂度更小且适用于更加广泛的收益函数结构。对于事先未知的收益函数，NSCOAL有选择地调用混合优化层来进行收益函数的估计。在运动规划层次，本发明提出的混合优化算法(HGGHS)以交替式的搜索和优化来进行混合计划的求解。HGGHS算法在更低的维度进行搜索，并在局部将优化问题凸化，从而借助数值优化方法找到高维轨迹的局部最优解。本发明可以应用到如多机器人协同运输、多智能体协同抓捕等涉及到多智能体多模态协作的实际应用场景。本发明中的智能体包括：无人车、无人机等具有良好通讯能力和可靠控制器的移动机器人。

本发明提供的技术方案如下：

一种基于组合混合优化的多智能体合作规划方法，将多智能体协作系统任务的共享工作空间记为；系统状态；智能体通过多种参数化合作模式改变系统状态，表示为；参与模式的智能体子集即为子联盟；智能体团队（联盟）包括多个子联盟；系统状态的改变量等于各子联盟状态改变量之和；每个智能体只参与一个任务；定义联盟结构为：一个包括智能体团队、任务集合以及联盟的代价函数的数学结构；定义任务分配为在给定联盟结构下的有效解决方案；

本发明方法即包括如下步骤：

1）分析多智能体系统的总任务目标，将总任务拆解为多个子任务，记为：总任务；

2）分析得到多智能体系统的合作模式集合，表示为；

3）设计针对单个子任务和完成该任务的智能体子集的估计代价函数；

4）获取多智能体系统中所有智能体对象的状态信息，包括位置信息以及速度信息；

5）分析多智能体系统所满足的动力学约束和联盟组合约束条件（不同子联盟不能包含同一个智能体），将多智能体系统进行子联盟分解，分解为多个子联盟。

在本问题的假设条件下，在确定了t时刻的模式、t时刻的系统状态，参与该模式的子联盟以及所选择的模式参数的条件下，本发明将系统演化过程受到的动力学约束表示为：

其中，为模式编号；是参与该模式的智能体子集（一个智能体子集合称为一个子联盟，一组两两不相交且并集包含全体智能体的子联盟构成完整的联盟分解方案）；是选择该模式的连续参数，具有维度；和分别表示在中的智能体执行带参数的模式一个时间步前后的系统状态；是任意的起始时间；表示时间；是执行模式所要求的最小持续时间。

联盟组合约束条件：在任意时刻，对多智能体系统的子联盟分解方案需要满足任意两个子联盟的没有共用同一个智能体，即：

6）构建基于组合混合优化(CHO)的多智能体合作规划模型；组合混合优化目标是在多智能体系统所有任务中最大代价和平均代价之间实现平衡的最小化代价；模型目标定义如下：

其中，m为多智能体系统的任务序号；共项任务；是多智能体系统执行任务的混合计划，其被定义为一个决策序列；混合计划表示为：

其中，是一个阶段性决策；为合作模式；其中为合作模式的序号；是参与该模式的智能体子集即联盟；是模式的连续参数，为模式容许的参数集合；T为决策序列长度；

为多智能体系统执行混合计划的累计成本函数，具体定义如下：

其中，为第t个时间段的控制成本函数；

考虑不同子联盟对系统状态的影响通常不相关，因此系统状态在多个多智能体子联盟的共同工作下的系统状态按照下式进行演变：

其中，是任务在时间的活动模式，为任务编号；是关联的联盟和参数；是当前系统状态；是系统执行所有合作模式一个时间步后的结果状态。最后，由于每个智能体只能参与最多一个任务，因此有：

其中，表示在时间执行任意两个任务所负责的联盟。考虑上述N个智能体和M个任务的模型，完整的组合混合优化(CHO)目标定义如下：

其中，是多智能体系统所有任务的混合计划集合；组合混合优化目标是在多智能体系统所有任务中最大代价和平均代价之间实现平衡的最小化代价；约束条件包含系统动力学约束和状态边界约束，以及子联盟之间的组合约束；表示任务的目标，代表任务目标所对应的系统目标状态集合。

7）多智能体合作规划模型求解；

求解过程分为两个层次，分别为任务分配层和混合优化层，从而部分解耦组合优化和混合优化的复杂度，加速求解过程。对这两个层次的求解分别采用Nash稳定任务分配(NSCOAL) 算法和启发式梯度引导的混合优化(HGG-HS)算法；包括：

8）设计Nash稳定任务分配算法，进行任务分配；

将一个任务分配解定义为一个列表，列表的每个元素是参与一个任务的联盟；定义作用在任务分配解上的一个切换操作为：将一个智能体从一个任务的联盟中转移到另一个任务的联盟中，也即修改单个智能体的任务选择；通过定义的切换操作修改任务分配，对任务分配进行求解；定义相邻任务为：同一个智能体可以选择执行的两个不同任务称为是相邻的；本发明定义Nash稳定的任务分配为：当不存在任何切换操作能够降低一个任务分配的总代价时，任务分配是Nash稳定的；

首先采用随机分配方法或基于估计代价函数贪婪分配方法导出初始任务分配；然后根据估计代价对联盟进行排序；再将切换操作应用于具有较大估计代价的联盟，以高效降低任务分配的总代价；

8.1）构建初始任务分配解，通常可以采用空列表或者基于简单的贪心策略获得初始任务分配值。

8.2）算法初始化循环指标p=1，并进入Nash稳定任务分配以及每个智能体子联盟对应的混合计划的求解循环；循环内部依次执行以下步骤①~④，直到找到Nash稳定的任务分配：

①选择具有第大估计代价的一个目标联盟，调用混合优化层计算其实际代价，并更新估计代价字典。如果再次访问该联盟的代价时可以直接调用。

②如果此时该联盟不再是第p大，则重新选择第p大的联盟，回到步骤①。如果仍然是第p大，则继续执行步骤③。

③遍历所有可执行任务的智能体，判断是否成立如下不等式：

其中，为当前储存的最优分配。为经过切换操作后得到的新的分配：

其中，是具有第p大估计代价的目标联盟,为智能体n原来所在的联盟。即，应用切换操作后的分配是通过将智能体从原来所在的子联盟中转移到具有第p大估计代价的目标联盟中。这导致机器人子联盟执行任务的代价增大，而执行任务的代价减小，因此切换操作可以使得总代价增大，减小，或不变。

如果不等式成立，则将当前储存的最优分配替换为。同时，对新的分配中的子联盟的代价进行重新排序，并记此时具有第大的代价。将循环指标赋值为，即当小于，循环指标回溯到所对应的子联盟，重新检查是否可以被进一步的切换操作优化。修改循环指标后，返回循环的步骤①，跳过步骤④。

如果不等式不成立，则正常进行步骤④。

④p自增1。

9）设计启发式梯度引导的混合优化算法，为形成联盟的子联盟求解混合规划结果；

设计混合优化目标为在给定子联盟的条件下，找到特定任务的最优混合计划，混合优化目标可以表示为：

其中，是控制成本函数，是一个一般的函数，包括控制成本和平滑度；是给定模式，系统状态，子联盟和模式参数下的系统动力学方程；为t+1时的系统状态；在每个时间步内保持模式和模式参数不变；为系统动力学函数，以模式、系统状态、智能体子联盟和模式参数作为自变量；函数返回的值为自变量所指定的系统状态经过时间的演化后得到的系统状态；

设计启发式梯度引导混合搜索(HGG-HS)的新型混合搜索算法来求解该问题，启发式梯度引导的混合搜索包含两个子过程：对模式的离散搜索和对模式参数的梯度优化；即包括：基于离散搜索来获得最优离散模式序列和基于梯度的优化来获得最优连续参数序列，从而获得完整的混合计划（包含离散模式序列和连续参数序列）；

9.1）启发式梯度引导的混合搜索，通过节点选择和节点拓展逐步延展搜索树；

算法基于节点选择和节点拓展两个步骤来逐步延展搜索树，并最终使得搜索树包含目标节点，从而进一步获取最优的混合计划。具体而言，我们按照经典的搜索算法的定义，将混合搜索算法的搜索树结构定义为，其中是搜索树已经探索过的节点的集合，其包含的每个节点都是一个可行的多智能体系统状态，因此节点集合是可行系统状态空间的一个子集，即；是搜索树已经包含的有向边的集合，每个有向边从父节点指向子节点；是初始节点；是目标节点集合；在搜索过程中，算法维护一个字典数据结构用于储存所有节点的属性，其包含节点的父节点，以及关联的完整路径代价，每个节点通过不断回溯父节点可以回到初始节点，从而关联一条路径，也即一个混合计划。搜索算法的目标是，不断拓展搜索树，最终包含目标节点，从而获得目标节点所关联的完整路径，也即完整的混合计划。

首先，算法使用一个优先队列存储搜索算法当前可以在节点选择阶段中访问的节点集合，也即搜索树当前的探索边界。优先队列是一种常用的数据结构，适合用于保存元素之间存在优先级的列表。同时，使用集合存储已经搜索树中已经在节点选择阶段被访问过的节点，这些节点将不会在节点选择阶段中再次被访问。

上述混合搜索算法包括以下阶段：

①节点选择：在节点优先队列中选择预估成本最低的顶点，即，其关联的状态为。

②节点拓展：该顶点经过以下三个步骤进行扩展：

(i)首先，给定状态，选择可行模式；

(ii)然后，在参数空间中通过迭代优化获得在模式和状态下的一组合理的候选参数集；

(iii)给定上述和，得到一组子顶点集合，其表示如下：

节点的属性通过和进行更新。定义拓展操作作为上述子节点生成过程的简化表示。对于，如果对所有满足的节点，都有且，i.e.那么就把子节点加入节点集合和。其中，是取整函数。随后，将边加入边集合并标记为相应的模式和参数。

③如果目标节点已经被包含在节点集合中，则进入步骤④，否则返回步骤①。

④终止。

9.2）迭代优化模式参数：本步骤具体介绍在上一步骤的②节点拓展（节点扩展）阶段第(ii)步中，通过迭代优化获得候选参数集合的过程；针对节点中参数的优化遵循一个两阶段的过程，第一阶段为基元拓展，算法从预定义的原始模式参数集合中选择模式参数。然后，可以通过拓展操作生成一组子节点，其中取遍中的所有基元参数。在该集合中，选择预估总成本最低的子节点，即并且关联的参数为,并对参数进行迭代优化从而获得一系列新节点。具体而言，算法通过非线性优化（调用Ipopt求解器）来优化终态和关联的参数，其中表示迭代次数。初始时，和。然后，将以下过程应用于更新:

可以使用非线性优化求解器(例如IPOPT)来解决该优化问题，因为目标函数是参数的可微函数。一旦得到，则通过来更新相应的终止状态。这个迭代过程会一直进行，直到迭代满足。因此，参数和终止状态对的集合由给出，相应的子节点是。此后，所有子节点均按照②中的方式进行筛选并加入到节点集合和中。

通过上述步骤，即可得到基于组合混合优化的多智能体合作规划的混合计划；

进一步可将求得的混合计划发送给智能体，并由模型预测控制器（ModelPredictive Control, MPC）控制器实现规划方案。

具体实施时，本发明实现了一种基于组合混合优化的多智能体合作规划系统，包括：任务分配层、混合优化层、MPC控制器；其中，

任务分配层用于将子任务分配给智能体联盟。具体而言，任务分配层由中央计算机进行离线求解，其利用Nash稳定任务分配算法求解已知组合混合优化问题下的Nash稳定任务分配。在求解任务分配的过程中，任务分配层根据算法设定，有选择地调用混合优化层求解智能体联盟执行特定任务的混合计划，以及对应的计划成本。任务分配算法利用混合计划成本进一步优化任务分配，使得所求Nash稳定任务分配具有更高的实际效益。

混合优化层用于在给定单个智能体联盟和单个任务的条件下，求解该智能体联盟执行该任务的最优混合计划。具体而言，混合优化层由中央计算针对给定的任务和子联盟进行离线求解。

MPC控制器用于在线控制智能体按照离线规划所得的混合计划来执行任务。具体而言，混合计划包含了合作模式和连续参数序列，进而决定了智能体的参考轨迹和MPC优化目标函数，MPC控制器通过已知的系统动力学和优化目标进行预测控制。

与现有技术相比，本发明的有益效果：

本发明提出了一种适用于多种多智能体实际任务的组合-混合优化框架。通过将组合混合优化问题部分解耦成任务分配层次和混合优化层次，本发明缓解了直接求解高维度非线性非凸问题所带来的指数爆炸的问题，同时通过两个层次恰当的结合方式，减小了解耦带来的解的质量损失。在任务分配层次，本发明提出的Nash稳定任务分配算法(NSCOAL)通过迭代进行的切换操作，使得解的质量随规划时间单调递增。相比于其他现有方法，NSCOAL的时间复杂度更小且适用于更加广泛的收益函数结构。对于事先未知的收益函数，NSCOAL有选择地调用混合优化层来进行收益函数的估计，特别适用于动态和复杂障碍物环境中具有复杂动力学约束的无人集群的实时规划，因为此类场景中通常不存在准确的静态成本估计，一个任务的完成成本的计算通常需要综合考虑任务参与者的动力学模型以及完成任务过程中所受到的几何、动力学约束。在运动规划层次，本发明提出的混合优化算法(HGGHS)以交替式的搜索和优化来进行混合计划的求解。相比于纯搜索方法，HGGHS算法在更低的维度进行搜索，并在局部将优化问题凸化，从而借助数值优化方法找到高维轨迹的局部最优解，缓解了纯搜索方法在处理高维搜索空间时面临的维度爆炸的问题，也避免了问题的强非凸性质对优化结果的过分影响。

本方法可以应用到如多机器人协同运输、多智能体协同抓捕等涉及到多智能体多模态协作的实际应用场景。

附图说明

图1是本发明的实施系统的结构框图；

其中，任务规划层和运动规划层通过有选择的交互实现高效率的Nash稳定分配求解，以及对应的混合计划；混合计划由模型最优控制器(MPC)实施，并相应地更新仿真环境中的系统状态。

图2是本发明中Nash稳定任务分配算法中切换操作的示意图；

其中，左图为执行切换操作之前的可视化任务代价；右图为执行切换操作后的可视化任务代价；柱状图的高度表示每个任务的代价，右上方的子图表示了一个智能体从一个任务到另一个任务的联盟的切换过程(Switch Operation)；Nash稳定任务分配算法过程中，所有实际执行的切换操作均保证分配总代价单调递减。

图3是启发式梯度引导的混合搜索中节点选择和参数迭代优化的流程示意图；

图4是将本发明应用到多智能体合作搬运问题时的合作模式定义的示意图；

其中，从左到右分别表示长边推模式, 旋转模式和短边推模式。在长边推模式下，智能体可以较为稳定将物体沿着推力方向搬运，但可能无法通过较窄的通道。在短边推的模式下，推动的稳定性较差，但是可以通过更狭窄的通道。在旋转推的模式下，智能体通过在两侧施加反向力实现力矩叠加，从而使物体可以在原地旋转，适合用于调整物体姿态。

图5是将本发明应用到多智能体协同抓捕问题时的合作模式定义的示意图；

其中，从左到右分别表示纯追踪模式、隐匿-突击模式、包围模式。在纯追踪模式下，智能体沿直线朝着最近的敌方目标运动。隐匿突击模式下，一部分智能体借助障碍物地形，遮挡敌方目标的视线，转移到其他位置进行蹲点，另一部分智能体直接追踪目标，在特定时机两部分智能体形成合围，从而完成抓捕；包围模式下，多智能体形成一个包围圈，从而限制敌方目标的逃避范围。

具体实施方式

下面结合附图，通过实施方式进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于组合混合优化的多智能体合作规划方法及系统，其核心是在复杂几何约束和动力学约束下针对多智能体多模式协作任务的规划算法，提供了将多种实际的多智能体协作任务建模为组合-混合优化问题的形式化方法，并提供了解决组合-混合优化问题的高效求解框架，可以保证算法求解的高效性、满足较为苛刻的实时性要求。

本发明涉及一个具有协作能力的多智能体系统，考虑一个N个智能体的团队，智能体团队的所有可能的系统状态构成的集合表示为，是实数空间的一个子集。系统状态不仅包括智能体状态，还包括可移动的物体和目标等其他动态组件，并且可以被表示为一个高维实数向量。由于动态和几何约束，如智能体之间和障碍物之间的避碰，系统需要保持在允许的子集内。此外，这些智能体可以通过多种参数化合作模式改变系统状态，这些模式构成的集合表示为，包含K个参数化合作模式，为模式的编号。

在每个模式下，多智能体系统状态会根据一个闭环动态进行演化，即表示为：

式（1）

其中，为模式编号；是参与该模式的智能体子集（一个智能体子集合称为一个子联盟，一组两两不相交且并集包含全体智能体的子联盟构成完整的联盟分解方案）；是选择该模式的连续参数，具有维度；和分别表示在中的智能体执行带参数的模式一个时间步前后的系统状态；是任意的起始时间；表示时间；是执行模式所要求的最小持续时间。对于性能度量，每个模式在特定的子联盟和参数选择下都有一个代价函数与之关联；为正实数集合。本发明假设与每个模式相关的函数都可以通过显式函数或者数值模拟来获取。此类模式通常是建立在预先为特定且更简单的目的而设计的成熟功能模块之上的，具有连续的可变参数，用于调整在该模式下的具体行为。

此外，多智能体系统需要完成项任务，表示为。在最普遍的意义上，每个任务的目标都是将系统状态转化到目标状态集合，为一个系统状态的子集，包含了所有可行的目标状态，只要系统状态进入该子集，即认为任务完成；m为任务序号。为了实现这种转化，每个任务都可以由恰当混合计划来完成，即一个包含了协作模式，智能体联盟和模式参数的时间序列，表示为:

式(2)

其中，为适用于任务的混合计划；是模式序列的长度，其具体大小与我们规划的时间步长有关，通常来说，我们我们希望取恰当值，避免过于粗糙的规划导致的收益不精确，或者过于精细的规划带来的高计算成本和不必要的模式切换；表示第t个时间段的合作决策，包含模式，在该时间段参与任务的智能体联盟，以及模式参数。同时，系统状态在混合规划方案下的演化过程受到如下的动力学和边界条件约束：

式(3)

其中，是给定的初始状态；混合计划的相关成本由每个时间段的成本之和给出，即:

式(4)

对于每个都成立。其中，为第t个时间段的成本函数；

此外，由于不同的模式可以以并发方式执行不同的任务，因此在本发明中假定不同的任务以独立的方式更改状态的不同维度，从而我们可以将不同子联盟对系统的影响解耦，对每个子联盟，单独考虑其方案对系统状态的改变量系统的完整改变量即等于各子联盟状态改变量之和，即:

式(5)

式(6)

其中，是多智能体系统所有任务的混合计划集合；组合混合优化目标是在多智能体系统所有任务中最大代价和平均代价之间实现平衡的最小化代价；约束条件包含系统动力学约束和状态边界约束，以及子联盟之间的组合约束；表示任务的目标，代表任务目标所对应的系统目标状态集合。组合混合优化目标是在多智能体系统所有任务中最大代价和平均代价之间实现平衡的最小化代价；式(3)(6)是与系统状态和联盟结构相关的动态和几何约束条件（包括智能体之间和障碍物之间的避碰）。

通过上述定义，本发明提出了一种对特定类型的多智能体合作规划问题的建模方法，构建得到多智能体合作规划模型。按照一般的分类方法，组合-混合优化问题本质上是一种大型的非线性混合整数优化问题，可以使用非线性整数优化求解器进行求解。然而，通常的非线性整数优化器受限于求解效率，难以在实际的机器人规划控制问题中进行实际应用。因此，本发明提出了一种充分考虑组合-混合优化问题结构的求解算法。

该算法将CHO问题的求解过程分为两个层次（Nash稳定任务分配(NSCOAL)和启发式梯度引导的混合优化(HGG-HS)算法），分别为任务分配层和混合优化层，从而部分解耦组合优化和混合优化的复杂度，加速求解过程。在这两个层次，本发明提出了两种具体的求解算法，Nash稳定任务分配算法(NSCOAL)和启发式梯度引导的混合优化(HGG-HS)算法。

1）任务分配

本发明提出了一种任务分配问题的定义，包括智能体团队、任务集合以及联盟的代价函数。代价函数刻画了潜在联盟的成本，但由于未知，我们采用估计代价函数。为了表示智能体的能力范围，我们定义了智能体可以执行的任务集合，并确定了任务之间的相邻性和智能体之间的相邻性。任务分配问题的定义表示如下：

其中，表示一个任务分配问题；表示全体N个智能体的集合；是定义在机器人子集和任务集合上的代价函数。该任务分配问题定义下，一个任务分配解被定义为一个如下的列表：

其中分别为分配给任务的智能体子联盟。

上述代价函数可能是未知的，但对于多数任务，可以采用简单的启发式进行近似（比如欧式距离），表示为。进一步，整个任务分配解的总代价被定义为：

特别地，为了刻画不同机器人的能力范围，我们用代表智能体可以执行的任务集合。如果存在一个智能体可以执行任务和，则称和是相邻的。相应的,如果两个智能体和可以执行同一个任务，则称智能体和是相邻的，符号表示为。通过联盟结构的定义，本发明将任务分配问题形式化，任务分配被定义为在给定联盟结构下的有效解决方案。为了构造任务分配求解算法，我们引入了任务分配的切换操作，允许修改分配。

在本发明中，我们定义一个任务分配是Nash稳定的，当不存在任何切换操作能够降低一个任务分配的总代价。进而，本发明将任务分配问题转化为一个集中式Nash稳定联盟形成问题。具体地，我们提出了一种集中式任务分配解决方案，即Nash稳定任务分配算法(NSCOAL)，通过迭代切换操作来降低总代价，并导出在实际代价意义下的Nash稳定的任务分配解。

在算法中，我们首先随机或基于估计代价函数贪婪地导出初始分配。然后，我们根据估计代价对联盟进行排序，算法尝试将切换操作应用于具有较大估计代价的联盟，以高效降低总代价。算法初始化循环指标p=1，并开始一个循环，循环内部依次执行以下步骤，直到找到Nash稳定的任务分配：

①选择具有第大估计代价的目标联盟，调用混合优化层计算其实际代价，并更新估计代价字典。如果再次访问该联盟的代价时可以直接调用。

②如果此时该联盟不再是第p大，则重新选择第p大的联盟，回到步骤1。如果仍然是第p大，则继续执行步骤3。

如果不等式不成立，则正常进行步骤④。

④p自增1。

2）混合优化

如前所述，我们需要为形成联盟的智能体子集（子联盟）求解混合规划结果。为此，本发明将混合优化问题进一步形式化。

为简化表示，令为系统状态的离散时间序列，其中为足够长的持续时间；和为应用于系统的模式序列。离散时间间隔为，即这些序列都是作用在，其中。被选择为每个模式的持续时间下限，以避免模式和参数过于频繁的切换。此外，为简化表示，令分别表示。

从而混合优化问题可以表示为，在给定任务和相关联盟的条件下，找到最优序列，即解决下面的混合优化问题：

与原始组合混合优化问题不同，上述混合优化问题的目标为特定任务和相应的联盟找到最优混合计划。本发明提出了一种称为启发式梯度引导混合搜索(HGG-HS)的新型混合搜索算法来解决问题。区别于直接将该问题输入非线性优化器并求解，该算法将以下两个步骤组合起来：基于的离散搜索来获得最优模式序列和基于梯度的优化来获得最优参数序列，从而大幅度地缓解了整数变量带来的指数级运算复杂度。

此外，设是节点的成本，是的父节点。启发式函数的合理设计对搜索算法的性能至关重要。由于找到一个完美估算从给定顶点到目标集合的成本的精确启发式函数是不切实际的，因此本专利提出了两个不同抽象级别的精确启发式函数的近似：

①全局近似作为实际成本的下界，即，。例如，欧几里得距离是一个常见的可接受启发式函数；

②可微分的局部近似具有与在局部邻域内类似梯度的性质，即:其中。

此外，平衡启发式函数的递归定义如下：

其中；是一个权重因子；是从到成本的变化量，它的估算值是沿着路径累计变化量，即, 其中，且，此外，是影响搜索算法贪心程度的参数。当时，等同于，从而产生类似的通用启发式搜索算法。另一方面，当时，仅依赖于局部近似，从而产生局部贪心搜索。

2.1）启发式梯度引导的混合搜索算法

考虑到上面定义的平衡启发式函数，我们设计了启发式梯度引导的混合搜索算法(Heuristics Gradient Guided Hybrid Search, HGG-HS)。该算法基于节点选择和节点拓展两个步骤来逐步生长搜索树，并最终获取最优的混合计划。具体而言，我们按照经典的搜索算法的定义，将混合搜索算法的搜索树结构定义为，其中是搜索树已经探索过的节点的集合，其包含的每个节点都是一个可行的多智能体系统状态，因此节点集合是可行系统状态空间的一个子集，即；是搜索树已经包含的有向边的集合，每个有向边从父节点指向子节点；是初始节点；是目标节点集合；在在搜索过程中，算法维护一个字典数据结构用于储存所有节点的属性，其包含节点的父节点，以及关联的完整路径代价，每个节点通过不断回溯父节点可以回到初始节点，从而关联一条路径，也即一个混合计划。搜索算法的目标是，不断拓展搜索树，最终包含目标节点，从而获得目标节点所关联的完整路径，也即完整的混合计划。

上述混合搜索算法包括以下阶段：

②节点拓展：该顶点经过以下三个步骤进行扩展：

(i)首先，给定状态，选择可行模式；

(iii)给定上述和，得到一组子顶点集合，其表示如下：

定义拓展操作作为上述子节点生成过程的简化表示。此外，子节点的代价通过更新；子节点的父节点通过进行更新。对于,如果对所有满足的节点，都有且，i.e. 满足下列条件：

那么就把子节点加入节点集合和。其中，是取整函数。随后，将边加入边集合并标记为相应的模式和参数。

③终止：

如果的所有子节点都已被探索，则将从中移除并加入中。更重要的是，如果，则可以通过追溯父节点并检索其标签，得到解决混合优化问题的最优序列和。因此，混合搜索算法将以混合规划的形式返回，并附带指派任务的实际代价。

2.2）迭代优化与离散合作模式所对应的连续参数；

在2.1节的②节点拓展（节点扩展）阶段第(ii)步中，通过迭代优化获得候选参数集合；针对节点中参数的优化遵循一个两阶段的过程，在本节中具体介绍。第一阶段为基元拓展，算法从预定义的原始模式参数集合中选择模式参数。然后，可以通过拓展操作生成一组子节点，其中取遍中的所有基元参数。在该集合中，选择预估总成本最低的子节点，即并且关联的参数为。在第二阶段的迭代优化中，算法通过非线性优化（调用Ipopt求解器）来优化终态和关联的参数，其中表示迭代次数。初始时，和。然后，将以下过程应用于更新:

该优化问题可以通过一般的非线性优化求解器(例如IPOPT)来解决，因为所有状态都是通过参数进行参数化的。一旦得到，则通过来更新相应的终止状态。这个迭代过程会一直进行，直到迭代满足，即相邻两个迭代点的距离小于d时。因此，参数和终止状态对的集合由给出，相应的子节点是。此后，所有子节点被发送到扩展阶段的下一步。

图1所示为具体实施时实现本发明方法整体实施流程，以下是利用组合-混合优化求解框架解决具体问题的流程：

1）分析总任务目标，将其拆解为多个子任务

2）分析机器人能力所允许的合作模式, 符号表示为

3）基于简单的启发式（如欧式距离等）设计针对联盟结构的估计代价函数。

4）通过实时定位系统(如Vicon、Optitrack或GPS等)获取所有对象的状态信息，包括位置信息以及速度信息；

5）构建初始分配解，通常可以采用空列表或者基于简单的贪心策略获得初始值。

6）初始化循环指标k=1，并进入Nash稳定任务分配以及每个机器人子联盟对应的混合计划的求解循环：

其中，是具有第p大估计代价的目标联盟,为智能体n原来所在的联盟。

如果不等式不成立，则正常进行步骤④。

④p自增1。

在上述求解循环的步骤①③中，NSCOAL算法需要频繁调用混合优化算法HGGHS以求解实际代价。混合优化层的具体执行步骤如图3所示。使用优先队列储存所有已经访问过的节点。将初始节点加入,并进入HGG-HS的求解循环：

①节点选择：在中选择预估成本最低的顶点，即，其关联的状态为。

②节点拓展：该顶点经过以下三个步骤进行扩展：

(i)首先，给定状态，选择可行模式；

(iii)给定上述和，得到一组子顶点集合，其表示如下：

节点的属性通过和进行更新。定义拓展操作作为上述子节点生成过程的简化表示。对于，如果对所有满足的节点，都有且，即：

(iv)在上述结果子顶点集合中选择预估总成本最低的节点，即，并获取其关联的参数。在第二阶段的迭代优化中，通过非线性优化来优化终态和关联的参数，其中表示迭代次数。初始时，和。然后，将以下过程应用于更新7:

可以使用非线性优化求解器(例如IPOPT)来解决该优化问题，因为目标函数是参数的可微函数。一旦得到，则通过来更新相应的终止状态。这个迭代过程会一直进行，直到迭代满足。因此，参数和终止状态对的集合由给出，相应的子节点是。此后，所有子节点被发送到扩展阶段的下一步。

③终止：

7）将上一步所求得得混合计划发送给机器人，并由底层的MPC控制器实现规划方案。

图4，图5展现了本方法的两种具体用例。具体来说，图4显示了在将组合混合优化方法应用于多智能体合作搬运问题过程中，三种离散模式的设置：分别为长边推, 旋转和短边推。图5显示了将组合混合优化方法应用于协同抓捕问题时，三种离散模式的设置：分别为纯追踪、隐匿和突击、包围。离散模式的设计简化了多智能体协同控制的难度，在每种模式下，多智能体的行为可由维度较小的模式参数刻画，而非完整的控制参数。

具体实施表明，本发明方法所提出的组合-混合优化框架适用于多种实际的多智能体协作任务，特别是在复杂的几何约束和动力学约束下的多智能体合作。针对具体任务，组合-混合优化框架给出Nash稳定的任务分配以及对应的混合计划，可以被MPC控制器执行。通过将组合混合优化问题部分解耦成任务分配层次和混合优化层次，本发明缓解了直接求解高维度非线性非凸问题所带来的指数爆炸的问题，同时通过两个层次恰当的结合方式，减小了解耦带来的解的质量损失。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于组合混合优化的多智能体合作规划方法，所述智能体为移动机器人；其特征是，通过设计Nash稳定任务分配算法NSCOAL和混合优化算法HGGHS，将多智能体组合混合优化部分解耦成多智能体合作规划任务分配层次和混合优化层次，并通过将混合优化层次计算得到的代价返回到任务分配层次并优化任务分配解，从而实现高质量的多智能体的合作规划；包括：

1）将多智能体系统或联盟的总任务拆解为多个子任务；

2）分析得到多智能体系统的合作模式集合；

3）设计针对单个子任务和完成任务的智能体子集或子联盟的估计代价函数；

4）获取多智能体系统中所有智能体对象的状态信息，包括位置信息和速度信息；

5）设立多智能体系统所满足的动力学约束和联盟组合约束条件，将多智能体系统分解为多个子联盟；由一组两两不相交且并集包含全体智能体的子联盟构成联盟；

6）构建基于组合混合优化CHO的多智能体合作规划模型；设计组合混合优化的目标是在多智能体系统所有任务中最大代价和平均代价之间实现平衡的最小化代价；

7）多智能体合作规划模型求解；求解过程包括任务分配层次和混合优化层次；

8）设计Nash稳定任务分配算法NSCOAL，进行任务分配；包括：

定义作用在任务分配解上的一个切换操作为：将一个智能体从一个任务的联盟中转移到另一个任务的联盟中，即修改单个智能体的任务选择；

定义Nash稳定的任务分配为：当不存在任何切换操作能够降低一个任务分配的总代价时，任务分配是Nash稳定的；

分配并导出初始任务分配；

根据估计代价对联盟进行排序；

再对具有大估计代价的联盟做切换操作，降低任务分配的总代价；

9）设计启发式梯度引导的混合优化算法，为形成联盟的子联盟求解混合规划结果；即混合优化目标为在给定子联盟的条件下，找到特定任务的最优混合计划；

混合优化目标表示为：

其中，是控制成本函数；是给定模式，系统状态，子联盟和模式参数下的系统动力学方程；表示时间；为t+1时的系统状态；为系统动力学函数，以模式、系统状态、智能体子联盟和模式参数作为自变量；多智能体协作系统任务的共享工作空间记为；系统状态；T为决策序列长度；表示任务的目标，代表所对应的系统目标状态集合；

设计启发式梯度引导混合搜索HGGHS算法对混合优化目标进行求解，包括：基于离散搜索获得最优离散模式序列和基于梯度的优化获得最优连续参数序列；

9.1）启发式梯度引导混合搜索，通过节点选择和节点拓展逐步延展搜索树；

将混合搜索算法的搜索树结构定义为，其中是搜索树已经探索过的节点的集合，其包含的每个节点都是一个可行的多智能体系统状态；节点集合是可行系统状态空间的一个子集，即；是搜索树已经包含的有向边的集合，每个有向边从父节点指向子节点；是初始节点；是目标节点集合；

在搜索过程中，维护字典数据结构用于储存所有节点的属性，其包含节点的父节点，以及关联的完整路径代价；每个节点通过不断回溯父节点回到初始节点，从而关联一条路径，即一个混合计划；

搜索算法的目标是，不断拓展搜索树，最终包含目标节点，从而获得目标节点所关联的完整路径，即完整的混合计划；

9.2）迭代优化与离散合作模式所对应的连续参数；

在步骤9.1）得到结果中选择预估总成本最低的节点，并获取其关联的参数，并对参数进行迭代优化，从而获得一系列新节点；更新搜索树节点再进行节点拓展；

通过上述步骤，即可得到基于组合混合优化的多智能体合作规划的混合计划。

2.如权利要求1所述基于组合混合优化的多智能体合作规划方法，其特征是，进一步将得到的混合计划发送给智能体，并由模型预测控制器实现多智能体合作规划。

3.如权利要求1所述基于组合混合优化的多智能体合作规划方法，其特征是，步骤5）中，系统演化过程受到的动力学约束表示为：

其中，为模式编号；是参与该模式的智能体子集；是选择该模式的连续参数，具有维度；和分别表示在中的智能体执行带参数的模式一个时间步前后的系统状态；是任意的起始时间；表示时间；是执行模式所要求的最小持续时间。

4.如权利要求3所述基于组合混合优化的多智能体合作规划方法，其特征是，步骤6）中，组合混合优化CHO目标定义为：

其中，是多智能体系统所有任务的混合计划集合；约束条件包含系统动力学约束和状态边界约束，以及子联盟之间的组合约束。

5.如权利要求4所述基于组合混合优化的多智能体合作规划方法，其特征是，步骤8）Nash稳定任务分配算法具体包括如下过程：

8.1）构建初始任务分配解，获得初始任务分配值；

8.2）初始化循环指标p=1，并进入Nash稳定任务分配以及每个智能体子联盟对应的混合计划的求解循环；循环内部依次执行以下步骤①~④，直到找到Nash稳定的任务分配：

①选择具有第大估计代价的目标联盟，调用混合优化层计算其实际代价，并更新估计代价字典；当再次访问该联盟的代价时直接调用；

②当该联盟不再是第p大时，则重新选择第p大的联盟，返回步骤①；如果仍然是第p大，则继续执行步骤③；

③遍历所有可执行任务的智能体，判断如下不等式是否成立：

其中，为当前储存的最优分配；为经过切换操作后得到的新的分配；

如果不等式成立，则将当前储存的最优分配替换为；同时，对新的分配中的子联盟的代价进行重新排序，并记此时具有第大的代价；将循环指标赋值为，即当小于，循环指标回溯到所对应的子联盟，重新检查是否被进一步的切换操作优化；修改循环指标后，返回循环的步骤①；

④p自增1。

6.如权利要求5所述基于组合混合优化的多智能体合作规划方法，其特征是，8.1）中具体是采用空列表或基于简8.2）中，经过切换操作后得到的新的分配表示为：

其中，是具有第p大估计代价的目标联盟,为智能体n原来所在的联盟；即应用切换操作后的分配是通过将智能体从原来所在的子联盟中转移到具有第p大估计代价的目标联盟中。

7.如权利要求5所述基于组合混合优化的多智能体合作规划方法，其特征是，步骤9）中的启发式梯度引导的混合搜索算法具体包括如下阶段：

①节点选择阶段：在节点优先队列中选择预估成本最低的顶点，其关联的状态为；其中，是搜索树探索过的节点集合；

②节点拓展阶段：该顶点经过以下三个步骤进行扩展：

i)首先，给定状态，选择可行模式；

ii)然后，在参数空间中通过迭代优化获得在模式和状态下的一组合理的候选参数集；

iii)给定上述和，得到一组子顶点集合，其表示如下：

定义拓展操作作为上述子节点生成过程的简化表示；子节点的代价通过更新；子节点的父节点通过进行更新；对于，如果对所有满足的节点，都有且，即满足下述条件：

其中，是取整函数；随后，将边加入边集合并标记为相应的模式和参数；

8.如权利要求7所述基于组合混合优化的多智能体合作规划方法，其特征是，节点拓展阶段通过迭代优化寻找确定对于模式和的一组候选参数集，具体包括如下两阶段过程：

A．基元拓展阶段，从预定义的原始模式参数集合中选择模式参数；通过拓展操作生成一组子节点，其中取遍中的所有；在该集合中，选择预估总成本最低的子节点，即且关联的参数为；

B．迭代优化阶段，每次迭代通过非线性优化以优化终态和关联的参数；

初始时，和；

然后，将以下过程应用于更新：

进行迭代过程，直到迭代次数满足相邻两个迭代点的距离小于d时；参数和终止状态对的集合为，相应的子节点是；

得到所有子节点为。

9.如权利要求1所述基于组合混合优化的多智能体合作规划方法，其特征是，多智能体系统中每个智能体参与最多一个任务；多智能体系统状态的改变量等于各子联盟状态改变量之和，表示为：

是当前系统状态；是系统执行所有合作模式一个时间步后的结果状态。

10.一种采用权利要求1所述基于组合混合优化的多智能体合作规划方法的系统，包括：任务分配层、混合优化层、MPC控制器；其中，

任务分配层用于将子任务分配给智能体联盟；任务分配层由中央计算机进行离线求解，利用Nash稳定任务分配算法求解已知组合混合优化问题下的Nash稳定任务分配；

混合优化层用于在给定单个智能体联盟和单个任务的条件下，求解智能体联盟执行该任务的最优混合计划；

MPC控制器用于在线控制智能体按照离线规划所得的混合计划来执行任务，通过已知系统动力和优化目标进行预测控制。