CN113723012B

CN113723012B - 一种基于多智能体生成对抗模仿安全学习的协作围捕方法

Info

Publication number: CN113723012B
Application number: CN202111060274.6A
Authority: CN
Inventors: 张卫东; 董博韬; 何星; 谢威; 方兴其
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2024-04-30
Anticipated expiration: 2041-09-10
Also published as: CN113723012A

Abstract

本发明涉及一种基于多智能体生成对抗模仿安全学习的协作围捕方法，该方法包括：步骤1：搭建多智能体协作围捕仿真平台；步骤2：将多智能体协作围捕任务过程建立为MGP模型；步骤3：获取专家的围捕轨迹信息，并将其存入经验存储模块；步骤4：针对多智能体系统搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络；步骤5：基于多智能体生成对抗模仿安全学习对网络参数进行优化训练，得到策略生成网络和轨迹判别网络的最佳参数；步骤6：通过动作安全校正器对输出策略进行安全性校正，将校正后的策略应用于实际围捕作业任务，与现有技术相比，本发明具有简化了策略网络的设计过程和提高了算法对复杂性环境的适应能力等优点。

Description

一种基于多智能体生成对抗模仿安全学习的协作围捕方法

技术领域

本发明涉及多智能体协作围捕技术领域，尤其是涉及一种基于多智能体生成对抗模仿安全学习的协作围捕方法。

背景技术

近年来，多智能体系统由于能够完成诸多单智能体无法完成的任务而受到越来越广泛的关注，作为多智能体协同任务之一的多智能体协作围捕作业问题由于有着广泛的应用前景和较高的理论难度而成为该领域的热点问题。

随着人工智能技术的发展，强化学习技术被应用于多智能体围捕作业任务，并且取得了良好的效果，之前的研究者在使用强化学习技术解决多智能体围捕作业任务时一般使用自行设定奖励函数的方法，即在给定的奖励框架下使多智能体系统按照最大化奖励函数的路线进行围捕，在这种方法中，人为地设定合适的奖励函数是一个十分耗时且富有挑战性的工作，因此该方法策略设计效率低下，尤其当多智能体系统中智能体的数量较多时，这个问题尤为突出，并且现有强化学习方法为了提高智能体对环境的认识程度，通常鼓励探索性高的策略，然而，过高的探索性可能导致智能体采取具有严重后果的危险性动作，因此，对于实际系统而言，策略的安全性尤为重要。

模仿学习方法能够避免人为设定奖励函数这一十分耗时的工作，但现有的模仿学习方法由于自身的局限性难以被应用于多智能体场景，现有的模仿学习算法主要包括两大类：行为克隆方法和逆强化学习方法，行为克隆方法的原理较为简单，其本质上是一种监督学习方法，由于误差累积等因素的影响，行为克隆方法所需要的数据量较大，难以广泛应用；逆强化学习方法可通过对状态轨迹的计算获得奖励函数的估计值，但由于逆强化学习的迭代过程中的每一步都包含通过正向强化学习寻找最优策略的过程，因而逆强化学习所需要的计算量巨大，这给策略的训练过程带来了极大的困难，行为克隆和逆强化学习方法各自存在的问题在多智能体场景中尤为突出，因此难以被应用于多智能体系统，强化学习的安全性通常使用对限制函数值的期望加以约束的方法来实现，但这种方法本质上是一种软约束方法，虽然可以提高策略的安全性，但是无法确保危险性动作不会发生，因此在实际场景中无法广泛应用。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多智能体生成对抗模仿安全学习的协作围捕方法。

本发明的目的可以通过以下技术方案实现：

一种基于多智能体生成对抗模仿安全学习的协作围捕方法，该方法包括以下步骤：

步骤1：搭建多智能体协作围捕仿真平台；

步骤2：将多智能体协作围捕任务过程建立为MGP模型；

步骤3：获取专家的围捕轨迹信息，并将其存入经验存储模块；

步骤4：针对多智能体系统分别搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络；

步骤5：基于多智能体生成对抗模仿安全学习对网络参数进行优化训练，得到策略生成网络和轨迹判别网络的最佳参数；

步骤6：通过动作安全校正器对策略生成网络的输出策略进行安全性校正，将校正后的策略应用于实际围捕作业任务。

所述的步骤2中，多智能体协作围捕作业任务的MGP模型为：

其中N为多智能体系统内追捕者的个数，为状态空间，/>为动作空间，s^(b)和s^(j)分别表示被追捕者和第j个追捕者所处的状态，a^(b)和a^(j)分别表示被追捕者和第j个追捕者所采取的动作，η(s₀)∈[0,1]表示系统初始状态的概率分布，s_t为被追捕者和追捕者的状态联合向量，表示时刻为t时的系统状态，a_t为表示被追捕者和追捕者的动作联合向量，表示时刻为t时的系统动作，P(s_t+1|s_t,a_t)∈[0,1]表示在系统状态s_t采取动作a_t后，系统状态转移到s_t+1的概率，r为奖励函数，由当前状态和每个智能体的动作决定，表示时刻为t系统状态为s_t且每个智能体分别采取动作a_t时，每个智能体所能够获得的奖励值，γ为衰减率，表征智能体对当前奖励和未来奖励重视情况，/>为限制函数，/>为状态限制集，表示环境对智能体所处状态的限制，/>为状态动作限制集，表示环境对智能体所处状态和采取动作的限制，/>为状态限制函数，c(s,a)为状态动作限制函数，/>为实数集。

所述的多智能体系统包括作为追捕者的智能体和作为被追捕者的智能体，即：

当i＝N+1时表示智能体作为被追捕者；

当i＝1,2，…,N时表示智能体作为追捕者；

所述的状态为多智能体系统完成协作围捕任务所需要的各项信息构成的向量，所述的各项信息包括每个智能体在时刻为t时的位置坐标、速度大小、速度的方向和限制函数值，根据多智能体协作围捕任务过程对其进行建模，则有：

其中，表示时刻为t时第i个智能体所处的状态，/>表示第i个智能体在时刻为t时的位置坐标，/>表示第i个智能体在时刻为t时的速度大小，/>表示第i个智能体在时刻为t时速度的方向，/>表示被追捕者和第j个追捕者坐标位置之间的欧氏距离，表示被追捕者和第j个追捕者之间速度方向的绝对差值，/>和/>分别表示被追捕者和第j个追捕者在时刻t时的限制函数值，/>表示第i个智能体在时刻t时的限制函数值。

所述的限制函数值的约束条件如下：

其中，C_th为限制函数的阈值，取C_th＝0，表示围捕过程中智能体不超出给定的边界，c₁和c₂分别表示第i个智能体在时刻为t时水平方向上离边界的距离以及在垂直方向上离边界的距离。

所述的动作为围捕过程中第i个智能体采取的速度大小和速度方向构成的向量，根据多智能体协作围捕任务过程对动作/>进行建模，则有：

其中，表示在时刻t时第i个智能体所要采取的动作，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作，/>表示在时刻t时第i个智能体采取的速度大小，和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小，/>表示在时刻t时第i个智能体采取的速度方向，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向。

所述的步骤3中，专家的围捕轨迹信息如下：

其中，m表示轨迹的标号，k为轨迹的总数量，n为专家状态-动作-限制对的标号，M_m为第m条专家轨迹的总长度，并将所获得的k条轨迹存入存储模块中。

所述的步骤4中，轨迹判别网络针对每个追捕者搭建而成，其输入为状态-动作对输出为/>用以表示该状态-动作对是否自于专家轨迹的可信程度；

所述的策略生成网络针对每个追捕者搭建而成，其输入为时刻t时的智能体所处的状态s_t，输出为第j个追捕者采取的动作

所述的值估计网络针对每个追捕者搭建而成，其输入为当前时刻t智能体所处的状态s_t和当前时刻t除第i个智能体外其余智能体采取的动作输出为值估计网络对第i个智能体的状态价值函数的估计值；

所述的限制近似网络针对每个智能体搭建而成，其输入为时刻t时的状态-动作-限制对输出为第i个智能体在t+1时刻限制值函数的估计值。

所述的步骤5中，基于多智能体生成对抗模仿安全学习对网络参数进行优化训练过程的具体步骤如下所示：

步骤501：对轨迹判别网络策略生成网络/>值估计网络/>和限制估计网络q(s_t；ν_i)的参数进行初始化，并设定批量大小B；

步骤502：根据系统初始状态的概率分布η(s₀)选取初始状态s₀，按照当前策略生成网络产生动作，将动作采取后，从环境中得到后续状态，重复采取步骤502直到得到B个当前策略与环境交互得到的状态-动作-限制对，并将其存入存储模块/>中；

步骤503：在存储模块中随机采样批量大小B个专家状态-动作-限制对，对每一个追捕者的轨迹判别网络/>的参数ω_i根据下式优化更新：

其中，E表示求解期望的符号，α₁和α₂为给定的超参数，α₁/α₂用以衡量轨迹判别网络对专家轨迹的重视程度，为状态-动作对，/>为得到的B个当前策略轨迹下的状态-动作-限制对，/>为B个专家状态-动作-限制对，/>表示该状态-动作对是否自于专家轨迹的可信程度；

步骤504：计算当前策略轨迹中每个状态-动作-限制对相对应的奖励值，并将其存入存储模块状态-动作-限制对相对应的奖励值与轨迹判别网络的输出值/>有关并通过双曲正切函数进行限制，其表达式为：

其中，r_t ⁽ⁱ⁾为奖励函数，由当前状态s_t和每个智能体的动作a_t决定，表示时刻为t时，系统状态为s_t且每个智能体分别采取动作时，各个智能体得到的奖励值，即当前策略轨迹中每个状态-动作-限制对在时刻t相对应的奖励值；

步骤505：根据每个状态-动作-限制对相对应的奖励值通过T步时序-差分误差得到每个状态-动作-限制对的优势函数的估计值，并将其存入存储模块表达式为：

其中，γ为衰减率，T为当前时刻t与当前幕结束点的时间距离，为当前策略轨迹中每个状态-动作-限制对在时刻t+k对应的奖励值，s_t+T-1和s_t-1分别表示时刻t+T-1和时刻t-1的系统状态，/>和/>分别为在时刻t+T-1和时刻t-1除第i个智能体外其余智能体采取的动作；

步骤506：将值估计网络的目标函数设为状态价值函数的采样值和值估计网络得到状态价值函数的估计值之间欧氏距离的平方的期望值，依据该目标函数对每一个追捕者的值估计网络参数φ_i通过下式进行梯度下降优化更新，以得到更准确的值估计网络对状态价值函数的估计值；

其中，为状态价值函数的采样值，|| ||₂表示向量之间的欧氏距离；

步骤507：对策略生成网络设置目标函数，再依据下式对每个追捕者的策略生成网络参数θ_i进行梯度下降优化更新：

其中，A⁽ⁱ⁾(s_t,a_t)为步骤505中每个状态-动作-限制对的优势函数的估计值，λ为开始训练之前给定的一个超参数，为策略生成网络输出动作分布的熵；

步骤508：根据马尔可夫博弈过程的性质，对限制函数进行线性化处理，并根据线性化后的偏差更新每个智能体的限制估计网络q(s_t；ν_i)的参数ν_i：

其中，为第i个智能体t+1时刻的限制值函数的估计值，/>为第i个智能体t+1时刻的限制值函数，a_t表示各智能体的动作；

步骤509：使用轨迹判别网络判断当前的状态-动作-限制对是否自于专家策略，当轨迹判别网络的输出值在事先给定的目标区间中时，停止训练过程并保存训练过程所获得的参数，至此完成对专家策略轨迹的多智能体生成对抗模仿学习过程，否则重复执行步骤502至步骤508；

步骤510：训练完成后，将策略生成网络输出的每一个智能体动作基于凸优化技术中的拉格朗日对偶法进行安全性校正。

所述的步骤510中，通过求解凸优化问题进行安全性校正，凸优化问题如下所示：

其中，a_opt为策略生成网络生成的动作，为安全性校正后的动作，C_th为限制函数的阈值，表示围捕过程中智能体不超出给定的边界，该凸优化问题表示选取限制条件成立时使得/>最小的a_opt的取值。

所述的凸优化问题通过拉格朗日对偶法求解，得到最优解为：

与现有技术相比，本发明具有以下优点：

一、本发明提出的基于多智能体生成对抗模仿安全学习的协作围捕方法，策略训练过程采用生成对抗模仿学习进行参数优化，避免了人工设置奖励函数这项繁琐耗时的步骤；

二、由于加入了安全层，通过动作安全校正器对策略生成网络的输出策略进行安全性校正，将校正后的策略应用于实际围捕作业任务，避免了危险性动作，提高了算法对复杂性环境的适应能力。

附图说明

图1为本发明的流程示意图；

图2为本发明的多智能体协作围捕过程示意图。

图3为本发明的多智能体协作围捕算法安全性校正的过程示意图。

图4为本发明的限制函数说明示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供了一种基于多智能体生成对抗模仿安全学习的协作围捕方法，该方法具体步骤如下：

步骤1：根据追捕者和被追捕者各自与环境交互规则，构建多智能体协作围捕仿真平台；

步骤2：将多智能体围捕任务过程建立为MGP(马尔可夫博弈过程MarkovGameProce步骤)模型；

步骤3：获取专家的轨迹信息，并将其存入经验存储模块；

步骤4：搭建轨迹判别网络、策略生成网络、值估计网络和限制估计网络；

步骤5：基于多智能体生成对抗模仿安全学习对网络参数进行优化训练，得出策略生成网络和轨迹判别网络的最佳参数；

步骤6：通过动作安全校正器对策略生成网络的输出策略进行安全性校正，从而得到能够确保安全的控制策略，将校正后的策略应用于实际围捕作业任务。

步骤2中，多智能体协作围捕作业任务的MGP模型为：

其中，N为多智能体系统内追捕者的个数，为状态空间，/>为动作空间，η表示概率分布，s^(b)和s^(j)分别表示被追捕者和第j个追捕者所处的状态，a^(b)和a^(j)分别表示被追捕者所采取的动作以及第j个追捕者所采取的动作，η(s₀)∈[0,1]表示系统初始状态的概率分布，s_t为被追捕者和追捕者的状态联合向量，表示时刻为t时的系统状态，a_t为表示被追捕者和追捕者的动作联合向量，表示时刻为t时的系统动作，P(s_t+1|s_t,a_t)∈[0,1]表示在系统状态s_t采取动作a_t后，系统状态转移到s_t+1的概率，r为奖励函数，由当前状态和每个智能体的动作决定，表示时刻为t系统状态为s_t且每个智能体分别采取动作a_t时，每个智能体所能够获得的奖励值，γ为衰减率，表征智能体对当前奖励和未来奖励重视情况，/>为限制函数，/>为状态限制集，表示环境对智能体所处状态的限制，/>为状态动作限制集，表示环境对智能体所处状态和采取动作的限制，/>为状态限制函数，c(s,a)为状态动作限制函数，/>为实数集。

当前状态为多智能体系统完成协作围捕任务所需要的各项信息构成的向量，所需的各项信息包括：每个智能体在时刻为t时的位置坐标、每个智能体在时刻为t时的速度大小、每个智能体在时刻为t时速度的方向和每个智能体在时刻为t时的限制函数值，当前状态/>包括被追捕者的状态/>和追捕者的状态/>动作/>为第i个智能体执行的速度大小和速度方向构成的向量。

多智能体系统包括作为追捕者的智能体和作为被追捕者的智能体：当i＝N+1时表示作为被追捕者的智能体；当i＝1,2，…,N时表示作为追捕者的智能体，根据多智能体协作围捕任务过程对状态进行建模：

如图4所示，限制函数值的约束条件如下：

根据多智能体协作围捕任务过程对动作进行建模：

其中，表示在时刻t时第i个智能体所要采取的动作，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作，/>表示在时刻t时第i个智能体采取的速度大小，和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小，/>表示在时刻t时第i个智能体采取的速度方向，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向，各智能体的速度方向定义如图2所示。

在步骤3中，专家的围捕轨迹信息如下：

在步骤5中，针对每个追捕者搭建轨迹判别网络(其参数为ω_i)，轨迹判别网络的输入为状态-动作对/>输出为/>用以表示该状态-动作对是否来自于专家轨迹的可信程度，/>表示轨迹判别网络认为当前状态-动作对/>来自于专家轨迹，而/>表示轨迹判别网络认为当前状态-动作对/>来自于策略生成网络。

针对每个追捕者搭建策略生成网络(其参数为θ_i)，策略生成网络的输入为当前时刻智能体所处的状态s_t，输出为第i个智能体所要采取的动作/>

针对每个追捕者搭建值估计网络(其参数为φ_i)，值估计网络的输入为当前时刻智能体所处的状态s_t和当前时刻除第i个智能体外其余所有智能体所采取的动作/>输出为值估计网络对第i个智能体的状态价值函数的估计值。

针对每个智能体搭建限制近似网络q(s_t；ν_i)(其参数为ν_i)，限制估计网络的输入为时刻t时的状态-动作-限制对输出为第i个智能体t+1时刻限制值函数的估计值。

在步骤5中，基于多智能体生成对抗模仿学习算法对步骤3获得的专家轨迹进行模仿学习，从而使策略生成网络输出的策略轨迹逐步逼近专家策略轨迹，多智能体系统轨迹判别网络、策略生成网络、值估计网络和限制估计网络的训练过程的具体步骤如下所示：

步骤501：对每个追捕者的轨迹判别网络策略生成网络/>值估计网络/>和限制估计网络q(s_t；ν_i)的参数进行初始化，并设定批量大小B；

步骤502：根据系统初始状态的概率分布η(s₀)选取初始状态s₀，按照当前策略生成网络产生动作，将动作执行后，从环境中得到后续状态，重复执行步骤502直到当前策略与环境交互得到的B个状态-动作-限制对，并将其存入存储模块/>中；

步骤503：在存储模块中随机采样批量大小B个专家状态-动作-限制对，对每一个追捕者的轨迹判别网络/>使用梯度法进行优化更新，更新轨迹判别网络的参数是为提高轨迹判别网络对专家轨迹和策略生成网络输出策略轨迹的鉴别能力，与之相应的目标函数也基于此设计，对轨迹判别网络/>进行参数更新的表达式如下：

其中，E表示求解期望的符号，α₁和α₂为给定的超参数，α₁、α₂用以衡量轨迹判别网络对专家轨迹的重视程度，为状态-动作对，/>为B个当前策略与环境交互产生状态-动作-限制对，/>为B个专家状态-动作-限制对，/>表示该状态-动作对是否来自于专家轨迹的可信程度；

步骤504：策略生成网络应生成与专家轨迹相似的轨迹，因此将状态-动作-限制对相对应的奖励值设定为轨迹判别网络输出值的函数，并根据该函数计算当前策略轨迹中每个状态-动作-限制对相对应的奖励值，并将计算得到的奖励值存入存储模块，该函数的表达式为：

其中，r_t ⁽ⁱ⁾为奖励函数，由当前状态s_t和每个智能体的动作a_t决定，表示时刻为t时，系统状态为s_t且每个智能体分别采取动作时，每个智能体得到的奖励值，即当前策略轨迹中每个状态-动作-限制对在时刻t相对应的奖励值；

步骤506：为了使每一个追捕者的值估计网络能够给出较为准确的估计值，将值估计网络的目标函数设为状态价值函数的采样值和值估计网络得到的状态价值函数估计值之间欧氏距离平方的期望值，依据该目标函数对每一个追捕者的值估计网络参数进行梯度下降优化更新：

步骤507：策略生成网络的目标为使输出的策略接近于专家策略，同时为保证智能体的探索性，策略生成网络输出策略的熵应大，因此将输出策略的熵加入到策略生成网络的目标函数中，对每一个追捕者的策略生成网络使用梯度下降法进行参数的优化更新，如下所示：

步骤509：根据轨迹判别网络判断当前的状态-动作-限制对是否来自于专家策略，当轨迹判别网络的输出值在事先给定的目标区间中时，停止训练过程并保存训练过程所获得的参数，至此完成了对专家策略轨迹的多智能体生成对抗模仿学习过程，否则重复执行步骤2至步骤7；

步骤510：训练完成后，将策略生成网络输出的动作通过凸优化技术中的拉格朗日对偶法求解具有安全性保证的校正后动作，随后可将校正后的动作应用于实际围捕作业任务中，待求解的凸优化问题如下所示：

其中，a_opt为策略生成网络生成的动作，为安全性校正后的动作，C_th为限制函数的阈值，取C_th＝0，表示围捕过程中智能体不超出给定的边界。

该凸优化问题表示选取限制条件成立时使得/>最小的a_opt的取值。

待求解的凸优化问题通过拉格朗日对偶法求解，得到最优解为：

/>

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多智能体生成对抗模仿安全学习的协作围捕方法，其特征在于，该方法包括以下步骤：

步骤1：搭建多智能体协作围捕仿真平台；

步骤2：将多智能体协作围捕任务过程建立为MGP模型；

步骤6：通过动作安全校正器对策略生成网络的输出策略进行安全性校正，将校正后的策略应用于实际围捕作业任务；

所述的步骤2中，多智能体协作围捕作业任务的MGP模型为：

其中N为多智能体系统内追捕者的个数，为状态空间，/>为动作空间，s^(b)和s^(j)分别表示被追捕者和第j个追捕者所处的状态，a^(b)和a^(j)分别表示被追捕者和第j个追捕者所采取的动作，η(s₀)∈[0,1]表示系统初始状态的概率分布，s_t为被追捕者和追捕者的状态联合向量，表示时刻为t时的系统状态，a_t为表示被追捕者和追捕者的动作联合向量，表示时刻为t时的系统动作，P(s_t+1|s_t,a_t)∈[0,1]表示在系统状态s_t采取动作a_t后，系统状态转移到s_t+1的概率，r为奖励函数，由当前状态和每个智能体的动作决定，表示时刻为t系统状态为s_t且每个智能体分别采取动作a_t时，每个智能体所能够获得的奖励值，γ为衰减率，表征智能体对当前奖励和未来奖励重视情况，/>为限制函数，/>为状态限制集，表示环境对智能体所处状态的限制，/>为状态动作限制集，表示环境对智能体所处状态和采取动作的限制，/>为状态限制函数，c(s,a)为状态动作限制函数，/>为实数；

当i＝N+1时表示智能体作为被追捕者；

当i＝1,2，…,N时表示智能体作为追捕者；

其中，表示时刻为t时第i个智能体所处的状态，/>表示第i个智能体在时刻为t时的位置坐标，/>表示第i个智能体在时刻为t时的速度大小，/>表示第i个智能体在时刻为t时速度的方向，/>表示被追捕者和第j个追捕者坐标位置之间的欧氏距离，表示被追捕者和第j个追捕者之间速度方向的绝对差值，/>和/>分别表示被追捕者和第j个追捕者在时刻t时的限制函数值，/>表示第i个智能体在时刻t时的限制函数值；

所述的限制函数值的约束条件如下：

其中，C_th为限制函数的阈值，取C_th＝0，表示围捕过程中智能体不超出给定的边界，c₁和c₂分别表示第i个智能体在时刻为t时水平方向上离边界的距离以及在垂直方向上离边界的距离；

所述的动作为围捕过程中第i个智能体采取的速度大小和速度方向构成的向量，根据多智能体协作围捕任务过程对其进行建模，则有：

其中，表示在时刻t时第i个智能体所要采取的动作，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的动作，/>表示在时刻t时第i个智能体采取的速度大小，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度大小，/>表示在时刻t时第i个智能体采取的速度方向，/>和/>分别表示在时刻t时被捕捉者和第j个追捕者采取的速度方向；

所述的步骤3中，专家的围捕轨迹信息如下：

2.根据权利要求1所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法，其特征在于，所述的步骤4中，轨迹判别网络针对每个追捕者搭建而成，其输入为状态-动作对输出为/>用以表示该状态-动作对是否自于专家轨迹的可信程度；

所述的限制估计网络针对每个智能体搭建而成，其输入为时刻t时的状态-动作-限制对输出为第i个智能体在t+1时刻限制值函数的估计值。

3.根据权利要求2所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法，其特征在于，所述的步骤5中，基于多智能体生成对抗模仿安全学习对网络参数进行优化训练过程的具体步骤如下所示：

4.根据权利要求3所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法，其特征在于，所述的步骤510中，通过求解凸优化问题进行安全性校正，凸优化问题如下所示：

5.根据权利要求4所述的一种基于多智能体生成对抗模仿安全学习的协作围捕方法，其特征在于，所述的凸优化问题通过拉格朗日对偶法求解，得到最优解为：