CN114692397A

CN114692397A - 基于多机制组合策略的集群分布式抓捕方法

Info

Publication number: CN114692397A
Application number: CN202210256828.8A
Authority: CN
Inventors: 杨严杰; 何流; 成慧; 范正平
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-07-01

Abstract

本发明公开了一种基于多机制组合策略的集群分布式抓捕方法，包括构建追捕者与逃逸者的对抗场景和运动学模型，根据对抗场景和运动学模型构建追捕者多机制抓捕策略，根据追捕者多机制抓捕策略构建多目标优化函数，引入层次分析法为多目标优化函数分配权重，使用粒子群算法对多目标优化函数进行求解，以求解结果作为追捕者的策略输出等步骤。本发明具有简单鲜明的行为策略，无需复杂的建模推导，算法简便，无需复杂的超参数调参和长时间训练过程，具备快速部署能力；在通信和处理能力受限的情况下，可发挥优于集中式控制的任务能力；所构建模型在粒子群算法的解算下，求解速度较快，可满足实时性需求。本发明广泛应用于智能体追逃控制技术领域。

Description

基于多机制组合策略的集群分布式抓捕方法

技术领域

本发明涉及智能体追逃控制技术领域，尤其是一种基于多机制组合策略的集群分布式抓捕方法。

背景技术

无人机群搜救任务、污染目标物清理任务、导弹或卫星拦截任务等任务都可以对应追逃模型，例如无人机群搜救任务中的无人机相当于追捕者，被搜救对象相当于逃逸者，被拦截的导弹或卫星相当于逃逸者，被发射出去用来拦截的导弹相当于追捕者，因此设计良好的追捕或抓捕算法，有利于提高任务的完成效率，例如提高无人机群搜救效率、污染目标物清理效率以及导弹或卫星拦截效率。

目前对追逃问题的研究大部分集中于少数一两个个体，但是现实当中的追逃问题一般包含多个个体，例如派出多个无人机搜救失踪人员等等，就涉及多个追捕者和逃逸者，此时追逃问题的研究容易陷入多维陷阱，现有技术较难求解相应的解析对策。

目前，动态规划、梯度算法、强化学习等方法被用于获取多个体追逃问题的数值解或近似解，而基于强化学习的方法在追逃问题的研究中逐渐受到关注，利用诸如深度Q网络(Deep Q-network,DQN)、模糊演员-评论家学习(Fuzzy actor critic learning,FACL)、深度确定性策略梯度(Deep deterministic policy gradient,DDPG)和双延迟深层确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)等算法让智能体学习到高收益的策略。但是，应用上述与人工智能相关的技术将面临复杂的建模推导、超参数调参以及长时间的训练过程，对数据处理能力以及通信时延和带宽等硬件性能要求很高，因此容易出现实时性差、部署慢等问题。

发明内容

针对目前的追逃问题求解技术实时性差、部署慢等至少一个技术问题，本发明的目的在于提供一种基于多机制组合策略的集群分布式抓捕方法，包括以下步骤：

构建追捕者与逃逸者的对抗场景；所述追捕者与所述逃逸者均为智能体；

建立所述追捕者与所述逃逸者的运动学模型；

根据所述对抗场景和所述运动学模型，构建追捕者多机制抓捕策略；

根据所述追捕者多机制抓捕策略，构建多目标优化函数，引入层次分析法为所述多目标优化函数分配权重；

使用粒子群算法对所述多目标优化函数进行求解，以求解结果作为所述追捕者的策略输出。

进一步地，所述基于多机制组合策略的集群分布式抓捕方法还包括：

通过人工势场法，构建逃逸者最优化模型；

使用粒子群算法对所述逃逸者最优化模型进行求解，以求解结果作为所述逃逸者的策略输出。

进一步地，所述对抗场景包括：

追捕者P_i，i＝1,2,3,...,N，逃逸者E，起始点(x_start,y_start)，目标点(x_target,y_target)和对抗区域Ω_A；

追捕者最大速度为v_p,max，逃逸者最大速度为v_e,max，双方均以最大速度运行，且有v_p,max<v_e,max；

追捕者个体数目为N，逃逸者个体数目为1，有N>1；

追捕者感知半径为r_p,max，逃逸者感知半径为r_e,max，有r_p,max＝r_e,max，且追逃双方均可通过感知获取自身感知范围内对方个体的位置坐标与速度矢量；

追捕者最大角速度限制为ω_p,max，逃逸者最大角速度限制为ω_e,max，有ω_p,max＝ω_e,max；

追捕者存在通信距离限制，通信半径为r_p,com，有r_p,com＝2·r_p,max，且追捕者可在通信范围内与邻居相互获取位置坐标与速度矢量；

追捕者抓捕半径为r_p,cap，逃逸者警戒半径为r_alert。

进一步地，所述运动学模型包括：

其中，x_pi＝(x_pi,y_pi)为追捕者P_i的坐标，v_pi为追捕者P_i的速度，ω_pi为追捕者P_i的角速度，

为追捕者P_i的偏航角，追捕者P_i的状态量表示为

v_pi∈[0,v_p,max]，|ω_pi|≤ω_p,max；x_e＝(x_e,y_e)为逃逸者E的坐标，v_e为逃逸者E的速度，ω_e为逃逸者E的角速度，φ为逃逸者E的偏航角，逃逸者E的状态量表示为X_e＝{x_e,y_e,φ}，v_e∈[0,v_e,max]，|ω_e|≤ω_e,max。

进一步地，所述追捕者多机制抓捕策略包括核心机制和辅助机制；所述核心机制包括角度缩减机制、距离缩减机制和结构收缩机制，所述辅助机制包括碰撞机制、覆盖机制和边缘机制。

进一步地，所述角度缩减机制包括：

行为趋势函数V_θ(X_e,x_pi)＝minθ_epi；

其中，θ_epi为追捕者和逃逸者双方连线与逃逸者速度方向之间的夹角；

其中，υ_ee'为逃逸者速度方向矢量，υ_epi为追捕者和逃逸者双方连线矢量

上的速度；

所述距离缩减机制包括：

行为趋势函数

其中，d_epi＝|x_e'-x_pi||₂为追捕者P_i与逃逸者下一时刻预测位置E′的距离；

所述结构收缩机制包括：

行为趋势函数

其中，

为追捕者P_g的状态量，P_g为能与P_i同时感知到逃逸者的邻居个体，r_k为任意三个追捕者所组成的第k个三角形的外接圆半径，

为半径向量，K_r为外接圆总数，E(r)和σ(r)分别为外接圆半径的均值和标准差，其中，r_k计算方式如下：

其中，a_k、b_k、c_k为第k个三角形的三边，A_k为边a_k所对内角，i、p、q则分别为三角形三个顶点P_i、P_p、P_q的下标，N_s为P_g的个体总数，S_k为该三角形的面积，C_k为该三角形的周长。

进一步地，所述碰撞机制包括：

行为趋势函数

其中，d_col为安全距离，d_ig＝||x_pi-x_pg||₂为追捕者P_i与P_g的距离，m_c为幂次；

所述覆盖机制包括：

行为趋势函数

其中，

为排斥力，

为强吸引力，

为弱吸引力，ξ_fle为吸引排斥力判定符，ξ_sw为强弱吸引力判定符，μ_rep为排斥力的缩放调节因子，μ_att为吸引力的缩放调节因子，d_fle为队形间距；

在所述覆盖机制中，稳定覆盖结构为追捕者集群以正三角形作为基础覆盖单元对对抗区域Ω_A进行均匀覆盖，在已知Ω_A的面积S_A，且队形间距或集群个体数目知其一的情况下，通过以下公式计算另一参数：

其中，F_sum为覆盖所需面数，

为取上整运算符，S_A为Ω_A的面积，S_Δ为用于区域覆盖的基础单元的面积；

所述边缘机制包括：

通过下式计算判断潜在合作者：

其中，θ_ig为追捕者P_i与P_g基于逃逸者E的夹角，υ_epg为追捕者P_g与逃逸者E的连线矢量

为向量υ_epi和υ_ee'之间的外积，

为向量υ_epi和υ_epi之间的外积；对于P_i而言，如θ_ig>θ_epi+π/2且

时，P_g为P_i的潜在合作者，此时对于P_g而言，如θ_ig<π且

时，P_i亦为P_g的潜在合作者。

进一步地，所述多目标优化函数包括：

其中，

为追捕者P_i的最佳偏航角，

为合作趋势函数，其中κ为比例因子，λ＝(λ_r,λ_d,λ_θ,λ_f)为权重向量，V＝(V_r,V_d,V_θ,V_f)为行为趋势向量，Ω_co为合作区域，Ω_co,t为尾流区域，

为基于消除尾流影响的趋势函数，

为基于强化距离缩减机制的趋势函数，其中V_d＝exp(d_epi/r_p,cap)-1为强化的距离缩减机制行为趋势函数，

为基于队形间距的区域覆盖趋势函数；

所述引入层次分析法为所述多目标优化函数分配权重，包括：

根据行为趋势向量V＝(V_r,V_d,V_θ,V_f)所含机制的重要性序列λ_c>λ_r>λ_θ＝λ_d构建判断矩阵U，其元素u_ij表示影响因子A_i之于A_j的重要程度；

计算矩阵U的最大特征值λ_max及其对应的特征向量ν，当一致性比率CR<0.1时，所构建矩阵U通过一致性检验；

将特征向量归一化后，可得趋势向量V＝(V_r,V_d,V_θ,V_f)中各个元素的权重分配方案为ν＝[w₁,w₂,w₃,w₄]^T＝[λ_c,λ_r,λ_θ,λ_d]^T。

进一步地，所述逃逸者最优化模型包括：

其中，φ^*为逃逸者的最佳偏航角，d_et＝||x_e-x_t||₂为逃逸者与目标点之间的距离，

为逃逸者与追捕者P_j下一时刻预估位置之间的距离，η为松弛系数，β为追捕者存在判定系数。

进一步地，所述粒子群算法包括：

设置粒子规模n，待优化参数维度d，最大迭代次数N_iter；通过以下公式更新速度与位置：

其中，

为粒子h所处第d维度在τ时刻的速度，

为粒子h所处第d维度在τ时刻的位置，w为惯性权重，c₁为个体学习因子，c₂为群体学习因子，r₁和r₂均为0到1的随机数，pbest_hd为粒子h所处第d维度的局部极值，gbest_d为第d维度的全局极值。

本发明的有益效果是：实施例中的基于多机制组合策略的集群分布式抓捕方法，实现了以行为趋势为导向的机制模块化抓捕算法，与现有的微分博弈和几何方法相比，具有更加简单鲜明的行为策略，无需复杂的建模推导，算法简便，运算快捷，无需复杂的超参数调参和长时间训练过程，具备快速部署能力；具备较高的鲁棒性、自适应性和可拓展性，在通信和处理能力受限的情况下，可发挥优于集中式控制的任务能力；具备更好的实际应用潜力，且所构建模型在粒子群算法的解算下，求解速度较快，可满足实时性需求。

附图说明

图1为实施例中基于多机制组合策略的集群分布式抓捕方法的流程图；

图2为实施例中追捕者和逃逸者双方对抗过程详细执行流程图；

图3为实施例中追捕者和逃逸者双方的对抗场景示意图

图4为实施例中基于多机制组合策略的集群分布式抓捕方法的核心机制示意图；

图5为实施例中基于多机制组合策略的集群分布式抓捕方法的尾流机制示意图；

图6为实施例中的覆盖机制与协同包围模式示意图；

图7为实施例中的覆盖机制驱动函数示意图；

图8为实施例中基于多机制组合策略的集群分布式抓捕方法的边缘机制示意图；

图9为实施例中的对抗过程仿真结果图；

图10为实施例中应用的粒子群算法收敛效率图；

图11(a)为实施例中的仿真过程所得的基于速比和队形间距的成功率曲线图；

图11(b)为实施例中的仿真过程所得的基于速比和队形间距的碰撞率曲线图；

图12为实施例中的仿真过程所得的的追捕者集群综合表现热力图。

具体实施方式

本实施例中，参照图1，基于多机制组合策略的集群分布式抓捕方法包括以下步骤：

S1.构建追捕者与逃逸者的对抗场景；

S2.建立追捕者与逃逸者的运动学模型；

S3.根据对抗场景和运动学模型，构建追捕者多机制抓捕策略；

S4.根据追捕者多机制抓捕策略，构建多目标优化函数，引入层次分析法为多目标优化函数分配权重；

S5.使用粒子群算法对多目标优化函数进行求解，以求解结果作为追捕者的策略输出；

S6.通过人工势场法，构建逃逸者最优化模型；

S7.使用粒子群算法对逃逸者最优化模型进行求解，以求解结果作为逃逸者的策略输出。

本实施例中，步骤S1-S7可由计算机来执行。具体地，可由同一计算机来执行步骤S1-S7中的全部步骤，此时计算机可以执行S1-S7中的全部步骤，也可以只执行步骤S1-S5，或者在执行步骤S1-S5的基础上，只执行步骤S6-S7。而追捕者与逃逸者均为智能体，因此也可以由追捕者执行步骤S1-S7中与追捕者相关的步骤，由逃逸者执行步骤S1-S7中与逃逸者相关的步骤。

步骤S1中，构建追捕者与逃逸者的对抗场景。具体地，对抗场景可以由以下被设定的参数形成：

追捕者个体数目为N，逃逸者个体数目为1，有N>1；

追捕者抓捕半径为r_p,cap，逃逸者警戒半径为r_alert。

在执行步骤S1时，可以在计算机的内存中生成(x_start,y_start)、(x_target,y_target)等变量，这些变量可以存储具体的数值，从而通过多个变量描述追捕者和逃逸者的参数，形成对抗场景。

步骤S2中，建立追捕者与逃逸者的运动学模型。具体地，运动学模型可以是指追捕者与逃逸者在步骤S1所建立的对抗场景中的运动约束条件，包括其位置、速度、角速度之间的方程等。本实施例中，步骤S2可以建立以下所示的运动学模型：

为追捕者P_i的偏航角，追捕者P_i的状态量表示为

接下来的步骤S3-S7中，步骤S3-S5实际上是在步骤S1所构建的对抗场景中，在步骤S2所约束的运动条件下，追捕者一方执行决策的详细过程；步骤S6-S7实际上是在步骤S2所构建的对抗场景中，在步骤S2所约束的运动条件下，逃逸者一方执行决策的详细过程。步骤S3-S7的原理如图2所示。

参照图2，对于追捕者集群而言，其执行步骤S3-S5时的具体执行策略为：

探测逃逸者是否存在，若存在则执行边缘机制，若不存在则执行覆盖机制；

执行边缘机制时，首先判断是否处于集群边界，若处于边界，则继续判断是否存在潜在合作者，若存在潜在合作者或不处于边界，则开始进入核心机制，若不存在潜在合作者，则执行覆盖机制；

执行核心机制时，首先判断合作区域内合作者是否大于等于两个，以便与自身组成多边形，若少于两个，则不执行结构收缩机制，而只执行距离缩减机制、角度缩减机制和避碰机制，若合作者不少于两个，则进一步判断自身是否处于尾流区域，若处于尾流区域，则不执行距离缩减机制，而只执行结构收缩机制、角度缩减机制和避碰机制，否则则执行全部机制；

经核心机制后，采用AHP方法对各子机制进行权重分配，构建综合目标函数，并利用PSO算法求解，生成最佳偏航角作为实时策略输出。

参照图2，可以通过逃逸者验证追捕者的抓捕效果，对于逃逸者而言，其执行步骤S6-S7时的具体执行策略为：

探测追捕者是否存在，若存在则进入逃逸模式，根据探测到的追捕者构造人工势场环境，以此构建目标函数，利用PSO算法(粒子群算法)求解，生成最佳偏航角作为实时策略输出，若不存在则朝向目标点继续运动。

本实施例中，通过步骤S1所建立的对抗场景可以如图3所示，基于图3所示的对抗场景，对步骤S3-S7进行具体的说明。

步骤S3中，根据对抗场景和运动学模型，构建追捕者多机制抓捕策略。具体地，所构建的追捕者多机制抓捕策略包括核心机制和辅助机制。

本实施例中，为满足追捕者集群的主动抓捕功能需求，核心机制包括角度缩减机制、距离缩减机制和结构收缩机制这三种子机制。核心机制的原理如图4所示。其中，图4(a)中，角度缩减机制驱动追捕者个体运动至逃逸者前方进行堵截，使夹角θ_epi缩减；距离缩减机制则驱动追捕者个体减小与逃逸者之间的距离，使距离d_epi缩减；而图4(b)和4(c)中表明结构收缩机制将驱使在Ω_co区域内的追捕者具备由4(b)变化至4(c)的趋势；图4(d)展示了整个核心机制的作用过程。Ω_co区域表示在该区域的追捕者均能感知到逃逸者，且追捕者之间信息互通。

(A1)本实施例中，角度缩减机制这种子机制由以下方程描述：

行为趋势函数V_θ(X_e,x_pi)＝minθ_epi；

上的速度；

(A2)本实施例中，距离缩减机制这种子机制由以下方程描述：

行为趋势函数

其中，d_epi＝||x_e'-x_pi||₂为追捕者P_i与逃逸者下一时刻预测位置E′的距离；

(A3)本实施例中，结构收缩机制这种子机制由以下方程描述：

行为趋势函数

其中，

如图4(b)所示，在处于Ω_co区域的协作追捕者中，任意三个追捕者即可组成一个三角形，且必有一个外接圆。结构收缩机制通过最小化所有三角形的外接圆半径，使各三角形外接圆趋于外接圆集合的均值并呈缩减趋势，并消除各三角形外接圆之间的差异，即尽可能缩减外接圆集合的标准差，最终可使在Ω_co中随机散布的追捕者趋于形成以逃逸者为中心的正多边形包围圈，并不断收缩，以完成协同抓捕任务。

另外，为提高结构收缩机制的动态稳定性，设计了尾流机制以加速协同追捕者在合作区域Ω_co内的更新迭代，如图5所示。当追捕者处于尾流区域Ω_co,t，即θ_epi>θ_tail时，追捕者将不具备距离缩减机制，而将在对抗双方的速度差作用下，经由弧AA'被排出于区域Ω_co，解决了因速度差异造成的追捕者集群在逃逸者尾部聚集的现象，将有利于Ω_co内部结构收缩机制的作用。

本实施例中，为给予核心机制以良好的协同抓捕条件，辅助机制包括碰撞机制、覆盖机制和边缘机制这三种子机制。其中，避碰机制防止追捕者集群内部碰撞，尤其是在核心机制作用时的避碰；覆盖机制则是驱使追捕者集群从初始随机位置状态转为均匀覆盖Ω_A区域的状态，其覆盖密度由队形间距控制；边缘机制则是在集群边缘判断是否具备潜在合作者，如有则进入核心机制，如无则维持队形间距，引诱逃逸者深入集群内部再进行抓捕。

(B1)本实施例中，碰撞机制这种子机制由以下方程描述：

行为趋势函数

(B2)本实施例中，碰撞机制这种子机制的详细设计如下：

基于同一虚拟力的作用，集群对区域的覆盖应当是均匀的，即趋于以同一基础多边形模块对区域进行平铺填充。当基础多边形周长一定，即集群密度/队形间距固定时，正多边形覆盖面积最大。假设基础的正多边形有M条边，其内角则为π·(M-2)/M，由于需要对平面平铺，内角对圆周角2π应为整数分割，即2M/(M-2)也应为整数。因此，M的取值可为3，4，6。当M＝6时，多边形为正六边形，实际为六个正三边形组合；当M＝4时,任意两顶点距离并不一致，稳定性不足；因此，用于平面覆盖的基础多边形为正三角形。如图6(a)所示为集群区域覆盖模式。针对添加一个顶点会添加一个面两条边或两个面三条边的不一致问题，设置了核心模块和组合模块，以核心模块(6顶点4面8边)为中心，整块拼接组合模块(2顶点3面5边)，覆盖博弈区域。当已知博弈区域面积和预设的队形间距时，可求出所需个体数目；或者在已知区域面积和集群规模时，可求所需队形间距。

区域覆盖模式中，顶点与面的计算关系如下：

上式中，V_sum和F_sum分别为顶点和面的总数，V_c和F_c分别为核心模块中的顶点数和面数，V_s,add和F_s,add分别为单个组合模块所增加的顶点数和面数，Q_s为组合模块的个数，

为取下整运算符。另外，V_c＝6，F_c＝4，V_s,add＝2，F_s,add＝3。

在覆盖机制中，其稳定覆盖结构为追捕者集群以正三角形作为基础覆盖单元对对抗区域Ω_A进行均匀覆盖，在已知Ω_A的面积S_A，且队形间距或集群个体数目知其一的情况下，通过以下公式计算另一参数：

上式中，F_sum为覆盖所需面数，

为取上整运算符，S_A为Ω_A的面积，S_Δ为用于区域覆盖的基础单元的面积。

在区域覆盖中，当集群密度，即队形间距d_fle发生变化时，协同区域Ω_co内部的个体数目将发生改变，如图6(b)所示。可将d_fle具体分为[1,3]、[3,4]和[4,6]个合作者三种情形，分别计算为：

和

并以此作为d_fle的三个分段点，其中r_co为Ω_co的半径。

覆盖机制行为趋势函数如下：

上式中，

为排斥力，

为强吸引力，

为弱吸引力，ξ_fle为吸引排斥力判定符，ξ_sw为强弱吸引力判定符，μ_rep和μ_att分别为排斥力与吸引力的缩放调节因子，d_fle为队形间距。各虚拟力驱动函数如图7所示。

(B3)本实施例中，边缘机制这种子机制的示意图如图8所示。对于P_i而言，当P_g处于潜在合作区域Ω_pci时，P_g为P_i的潜在合作者，此时可执行相应的核心机制对逃逸者进行抓捕；而当P_g处于Ω_co\Ω_pci时，则认为逃逸者尚处于集群边缘以外，各追捕者将保持队形间距，降低自身威胁，引诱逃逸者深入集群内部。

潜在合作者判断通过下式计算判断：

上式中，θ_ig为追捕者P_i与P_g基于逃逸者E的夹角，υ_epg为追捕者P_g与逃逸者E的连线矢量

和

分别为向量υ_epi和υ_ee'、υ_epi之间的外积。对于P_i而言，如θ_ig>θ_epi+π/2且

时，P_g为P_i的潜在合作者；此时对于P_g而言，如θ_ig<π且

时，P_i亦为P_g的潜在合作者。

步骤S4中，根据步骤S3中所构建的由角度缩减机制、距离缩减机制、结构收缩机制、碰撞机制、覆盖机制和边缘机制等组成的追捕者多机制抓捕策略，构建追捕者多目标优化函数，即多目标优化函数。具体地，多目标优化函数可以通过下式表示：

其中，

为追捕者P_i的最佳偏航角，

为基于消除尾流影响的趋势函数，

为基于队形间距的区域覆盖趋势函数。

步骤S4中，在执行引入层次分析法为多目标优化函数分配权重时，具体可以执行以下步骤：

针对多目标优化函数执行步骤S5，使用粒子群算法对多目标优化函数进行求解，以求解结果作为所述追捕者的策略输出。具体地，步骤S5中所使用的粒子群算法，在设置好粒子规模n，待优化参数维度d，最大迭代次数N_iter等参数后，通过以下公式更新速度与位置：

其中，

为粒子h所处第d维度在τ时刻的速度，

步骤S5中执行粒子群算法的结果是获得追捕者的多目标函数Φ(·)在每一时刻的最佳偏航角

作为追捕者一方的策略输出。具体地，计算机在获得追捕者的在每一时刻的最佳偏航角

之后，在仿真环境下可以据此模拟追捕者的运动，在实际环境下可以据此控制追捕者的运动。

步骤S6中，根据步骤S3中所构建的由角度缩减机制、距离缩减机制、结构收缩机制、碰撞机制、覆盖机制和边缘机制等组成的追捕者多机制抓捕策略，通过人工势场法，构建逃逸者多目标优化函数，即逃逸者最优化模型。具体地，逃逸者最优化模型可以通过下式表示：

针对逃逸者最优化模型执行步骤S7，使用粒子群算法对多目标优化函数进行求解，以求解结果作为所述追捕者的策略输出。具体地，步骤S7中所使用的粒子群算法与步骤S5中所使用的粒子群算法相同，也是在设置好粒子规模n，待优化参数维度d，最大迭代次数N_iter等参数后，通过以下公式更新速度与位置：

其中，

为粒子h所处第d维度在τ时刻的速度，

步骤S7中执行粒子群算法的结果是获得逃逸者的多目标函数Ψ(·)在每一时刻的最佳偏航角φ^*，作为逃逸者一方的策略输出。具体地，计算机在获得逃逸者的在每一时刻的最佳偏航角φ^*之后，在仿真环境下可以据此模拟逃逸者的运动，在实际环境下可以据此控制逃逸者的运动。

通过执行步骤S1-S5或者S1-S7，本实施例中的基于多机制组合策略的集群分布式抓捕方法能够实现以下技术效果：

(1)实现了以行为趋势为导向的机制模块化抓捕算法，与现有的微分博弈和几何方法相比，本实施例中的技术手段行为策略更加简单鲜明，无需复杂的建模推导，算法简便，运算快捷，而相较基于强化学习的智能方法而言，本实施例中的技术手段无需复杂的超参数调参和长时间训练过程，具备快速部署能力；

(2)利用分布式交互机制利用局部的感知和通信能力，借助所设计的简单的规则和局部交互机制，使群体具备较高的鲁棒性、自适应性和可拓展性，在通信和处理能力受限的情况下，可发挥优于集中式控制的任务能力；

(3)结合实际情况考虑了智能体感知范围、通讯范围及转向机动性限制，具备更好的实际应用潜力，且所构建模型在粒子群算法的解算下，求解速度较快，可满足实时性需求。

本实施例中，为测试基于多机制组合策略的协同抓捕算法的有效性，进行了相关仿真验证，仿真环境建立了一个20×20m的无障碍场景，其中博弈区域为红色线框框定的10×10m区域，追捕者集群将在此区域随机生成。逃逸者起始点坐标为(2.5,2.5)，目标点坐标为(17.5,17.5)。

双方基本参数设置如表1所示：

表1追逃双方仿真参数设置

由上述表中参数可知，追捕者与逃逸者的速度比α＝v_p,max/v_e,max＝0.5，个体数目比为15:1，而最大角速度、感知半径和设备半径均相同，且追捕者抓捕半径等于逃逸者警戒半径。另外，算法中超参数设置如下：κ设为1，λ＝[λ_r,λ_d,λ_θ,λ_f]＝[0.2624,0.1411,0.1411,0.4554]，PSO算法最大迭代次数为35，粒子种群规模为50，速度更新相关参数为[w,c₁,c₂]＝[0.73,1.5,1.5]。

本实施例中，算法仿真过程如图9所示，结果显示追捕者集群可最终成功抓捕单一高速逃逸者。具体地：当t＝0s时，追捕者集群随机在博弈区域生成，逃逸者由起始位置出发；当t＝5s至t＝15s时，追捕者在覆盖机制的作用下开始覆盖博弈区域准备抓捕；当t＝15s至t＝20s时，逃逸者发觉其感知范围内追捕者较多，并寻找追捕者薄弱方向逃离，此时其并未进入追捕者集群内部，而是绕集群边缘行进，同时亦体现出逃逸者策略的机动灵活性；当t＝25s时，在边缘机制的作用下，处于集群边缘的追捕者并未直接抓捕逃逸者，任其深入集群内部；当t＝30s时，核心机制和避碰机制开始执行，但由于逃逸者速度较快，其已逃逸至协同抓捕包围圈边缘；当t＝35s时，在尾流机制的作用下，前一时段的包围结构顺利过渡到本阶段，并使得本阶段包围结构稳定且准确地抓捕到高速逃逸者。通过上述分析，本工作所提多机制组合策略在不同条件下可激活不同子机制组合，在分布式局域通讯的框架下，能够使得追捕者集群成功协作抓捕单一高速逃逸者，同时本发明所构建模型在粒子群算法的解算下具备较快的收敛效率，单步解算收敛代数统计图如图10所示。

优选的，在仿真实例中，速比与队形间距设置分别为α＝0.5，d_fle＝3.69，可成功完成预定任务。为探求所提方法的性能域，本部分基于成功率和碰撞率指标在速比和队形间距两个维度展开了试验，每个数据点均进行了100次重复试验，其结果如图11所示。

在成功率曲线图11(a)中，速比范围从0.4至1.0，间隔0.1设置；队形间距从2.0至5.5，间隔0.5设置。经分析可知，同一队形间距下，集群抓捕成功率随着速比增大而增大，而成功率增幅却随之减小；同一速比下，在队形间距尺度上，成功率中间高两边低，呈单峰状，而随着速比增大，处于两边或过大或过小的追捕者集群队形间距的劣势状态逐步被速度增长弥补。因此，当队形间距选择合适时，集群将具备较优的抓捕能力。在碰撞率曲线图11(b)中，速比范围与成功率曲线中设置一致。碰撞率表示集群在单次试验过程中，任一个体发生了碰撞事件即记录为一次碰撞。由数据图中可知，在同一队形间距下，碰撞率随速比增大而增大；在同一速比下，队形间距越小碰撞率越高。因此，队形间距越大，速比越小，碰撞率越低，但无法保证较高的成功率。故而需要一种综合评价指标对集群表现进行评判，以此为依据寻找在不同速比条件下的最佳队形间距设置。

现构造综合评价指标公式如下所示：

上式中，E_h,sc为综合评价指标值，R_s，R_c分别表示成功率和碰撞率。E_h,sc意为基于R_c对R_s的折扣。特别的，当R_c＝0时，E_h,sc＝R_s。

在速比和队形间距维度下的综合评价指标所呈现的集群表现热力图如图12所示。图中颜色越深表明集群综合表现越好，即成功率高且碰撞率低，反之则欠佳。经分析可知，当d_fle＝4时，集群在各速比下均具有较好的表现；当α＝0.7时，追捕者集群在不具备较大速度能力的情况下仍具有较广的优表现区域。同时，图中A，B，C区域表示综合表现稳定区域，即数据点位于该区域时，纵然速比和队形间距在实际情况中产生一定范围内波动，集群综合表现亦不会产生明显波动，鲁棒性较好。综上所述，本部分工作所提策略最佳表现区域为B区域，即最适用于速比在0.7左右且队形间距设置为4时的情况，当面临其他速比情况时，亦可选择队形间距为4，以保证集群具有较好的综合表现力。另外，考虑到图6(b)所示的包围模式，具体队形间距可计算为

因此，当Ω_co区域内的合作者为三个或四个时，集群表现较佳，合作者太多或太少均会影响到集群的综合表现。

通过对各步骤的说明，以及图9-图12所示的仿真结果可知，本发明以追逃博弈中的抵达-拒止博弈为场景切入，侧重追捕者集群，构建了一种基于多机制组合策略的分布式抓捕方法，通过模块化设计以行为导向为驱动的各种子机制，并将在各子机制作用下的集群抓捕问题转化为多目标优化问题，利用粒子群算法实时解算输出策略。本发明行为策略简单鲜明，无需复杂的建模推导、超参数调参和长时间训练过程，具备快速部署能力及较高的鲁棒性、自适应性和可拓展性，算法求解速度快，可满足实时性需求。

可以通过编写执行本实施例中的基于多机制组合策略的集群分布式抓捕方法的计算机程序，将该计算机程序写入至计算机装置或者存储介质中，当计算机程序被读取出来运行时，执行本实施例中的基于多机制组合策略的集群分布式抓捕方法，从而实现与实施例中的基于多机制组合策略的集群分布式抓捕方法相同的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。