CN116661503A

CN116661503A - 一种基于多智能体安全强化学习的集群航迹自动规划方法

Info

Publication number: CN116661503A
Application number: CN202310966213.9A
Authority: CN
Inventors: 王才红; 董茜; 曹扬; 刘庆国; 许馨月; 吕乃冰; 胡瑞雪; 金瑞欣
Original assignee: Pla 96901
Current assignee: Pla 96901
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-08-29
Anticipated expiration: 2043-08-02
Also published as: CN116661503B

Abstract

本发明提供的一种基于多智能体安全强化学习的集群航迹自动规划方法，包括以下步骤：设计多智能体安全强化学习的集群航迹自动规划的求解环境；建立多智能体安全强化学习的集群航迹自动规划的网络模型；基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型；将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。本发明的基于多智能体安全强化学习的集群航迹自动规划方法，能够进行多弹飞行航迹同步规划，在训练时使用全局信息进行算法训练，充分使用环境的信息进行全局最优化，无需人为干预、简单易用。

Description

一种基于多智能体安全强化学习的集群航迹自动规划方法

技术领域

发明涉及军事运筹技术领域，特别涉及一种基于多智能体安全强化学习的集群航迹自动规划方法、电子设备和存储介质。

背景技术

现有技术中，飞行航迹规划作为导弹武器任务规划的核心内容，需要综合考虑武器机动性能、载荷特性、导航制导、飞行安全和生存对抗等多种因素，合理优化设计出从发射点到目标点的飞行路线，是一个复杂的多目标、多约束最优化问题。目前，对导弹武器飞行航迹规划的研究主要集中于单个武器的单条航迹规划，对于多弹集群攻击多目标条件下的集群攻击飞行航迹自动规划问题，因涉及的规划场景复杂、约束条件众多，相关研究甚少，尚无有效解决方法。

传统航迹规划方法的典型代表有人工势场法、A*算法、D*算法、狄杰斯特拉算法、Bug算法、遗传算法以及粒子群算法等，多数只适用于固定不变的场景，当环境发生变化时需要重新计算，计算量大，并且只适用于知道环境全局信息的场景，而人工势场法虽可使用局部观测并且适应动态变化环境，但对观测信息要求高，存在势场为零导致智能体不再运动或永远抵达不了目标点，导致问题求解失败的情况。

智能规划方法主要是强化学习算法，主要包括单智能体和多智能体两种，单智能体求解方法适应性较差一般仅用于简单场景的单航迹规划，现有的多智能体航迹规划方法多是对单智能体航迹规划方法进行简单移植改造放在多智能体环境中，主要采用集中式规划方法进行求解，由于状态空间过大导致计算维度爆炸、求解时实性差。另外，由于在多发导弹集群攻击飞行航迹规划的过程中，难免会出现单个武器与障碍物、与其他武器之间发生碰撞的情况，以往的处理方法分两种：一是在奖励中加入碰撞惩罚，但这种方法很难确定一个合适的惩罚值，惩罚值过高容易造成智能体“懦弱”的现象，宁愿飞偏也不再前进，惩罚过低又会使得智能体出现“鲁莽”现象，为了达成任务不惜发生多次碰撞；二是使用动作屏蔽机制，在各种情况下使用动作掩码对非法或者不安全动作进行屏蔽，但这种方法只适用于离散动作空间，并且需要人为设计，可能出现获取不到最优策略的情况。

综上，现有的航迹规划方法均无法满足多弹集群攻击飞行航迹规划问题的求解需求。

发明内容

为了解决现有技术存在的问题，本发明提供一种基于多智能体安全强化学习的集群航迹自动规划方法，能够进行多弹飞行航迹同步规划，在训练时使用全局信息进行算法训练，充分使用环境的信息进行全局最优化，无需人为干预、简单易用。

为实现上述目的，本发明提供的一种基于多智能体安全强化学习的集群航迹自动规划方法，包括以下步骤：

设计多智能体安全强化学习的集群航迹自动规划的求解环境；

建立多智能体安全强化学习的集群航迹自动规划的网络模型；

基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型；

将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。

进一步地，所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤，包括，

定义每个智能体的位置信息，每个智能体对应的目标点位置信息，和智能体与目标点之间的距离；

定义智能体的速度，角速度，在世界坐标下前进方向与目标点之间的夹角；

定义障碍物与智能体的相对距离；

定义智能体与智能体之间的相对距离；

每个智能体探测周围障碍物或者其他智能体距离信息，构成列表数据；

定义智能体在时刻t的局部观测值，定义时刻t的全局观测值。

进一步地，还包括，设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间，每个武器的动作空间是连续的，包括线速度与角速度；

设计武器目标分配深度强化学习求解环境的奖励和代价，对于环境的奖励以及代价，将完成到达目标点的任务作为奖励，到达目标点的时候，给予智能体正奖励，其他时刻给予智能体负的相对距离奖励以及相对角度奖励，激励智能体快速到达目标点，并且角度指向目标点；

根据智能体与障碍物或者其他智能体之间最小相对距离进行判断，如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值，则产生代价。

进一步地，所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括，

智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后，输出值中间信息，中间信息/>再经过两个多层感知机后输出自己的信息提取值/>以及经过一个sigmoid激活函数处理的阈值/>，用于决策其他智能体的信息数量；

其他智能体的信息由自注意力机制聚合得到，将阈值/>乘以/>加上自身信息提取值/>再经过两个多层感知机，输出正态分布的均值/>和方差/>，采用冲参数的方法选取根据均值和方差构成的正态分布选取动作/>，多层感知机为线性层，线性层之间使用Tanh作为激活函数。

进一步地，还包括，

将当前智能体的中间信息作为注意力机制的查询，其他智能体的中间信息/>作为注意力机制的键和值，使用缩放点积注意力对查询和键进行计算，输出每个值对应的权重；

通过权重与值的点积获得聚合的信息M_i，掩盖智能体本身信息，保留其他智能体的信息。

进一步地，所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括以下步骤，

1）在搭建好模拟器和模型后，输入参数建立一个新的环境模型，初始化环境，每个智能体获得t时刻自身的局部观测值，在训练时，各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中，构成全局观测值；

2）智能体将局部观测值输入智能体执行者网络中，通过一个多层感知机后，保留自己的观测信息，使用自注意力机制与其他智能体交换信息，并将交换获得的信息与自身原有的信息进行整合，输出连续动作所需要的均值和方差，并使用重参数的方法采样获得动作，智能体动作记为/>；

3）每个智能体在时刻t做出相应动作后，环境会随之而改变，进入时刻t+1后环境返回总体奖励R_t和总体代价C_t，每个智能体在时刻t+1会获得局部观测值，和用于训练的环境全局观测值/>；

4）用记为所有智能体t时刻局部观测值的集合，/>记为所有智能体t时刻做出的动作的集合，将步骤2）到步骤4）获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价/>存储到经验回放池/>中；如果当前任务没有完成，则继续进行步骤2）到步骤4）；如果当前任务完成但训练还未结束，执行步骤1）；如果经验回放池/>中的样本数量达到预设值后，执行步骤5）-8）直至网络收敛；

5）从经验回放池随机抽取一定批量样本进行训练。

6）使用梯度下降算法对损失函数求导，从而对每个智能体的评论者网络参数进行更新；

7）冻结每个智能体中评论者网络的参数，计算评论者网络更新后的查询值，取其最小值作为最小查询/>值，将每个智能体的t的局部观测值/>输入其智能体执行者网络输出动作对数/>，使用/>值与/>计算执行者网络的损失函数；

8）使用梯度下降算法对损失函数求导，对每个智能体的执行者策略网络参数进行更新，在一定训练间隔，对拉格朗日乘子使用梯度下降算法进行更新，更新所需损失函数如公式3所示，对熵温度系数使用梯度下降算法进行更新：

公式3

其中，为拉格朗日乘子，d为对代价C的约束。

更进一步地，所述步骤6）包括，

将当前样本中的每一个时刻t的下一时刻t+1的局部观测值作为每个智能体执行者网络的输入，智能体的执行者网络输出智能体在t+1时刻每个动作以及动作概率对应的；

将每个智能体动作与全局观测输入奖励目标评论者与代价目标评论者网络中，获得四个状态/>下的查询值，查询值以及损失函数代表每个智能体内查询值和损失函数等的计算，不再标记智能体编号；

每个评论者网络分别拥有两个查询值，分别取其最小的目标与/>值作为计算梯度所使用的值，从而计算目标值，其奖励目标计算如公式1所示，代价计算如公式2所示：

公式1

公式2

其中，为折扣因子，/>为控制探索强度的熵温度系数，R_t为进入时刻t+1后环境返回总体奖励，C_t为进入时刻t+1后总体代价，u_t+1为智能体在时刻t+1的动作；

使用经验回放池中的/>输入每个智能体的奖励评论者和代价评论者网络中，获得四个状态/>下的当前查询/>值，每个评论者网络分别拥有两个查询值，根据评论者网络损失函数计算两个查询值的损失。

为实现上述目的，本发明还提供一种电子设备，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。

本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法，具有以下有益效果：

（1）多弹飞行航迹同步规划。本方法使用多智能体安全强化学习方法，对于多发导弹攻击集群，综合利用每发导弹自身局部观测信息和与其他导弹交互信息进行动作决策，实现了一次规划多发导弹多条飞行航迹。

（2）全局最优化。本方法使用多智能体安全SAC算法，在训练时使用全局信息进行算法训练，充分使用环境的信息；在执行时每个智能体只需要关注自己的信息，并且与其他智能体进行沟通交流，完成沟通交流后获得更全面的信息，从而选取一条安全、无碰撞、避免冲突的航迹。执行时使用局部观测信息，更接近现实中武器使用激光雷达进行探测从而仅获得周围信息的场景，减少真实世界中获取全局信息的需求，仅需要在仿真环境中使用全局信息即可。

（3）无需人为干预、简单易用。本方法使用安全强化学习算法训练出集群航迹自动规划策略，无需人为设计每个状态下智能体非法动作屏蔽规则，在保证安全、无碰撞情况下最小化每个智能体到达其目标点的时间，解决了奖惩设计困难，连续动作空间下无法进行动作屏蔽的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法的流程图；

图2为本发明实施例的智能体执行者网络模型示意图；

图3为本发明实施例的自注意力网络模型示意图；

图4为本发明实施例的智能体评论者网络模型示意图；

图5为本发明实施例的多智能体安全强化学习的集群航迹自动规划方法训练流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

图1为根据本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法流程图，下面将参考图1，对本发明的基于多智能体安全强化学习的集群航迹自动规划方法进行详细描述。

在步骤101，设计多智能体安全强化学习的集群航迹自动规划的求解环境。

优选地，基于动力学构建集群航迹自动规划仿真环境用于航迹规划训练，定义在航迹规划过程中多武器的环境状态空间、动作空间、奖励和代价，每个智能体拥有自己的一个执行者策略网络，以及四个评论者网络，分别是奖励评论者网络、奖励目标评论者网络、代价评论者网络和代价目标评论者网络，初始化执行者与评论者神经网络的参数。

武器在此仿真环境中的训练过程定义为分散的部分可观察受约束的马尔可夫决策过程（DEC-POCMDP）的元组形式，其中/>为智能体个数，/>为全局观测状态，为智能体动作集合，/>为状态转移概率，即/>，/>为每个智能体自己的状态转移概率，/>为每个智能体的局部观测值，/>为奖励，/>为环境代价，/>为折扣因子。在该仿真环境中上述符号具体含义在下面展开。

优选地，设计多智能体安全强化学习的集群航迹自动规划求解环境的状态，可具体执行为：

定义每个智能体的位置信息为，/>代表第/>个智能体，每个智能体对应的目标点位置信息为/>，智能体/>与目标点之间的距离可以表示为/>。智能体的速度表示为/>，角速度表示为/>，其在世界坐标下前进方向与目标点之间的夹角可表示为。障碍物与智能体/>的相对距离定义为/>，其中/>为环境中障碍物的数量。智能体/>与智能体/>之间的相对距离定义/>，其中/>为智能体总数；

另外，每个智能体搭载激光雷达，可探测周围障碍物或者其他智能体距离信息，探测范围为120，探测距离为100km，可在20个方向上收集数据信息，构成列表数据/>。

定义智能体在时刻t的局部观测值/>：

定义时刻t的全局观测值：

其中，，/>，/>。

优选地，设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间，包括，每个武器的动作空间是连续的，由线速度与角速度构成，线速度取值范围为[-3,3]，单位为km/s；角速度取值范围为[-2, 2]，单位为rad/s。

优选地，设计武器目标分配深度强化学习求解环境的奖励和代价。对于环境的奖励以及代价，将完成到达目标点的任务作为奖励，对于碰撞作为代价。时刻t奖励设计如下式所示。

其中，到达目标点的时候，给予智能体一个较大正奖励，其他时刻给予智能体负的相对距离奖励以及相对角度奖励，以激励智能体以较快的速度到达目标点，并且角度尽可能只想目标点，k、/>为权重系数。

时刻t代价设计如下式所示：

其中，为智能体与智能体或者障碍物之间的距离阈值，，即取智能体与障碍物或者其他智能体之间最小相对距离进行判断。为了让智能体与其他智能体或者障碍物保持在安全距离内，如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值，那么会产生代价。

本实施例中，实现基于Unity3D模拟器，具体如下：

a）首先创建一个容纳智能体的环境。实现一个Monobehaviour子类，用于实现环境中地图生成、障碍物随机生成、智能体起始点和目标点随机生成功能。

b）实现Agent子类。Agent子类定义了智能体观测自身的局部环境、根据策略执行动作的方法，以及重置环境的方法。

c）将Agent子类添加到对应的武器预制体对象。

d）实现基于动力学的武器状态转移的代码。

e）实现武器到达目标点、碰撞判定、局部观测与全局观测生成等代码。

实现模拟器环境及多武器参数修改接口，以便使用不同难度的场景进行训练。

在步骤102，建立多智能体安全强化学习的集群航迹自动规划的网络模型。

优选地，建立基于FC/Attention（全连接网络/注意力机制）混合架构的多智能体安全强化学习的集群航迹自动规划方法每个智能体执行者网络模型。

优选地，请参考图2，智能体执行者网络是输入或者是/>与上一时刻智能体所做的动作的组合/>经过一个多层感知机（MLP，由多层FC构成）后，输出值中间信息/>，然后这个中间信息/>再经过两个多层感知机后输出自己的信息提取值/>以及经过一个sigmoid激活函数处理的阈值/>，用于决定其他智能体的信息有多少是可以用于智能体本身决策的。其他智能体的信息由自注意力机制聚合得到/>。最后将阈值/>乘以/>加上自身信息提取值/>再经过两个多层感知机，输出正态分布的均值/>和方差/>，最后使用冲参数的方法选取根据均值和方差构成的正态分布选取动作/>。多层感知机可以是两层的线性层，线性层之间使用Tanh作为激活函数。

优选地，自注意力机制如图3所示，将当前智能体的中间信息作为注意力机制的查询Q（query），其他智能体的中间信息/>作为注意力机制的键K（key）和值（Value），使用缩放点积注意力对查询和键进行计算，输出每个值对应的权重。通过权重与值的点积获得聚合的信息M_i，在这里，掩盖掉智能体本身信息，只保留其他智能体的信息。

其中，d为Q与K的长度。

优选地，建立多智能体强化学习的集群航迹自动规划每个智能体评论者网络模型，其为奖励评论者和代价评论者的网络，如图4所示，FC为全连接网络，和/>为评论者输出的Q值。

在步骤103，训练多智能体安全强化学习的集群航迹自动规划的网络。

优选地，如图5所示，多智能体安全强化学习的集群航迹自动规划方法训练流程，可具体执行为：

步骤S301，在搭建好模拟器和模型后，首先输入参数新建立一个环境模型，随后初始化环境，每个智能体会获得t时刻自身的局部观测值，如智能体会获得其观测值/>，在训练时，各个智能体的信息以及环境中障碍物信息将被传递到评论者的网络中，构成了全局观测值/>。

本实施例中，设置算法超参数及网络优化器等。使用正交初始化初始化网络参数，即网络中的权重和偏差。

步骤S302，智能体将局部观测值输入智能体执行者网络中，通过一个多层感知机后，一方面，保留自己的观测信息，另一方面，使用自注意力机制与其他智能体交换信息，并将交换获得的信息与自身原有的信息进行整合，输出连续动作所需要的均值和方差，并使用重参数的方法采样获得动作，智能体动作记为/>。

步骤S303，每个智能体在时刻t做出相应动作后，环境会随之而改变，进入时刻t+1后环境返回总体奖励R_t和总体代价C_t，每个智能体在时刻t+1会获得局部观测值，同样，也有用于训练的环境全局观测值/>。

步骤S304，用记为所有智能体t时刻局部观测值的集合，记为所有智能体t时刻做出的动作的集合，将上述步骤S302到步骤S304获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价/>存储到经验回放池/>中。如果当前任务没有完成，则继续进行步骤S302到当前步骤，如果当前任务完成但训练还未结束，执行步骤S301。同时如果经验回放池/>中的样本数量达到一定的值后，同步且重复执行后面步骤S305-S308直到网络收敛。

步骤S305，从经验回放池随机抽取一定批量样本进行训练。首先将当前样本中的每一个时刻t的下一时刻t+1的局部观测值/>作为每个智能体执行者网络的输入，智能体/>的执行者网络输出智能体在t+1时刻每个动作/>以及动作概率对应的/>。将每个智能体动作与全局观测/>输入奖励目标评论者与代价目标评论者网络中，获得四个状态/>下的Q值，以下Q值以及损失函数代表每个智能体内Q值和损失函数等的计算，不再标记智能体编号。每个评论者网络分别拥有两个Q值，分别取其最小的目标/>与/>值作为计算梯度所使用的值，从而计算目标值，其奖励目标计算如下面第一个公式所示，代价计算如下面第二个公式所示。

其中，为折扣因子，/>为控制探索强度的熵温度系数。

随后使用经验回放池中的/>输入每个智能体的奖励评论者和代价评论者网络中，同样获得四个状态/>下的当前/>值，每个评论者网络分别拥有两个Q值，随后使用TD算法计算两个Q值的损失，如下面两个公式所示。

其中，为评论者网络损失函数。

步骤S306，使用梯度下降算法对损失函数求导，从而对每个智能体的评论者网络参数进行更新。

步骤S307，冻结每个智能体中评论者网络的参数，与步骤6中计算当前值方法一致，计算评论者网络更新后的/>值，取其最小值作为/>值，同时，将每个智能体的t的局部观测值/>输入其智能体执行者网络输出动作对数/>，使用/>值与计算执行者网络的损失，计算如下面公式所示。

其中，为每个智能体执行者网络损失函数，/>为拉格朗日乘子。

步骤S308，使用梯度下降算法对损失函数求导，从而对每个智能体的执行者策略网络参数进行更新，在一定训练间隔，对拉格朗日乘子使用梯度下降算法进行更新，更新所需损失函数如下面公式所示。最后对熵温度系数使用梯度下降算法进行更新。

其中，d为对代价C的约束。

在步骤104，将训练好的航迹规划方法迁移到真实环境中。

本发明提供的基于多智能体安全强化学习的集群航迹自动规划方法，构建集群航迹自动规划问题求解环境，使用多智能体安全强化学习方法让每个武器在观测到自身周围环境的基础上与其他武器进行通信，交换其位置、速度等信息，随后进行决策，在奖励与代价下学习避免碰撞并到达每个智能体的目标点，使用集中式训练-分布式执行的多智能体强化学习框架进行训练，并将训练好的集群攻击航迹自动规划方法用于武器任务规划，有效解决了多发导弹集群攻击多个目标时多条飞行航迹的批量自动规划难题。

集中式训练-分布式执行（CTDE）框架：多智能体强化学习算法框架中的一种，在智能体进行执行和采样时仅根据自身的观测进行决策，在训练时使用完全的观测信息对网络进行集中更新。

深度强化学习SAC算法：为深度强化学习算法的一种，SAC即soft actor critc（柔性执行者-评论者），是一种基于off-policy和最大熵的深度强化学习算法。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤，所述基于多智能体安全强化学习的集群航迹自动规划方法参见前述部分的介绍，不再赘述。

本领域普通技术人员可以理解：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤，包括，

定义障碍物与智能体的相对距离；

定义智能体与智能体之间的相对距离；

3.根据权利要求2所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，还包括，设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间，每个武器的动作空间是连续的，包括线速度与角速度；

4.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括，

5.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，还包括，

6.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括以下步骤，

5）从经验回放池随机抽取一定批量样本进行训练；

公式3

其中，为拉格朗日乘子，d为对代价C的约束。

7.根据权利要求6所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述步骤6）包括，

公式1

公式2

8.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行权利要求1-7任一项所述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1-7任一项所述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。