CN113589842B

CN113589842B - 一种基于多智能体强化学习的无人集群任务协同方法

Info

Publication number: CN113589842B
Application number: CN202110841689.0A
Authority: CN
Inventors: 陈彦桥; 王雅涵; 李晨阳; 关俊志; 耿虎军; 高峰; 张泽勇; 蔡迎哲; 柴兴华
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2024-04-19
Anticipated expiration: 2041-07-26
Also published as: CN113589842A

Abstract

本发明公开了一种基于多智能体强化学习的无人集群任务协同方法，属于无人集群任务规划技术领域。本发明基于Unity搭建面向多无人系统任务规划的强化学习仿真环境；使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境；对无人机集群对抗环境建模；使用Tensorflow深度学习库搭建多智能体强化学习环境；使用协作深度确定性策略梯度方法求解多智能体强化学习问题；输出无人集群任务规划结果。本发明对现有技术进行了较大改进，能够得到更为良好的多无人系统协同任务规划结果。

Description

一种基于多智能体强化学习的无人集群任务协同方法

技术领域

本发明属于无人集群任务规划技术领域，特别是一种基于多智能体强化学习的无人集群任务协同方法。

背景技术

无人系统在军用和民用领域的应用日益广泛，尤其是无人机，它具有造价低廉、机动灵活、部署便捷、续航力长等特点，是替代有人驾驶飞机或卫星执行侦察、巡航等任务的最佳选择。由于单一无人机所携带设备的种类和数量有限，其能够发挥的效能也非常有限。近年来，无人机的发展聚焦于集群态势感知、信息共享、集群任务规划、集群任务协调与执行等。针对上述情况，通过釆用多架无人机协同配合弥补单架无人机任务执行能力的不足。因此，无人机技术的发展趋势必然是实现多机协同，完成更为复杂的多约束任务。

多无人系统间的任务分配是无人系统协同处理任务的基础。在多无人系统任务协同场景下，时间协同约束的异构类型任务处理要求增加了多无人系统任务分配问题的复杂度，进而制约了无人系统编队的任务执行能力。如何处理任务的多种约束要求，以及多无人系统协同产生的预定任务与突发任务之间的时序冲突，是多无人系统协同所面临的主要挑战。

多无人系统任务规划由协同目标分配、路径规划和任务执行三个部分组成。

无人系统协同目标分配目前常用的方法有：1)数学规划法：它是集中式解决分配问题的经典方法，如匈牙利算法、整数规划方法、动态规划等；2)协商法：分布式目标分配系统计算灵活，可以将协同和分配问题分布到各个节点上进行高速处理。适合解决大规模的目标分配问题。目前最常见的是基于合同网的协商方法；3)智能优化算法：采用进化规划、粒子群算法和蚁群算法等求解分配问题。

多无人系统协同路径规划的主要方法包括：1)从单无人系统路径规划方法发展来的多无人系统路径规划方法：如自动驾驶的A*算法、概率图(如Voronoi图)法、人工势场法等；2)适合群体计算的群智能算法：大量的路径规划研究都围绕着改进的进化算法来实现展开，如平行进化算法、量子遗传算法等，这些方法证明了利用物种进化机制和并行寻优方法来求解这类问题的可行性，能够较快搜索到解空间的最优位置；3)基于路径优化的规划方法等：无人系统的机动特性要求规划时必须考虑结果的动力学可行性，因此规划时还需要对航迹段进行平滑，以获得一条平滑可安全执行的路径。常用的曲线平滑方法有二次样条曲线、B样条曲线、Bezier曲线等。

多无人系统协同航迹重规划的方法主要有：1)将全局离线规划的方法直接扩展为动态重规划的方法：将经典的混合整数线性规划应用于动态环境中进行路径优化和避障。简言之，就是用数学规划的思想简化无人系统的引导；2)利用启发式搜索算法和智能理论算法进行航迹重规划，例如由A*算法改进而来的D*算法；3)强化学习方法。利用状态转移逐步进行区域的探索和预测，并通过学习来提高无人系统处理复杂未知环境的能力，该方法不仅考虑当前阶段航迹扩展的即时效应，还要考虑对将来继续决策产生的影响，适用于实时性的航迹重规划求解。

基于以上分析可见：多无人系统任务规划属于多约束、动态优化难题，当无人系统和任务数量较多且任务环境复杂多变时，难以用数学规划方法求解。因此研究适用于多无人系统协同任务规划问题的新型方法势在必行。

发明内容

本发明的目的是针对上述问题，提出了一种基于多智能体强化学习的无人集群任务协同方法，该方法能够得到更为良好的多无人系统协同任务规划结果。

为实现上述目的，本发明采用的技术方案为：

一种基于多智能体强化学习的无人集群任务协同方法，包括如下步骤：

步骤1，基于Unity搭建面向无人集群任务规划的强化学习仿真环境；

步骤2，使用Gym将获取到的仿真环境的信息搭建成符合规范的强化学习环境；

步骤3，对无人集群对抗环境建模；

步骤4，使用Tensorflow深度学习库搭建多智能体强化学习环境；

步骤5，使用协作深度确定性策略梯度方法求解多智能体强化学习问题；

步骤6，输出无人集群任务规划结果。

进一步的，步骤1所述的强化学习仿真环境包含场景中的实体对象及其功能函数；其中，实体对象包括：

①建筑群，组成了无人机飞行约束的障碍物约束；

②空气墙，组成无人机飞行约束的边界和高度约束；

③操场，作为入侵与防御目标的“领土”；

④光源，调节仿真环境亮度和阴影；

⑤相机模型，包括全景摄像头和俯视摄像头，用于实时可视化对抗；

⑥地面，作为环境整体，附带有一系列用于控制仿真环境的C#脚本；

⑦无人机模型，运行时由地面对象依照脚本预设参数生成，作为被控制的智能体，获取观测值，执行动作；

功能函数包括：

①Start()，启动程序时执行，按照设置分别生成两组若干个无人机对象，按照约束确定其初始位置；

②AgentReset()，按照设计的对抗规则完成时执行，重置无人机位置；

③CollectObservations()，获取当前时刻所有无人机坐标，归一化到[0,1]之间，传递到强化学习环境中；

④AgentAction(vectorAction)，从强化学习算法得到N*3维向量的输出，N表示双方无人机数量，将向量调整为飞行约束范围内的速度值，按序号调用单个无人机的控制函数，作为速度来执行；

⑤destory()，关机，析构启动时生成的无人机对象；

⑥Continue_Control(vector3)，针对无人机对象，将输入的三维向量转化为范围内的速度按序号传递给场景中的对象。

进一步的，步骤3中建模的规则如下：

有两组对抗的无人集群，红色无人机为防卫者，蓝色无人机为入侵者，双方拥有完全相同的飞行约束，环境中存在随机障碍物，无人机无法提前获知信息，无人机之间相撞或与建筑物相撞则退出环境，当防御者足够接近一架入侵者时，摧毁该入侵者，场景中央的绿色操场为目标“领土”，两队无人机围绕特定的目标“领土”进行对抗，入侵方目标为进入规定目标点，防守方目标为阻止入侵者接近，任何一架入侵者接近目标点，入侵方获胜；所有入侵者被摧毁或超时，判定为防御方获胜，无人机可以感知一定距离内建筑物与其他无人机的相对位置，并确定其坐标和速度；

无人机的飞行约束和对抗规则如下：

3a)无人机的飞行约束

无人机不能在场景中无限制的运动，需要遵从以下几点约束：初始坐标约束、边界和高度约束、速度和加速度约束、最大偏航角约束、障碍物约束；

3b)无人集群对抗规则

进攻无人机的目的是进入目标区域，防御无人机负责通过摧毁进攻无人机来保卫目标区域；无人机可侦测到自身范围内一定数量的敌方和己方单位坐标，防御无人机可摧毁自身攻击范围内的敌方单位；进攻无人机的获胜条件是足够接近目标区域；考虑能量消耗。

进一步的，步骤5的具体方式为：

5a)平均场强化学习

对于一个部分可观测的马尔可夫场景，在t时刻，智能体i的局部状态为s_t，i，动作为a_t，i，获得的奖励为r_t，i，对智能体局部状态值进行扩展，引入其他所有智能体的局部状态的平均值得到了联合状态表示如下：

其中，d(i)是除了智能体i以外所有智能体的集合，|d(i)|是集合d(i)中智能体的数量；

动作表示如下：

其中，a_j为智能体动作，为除了智能体i以外的所有智能体动作的平均；

智能体i的评价动作的Q值函数表示如下：

其中，x＝{s₁...s_n}为所有智能体状态的集合，a₁，a₂，...，a_i，...，a_n均为智能体动作；

将其他智能体的奖励r_t，j的平均值作为外部奖励，环境交互获得的奖励r_t，i作为内部奖励，得到的联合奖励表示如下：

其中α为权重；

5b)Actor-Critic框架

采用Actor-Critic框架，每一个智能体都有Actor网络和Critic网络两个网络，Actor用于拟合智能体的策略函数，负责生成动作Action并和环境交互；Critic负责拟合价值函数，用于评估Actor的表现，并指导Actor下一阶段的动作；

5c)与环境的信息交互

状态空间：无人机i的状态包含自身位置x_i、自身速度v_i，到目标区域的距离d_i，m和离自己最近的无人机l的距离d_i，l，表示为：s_i＝(x_i，v_i，d_i，m，d_i，1，...，d_i，l)，其中d_i，l代表到无人机j的距离，s_i中所有的量都是有界且连续的；

动作空间：对于无人机i来说，动作空间是一个有界且连续的三维加速度向量a_i＝(a_i，x，a_i，y，a_i，z)；

奖励设置：对于入侵者i来说，它的奖励R_1，i由距离奖励r_d1和被摧毁的惩罚r_p1组成，如下式所示：

R_1，i＝r_d1+r_p1

其中，距离奖励r_d1和被摧毁的惩罚r_p1的定义如下式所示：

其中，d_i，j和d_i，m分别代表到最近的防御者的距离和到目标区域的距离，N代表被摧毁无人机的数量，ψ，η，ζ是固定参数，F_s1和F_s2是布尔量，当入侵成功时F_s1为1，否则F_s1为0，当被摧毁时F_s2为1，否则F_s2为0；

对于防御者j来说，它的奖励R_2，j由距离奖励r_d2和摧毁敌方的奖励r_p2组成，如下式所示：

R_2，j＝r_d2+r_p2

其中距离奖励r_d2和摧毁敌方的奖励r_p2如下式所示：

当目标区域被入侵时F_s1为1，否则F_s1为0，当无人机j摧毁其他无人机时F_s2为1，否则F_s2为0；

5d)强化学习流程

将Actor网络表示的函数标记为μ(s)，输入状态s_i，输出单个状态对应的动作a_i；Critic网络表示的函数标记为输入状态s_i、动作a_i、其他智能体的平均动作/>输出Q值；Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络，online网络参数按照策略梯度实时优化，target网络参数以固定步长向online网络参数靠拢；

每一个交互回合开始时，对每个智能体，首先根据当前状态s_i，从Actor网络获得一个确定的输出μ(s_i)；为了策略的探索性，在μ(s)基础上加一个惯性噪声，得到具体每个智能体此轮执行的动作a_i；在得到所有智能体的动作a＝{a₁...a_n}后，执行动作与环境交互，得到奖励r和下一状态s′；此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号；经验回放器D储存了最近的多轮交互的数据，每次随机抽取一批数据来更新Actor和Critic网络；

更新Critic的online网络，接下来更新Actor的online网络，最后用online网络分别更新Actor和Critic的target网络，采用软更新的方式。

本发明与现有技术相比具有如下优点：

1、本发明提出了协作深度确定性策略梯度方法(CODDPG)，该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度(DDPG)方法相结合，更适于求解多智能体强化学习。

2、本发明更新了强化学习奖励规则，传统方法直接使用环境得到的外部奖励作为自身奖励，这样难以学习到协作的策略，本方法将其他智能体的奖励的平均值作为外部奖励，将环境交互获得的奖励作为内部奖励，两者加权，可以更好反应队友的策略的影响，有利于协作。

3、本发明方法采用了集中式训练、分散式执行的架构，训练阶段算法使用全部智能体的状态、动作和奖励，而执行阶段智能体仅依靠自身局部状态信息做出决策，无需通信。

附图说明

图1是本发明的总流程图；

图2是无人机仿真对抗场景图，其中，(a)为全景图，(b)为俯视图；

图3是协作深度确定性策略梯度方法训练结构图，其中，environment表示环境，actor表示行动，critic表示策略，agent表示智能体；

图4是协作深度确定性策略梯度方法流程图，其中，actor表示行动，critic表示策略，OU noise表示惯性噪声，optimizer表示优化器；

图5是训练时的无人机对抗环境图；

图6是平均回报随训练轮数变换曲线图，横轴表示训练轮数，纵轴表示平均一轮的奖励；

图7是场景评价结果图，正斜杠填充区域表示DDPG，反斜杠填充区域表示MADDPG，横线填充区域表示CODDPG。

具体实施方式

以下结合附图对本发明的技术方案和实验结果作详细描述。

参照图1，一种基于多智能体强化学习的无人集群任务协同方法，其步骤如下：

步骤1，基于Unity搭建面向多无人系统任务规划的强化学习仿真环境，具体包含实体对象及其若干函数，简述如下：

1a)环境中的实体对象包括：

①建筑群，组成了无人机飞行约束的障碍物约束；

②空气墙，组成无人机飞行约束的边界和高度约束；

③操场，作为入侵与防御目标的“领土”；

④光源，调节仿真环境亮度和阴影；

1b)对象定义的若干函数包括：

⑤destory()，关机，析构启动时生成的无人机对象；

步骤3，对无人集群对抗环境建模，如图2所示，建筑群中有两组对抗的无人集群，红色无人机为防卫者，蓝色无人机为入侵者，双方拥有完全相同的飞行约束，环境中存在随机障碍物，无人机无法提前获知信息，无人机之间相撞或与建筑物相撞则退出环境，至少n架防御者足够接近一架入侵者时，摧毁该入侵者，场景中央的绿色操场为目标“领土”，两队无人机围绕特定的目标“领土”进行对抗，入侵方目标为进入规定目标点，防守方目标为阻止入侵者接近，任何一架入侵者接近目标点，入侵方获胜；所有入侵者被摧毁或超时，判定为防御方获胜，无人机可以感知一定距离内建筑物与其他无人机的相对位置，并确定其坐标和速度，具体的无人机的飞行约束和对抗规则如下：

3a)无人机的飞行约束

无人机不能在场景中无限制的运动，需要遵从以下几点约束：初始坐标约束、边界和高度约束、速度和加速度约束、最大偏航角约束、障碍物约束。

3b)无人集群对抗规则

攻无人机的目的是进入目标区域，防御无人机负责通过摧毁进攻无人机来保卫目标区域；无人机可侦测到自身范围内一定数量的敌方和己方单位坐标，防御无人机可摧毁自身攻击范围内的敌方单位；进攻无人机的获胜条件是足够接近目标区域；考虑能量消耗。

步骤5，使用协作深度确定性策略梯度方法(CODDPG)求解多智能体强化学习问题，该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度方法结合，可以用于大规模的多智能体强化学习问题求解，具体操作步骤如下：

5a)平均场强化学习

对于一个部分可观测的马尔可夫场景，在t时刻，智能体i的局部状态为s_t，i，动作为a_t，i，获得的奖励为r_t，i，CODDPG中对智能体局部状态值进行了扩展，引入了其他所有智能体的局部状态的平均值得到了联合状态，表示如下：

其中d(i)是除了智能体i以外所有智能体的集合，|d(i)|是集合d(i)中智能体的数量。

动作表示如下：

其中，为除了智能体i以外的所有智能体动作的平均。

智能体i的评价动作的Q值函数表示如下：

本方法将其他智能体的奖励r_t，j的平均值作为外部奖励，其中α为权重，环境交互获得的奖励r_ti作为内部奖励，如下所示：

5b)Actor-Critic框架

CODDPG采用Actor-Critic框架，每一个智能体都有Actor网络和Critic网络两个网络，用π＝{π₁…π_n}来表示n个智能体的策略，用θ＝{θ₁...θ_n}来表示它们的策略参数。对于每个智能体i来说，我们需要最大化它的预期回报，如下式所示：

确定性策略的策略梯度如下式所示：

其中，x＝{s₁...s_n}为所有智能体状态的集合，E表示期望，μ表示策略，D是经验回访器，从D中抽取数据进行训练，上式中的联合状态和动作的表示方法的维度随着智能体数量增加成指数增加，将上式中的联合状态x用替换，其他智能体的动作集合a＝{a₁...a_i-1，a_i+1...a_n}用其他智能体动作的平均/>替换，Actor网络通过此策略梯度进行更新，表示如下：

上式用联合状态联合奖励/>平均动作/>分别代替状态x、奖励r_i、其他智能体动作集合a＝{a₁…a_i-1，a_i+1...a_n}，所以Critic网络的损失函数可以被写为：

其中，为智能体i下一个时间步的联合状态，y_i是对智能体i的Q_i ^μ的估计，表示如下：

CODDPG采用集中式训练、分散式执行的架构，即训练阶段算法使用全部智能体的状态、动作和奖励，而执行阶段智能体仅依靠自身局部状态信息做出决策，无需通信，训练时的框架如图3所示。

5c)CODDPG与环境的信息交互

状态空间：无人机i的状态包含自身位置x_i、自身速度v_i，到目标区域的距离d_i，m和离自己最近的无人机l的距离d_i，l，表示为：s_i＝(x_i，v_i，d_i，m，d_i，1，…，d_i，l)，其中d_i，l代表到无人机j的距离，s_i中所有的量都是有界且连续的。

动作空间：对于无人机i来说，动作空间是一个有界且连续的三维加速度向量a_i＝(a_i，x，a_i，y，a_i，z)，需要注意的是，为了避免碰到障碍物，某些动作在一定条件下是无法选择的。

奖励设置：如果在对抗过程中仅依靠是否入侵成功或者是否摧毁地方无人机来设置奖励，会有很大的稀疏性和延迟性，使训练速度变得很慢，因此需要引入额外的外部奖励。

对于入侵者i来说，它的奖励R_1，i由距离奖励r_d1和被摧毁的惩罚r_p1组成，如下式所示：

R_1，i＝r_d1+r_p1

其中距离奖励r_d1和被摧毁的惩罚r_p1的定义如下式所示：

其中d_i，j和d_i，m分别代表到最近的防御者的距离和到目标区域的距离，N代表被摧毁无人机的数量，ψ，η，ζ是人为规定的参数，F_s1和F_s2是布尔量，当入侵成功时F_s1为1，当被摧毁是F_s2为1，否则为0。

R_2，j＝r_d2+r_p2

其中距离奖励r_d2和摧毁敌方的奖励r_p2如下式所示，当目标区域被入侵时F_s1为1，当无人机j摧毁其他无人机时F_s2为1，否则为0。

5d)强化学习具体流程

对于具有n个无人机的对抗场景，CODDPG的主要流程如图4所示，Actor策略网络表示的函数标记为μ(s)，输入状态s_i，输出单个状态对应的动作a_i；Critic评价网络表示的函数标记为输入状态s_i、动作a_i、其他智能体的平均动作/>输出Q值。Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络，online网络参数按照策略梯度实时优化，target网络参数以较小的步长向online网络参数靠拢。

每一个交互回合开始时，对每个智能体，首先根据当前状态s_i，从Actor网络获得一个确定的输出μ(s_i)。为了策略的探索性，在μ(s)基础上加一个惯性噪声(Ornstein-Uhlenbeck noise)得到具体每个智能体此轮执行的动作a_i。在得到所有智能体的动作a＝{a₁...a_n}后，执行动作与环境交互，得到奖励r和下一状态s′。此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号。经验回放器D储存了最近的若干轮交互的数据，每次随机抽取一小批数据来更新Actor和Critic网络。

先更新Critic的online网络，对于每一组训练数据，首先计算Q值的估计y_i。Q值表示在状态下，采取动作a后，且如果持续执行策略μ的情况下，所获得的R的期望值。具体地，先用Actor的target网络决定下一时间步联合状态下的动作/>然后用Critic的target网络估计“未来”的Q值/>最后得到y_i，并更新Critic的online网络。

接下来更新Actor的online网络，计算策略梯度，其中使用上一步更新的Critic的online网络，a_i＝μ_i(s_i)使用Actor的online网络。

最后用online网络分别更新Actor和Critic的target网络，采用软更新的方式，每次target的变动很小，以更多的更新次数为代价，提高网络的稳定性，加速收敛。

步骤6，输出多无人系统任务规划结果。

以下为一个具体实例：

1、实验条件与方法

硬件平台为：Intel(R)Core(TM)i5-9400F CPU@2.90GHZ、32GB RAM；

软件平台为：Tensorflow 1.8.0，Unity 4.6.1，gym 0.17.2；

实验方法：深度确定性策略梯度(DDPG)、多智能体深度确定性策略梯度(MADDPG)、本发明提出的协作深度确定性策略梯度算法(CODDPG)。

2、仿真内容与结果

设置了30个防御者和20个入侵者的场景，设置k＝3，l＝3，ψ＝0.3，η＝3，ζ＝0.5(k是摧毁一个入侵者所需的防御者数量，l是一个UAV可以感知的UAV数量，ψ，η，ζ是奖励的相关系数)，如图5所示。此时防守方正在集中消灭右下方向前来的入侵方。当所有入侵者被消灭或者任何入侵者进入目标区域时，场景结束。在这个场景中，入侵者使用不同的策略，防御者分别使用DDPG、MADDPG和CODDPG进行训练。此外，同一组无人机共享同一网络，以减少两种算法中的网络。

首先用DDPG算法训练无人机，然后保存入侵者的训练模型。然后分别用三种算法训练防御者，其中入侵者使用先前训练的DDPG网络模型。强化学习评价指标比较若干强化学习算法性能水平，通过平均回报和收敛速度两方面进行评价。防守者在训练中获得的平均奖励如图6所示，横轴表示训练轮数，纵轴表示平均一轮的奖励。从曲线上可以看出，在使用DDPG控制入侵者时，三种算法都能在一千轮迭代前快速收敛，其中COPPDG最早达到稳定。在三种算法均稳定之后，CODDPG算法的奖励最高。CODDPG算法最终以更好的收敛速度，获得了最高的回报。DDPG算法的回报最低，MADDPG算法中等。

3、场景评价指标

本方法用训练好的模型进行测试，对防守方在不同算法下的结果在多次实验后取平均进行评价。评价指标包括以下几点：

①胜率，包括将入侵方无人机全部消灭和超出时间范围，越大越好。

②平均用时，平均一轮对抗的用时，在确定了时间范围的情况下主要受消灭入侵者的效率影响，越小说明防御方取胜越快。

③追捕数量，追捕到的入侵者的数量，越大说明防御的成果越好。

④追捕用时，指平均每一个入侵者从进场到被消灭的用时，越小说明追捕的越快。

⑤方差，多次实验结果的方差，由于每次实验双方无人机的初始位置都是在约束下随机生成，每次的实验结果必然有微小差异，通过方差来衡量不同初始情况下算法的稳定性。

测试结果归一化后绘制直方图，如图7所示，其中CODDPG在胜率上略微超出MADDPG，平均用时和追捕用时上远超其他两算法，且方差最小，表面算法对于不确定的初始环境的泛用性。

总之，本发明提出了协作深度确定性策略梯度方法(CODDPG)，该方法将平均场强化学习理论与传统强化学习深度确定性策略梯度(DDPG)方法结合，更善于求解多智能体强化学习；同时更新了强化学习奖励规则，传统的方法直接使用环境得到的外部奖励作为自身奖励，这样难以学习到协作的策略，本专利方法将其他智能体的奖励的平均值作为外部奖励，将环境交互获得的奖励作为内部奖励，两者加权，可以更好的反应队友的策略的影响，有利于协作；采用了集中式训练、分散式执行的架构，训练阶段算法使用全部智能体的状态、动作和奖励，而执行阶段智能体仅依靠自身局部状态信息做出决策，无需通信。

Claims

1.一种基于多智能体强化学习的无人集群任务协同方法，其特征在于，包括如下步骤：

步骤3，对无人集群对抗环境建模；

步骤5，使用协作深度确定性策略梯度方法求解多智能体强化学习问题；具体方式为：

5a)平均场强化学习

对于一个部分可观测的马尔可夫场景，在t时刻，无人机智能体i的局部状态为s_t,i，动作为α_t,i，获得的奖励为r_t,i，对无人机智能体局部状态值进行扩展，引入其他所有无人机智能体的局部状态的平均值得到了联合状态表示如下：

其中，d(i)是除了无人机智能体i以外所有无人机智能体的集合，|d(i)|是集合d(i)中无人机智能体的数量；

动作表示如下：

其中，a_k为无人机智能体动作，为除了无人机智能体i以外的所有无人机智能体动作的平均；

无人机智能体i的评价动作的Q值函数表示如下：

其中，x＝{s₁...s_n}为所有无人机智能体状态的集合，a₁,…,a_n均为无人机智能体动作；

将其他无人机智能体的奖励r_t,k的平均值作为外部奖励，环境交互获得的奖励r_t,i作为内部奖励，得到的联合奖励表示如下：

其中α为权重；

5b)Actor-Critic框架

采用Actor-Critic框架，每一个无人机智能体都有Actor网络和Critic网络两个网络，Actor用于拟合无人机智能体的策略函数，负责生成动作Action并和环境交互；Critic负责拟合价值函数，用于评估Actor的表现，并指导Actor下一阶段的动作；

5c)与环境的信息交互

状态空间：无人机智能体i的状态包含自身位置x_i、自身速度v_i，到目标区域的距离d_i,m和离自己最近的l架无人机智能体的距离d_i,1,…,d_i,l，表示为：s_i＝(x_i,v_i,d_i,m,d_i,1,…,d_i,l)，其中d_i,l代表第l架无人机智能体到无人机智能体i的距离，s_i中所有的量都是有界且连续的；

动作空间：对于无人机智能体i来说，动作空间是一个有界且连续的三维加速度向量a_i＝(a_i,x,a_i,y,a_i,z)；

奖励设置：对于作为入侵者的无人机智能体i来说，它的奖励R_1,i由距离奖励r_d1和被摧毁的惩罚r_p1组成，如下式所示：

R_1,i＝r_d1+r_p1

其中，距离奖励r_d1和被摧毁的惩罚r_p1的定义如下式所示：

其中，d_i,j和d_i,m分别代表到最近的防御者的距离和到目标区域的距离，N代表被摧毁无人机的数量，ψ,η,ζ是固定参数，F_s1和F_s2是布尔量，当入侵成功时F_s1为1，否则F_s1为0，当被摧毁时F_s2为1，否则F_s2为0；

对于防御者j来说，它的奖励R_2,j由距离奖励r_d2和摧毁敌方的奖励r_p2组成，如下式所示：

R_2,j＝r_d2+r_p2

其中距离奖励r_d2和摧毁敌方的奖励r_p2如下式所示：

当目标区域被入侵时F_s1为1，否则F_s1为0，当防御者j摧毁其他无人机智能体时F_s2为1，否则F_s2为0；

5d)强化学习流程

将Actor网络表示的函数标记为μ(s)，输入状态s_i，输出单个状态对应的动作a_i；Critic网络表示的函数标记为输入状态s_i、动作a_i、其他无人机智能体的平均动作/>输出Q值；Actor和Critic都有online和target两个版本的网络分别表示实时更新的网络和目前应用的网络，online网络参数按照策略梯度实时优化，target网络参数以固定步长向online网络参数靠拢；

每一个交互回合开始时，对每个无人机智能体，首先根据当前状态s_i，从Actor网络获得一个确定的输出μ(s_i)；在μ(s)基础上加一个惯性噪声，得到具体每个无人机智能体此轮执行的动作a_i；在得到所有无人机智能体的动作a＝{a₁...a_n}后，执行动作与环境交互，得到奖励r和下一状态s'；此次交互得到分别代表当前联合状态、动作、联合奖励、下一联合状态、平均动作和结束信号；经验回放器D储存了最近的多轮交互的数据，每次随机抽取一批数据来更新Actor和Critic网络；

更新Critic的online网络，接下来更新Actor的online网络，最后用online网络分别更新Actor和Critic的target网络，采用软更新的方式；

步骤6，输出无人集群任务规划结果。

2.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法，其特征在于，步骤1所述的强化学习仿真环境包含场景中的实体对象及其功能函数；其中，实体对象包括：

①建筑群，组成了无人机飞行约束的障碍物约束；

②空气墙，组成无人机飞行约束的边界和高度约束；

③操场，作为入侵与防御目标的“领土”；

④光源，调节仿真环境亮度和阴影；

功能函数包括：

⑤destory()，关机，析构启动时生成的无人机对象；

3.根据权利要求1所述的一种基于多智能体强化学习的无人集群任务协同方法，其特征在于，步骤3中建模的规则如下：

无人机的飞行约束和对抗规则如下：

3a)无人机的飞行约束

3b)无人集群对抗规则