CN114741886B

CN114741886B - 一种基于贡献度评价的无人机集群多任务训练方法及系统

Info

Publication number: CN114741886B
Application number: CN202210404223.9A
Authority: CN
Inventors: 林旺群; 徐菁; 李妍; 田成平; 王伟; 刘波; 王锐华; 孙鹏
Original assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Current assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-11-22
Anticipated expiration: 2042-04-18
Also published as: CN114741886A

Abstract

一种基于贡献度评价的无人机集群多任务训练方法及系统，该方法使用两阶段的课程学习，在第一阶段进行单无人机训练，此时只有一架无人机执行任务来摧毁一个随机目标，最终得到一个演员网络和评论家网络，评论家网络表示状态—动作价值函数，该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练，使用第一阶段训练得来的演员网络和评论家网络，利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。本发明使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作，各个无人机可以学得合作型策略，利于任务的完成；加快了贡献度评价函数网络和多智能体主演员网络的训练。

Description

一种基于贡献度评价的无人机集群多任务训练方法及系统

技术领域

本发明涉及模拟仿真领域，特别的，涉及一种基于贡献度评价的无人机集群多任务训练方法，根据贡献度函数，使用多智能体强化学习对无人机集群进行训练，使得每架无人机学习各自的执行策略，并通过互相合作，更好地完成给定的任务。

背景技术

随着无人化、智能化技术的发展，如何通过无人机高效完成相关任务，已经成为一个极具现实意义的重要课题。无人机集群现有主流控制方式是由“主机”收集所有无人机的信息，经算法处理计算后将指令分发给各无人机。这种集中式处理方法所耗费的时间随着无人机数量的增多而增长，从而使得指令下发延迟较大，最终将导致无人机任务完成效果不佳等严重后果。

近年来，随着深度Q学习(Deep Q-Learning)的快速发展，深度强化学习技术取得较大的进步和突破，在如机械臂和机器人的控制领域、雅达利游戏和围棋的游戏领域、多轮对话系统、推荐系统等领域都进行了广泛的探索和应用。深度强化学习技术以试错和奖励训练出具有自主连续决策能力的智能体，因此使用深度强化学习技术中的多智能体强化学习算法训练无人机集群的各个无人机，实现各个无人机的自主控制以在模拟仿真中完成给定任务。

现有的多智能体强化学习算法通常是集中式训练、分散式执行的多智能体演员—评论家算法。在完成给定任务的模拟仿真中，无人机集群是由多个具备合作“意愿”的无人机组成，共同合作以完成给定任务，如：摧毁敌方防控阵地上的多个目标，包括预警雷达、制导雷达等。将该算法应用于无人机集群控制时，由于集中式训练导致无法判断各个无人机之间的互相影响，使得无人机难以学到合作型的策略来更高效的完成任务。

因此，如何提高深度学习中无人机的学习效率以及策略，使得无人机更高效的完成任务成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于提出一种基于贡献度评价的无人机集群多任务训练方法及系统，采用两阶段的课程训练：在第一阶段进行简化输入信息的单无人机训练，输入简化了与其它无人机相关联的信息，只输入单个无人机的相关信息，使用单智能体的演员—评论家算法进行训练；在第二阶段利用第一阶段训练得到的神经网络，使用函数扩增的方式构建无人机集群训练所需的各个神经网络，包括多智能体主演员网络、全局主Q网络以及贡献度评价函数网络，并使用基于贡献度评价函数的多智能体演员—评论家训练，进行多智能体训练，最终对多智能体主演员网络的性能进行评价，并根据评价的结果结束训练或者再次进行训练。

为达此目的，本发明采用以下技术方案：

一种基于贡献度评价的无人机集群多任务训练方法，包括如下步骤：

环境构建步骤S110：

该步骤包括：构建无人机军事仿真环境，包括需要完成的任务d、任意无人机n的观测信息oⁿ、整个环境的状态信息s、无人机的动作空间以及奖励函数

单无人机训练初始化步骤S120：

初始化单无人机的演员—评论家网络模型，其中演员网络表示策略，输入为无人机m的局部观察o^m与无人机需要完成的任务d，输出为无人机需要执行的动作a^m，评论家网络表示状态—动作价值函数，输入为独立于无人机的环境状态信息s_env、无人机的坐标s^m、无人机的动作a^m以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练，最后初始化超参数：包括探索参数∈和训练间隔E_train；

单无人机采样训练步骤S130：

通过单个无人机与环境不断交互，采集并存储交互产生的样本，用于单无人机网络的训练，交互的方式为在每个离散的时刻t，无人机m根据该时刻的观察信息

执行动作

随后环境信息在动作的影响下发生变化并反馈给无人机奖励

采集的每个样本包括简化后的状态

无人机m的观察

任务d、动作

奖励

下一时刻简化后的状态

以及下一时刻无人机的观察

单无人机训练网络训练步骤S140：

重复执行多次步骤S130以获得训练数据，随后从缓存β中随机采集样本来执行多轮网络更新：对采集的每个样本i，首先更新主评论家网络Q¹，输入为来源于样本的简化后的状态

无人机m的动作

以及任务d_i，训练标签

由目标评论家根据来源于样本的奖励

和下一时刻简化后的状态

以及任务d_i计算得到；随后更新主演员网络π¹，其输入为来源于样本的局部观察

和任务d_i，训练标签

由主演员网络π¹和主评论家网络Q¹共同计算获得，最后更新目标网络的参数；

无人机集群各无人机网络构建步骤S150：

采样函数扩增的方式，在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络，包括多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c，多智能体主演员网络π使用主演员网络构建π¹和前馈神经网络扩增构建，全局主Q网络Q_g以及贡献度评价函数网络Q_c也分别使用主评论家网络Q¹和和前馈神经网络扩增构建；

无人机集群训练初始化步骤S160：

初始化训练超参数，包括探索参数∈、无人机训练间隔为E_train，以及最小探索参数∈_end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π，贡献度评价函数网络Q_c，由于所有无人机共用一套网络，所以初始化一个多智能体主演员网络π、一个全局主Q网络Q_g、一个贡献度评价函数网络Q_c以及对应的三个目标网络共六个网络；

无人机集群训练采样步骤S170：

通过无人机集群与环境不断交互，采集并存储交互产生的样本，用于步骤S160所初始化的无人机集群网络训练，交互的方式为在每个离散的时刻t，所有无人机根据该时刻各自的观察信息执行动作，随后环境信息由于所有无人机的联合动作c_t而发生变化并反馈给各个无人机各自的奖励

存储的每个训练样本包含的信息有状态s_t、所有无人机的联合观察o_t、所有无人机的联合任务j_t、所有无人机的联合动作c_t、所有无人机得到的奖励集合

下一时刻状态s_t+1以及下一时刻联合观察o_t+1；

无人机集群训练步骤S180：

重复执行多次步骤S170以获得无人机集群与环境交互的数据，随后从缓存中随机采集样本i来执行多轮网络更新：首先利用目标全局主Q网络Q_g计算得来的目标值

来计算损失

使用梯度下降更新全局主Q网络Q_g，其输出用于计算优势函数来辅助多智能体主演员网络π的更新；然后利用目标贡献度评价函数网络Q_c计算得来的目标值

来计算损失

使用梯度下降更新贡献度评价函数网络Q_c，其输出用于计算优势函数；随后利用全局主Q网络Q_g和贡献度评价函数网络Q_c计算优势函数

使用该优势函数计算多智能体主演员网络更新梯度，即多任务多智能体强化学习策略梯度，并使用梯度上升更新多智能体主演员网络π；最后更新三个目标网络的参数；

评估步骤S190：

使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务，评判标准为摧毁任务的完成次数，如不满足要求则重新训练；如满足要求则退出训练，保存多智能体主演网络。

本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练方法，包括存储介质和处理器，

所述存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练方法。

本发明具有如下优点：

(1)使用集中式训练、分散式执行的多智能体强化学习技术进行无人机集群的训练，集中式训练指在训练时利用全局信息得到的全局主Q函数可以加快多智能体主演员网络的训练，而分散式执行指在获得各个无人机的动作时只需输入该无人机自身的观察信息，使得无人机集群中的各个无人机之间无需交换数据就能自行计算获得待执行的动作；

(2)使用贡献度评价函数解决贡献度分配问题，评估无人机集群中各个无人机对其它无人机完成任务的贡献，提高贡献度大的动作被选择的概率，使得各个无人机可以学得合作型策略，利于任务的完成；

(3)使用两阶段的课程训练。不直接对贡献度评价函数网络和多智能体主演员网络进行训练，而是先在第一阶段训练得到单无人机的演员—评论家网络，然后在第二阶段利用该演员—评论家网络构建的多智能体主演员网络、全局主Q网络和贡献度评价函数网络的基础上进行无人机集群的训练，从而加快贡献度评价函数网络和多智能体主演员网络的训练。

附图说明

图1是根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图；

图2是根据本发明具体实施例的多智能体主演员网络的构造示意图；

图3是根据本发明具体实施例的全局主Q网络训练示意图；

图4是根据本发明具体实施例的贡献度评价函数网络训练示意图；

图5是根据本发明具体实施例的多智能体主演员网络训练示意图；

图6是根据本发明具体实施例的无人机集群摧毁敌方雷达阵地示意。

具体实施方式

下面对本发明涉及到的相关术语进行如下介绍：

1.多任务马尔可夫博弈

多任务马尔可夫博弈是基于马尔科夫决策过程的描述多任务多智能体强化学习的一个理想数学形式，可以用一个元组来描述：

其中有N个由n∈[N]标注的智能体。在每个情节，每个智能体n有一个固定的任务

且只有该智能体自己知道。在时刻t,全局状态

每个智能体n接收观察

并选择动作

环境由于联合动作

根据转移概率P(s_t+1|s_t,c_t)转移到s_t+1。每个智能体收到一个单独的奖励

学习任务就是去找到一个随机分散策略

仅以局部观察和任务为条件，来最大化

其中，γ∈(0,1)，且由于分散策略，联合策略Π分解为

使用a^-n和d^-n表示除智能体n以外的其它所有智能体的动作和任务。使用c和j表示联合动作和联合任务。使用Π表示联合策略。

2.集中式训练、分散式执行的演员—评论家算法

演员—评论家算法是一种强化学习算法，分为演员和评论家两部分，分别可用一个神经网络来表示。演员表示智能体的策略，负责输出动作用于智能体执行，评论家负责评判演员输出动作的好坏，用于辅助演员的训练。由于神经网络训练的标签也有该神经网络计算得来，导致随着神经网络的更新，其标签的不断变化使得训练不稳定。因此在实际训练时，除演员网络和评论家网络外，额外使用两个目标网络来计算标签，目标网络的结构分别与演员网络和评论家网络相同，其参数每隔一段时间以软更新的方式更新：θ′←τθ+(1-τ)θ′。其中θ′表示目标网络参数，θ表示演员(评论家)网络参数，τ为控制更新步长的超参数。

集中式训练和分散式执行指当把演员—评论家算法用于多智能体强化学习时，评论家接受完整的状态—动作信息，演员根据局部信息输出动作。接收完整的状态—动作信息的集中式评论家可以加快只接收局部信息的分散演员的训练。虽然集中式训练意味着输入空间会随智能体数量增加而线性扩展，但在许多只包含局部合作的实际推演仿真环境中，通常只涉及智能体之间少量的局部交互，因而允许使用少量智能体进行集中式训练，同时保持在大规模测试时分散执行的性能。

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明主要在于：提出一种贡献度评价函数，由贡献度评价函数网络表示，实现多任务多智能体演员—评论家算法中的贡献度分配，作用于多任务多智能体的策略梯度计算，使得无人机集群中的各个无人机学得具有合作性的策略，实现全局收益最大化；使用两阶段的课程学习，在第一阶段进行单无人机训练，此时只有一架无人机执行任务来摧毁一个随机目标，最终得到一个演员网络和评论家网络，评论家网络表示状态—动作价值函数，该网络可用于在第二阶段构建贡献度评价函数网络。然后在第二阶段进行无人机集群的训练，使用第一阶段训练得来的演员网络和评论家网络，利用函数扩增的方式来初始化无人机集群中所有无人机的各个网络。这种先进行单无人机训练，并利用函数扩增来衔接第一、二阶段的方式可以加速无人机集群的训练。

课程学习是一种训练深度学习模型的思想，将模型训练分为多个阶段，按照从易到难的顺序训练模型，可以通过在不同阶段简化模型结构或是选取特定训练样本来实现这种循序渐进的训练。

本发明采用两阶段的课程训练，在第一阶段，只针对一个无人机进行训练。在第二阶段，使用第一阶段的演员网络和评论家网络来构建无人机集群中N个无人机的网络，由于N个无人机都是同类实体，则N个无人机可以共享网络参数。使用两阶段课程学习的关键思想是，对于已经可以在单智能体情况下独自完成单个任务的智能体，其在多智能体环境中可以更好地通过额外探索发现和其它智能体合作完成任务的方案。

实现两个阶段课程学习的方式为简化第一阶段输入的维度，使用其它神经网络处理其它维度的输入并与第一阶段网络共同构成第二阶段训练的网络。具体操作为将无人机的观测信息分解为

其中

捕获无人机自身的属性，该属性必须是无人机可观察的，以进行闭环控制，而

是其他无人机以自我为中心对该无人机的观测。以自我为中心的观测是私密的，其他无人机无法访问。类似地，全局状态s分解为s＝(s_env,sⁿ,s^-n)，s_env是不特定于任何无人机的环境信息，sⁿ捕获无人机n的信息，s^-n是除无人机n以外的其它无人机的信息。在第一阶段，由于单无人机的训练不需要处理

和s^-n的能力，因此减少策略和值函数的输入空间，从而减少可训练参数的数量，降低计算成本。在第二阶段，使用函数扩增的方式恢复第1阶段的参数并激活新模块以处理额外的输入

和s^-n，恢复的方式示例性的，如以下方案的在步骤S150中描述。

参见图1，示出了根据本发明具体实施例的基于贡献度评价的无人机集群多任务训练方法的流程图。

该方法，包括如下步骤：

环境构建步骤S110：

该步骤包括：构建无人机军事仿真环境，包括需要完成的任务d、任意无人机的观测信息oⁿ、整个环境的状态信息s、无人机的动作空间以及奖励函数

该步骤目的为：构建用于使用强化学习算法对无人机进行单无人机训练以及无人机集群训练的仿真环境。其中，单无人机训练的观测信息与状态信息与无人机集群训练的观测信息与状态信息应做区分以适应两阶段的课程学习。

具体的，以图6为例，无人机集群从起始点出发，互相合作飞往地方雷达阵地并在飞行期间保持合理的阵型，合理的阵型可以是风阻最小的阵型、雷达反射面最小的阵型等。在到达雷达阵地后，无人机集群中的各个无人机根据自己被分配的任务分散摧毁阵地上的目标，任务使用d来表示，取值为待摧毁目标的坐标位置(x_d,y_d,z_d)。

显然，本领域技术人员知道，图6仅仅是一个示例，本发明的任务d能够包括分散摧毁阵地上的目标以外的其他目的，相应的坐标位置(x_d,y_d,z_d)也不仅仅包含待摧毁的目标，可以为其它任务的目标地坐标。

该步骤为：设定无人机的任务d，取值为目标的坐标位置(x_d,y_d,z_d),对于无人机集群中的任意无人机n，其观测空间为

其中

表示无人机n自身的坐标位置

表示其它所有无人机与无人机n的相对位置

N为无人机的数量；状态信息为s＝(s_env,sⁿ,s^-n)，其中s_env表示所有目标的坐标位置

sⁿ为无人机n自身的坐标位置

s^-n为其它所有无人机的坐标位置

无人机的动作空间简化为前、后、上、下移动和左偏转、右偏转的6个离散动作；

无人机的奖励函数

分为两部分，一部分为步数惩罚奖励，即无人机每执行一次动作都会获得-0.1的奖励，另一部分为任务完成奖励，即任务完成获得+100的奖励，任务未完成则获得-100的奖励。

单无人机训练初始化步骤S120：

该步骤包括：初始化单无人机的演员—评论家网络Q¹，输入相比无人机集群训练的输入做了简化，其中演员网络表示策略，其输入是无人机m的局部观察o^m与无人机需要完成的任务d，输出是无人机m需要执行的动作a^m，评论家网络表示状态—动作价值函数，其输入是独立于无人机的环境状态信息s_env、无人机的坐标s^m、无人机的动作a^m以及无人机需要完成的任务d得到对应状态—动作对的状态—动作价值函数辅助演员网络的训练，最后初始化超参数：包括探索参数∈和训练间隔E_train。

单无人机训练为课程训练第一阶段，该步骤目的为：初始化训练所需神经网络以及各个超参数。具体的，初始化在第一阶段训练所需的各个神经网络以及部分超参数。第一阶段训练为单无人机训练，所以共有两个主要网络以及辅助主要网络进行训练的目标网络。

具体的，该步骤包括如下子步骤：

(1)初始化第一阶段无人机m的主评论家网络Q¹，主演员网络π¹，参数分别为

(2)初始化第一阶段目标评论家网络与目标演员网络，其结构分别与主评论家网络和主演员网络相同，参数分别为

(3)课程训练第一阶段是单无人机训练，对所有网络的输入进行简化，主评论家网络Q¹与目标评论家网络输入为独立于无人机的环境状态信息s_env、无人机m的信息s^m、无人机m的动作a^m以及无人机m需完成的任务d，得到状态s¹和动作a^m的状态—动作价值函数

其中s¹是简化后的状态信息，除去与其它无人机无关的部分，即s¹＝(s_env,s^m)；主演员网络π¹和目标演员网络输入为无人机m的局部观察

以及无人机m需要完成的任务d，输出为所有可选动作的概率分布；初始化探索参数∈＝∈_start、探索参数下降速率∈_step以及最小探索参数∈_end并清空缓存β，初始化智能体训练间隔为E_train。

单无人机采样训练步骤S130：

该步骤包括：通过单个无人机与环境不断交互，采集并存储交互产生的样本，用于单无人机网络的训练，交互的方式为在每个离散的时刻t，无人机m根据该时刻的观察信息

执行动作

随后环境信息在动作的影响下发生变化并反馈给无人机奖励

采集的每个样本包括简化后的状态

无人机m的观察

任务d、动作

奖励

下一时刻简化后的状态

以及下一时刻无人机的观察

本步骤用于采集并存储样本用于在步骤S120初始化的网络的训练。

具体的，随机分配一个任务d给无人机m，并初始化简化后的状态和观察为

和

接下来重复执行T步以下的交互，具体在每个时间步t，将无人机m的观察

和任务d输入主演员网络π¹，根据输出的动作概率分布采样动作

执行动作

环境信息发生变化，无人机m获得环境(仿真系统)反馈的奖励

下一时刻状态

以及下一时刻观察

以转移元组的形式将每个时间步t获得的样本存入缓存β，转移元组为

单无人机训练网络训练步骤S140：

该步骤包括：首先重复执行多次步骤S130以获得训练数据，随后从缓存β中随机采集样本来执行多轮网络更新：对于采集的每个样本i，首先更新主评论家网络Q¹，输入为来源于样本的简化后的状态

无人机m的动作

以及任务d_i，训练标签

由目标评论家根据来源于样本的奖励

和下一时刻简化后的状态

和任务d_i，训练标签

由主演员网络π¹和主评论家网络Q¹共同计算获得；最后更新目标网络的参数。

该步骤主要为对步骤S120初始化的网络进行单无人机的训练，采用一般的单智能体强化学习算法，这里使用的是基于策略梯度的演员—评论家算法。

该步骤的具体过程为：重复执行步骤130共E次，如果∈>∈_end，每次衰减探索参数∈←∈-∈_step，期间每隔E_train次便执行一次智能体训练过程，每次训练过程执行K轮更新，每轮更新执行以下步骤：

(1).从缓存β中随机采集S个转移元组

(2).使用目标评论家网络针对每个样本i计算目标值

其中γ为折扣率，通常为0.99，

为采样得到的转移元组中的数据，

由目标评论家网络计算获得，

由目标演员网络获得，目标演员网络输入为

(3).计算主评论家网络损失

并利用梯度下降最小化该损失来更新主评论家网络参数，其中

由主评论家网络获得；

(4).使用主评论家网络和主演员网络计算优势函数

其中

表示智能体，也就是无人机m除

以外的其它可执行动作；

(5).计算主演员网络更新梯度

并利用该梯度更新主演员网络参数；

(6).更新所有目标网络参数θ′←τθ+(1-τ)θ′，其中θ表示任意的主网络参数，θ′表示与之对应的目标网络参数，τ是人为设定的超参数，控制更新的幅度。

该步骤为对步骤S120初始化的网络进行单无人机的训练。强化学习训练过程是一个交叉逼近的过程，即训练样本由无人机与环境交互获得(演员网络输出动作使智能体执行)，重复执行步骤S130使得性能更好的无人机能够获得更优质的样本，而更优质的样本反过来促进无人机训练得更好。衰减探索参数∈使得演员网络(也即策略网络)最终收敛到最优。

本发明的课程训练的核心就是通过将模型训练分为多个阶段，按照从易到难的顺序训练模型，从而简化训练难度。通过步骤S110-S140完成了分阶段学习的第一阶段，对单无人机网络演员—评论家网络进行了构建和训练，且已经能指导单无人机基本完成其任务。接下来将进入第二阶段，即无人机集群训练阶段的网络模型是本实例最终需要得到的网络模型，使用函数扩增的方式利用第一阶段得到的网络模型构建无人机集群训练所需的网络模型，使得第二阶段训练可以更加容易。

无人机集群各无人机网络构建步骤S150：

该步骤用于构建第二阶段训练所需的三个神经网络。

在该步骤中，除构建基本的多任务多智能体演员—评论家网络模型以外，还额外构建了本发明所提出的贡献度评价函数网络Q_c。贡献度评价函数网络表示贡献度评价函数，目的是为解决无人机集群中各无人机之间的贡献度分配问题。对于n,m∈[N],

对任务dⁿ和无人机m的动作

的贡献度评价函数为

表示无人机m对于其它无人机n完成其任务dⁿ所做的贡献大小，该贡献度评价函数会在步骤S180结合到多智能体主演员网络的更新梯度计算中，使得训练得到的多智能体主演员网络能够指导各无人机执行更具合作性的行为，使得全局收益最大化，贡献度评价函数中的Π表示所有无人机策略的联合策略。

该步骤包括：采样函数扩增的方式，在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络，包括多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c，多智能体主演员网络π使用主演员网络构建π¹和前馈神经网络扩增构建，全局主Q网络Q_g以及贡献度评价函数网络Q_c也分别使用主评论家网络Q¹和和前馈神经网络扩增构建。

具体过程为：

为无人机集群的N个无人机初始化三个网络，分别为多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c。

其中，所述多智能体主演员网络π由两个神经网络π¹,π²构成，π¹是单无人机训练得到的主演员网络，π²是一个新初始化的隐藏层数量为2的前馈神经网络，π²的输入为

输出层直接与π¹的最后一层隐藏层

相连，因此多智能体主演员网络π的输入由π¹的输入和π²的输入构成，即全局观察

和无人机n的任务dⁿ，输出为π¹的输出，即无人机n可执行动作的概率分布。

所述全局主Q网络Q_g由两个前馈神经网络Q¹,

构成，其中Q¹是单无人机训练得来的主评论家网络，

是新初始化的一个隐藏层数量为2的前馈神经网络，

输入为(s^-n,a^-n)，其输出层与Q¹的最后一层隐藏层相连，因此全局主Q网络Q_g的输入为Q¹,

输入的联合，即全局状态s＝(s_env,sⁿ,s^-n)，N个智能体的联合动作c＝(aⁿ,a^-n)、以及无人机n的任务dⁿ，输出由网络Q¹完成，表示在全局状态s下，当其它无人机联合动作为a^-n，无人机n的动作为aⁿ时的状态—动作价值

所述贡献度评价函数网络Q_c的输入为全局状态s＝(s_env,sⁿ,s^-n)，任意无人机m的动作a^m以及无人机n的任务dⁿ，输出为贡献度评价函数

所以构建课程训练第二阶段贡献度评价函数网络Q_c的方式也与上述构建多智能体主演员网络π的方式类似。贡献度评价函数网络Q_c由两个前馈神经网络构成Q¹,

其中Q¹是单无人机训练得来的主评论家网络，

是新初始化的一个隐藏层数量为2的前馈神经网络，其输入为s^-n，其输出层与Q¹的最后一层隐藏层相连。贡献度评价函数网络Q_c的输入为Q¹,

输入的联合，即全局状态s＝(s_env,sⁿ,s^-n)，任意无人机m的动作a^m以及无人机n的任务dⁿ，输出由网络Q¹完成，表示无人机m关于无人机n的贡献度评价函数

在该步骤中，由于第二阶段训练所需的三个神经网络与第一阶段的两个神经网络相比只是具有额外的输入维度，因此构建的方式为使用额外的神经网络处理这些额外的输入并使其输出与第一阶段的神经网络的最后一层隐藏层相连。这样便保留了第一阶段训练的结果，从而加速第二阶段的训练。

无人机集群训练初始化步骤S160：

该步骤的目的为初始化无人机集群训练所需的各个神经网络以及部分超参数。

无人机集群训练为课程训练第二阶段，由于N个无人机为同质智能体，所以可以共用一套网络，通过输入任务的不同来区分不同的无人机。分别初始化在步骤S150所构建的三个网络的参数，包括多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c并初始化三个网络的目标网络。最后初始化训练所需的各个超参数。

该步骤包括：初始化训练超参数，包括探索参数∈、无人机训练间隔为E_train，以及最小探索参数∈_end并初始化用于无人机集群训练的多任务多智能体演员—评论家网络π，贡献度评价函数网络Q_c。由于所有无人机共用一套网络，所以初始化一个多智能体主演员网络π、一个全局主Q网络Q_g、一个贡献度评价函数网络Q_c以及对应的三个目标网络共六个网络。

具体过程为：为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Q_g、一个贡献度评价函数网络Q_c，参数分别为θ_π,

分别为N个无人机的三个网络初始化三个目标网络，其结构与这三个网络相同，参数分别为θ′_π,

共6个网络，N个无人机共用这6个网络。初始化探索参数∈＝∈_start、探索参数下降速率∈_step以及最小探索参数∈_end并清空缓存β，初始化无人机训练间隔为E_train。

该步骤的目的与步骤S120类似，初始化训练所需的各个神经网络以及部分超参数。第二阶段为无人机集群训练，共N个无人机，但由于这N个无人机为同质实体，因此共享一个神经网络，根据输入任务的不同来区分不同的无人机。相比课程训练第一阶段，除了处理更多维度的输入以外，还需训练一个额外的贡献度评价函数网络，该贡献度评价函数网络解决了本发明提出的多智能体训练的贡献度分配问题。

无人机集群训练采样步骤S170：

该步骤用于：采集并存储样本用于步骤S160初始化网络的训练。

该步骤包括：通过无人机集群与环境不断交互，采集并存储交互产生的样本，用于步骤S160所初始化的无人机集群网络训练，交互的方式为在每个离散的时刻，所有无人机根据该时刻各自的观察信息执行动作，随后环境信息由于所有无人机的联合动作c_t而发生变化并反馈给各个无人机各自的奖励

下一时刻状态s_t+1以及下一时刻联合观察o_t+1。

具体的：为每个无人机n随机分配一个任务dⁿ，并初始化状态和观察为s₁和

接下来重复执行T步，在每个时间步t，对于每个无人机n，将其观察

和dⁿ输入多智能体主演员网络π，根据输出的动作概率分布采样动作

N个无人机的动作构成联合动作c_t，执行动作c_t，环境信息由于动作的执行而改变并反馈奖励

下一时刻状态s_t+1以及下一时刻联合观察o_t+1并将所有信息组织成转移元组

的形式存入缓存β，其中j_t＝{d¹,d²,...,d^N}是所有无人机的任务的集合，

是所有无人机执行的动作的集合，

是所有无人机观察的集合。

无人机集群训练步骤S180：

该步骤目的为：从缓存中采集样本用于多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c的更新。

对于本发明而言，多智能体主演员网络π是本发明最终需要的网络，其作用为输出无人机需要执行的动作。全局主Q网络Q_g输出全局状态与所有无人机联合动作的状态—动作价值函数。贡献度评价函数网络Q_c输出为贡献度评价函数，与全局主Q网络表示的状态—动作价值函数结合可得到基于贡献度评价函数的多任务多智能体强化学习策略梯度：

贡献度评价函数改进优势函数的计算,其中Π表示联合策略，π^m(a^m|o^m,d^m)表示无人机m执行动作a^m的概率，由多智能体主演员网络输出，

是由全局主Q网络输出的状态—动作价值函数，

表示非实际执行的动作，即无人机m除动作a^m外的所有其它动作。

是优势函数，表示当前执行的动作相比其它任一未执行的动作好坏程度，通常情况下第二项也为状态—动作价值函数，这里替换为贡献度评价函数，实现了作用于多智能体主演员网络更新的贡献度分配。即贡献度评价函数评估无人机m非实际执行的动作

对无人机n的任务完成的贡献大小，并作用于优势函数影响多智能体主演员网络的梯度的计算，贡献度越大，则相应实际执行的动作a^m的贡献度就越小，因此

越小，使得梯度变小，从而相对减小了实际执行的动作a^m被执行的概率。在贡献度价值函数的影响下，各个无人机学习的策略会更多考虑到对无人机集群中其它所有无人机完成任务的影响，从而学得更具有合作性的策略。

该步骤包括：重复执行多次步骤S170以获得足够多的无人机集群与环境交互的数据，随后从缓存中随机采集样本i来执行多轮网络更新：首先利用目标全局主Q网络Q_g计算得来的目标值

来计算损失

使用梯度下降更新全局主Q网络Q_g，该全局主Q网络Q_g具有评价各无人机集群所做动作好坏的作用，其输出用于计算优势函数来辅助多智能体主演员网络π的更新；然后利用目标贡献度评价函数网络Q_c计算得来的目标值

来计算损失

使用梯度下降更新贡献度评价函数网络Q_c，其输出也用于计算优势函数；随后利用全局主Q网络Q_g和贡献度评价函数网络Q_c计算优势函数

使用该优势函数计算多智能体主演员网络更新梯度，即多任务多智能体强化学习策略梯度，并使用梯度上升更新多智能体主演员网络π；最后更新三个目标网络的参数。

具体过程为：重复执行步骤S170共E次，如果∈>∈_end，每次衰减探索参数∈←∈-∈_step，期间每隔E_train次便执行一次智能体训练过程。每次训练过程执行K轮更新，每轮更新执行以下步骤：

1.从缓存β中随机采集S个转移元组

2.更新全局主Q网络Q_g参数，具体如图3所示，包括：

对于每个转移元组i，以及每个无人机n(或任务dⁿ)，使用目标全局主Q网络Q_g计算目标值

其中γ为折扣率，通常为0.99，

由多智能体目标演员网络π获得，对于获得的每个动作

多智能体目标演员网络π输入为

3.计算全局主Q网络Q_g的损失

并利用梯度下降最下化该损失来更新全局主Q网络Q_g参数；

4.更新贡献度评价函数网络Q_c参数，具体如图4所示：对于任意m,n∈[1,N]，使用目标贡献度评价函数网络Q_c计算

由多智能体目标演员网络π获得，多智能体目标演员网络输入为

5.计算贡献度评价函数网络Q_c的损失

并利用梯度下降最下化该损失来更新贡献度评价函数网络参数；

6.计算优势函数，具体如图5所示：

对于每个样本i，利用全局主Q网络Q_g计算得到状态—动作价值函数，对于任意无人机m∈[N]，利用贡献度评价函数网络Q_c计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数，通过如下公式，计算得到关于无人机n的优势函数：

其中，

是由全局主Q网络Q_g计算得来的对无人机集群所有无人机所做的联合动作好坏的评估，

是通过不同无人机m的贡献度评价函数获得不同无人机对该联合动作评估的贡献，

是无人机m的非实际执行动作，即除无人机m事实上执行了的被包含在联合动作c_i中的动作a_m以外的其它任意可执行动作，即假如a_m为左偏转，则

表示前、后、上、下移动和右偏转中的任意动作。因此

表示无人机m所做的实际动作a_m相比于无人机m其它可能动作

对无人机n的任务实现所做的贡献大小，通过其它非实际执行动作的贡献来衰减最终其所做的真实动作的价值。

7.计算多任务多智能体主演员网络梯度，并更新多智能体主演员网络参数，具体如图5所示：如；

使用多智能体主演员网络π计算样本i中各个动作

执行的概率值

其输入为

然后与子步骤(6)计算得到的优势函数计算多任务多智能体主演员网络更新梯度

并利用该梯度更新多智能体主演员网络参数，多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度，是在贡献度评价函数和已有的多智能体强化学习策略梯度基础上推导获得的，

越大，表明无人机m所做贡献越大，因此网络更新后无人机m对应动作被选择概率会提升；

8.更新所有目标网络参数θ′←τθ+(1-τ)θ′。

评估步骤S190：

该步骤的目的为：步骤S180结束后，会得到一个训练完成的多智能体主演员网络π，该网络是最终用于控制无人机集群各无人机的网络，由于强化学习训练的不稳定特性，需对训练后的由多智能体主演网络所控制的无人机集群性能进行评估。

该步骤包括：使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务，评判标准为摧毁任务的完成次数，如不满足要求则重新训练；如满足要求则退出训练，保存多智能体主演网络。

具体为：在无人机集群中，不同的无人机具有不同的任务，多智能体主演员网络π的输入为无人机m的观察与任务，因此通过输入任务的不同控制不同的无人机。在仿真环境中，使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估，共执行100轮评估，每轮评估每个无人机随机初始化一个任务，在每个离散的时刻，所有无人机根据该时刻各自的观察信息，将其输入多智能体主演员网络π，根据输出的动作的概率分布获得一个动作并执行，随后环境信息由于所有无人机的联合动作而发生变化，反馈给各无人机新的观察信息，重复上述过程直到所有无人机任务完成或时间耗尽。如果每个无人机完成其任务，即摧毁所有目标，则表明此轮评估无人机集群成功完成摧毁任务。如果100轮评估结实时成功率达到成功率阈值，例如90％，则退出训练；如果成功率不到成功率阈值，则继续执行步骤S110-S190。

综上，本发明的优点为：

本发明进一步公开了一种基于贡献度评价的无人机集群多任务训练系统，包括存储介质和处理器，

所述存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行上述的基于贡献度评价的无人机集群多任务训练。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上,可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种基于贡献度评价的无人机集群多任务训练方法，其特征在于，包括如下步骤：

环境构建步骤S110：

该步骤包括：构建无人机军事仿真环境，包括需要完成的任务d、任意无人机n的观察信息oⁿ、整个环境的状态信息s、无人机的动作空间以及奖励函数

单无人机训练初始化步骤S120：

初始化单无人机的演员—评论家网络模型，其中演员网络表示策略，输入为无人机m的局部观察o^m与无人机需要完成的任务d，输出为无人机需要执行的动作a^m，评论家网络的输入为独立于无人机的环境状态信息s_env、无人机的坐标s^m、无人机的动作a^m以及无人机需要完成的任务d，输出为状态—动作价值函数

其中s¹＝(s_env,s^m)，最后初始化超参数：包括探索参数∈和训练间隔E_train；

单无人机采样训练步骤S130：

执行动作

随后环境信息在动作的影响下发生变化并反馈给无人机奖励函数

采集的每个样本包括简化后的状态

无人机m的观察

任务d、动作

奖励函数

下一时刻简化后的状态

以及下一时刻无人机的观察

单无人机训练网络训练步骤S140：

无人机m的动作

以及任务d_i，训练标签

由目标评论家根据来源于样本的奖励函数

和下一时刻简化后的状态

和任务d_i，训练标签

无人机集群各无人机网络构建步骤S150：

采样函数扩增的方式，在单无人机训练得到的主评论家网络和主演员网络的基础上来构建无人机集群训练阶段的三个网络，包括多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c，多智能体主演员网络π使用主演员网络构建π¹和前馈神经网络扩增构建，全局主Q网络Q_g以及贡献度评价函数网络Q_c也分别使用主评论家网络Q¹和前馈神经网络扩增构建；

无人机集群训练初始化步骤S160：

无人机集群训练采样步骤S170：

通过无人机集群与环境不断交互，采集并存储交互产生的样本，用于步骤S160所初始化的无人机集群网络训练，交互的方式为在每个离散的时刻t，所有无人机根据该时刻各自的观察信息执行动作，随后环境信息由于所有无人机的联合动作c_t而发生变化并反馈给各个无人机各自的奖励函数

下一时刻状态s_t+1以及下一时刻联合观察o_t+1；

无人机集群训练步骤S180：

重复执行多次步骤S170以获得无人机集群与环境交互的数据，随后从缓存中随机采集样本i来执行多轮网络更新：首先利用目标全局主Q网络Q_g′计算得来的目标值

来计算损失

使用梯度下降更新全局主Q网络Q_g，其输出用于计算优势函数来辅助多智能体主演员网络π的更新；然后利用目标贡献度评价函数网络Q_c′计算得来的目标值

来计算损失

评估步骤S190：

使用多智能体主演员网络π控制无人机集群在仿真环境中多次执行摧毁任务，评判标准为摧毁任务的完成次数，如不满足要求则重新训练；如满足要求则退出训练，保存多智能体主演网络；

其中，所述无人机集群各无人机网络构建步骤S150具体为：

为无人机集群的N个无人机初始化三个网络，分别为多智能体主演员网络π、全局主Q网络Q_g以及贡献度评价函数网络Q_c；

输出层直接与π¹的最后一层隐藏层

和无人机n的任务dⁿ，输出为π¹的输出，即无人机n可执行动作的概率分布；

所述全局主Q网络Q_g由两个前馈神经网络Q¹,

构成，其中Q¹是单无人机训练得来的主评论家网络，

是新初始化的一个隐藏层数量为2的前馈神经网络，

输入为(s^-n,a^-n)，其输出层与Q¹的最后一层隐藏层相连,因此全局主Q网络Q_g的输入为Q¹,

贡献度评价函数网络Q_c由两个前馈神经网络构成Q¹,

其中Q¹是单无人机训练得来的主评论家网络，

是新初始化的一个隐藏层数量为2的前馈神经网络，其输入为s^-n，其输出层与Q¹的最后一层隐藏层相连，贡献度评价函数网络Q_c的输入为Q¹,

所述无人机集群训练初始化步骤S160具体为：为N个无人机初始化一个多智能体主演员网络π、一个全局主Q网络Q_g、一个贡献度评价函数网络Q_c，参数分别为

共6个网络，N个无人机共用这6个网络，初始化探索参数∈＝∈_start、探索参数下降速率∈_step以及最小探索参数∈_end并清空缓存β，初始化无人机训练间隔为E_train；

无人机集群训练步骤S180具体为：

重复执行步骤S170共E次，如果∈>∈_end，每次衰减探索参数∈←∈-∈_step，期间每隔E_train次便执行一次智能体训练过程，每次训练过程执行K轮更新，每轮更新执行以下步骤：

(1).从缓存β中随机采集S个转移元组

(2).更新全局主Q网络Q_g参数，包括：对于每个转移元组i，以及每个无人机n，使用目标全局主Q网络Q_g′计算目标值

其中γ为折扣率，

由多智能体目标演员网络π获得，对于得到的每个动作

对应的多智能体目标演员网络π输入为

(3).计算全局主Q网络Q_g的损失

并利用梯度下降最下化该损失来更新全局主Q网络Q_g参数；

(4).更新贡献度评价函数网络Q_c参数，对于任意m,n∈[1,N]，使用目标贡献度评价函数网络Q_c′计算

(5).计算贡献度评价函数网络Q_c的损失

(6).计算优势函数，对于每个样本i，利用全局主Q网络Q_g计算得到状态—动作价值函数，对于任意无人机m∈[N]，利用贡献度评价函数网络Q_c计算得到无人机m的非实际执行的动作关于无人机n任务完成的贡献度评价函数，通过如下公式，计算得到关于无人机n的优势函数：

其中，

是无人机m的非实际执行动作；

(7).计算多任务多智能体主演员网络梯度，并更新多智能体主演员网络参数，使用多智能体主演员网络π计算样本i中各个动作

执行的概率值

其输入为

并利用该梯度更新多智能体主演员网络参数，多智能体主演员网络π更新梯度即为基于贡献度评价函数的多任务多智能体强化学习策略梯度；

(8).更新所有目标网络参数θ′←τθ+(1-τ)θ′。

2.根据权利要求1所述的多任务训练方法，其特征在于，

所述环境构建步骤S110具体为：

设定无人机的任务d,任务d取值为目标的坐标位置(x_d,y_d,z_d),对于无人机集群中的任意无人机n，无人机的观察信息为

其中

表示无人机n自身的坐标位置

表示其它所有无人机与无人机n的相对位置

sⁿ为无人机n自身的坐标位置

s^-n为其它所有无人机的坐标位置

无人机的奖励函数

3.根据权利要求2所述的多任务训练方法，其特征在于，

单无人机训练初始化步骤S120具体包括如下子步骤：

其中s¹是简化后的状态信息，为除去与其它无人机无关的部分，即s¹＝(s_env,s^m)；主演员网络π¹和目标演员网络输入为无人机m的局部观察

4.根据权利要求3所述的多任务训练方法，其特征在于，

所述单无人机采样训练步骤S130具体为：

随机分配一个任务d给无人机m，并初始化简化后的状态和观察为

和

重复执行T步以下的交互，具体在每个时间步t，将无人机m的观察

执行动作

环境信息发生变化，无人机m获得环境反馈的奖励函数

下一时刻状态

以及下一时刻观察

5.根据权利要求4所述的多任务训练方法，其特征在于，

所述单无人机训练网络训练步骤S140具体为：

重复执行步骤130共E次，如果∈>∈_end，每次衰减探索参数∈←∈-∈_step，期间每隔E_train次便执行一次智能体训练过程，每次训练过程执行K轮更新，每轮更新执行以下步骤：

(1).从缓存β中随机采集S个转移元组

(2).使用目标评论家网络针对每个样本i计算目标值

其中γ为折扣率，取值为0.99，

为采样得到的转移元组中的数据，

由目标评论家网络计算获得，

由目标演员网络获得，目标演员网络输入为

(3).计算主评论家网络损失

由主评论家网络获得；

(4).使用主评论家网络和主演员网络计算优势函数

其中

表示智能体，也就是无人机m除

以外的其它可执行动作；

(5).计算主演员网络更新梯度

并利用该梯度更新主演员网络参数；

6.根据权利要求5所述的多任务训练方法，其特征在于，

无人机集群训练采样步骤S170具体为：

为每个无人机n随机分配一个任务dⁿ，并初始化状态和观察为s₁和

N个无人机的动作构成联合动作c_t，执行动作c_t，环境信息由于动作的执行而改变并反馈奖励函数

是所有无人机执行的动作的集合，

是所有无人机观察的集合。

7.根据权利要求6所述的多任务训练方法，其特征在于，

所述评估步骤S190具体为：

使用由多智能体主演网络π控制的无人机集群执行目标摧毁任务以对网络性能进行评估，共执行100轮评估，每轮评估每个无人机随机初始化一个任务，在每个离散的时刻，所有无人机根据该时刻各自的观察信息，将其输入多智能体主演员网络π，根据输出的动作的概率分布获得一个动作并执行，随后环境信息由于所有无人机的联合动作而发生变化，反馈给各无人机新的观察信息，重复上述过程直到所有无人机任务完成或时间耗尽；如果每个无人机完成其任务，即摧毁所有目标，则表明此轮评估无人机集群成功完成摧毁任务，如果100轮评估结束时成功率达到成功率阈值，则退出训练；如果成功率不到成功率阈值，则继续执行步骤S110-S190。

8.一种基于贡献度评价的无人机集群多任务训练系统，包括存储介质和处理器，

所述存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的基于贡献度评价的无人机集群多任务训练方法。