CN114415735B

CN114415735B - 面向动态环境的多无人机分布式智能任务分配方法

Info

Publication number: CN114415735B
Application number: CN202210329745.7A
Authority: CN
Inventors: 窦立谦; 刘达; 张睿隆; 张哲宇; 张秀云
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-14
Anticipated expiration: 2042-03-31
Also published as: CN114415735A

Abstract

本发明公开了面向动态环境的多无人机分布式智能任务分配方法，包括：建立动态任务分配模型，基于无人机的请求策略建立随机博弈模型，基于无人机的应答策略建立马尔科夫决策模型，实现动态任务分配态势的实时表达；根据动态任务分配模型搭建请求网络与应答网络；在Actor‑Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络，基于深度Q网络搭建无人机的应答网络；基于优先经验回放方法从经验数据库收取数据，通过反向传播算法对请求网络与应答网络进行权值更新；基于请求网络和应答网络对动态环境下的任务实时分配。本发明采用上述方法，具有较好的实时决策能力，在无人机种类和数量上具有较高的可扩展性，可适用于更大规模的无人机集群。

Description

面向动态环境的多无人机分布式智能任务分配方法

技术领域

本发明涉及无人机技术领域，尤其是涉及一种面向动态环境的多无人机分布式智能任务分配方法。

背景技术

随着无人机技术的快速发展，大规模无人机集群逐渐成为了重要的研究方向，旨在促进多无人机系统在不确定、危险的环境中协同完成各种任务的能力。其中，任务分配方法对无人机集群能否高效完成任务起到了关键性的作用。

多无人机系统的任务分配本质上是一个组合优化问题，其存在以下约束条件：异构无人机存在不同的能力；不同任务由不同无人机执行会产生不同成本或者收益；新增任务时间存在不确定性；任务需要不同能力的无人机合作完成。因此，在多无人机系统中如何快速、高效的完成任务分配是一个具有挑战性的工作。目前解决任务分配的方法主要有两种：集中式的和分布式。

集中式任务分配方法中，无人机集群的信息交流、信号传输和控制指令都是由一个控制中心发出的，使大量的计算任务都由地面站来完成，无人机只需进行轻量化设计。但是，集中式方法在进行任务分配时需要感知全局信息，在动态的战场环境中获取全局信息难度较高，并且随着无人机数量增多，任务分配的实时性也会下降。此外，集中式方法对地面战的依赖过于严重，一旦地面站遭受破坏，任务便无法继续进行。

分布式任务分配方法相对于集中式方法来讲，可以适应于更大规模的无人机集群，在实时性上有更好的优势。此外，基于分布式任务分配的多无人机系统由于不依赖地面站，对于任务场景的适应性更强。在执行任务的过程中，无人机可以根据自身状态与其他无人机通信进行决策，使得整个系统鲁棒性更强。目前，分布式任务分配方法中，基于一致性包分配算法为无人机任务分配提供了一种可行的方案，但是在处理动态任务的过程中需要重新进行任务分配，忽略了前期任务分配方案已达到无冲突的情况，浪费了之前的计算和通信资源。基于博弈论的方法，为无人集群的任务分配问题提供了一种自主决策框架，使得部分无人机可以适应于新增任务，其他无人机无需重新更换任务，可以适应于大规模无人机系统，但是仍然需要依赖全局无人机的通信。

因此，目前的分布式任务分配算法中存在以下问题：1）在任务重分配前忽略了无人机之间的无冲突状态，导致计算资源与通信资源的浪费；2）基于拍卖和博弈的动态任务分配方法仍然需要所有无人机全局通信，导致系统需要承担较大的通信负载。

发明内容

为了能够解决以上问题，本发明基于深度强化学习设计了双向请求动态任务分配方法，使得多无人机系统在只需局部通信的条件下重新分配部分无人机来满足动态任务需求，提高动态任务重分配的实时性，更好的利用无人机集群的现有资源。

为实现上述目的，本发明提供了如下技术方案：

面向动态环境的多无人机分布式智能任务分配方法，操作如下：

建立动态任务分配模型；基于无人机的请求策略建立随机博弈模型，基于无人机的应答策略建立马尔科夫决策模型，实现动态任务分配态势的实时表达；

根据动态任务分配模型搭建请求网络与应答网络；在Actor-Critic框架下搭建基于深度长短期记忆网络的无人机的请求网络，基于深度Q网络搭建无人机的应答网络；

训练请求网络与应答网络；基于优先经验回放方法从经验数据库收取数据，并使用时序差分误差来衡量经验的学习价值，然后通过反向传播算法对请求网络与应答网络进行权值更新；

基于请求网络和应答网络对动态环境下的任务实时分配。

优选的，所述无人机在执行新增任务需要满足如下约束条件和性能指标，

约束条件一：

约束条件二：

性能指标：

其中，

表示参与新增任务的无人机数量，

、

、

、

分别表示第

架无人机的打击能力、侦查能力、抗干扰能力、通讯能力，

、

、

、

分别表示新增任务

所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力，

表示第

架无人机到达新增任务的距离，

表示执行新增任务的无人机集群的各项总能力与新增任务所需的各项总能力的差值，

为预设阈值。

优选的，所述随机博弈模型中，针对请求无人机定义了状态集

、动作集

、立即收益

、状态转移概率

和折扣因子

，请求无人机需满足如下条件：

状态空间：

动作空间：

立即收益：

状态转移概率：

折扣因子：

其中，

表示是否向第

架应答无人机发送任务请求--是代表

、否代表

，

为奖励值，

为距离系数，

为第

架无人机完成新增任务的概率。

优选的，所述马尔科夫决策模型中，针对应答无人机定义了状态集

、动作集

、立即收益

、状态转移概率

和折扣因子

，请求无人机需满足如下条件：

状态空间：

动作空间：

立即收益：

状态转移概率：

折扣因子：

其中，

、

、

、

分别表示第

架无人机当前任务所需要的打击能力、侦察能力、抗干扰能力与通信能力，

、

分别表示新增任务和当前任务的重要程度/紧急性信息，

表示无人机参与到新增任务中所需要的燃油消耗，

表示无人机选择重要程度较高的任务时会获得奖励，

为经验系数。

优选的，所述请求网络细分为决策网络和评价网络，二者均由双向LSTM网络和一个全连接层网络组成，均包括一层双向LSTM网络层、两层全连接层、一层输出层构成；决策网络的输入为状态空间

，输出为是否向无人机发送任务请求；评价网络的输入为状态空间

、动作空间

，输出为获得的期望回报总收益

；

所述应答网络为全连接网络，包括一层输入层、三层隐藏层和一层输出层，应答网络输入为新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗，输出为参与到新增任务所获得期望收益

，根据贪婪策略决策是否参与新增任务；

所述请求网络和所述应答网络的隐藏层均采用非线性激活函数ReLu函数。

优选的，所述请求网络中，每个LSTM单元对应一个无人机，网络的不同节点参数共享，使得相邻无人机之间信息共享。

优选的，所述决策网络通过随时间反向传播的梯度下降方法最小化梯度更新决策网络的权值参数，评价网络采用差分误差作为损失函数。

优选的，所述请求网络训练过程中，使用重要性采样方法来修正优先经验回放方法带来的偏差。

本发明的面向动态环境的多无人机分布式智能任务分配方法，将前沿的智能方法与动态环境中的任务分配结合起来，具备如下优势：

（1）解决了基于博弈论等任务分配算法需要全局通信的问题。在动态任务的需求下，请求无人机只需要根据任务需求定向发布任务请求，无需向全局无人机发送任务请求，减少了通讯资源浪费；

（2）具有较高的实时性与可扩展性。请求网络基于长短期记忆网络设计，不仅为无人机提供信息交流的通道，而且能够在无人机数量变化的情况下定向对其他无人机发送任务请求；应答网络采用共享参数的方法，提高了应答策略的可扩展性。此外，请求-应答网络是根据经验数据进行端到端的学习和训练，动态环境下在线任务分配时，神经网络仅需要前向计算，具有较高的实时性；

（3）本发明在设计基于多无人机强化学习的请求策略时，使用经验的差分误差作为衡量经验数据质量的指标，差分误差较大的经验数据代表此类经验数据价值更高，需要无人机去学习，采用优先经验回放的方法优先提取这些数据进行训练，提高了算法的收敛速度。

附图说明

图1为本发明实施例的总体流程图；

图2为本发明实施例中任务分配总体流程图；

图3为本发明实施例中请求无人机决策网络结构；

图4为本发明实施例中请求无人机评价网络结构；

图5为本发明实施例中长短期记忆神经网络结构图；

图6为本发明实施例中ReLu函数示意图；

图7为本发明实施例中应答网络结构图；

图8为本发明实施例中迭代训练环节每个回合总收益变化过程；

图9为本发明实施例中平均收益随无人机规模变化图；

图10为本发明实施例中不同无人机规模下的任务决策结果的适应度值。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

无人机集群在城市上空针对固定目标执行任务，如打击与侦察等等。每个任务需要无人机具有对应的能力，并且能够独立执行。无人机集群进行初始分配之后出现了新增任务（动态任务），无人机集群中的一部分无人机需要到达新增任务地点，完成该任务。任务流程如下所示：

1）任务请求：在分布式的无人机空战中，发现新增任务的无人机为请求无人机，该无人机针对新增任务信息，向其他无人机（应答无人机）定向发送任务信息；

2）任务应答：应答无人机针对收到任务信息的重要性/紧急性、燃油消耗等信息，对新旧任务进行评估，然后向请求无人机发送应答信息（是否参与到新增任务中去）；

3）任务决策：考虑燃料消耗为主要指标，请求无人机基于接收到应答信息决策参与到新增任务的无人机序列。

以上三个部分不断迭代，直到不再产生新增任务。

基于上述任务分配流程，本实施例中提供面向动态环境的多无人机分布式智能任务分配方法，具体操作详见下文。

定义无人机所需要的变量并描述约束条件、性能指标。

1、定义变量。

定义

是区域内初始任务目标，其中

表示该区域内第

个任务并被异构无人机群

执行。不同的任务具有的任务属性不同，以任务目标

为例，

分别表示完成任务目标

所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力。定义

为在该区域内新增任务目标，需要注意的是在复杂不确定动态博弈环境中，新增任务的重要程度/紧急性、任务位置和任务需求都是随机的。

定义

表示该区域内共有

架

种类型的无人机，每种类型无人机都是由i架同类型的无人机组成，即

。每种类型的无人机都具备不同的能力属性，

表示第

类无人机的打击能力、侦查能力、抗干扰能力以及通讯能力。不同能力的无人机构成了异构无人机集群多样性，也增加了任务分配的复杂性，如异构无人机群

可能由无人机

组成。在动态环境中需求发生变化或者出现新增任务

后，定义请求无人机为

，收到请求后的应答无人机为

，应答回复为

，其中

，

表示第

架应答无人机不同意执行该新增任务，

表示第

架应答无人机同意执行该新增任务。

2、约束条件。

在满足现有任务需求外，要求对需求发生变化或者新增任务，执行此任务的异构无人机群具备的总打击能力、总侦查能力、总抗干扰能力以及总通讯能力均要大于完成该任务所需的各项能力，为了避免无人机在飞往任务目标过程中耗费过多燃料，执行任务的无人机与任务目标的距离需要尽量小，即：

（1）

（2）

其中，

表示参与新增任务的无人机数量，

表示第

架无人机与新增任务之间的距离。

3、性能指标。

在此基础上，考虑到区域内的无人机总数是不变的，可以执行任务的无人机资源是有限的，为了防止执行新增任务的无人机出现资源浪费的情况，建立如下性能指标函数。针对新增任务需求，要求执行该任务的异构无人机集群的各项总能力与执行该新增任务所需的各项总能力的差值必须小于某一阈值，以防止执行该任务的无人机发生资源浪费的情况，即：

（3）

其中，

为定义的预设阈值，具体

设定可以根据任务的具体需求进行调整。

建立动态任务分配模型。

针对基于多无人机强化学习算法的请求策略建立随机博弈模型，然后针对无人机的应答策略建立马尔科夫决策模型，实现动态任务分配态势的实时表达。

1.建立请求无人机的随机博弈模型。

1）状态空间

：

状态空间主要包括新增任务对于无人机能力需求与当前无人机的总能力。

（4）

其中，

代表动态任务所需的总打击能力、总侦察能力、总干扰能力、总通信能力，

代表各个无人机的打击能力、侦察能力、抗干扰能力、通信能力。

2）动作空间

：

请求无人机的动作为是否向某个无人机发送任务请求，定义如下：

（5）

其中，

表示是否向第

个无人机发送任务请求，如果向第

个无人机发送任务请求则

，反之

。

3）立即收益

：

（6）

其中，

为训练过程中根据专家经验设置的奖励值，

为所有待应答无人机到达动态任务的距离之和，

为距离系数。

4）状态转移概率

：

状态转移概率

的定义为无人机在状态

下执行动作

到达状态

的概率，公式如下：

（7）

其中，

为所请求的第

个无人机完成新增任务的概率。

5）折扣因子

折扣因子是用来衡量未来收益对于当前累计收益的重要程度的，当

时，意味着只考虑当前回报收益而不考虑未来回报收益，

时，意味着未来回报收益和当前回报收益的重要程度相同。在新增任务分配中，我们期望尽可能单步完成向其他无人机的任务请求，因此本发明中

。

通过以上对请求无人机的随即博弈模型描述，定义了状态集、动作集、立即收益以及状态转移概率和折扣因子，因此请求无人机的请求策略可以描述为在新增动态任务时，动态任务的总需求为

，请求无人机通过请求网络计算最优的请求对象

，向请求对象发送任务请求，并获得立即收益

，应答无人机进行应答后，此时动态任务的需求发生变化，请求无人机根据新的总需求以及其他无人机的总能力，再一次决策最优请求对象，直到满足新增任务需求。

2.建立马尔可夫决策模型。

1）状态空间

：

应答无人机的状态空间主要包括新增任务的任务需求、当前任务的任务需求、无人机自身能力、任务的重要程度/紧急性、燃油消耗等因素。

第

架无人机的状态可以表示为：

（8）

其中，

表示新增任务所需要的各项能力要求，

表示无人机

正在执行的任务所需要的各项能力要求，

表示无人机

具有的各项能力。

分别表示新增任务和当前任务的重要程度/紧急性信息，

表示应答无人机参与到新增任务中所需要的燃油消耗。

2）动作空间

：

应答无人机的动作为是否接受请求无人机的任务请求，可以表示为：

（9）

其中，

表示拒绝新增任务，

表示接受新增任务。

3）立即收益

：

为了让应答无人机能够优先执行重要程度更高的任务，因此应答无人机的奖励函数定义如下：

（10）

其中，

表示应答无人机选择重要程度较高的任务时会获得奖励，

为根据专家经验设计的经验系数，当应答无人机满足请求无人机的新增任务时获得

的奖励，即无人机选择任务紧急性更高、距离更近的任务会收到更高的奖励，若不满足以上条件则获得-1的奖励。

4）状态转移概率

：

将应答无人机实际完成动态任务和当前任务的效率

作为状态转移概率

，即：

（11）

5）折扣因子

：

与请求无人机类似，折扣因子

。

通过以上对应答无人机的马尔科夫决策关键要素的定义，应答无人机的任务决策过程可以描述为应答无人机

在接受到请求无人机的任务请求时，根据无人机自身能力、当前任务、新增任务的任务需求、重要程度以及参与到新增任务的距离成本等状态信息，决策是否加入到新增任务中去，并获得立即收益

，并且根据后续任务分配结果，获得应答无人机的下一个状态。

搭建请求网络与应答网络。

请求网络用来计算动态任务到达后，请求无人机的最优请求对象；应答网络用来计算应答无人机是否加入到新增任务中去。

1.请求网络建立。

请求网络中的Actor网络与Critic网络设计如图3、图4所示。在Actor-Critic框架下搭建基于深度长短期记忆网络的请求模型，其中的双向长短期记忆网络如图5所示。每个LSTM单元对应一个无人机，网络的不同节点参数共享，这样不仅提高训练速度，也使得相邻无人机之间的信息共享，为多无人机的信息融合提供了通道，并且模型能够在小规模无人机集群中进行训练，即便请求无人机周围的无人机数目发生变化，也不影响无人机决策结果。

决策网络（Actor网络）与评价网络（Critic网络）均由一层双向LSTM网络层、两层全连接层、一层输出层构成。决策网络的输入为状态

，输出为是否向该无人机发送任务请求。评价网络的输入为状态

、动作

，输出为获得的期望回报总收益

，因此输出维度为1。

上述决策网络及评价网络的隐藏层中均采用非线性激活函数ReLu函数，如图6所示，使得网络可以更好的拟合输入与输出的关系。

（12）

其中，

分别为网络权重、偏差，相比于sigmoid函数和tanh函数等传统的网络激活函数，ReLu函数具备以下几方面的优势：1）具备相应的类脑仿生物学原理，关于大脑方面的相关研究表明生物神经元的信息编码通常是分散及稀疏的。这说明通常情况下在同一时间内，大脑中约有1%到4%的神经元处于活跃状态。而ReLu函数可以对神经网络中神经元的活跃度（即输出为正值）进行调试，使其符合实际生物学对模拟神经网络的要求；2）实现了更高效率的梯度下降及反向传播，有效避免了梯度爆炸和梯度消失问题；3）形式简单，使得神经网络的整体计算成本下降。

决策网络的输出层采用softmax函数，以概率的方式将多个神经元的输出映射到

区间内，从而进行决策。评价网络输出层采用线性函数。

2.应答网络建立。

在请求无人机发出任务请求后，接受到请求的无人机根据自身状态与任务信息决策是否参与到新增任务中去。应答网络结构设计如图7所示，借鉴DQN算法的思想采用全连接神经网络拟合动作评价函数，该网络输入新增任务的任务需求、应答无人机当前任务的任务需求、应答无人机自身能力、任务的重要程度/紧急性、燃油消耗等信息，输出参与到新增任务所获得期望收益，根据贪婪策略决策是否参与到新增任务中去。

由于应答网络的任务是拟合在状态

下，未来所有动作所获得期望收益值，因此采用全连接网络进行设计，第一层为输入层，其次为3层隐藏层，最后一层为输出层。输入层的维度与状态

的维度保持一致；输出层的维度为2，即是否同意参与执行新增任务的两个动作的

值。

网络中隐藏层和输出层均采用ReLu非线性激活函数，使得网络可以更好的拟合输入与输出的关系。

请求网络与应答网络离线训练。

完成请求网络与应答网络的结构设计之后，需要设计反向传播算法对两个网络进行权值更新。

1.请求网络的离线训练。

1）决策网络权值训练更新

采用深度强化学习对请求网络进行训练，其目标是学习到请求无人机向其它无人机发送任务请求的最佳请求策略，使请求无人机的累积回报最大化，其表达式如下：

（13）

其中，

表示请求无人机网络权值，可以通过随时间反向传播的梯度下降方法最小化梯度

更新决策网络的权值参数，梯度

表达式如下：

（14）

其中，

为评价网络的

值。

2）评价网络权值训练更新

评价网络采用差分误差作为损失函数，这样可以学习经验数据的一部分，而无需使用整个回合的数据作为更新训练的样本。损失函数表达式如下：

（15）

其中，

为评价网络近似得到的累计期望收益值，

为请求无人机获得的立即收益。

评价网络用来评估策略网络的请求策略获得的累计期望收益值。

在训练策略网络与评价网络的过程中，需要不断的从经验数据库中获得历史数据。传统的强化学习一般采用随机经验回放方式提取数据，这样能够有效打破数据的相关性，但是不同的经验数据用于训练模型得到的效果是不一样的，有的经验数据具有更高的学习价值，因此采用优先经验回放方法对重要的经验样本优先提取，并训练模型，使得请求无人机在学习的过程中优先学习具有较高价值的历史数据，来提高学习速度。

在经验回放中，差分误差可以用来衡量经验数据的优先级。经验样本被采样的概率表达式如下：

（16）

其中，

为经验数据的优先级，

对应于采用多少的经验回放，

表示采用随机采样，

趋近于1时，表示差分误差较大的经验数据被采集的概率增加，

表示TD误差，

为一个很小的正数，避免TD误差为零的情况。

当采用优先经验回放更新决策网络和评价网络时，评价网络准确估计Q值依赖于经验的正态分布，而优先经验回放打破了这种分布，带了偏差。因此，采用重要性采样方法来修正优先经验回放带来的偏差，其表达式如下：

（17）

其中，

代表无人机总数，

时能够完全补偿优先经验回放带来的偏差。

2.应答无人机离线训练。

基于建立的应答无人机与任务交互的MDP（马尔科夫决策模型）和应答网络，在与仿真环境交互的过程中，将交互得到的经验数据存储到经验数据库中，并通过优先经验回放的经验数据提取方式对应答网络参数进行更新迭代。更新过程中，采用应答网络的输出值

近似目标

，需满足

（18）

最小。根据贝尔曼最优方程

（19）

可得到应答无人机应答网络的参数更新公式：

（20）

其中，

表示学习率，

为目标

值，

为神经网络输出

值。

考虑到训练网络所用的经验数据之间具有相关性，为了防止网络训练过程收敛不平稳，设计目标决策网络和目标评价网络，用来输出目标

值。

（21）

其中，时序差分误差

，采用Double Q-Learning的网络更新方法, 避免

值的过估计。

模型评估。

为了验证本发明提出的异构无人机动态任务分配算法的收敛性与有效性，本部分首先给出了本发明所使用的仿真环境与参数，然后比较了采用优先经验回放和不采用优先经验回放机制对于网络的收敛性能影响，最后通过对比联盟博弈任务分配算法与本发明方法，验证了本发明对于异构大规模无人集群动态任务分配的有效性。

1.仿真参数环境与参数。

该仿真是在Windows操作平台下进行，其中任务决策算法采用python语言和Facebook开发的Pytorch工具包实现编写。任务决策算法中请求无人机决策网络及评价网络由双向LSTM网络和一个全连接层网络组成，包含隐藏层2层，每个隐藏层节点数为100；应答无人机评价网络由全连接层网络组成，包含隐藏层3层，每个隐藏层节点数为100。在训练过程中，定义折扣因子

，网络的学习率为

，目标网络的软更新率为

；经验数据库

的大小为

，同时每50时间步从经验数据库

批量提取64条的数据用于网络训练。

表1 无人机的能力

在仿真实验中，假设区域内存在5种不同类型的任务无人机，每类无人机具备的打击能力、侦查能力、抗干扰能力以及通讯能力如表1所示。为了模拟动态环境不确定对无人机执行任务效率的影响，假设不同无人机执行任务的效率

满足正态分布

的随机变量。为了评估任务决策的效能，式（3）中的阈值

设为45，表明在新任务执行的过程中，允许分配一个冗余的无人机，这一参数的设定即保证了新增任务的执行，又可以有效避免无人机资源的浪费。如果满足这一要求，则判定任务决策结果有效。

在仿真初始化阶段，假设区域内存在10个任务目标，任务目标所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在

范围内随机生成，任务重要程度在

范围内随机生成，初始任务决策采用粒子群方法，并假设每项任务已经执行了一段时间（执行任务的无人机数量产生冗余）。设定新增任务

所需的总打击能力、总侦查能力、总抗干扰能力和总通讯能力在

范围内随机生成，任务重要程度在

范围内随机生成。

2. 验证迭代训练环节。

根据上面所描述的动态环境中任务决策场景，为了显示迭代训练环节的有效性，图8给出了迭代训练环节每个回合总收益变化过程。如图所示，在4000回合之前，我们可以看到迭代训练过程中每回合获得的总收益随着训练回合数的增加持续上升，表明任务分配效果持续变好；在4000回合之后，每回合总收益保持稳定，表明任务分配的策略已经趋于稳定。同时，图8还与随机经验回放迭代更新算法进行了对比，可以看出，由于提高了对价值高的经验的利用效率，采用优先经验回放方法的迭代更新算法比采用随机经验回放方法的迭代更新算法的收敛速度更快。

3.验证在线决策环节。

为了验证所提分布式大规模异构无人集群任务决策方法的有效性，在上述仿真场景，将训练好的请求无人机请求网络和应答无人机应答网络用于在线任务决策当中，随机给定新增任务属性并且持续增加区域内无人机的规模，仿真结果如图9所示。

由式（6）可知，在请求无人机进行任务决策的过程中，请求无人机更希望请求距离更近且能力与任务需求相适应的无人机来执行任务，若出现向能力与任务需求不相适应的无人机发送任务请求，那么请求无人机将获得-10的立即回报收益值，表明该决策是不正确的。由式（10）可知，接受到请求的应答无人机，若新增任务的重要程度大于当前任务，那么执行新增任务将会获得

的正回报收益值，反之回报收益值为负。若最终的大规模异构无人机集群任务决策结果满足式（3），那么请求无人机与应答无人机都会获得15的立即回报收益值。由于本方案是一种分布式任务决策方法，因此在图9中，采用平均收益值来衡量任务决策算法的好坏。从图中可以看出，整个过程平均收益值范围在50-80之间。说明对于大规模的无人机集群，该方法可给出合理有效的任务决策方案，证明了该方法的有效性。

为了进一步验证所提算法的优势，将基于联盟博弈任务决策方法作为对照组，进行仿真对比试验。在任务决策方法中过，基于约束与性能指标函数的适应度值（Fitness）通常用于描述决策结果的有效性，因此这里也采用适应度值对两种方法的任务决策结果进行评估。基于式（1）-（2）的约束条件和式（3）性能指标函数，定义适应度值为：

（22）

其中，

表示评估第

个任务决策结果的性能指标函数，

，

，

和

为罚函数，定义如下：

其中，

是各个任务对应的性能指标函数的权值，可以根据任务的重要程度进行调整，

则是每项任务需求对应的罚函数权值。这里，

的值设置为任务的重要程度

，

的值设置为

。根据适应度式（22）和临界值

的大小，可获得FIT值的范围，为[-28,0]。

同样，假设区域内存在10个任务目标，并且在执行一段时间后，区域内新增任务

。图10给出FIT值随无人机数量增加的散点图。从图中可已看出，本发明分布式智能任务决策方法与联盟博弈任务决策方法均能获得较为满意的任务决策结果，但随着无人机数量的增加，联盟博弈任务决策方法会出现任务决策结果无法满足约束条件，而分布式智能任务决策方法能够对大规模无人机集群进行满意的任务决策。给出了两种方法的实时性对比，如表2所示，得益于分布式任务决策架构，本发明的分布式智能任务决策方法具有较好的实时决策能力。因此，分布式智能任务决策方法要比联盟博弈任务决策方法更好，验证了所提方法的有效性。

表 2 不同无人机规模下的任务决策花费时间（单位:s）

以上是本发明的具体实施方式，但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求书所限定的保护范围为准。