CN113467508A

CN113467508A - 面向围捕任务的多无人机智能协同决策方法

Info

Publication number: CN113467508A
Application number: CN202110736916.3A
Authority: CN
Inventors: 宗群; 张睿隆; 赵欣怡; 窦立谦; 张秀云
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-01
Anticipated expiration: 2041-06-30
Also published as: CN113467508B

Abstract

本发明涉及强化学习、传统控制和多智能体等领域，为提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法，考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响，采用多智能体确定性策略梯度方法和避障机制，获得最优行动策略，达到多无人机智能协同决策的目的，本发明，面向围捕任务的多无人机智能协同决策方法，首先基于比例控制和避障机制建立初步决策方案，随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进，获得最优行动策略，最后，在线应用优化后的网络实时给出决策结果，完成面向围捕任务的多无人机任务决策。本发明主要应用于多无人机智能协同场合。

Description

面向围捕任务的多无人机智能协同决策方法

技术领域

本发明涉及强化学习、传统控制和多智能体等领域，尤其涉及一种面向围捕任务的多无人机智能协同决策方法。具体涉及面向围捕任务的多无人机智能协同决策方法。

背景技术

多无人机围捕任务需要己方若干架无人机协同合作，完成对对方移动目标的围追捕获，这一任务很好地体现了己方无人机之间的合作关系以及与对方无人机之间的对抗作用，能够有效验证智能协同方法的有效性。在多无人机围捕任务中，无人机的位置和速度随着对方目标的行动轨迹不断变化，此时己方无人机需要根据实时情况进行动态决策，同时随着无人机数量的增多，环境内的动态性和不确定性会急剧增加，任务决策问题的难度也变得更大。因此，对于面向围捕任务的多无人机任务决策问题来说，存在如下几个难点：1)考虑到多无人机围捕的任务特点，整个任务环境是一个动态变换的复杂过程，这对无人机的单步决策速度提出了更高的要求；2)由于决策主体为任务区域内的无人机，因此各无人机在围捕过程中仅能根据自身的观测状态进行决策，这种部分状态可观测性的特点会影响决策结果的有效性和准确性；3)围捕过程中，环境中存在外界干扰等不确定因素的影响，这也大大增加了多无人机的决策难度。因此，综合考虑环境动态性、部分状态可观测性和不确定因素的影响，研究有效的多无人机智能决策方法，对于解决面向围捕任务的多无人机分布式任务决策问题十分必要。

多智能体确定性策略梯度算法(Multiagent Deep Deterministic PolicyGradient，MADDPG)是2017年美国OpenAI的Ryan Lowe提出的一种多智能体强化学习方法。该方法采用中心式评价-去中心式决策结构，分别建立中心式评价网络与去中心式决策网络，其中评价网络在离散训练过程中可以接收所有无人机的观测状态，而决策网络则只接收其自己的观测状态，这一结构可以有效解决环境动态性带来的不平稳问题。为此，本专利在该方法的基础上，进一步考虑无人机之间以及与障碍物之间的避碰避障约束，提出基于多智能体确定性策略梯度与避碰机制的多无人机智能决策算法解决多无人机围捕问题。

发明内容

为克服现有技术的不足，本发明旨在提出一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。具体而言，考虑状态部分可观测的特点、任务环境动态性与不确定性因素的影响，采用多智能体确定性策略梯度方法和避障机制，获得最优行动策略，达到多无人机智能协同决策的目的。为此，本发明采取的技术方案是，面向围捕任务的多无人机智能协同决策方法，首先基于比例控制和避障机制建立初步决策方案，随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进，获得最优行动策略，最后，在线应用优化后的网络实时给出决策结果，完成面向围捕任务的多无人机任务决策。

第一部分，建立初步决策方案，即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度：首先，由于区域内存在若干静态障碍物，为安全考虑，无人机在飞行过程中不能与障碍物碰撞，考虑这一约束，采用人工势场法获得可以避免无人机撞向障碍物的加速度分量；其次，考虑到己方无人机之间、对方无人机之间均不能发生碰撞，同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量；再次，考虑己方无人机想要短时间内尽快完成围捕任务的目标，采用比例控制方法尽可能缩短两者之间的距离与速度差；最后考虑双方无人机的最大速度限制，当己方或对方无人机的飞行速度超过最大速度时，对其进行修正，最终根据得到的加速度分量，计算每一架己方无人机的初步飞行加速度获得初步决策方案；

第二部分，改进决策方案，即采用多智能体强化学习方法通过评价改进的方式优化决策结果：首先，考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标，建立随机博弈模型SG，即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子；然后，基于中心式评价-去中心式决策的结构，利用神经网络拟合特性，建立评价网络与决策网络，分别用来输出当前决策结果与此时可能获得的平均总收益值；最后，在与仿真环境的交互过程中，采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数，通过评价网络的输出指导决策网络的决策结果，通过一致经验回放机制，抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果，最终获得最优行动策略；

第三部分，在线决策，即利用训练好的网络进行实时决策：通过前两部分完成离线学习过程之后，评价网络和决策网络的网络参数也被确定下来，此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略，考虑到实际任务执行过程中的无人机仅能观测到部分状态，这时需要全局状态信息和动作信息作为输入的评价网络将无法应用，因此对于待解决的多无人机围捕任务，己方各无人机采用去中心式决策结构，即仅将离线学习后得到的决策网络用于在线环节，在存在环境不确定影响的真实任务环境中，最终实现多无人机分布式实时任务决策。

详细步骤如下：

第一步，建立初步决策方案，即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度。

首先给出多无人机围捕问题中，己方各架无人机需要满足的约束条件和性能指标函数：

1)速度约束

||v_i||≤v_maxI,||v_j||≤v_maxJ (1)

其中v_i和v_j分别表示己方无人机和对方无人机的速度，i∈[1,N_I]，j∈[N_I+1,N_I+N_J]，N_I和N_J分别为任务区域内的己方和对方无人机总数，v_maxI和v_maxJ分别表示己方无人机和对方无人机的最大速度；

2)避碰避障约束

Δp_ik＞d_outI,Δp_jk＞d_outJ (2)

其中Δp_ik＝||p_i-p_k||,Δp_jk＝||p_j-p_k||，分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离，p_i，p_j和p_k分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置，i∈[1,N_I]，k∈[1,N_K]，j∈[N_I+1,N_I+N_J]，N_K表示区域内障碍物的总个数，d_inI和d_outI分别表示己方无人机的最小安全半径和最大安全半径，

表示第i个己方无人机相对第

个己方无人机的距离，

表示第j个己方无人机相对第

个己方无人机的距离，

3)性能指标

由围捕任务的成功条件可知，性能指标设置为使如式(4)所示函数J^task最小化

J^task＝T^task (4)

其中T^task表示完成围捕任务需要的时间步；

考虑如式(2)所示的避障约束，采用人工势场法获得可以避免碰撞的加速度分量

其中，

表示第

个无人机与第

个障碍物之间的排斥力，为障碍物势能场函数

的负梯度，即

其中障碍物势能场函数

定义为

因此，

写为

然后考虑式(3)所示的避碰约束，同样采用人工势场法获得可以避免碰撞的加速度分量

其中，

表示己方无人机之间的排斥力，为己方无人机势能场函数

的负梯度

其中障碍物势能场函数

定义为

因此，

写为

接下来考虑式(4)所示的围捕目标，若己方无人机想要追踪上对方无人机，需要尽可能缩短两者之间的距离与速度差，因此加速度分量

表示为

最后考虑式(1)中的速度约束，当己方无人机或对方无人机的飞行速度

超过最大速度时，对其进行修正，即

通过上述分析，得到初步决策方案：

第二步，改进决策方案，即采用多智能体强化学习方法通过评价改进的方式优化决策结果

(1)建立随机博弈模型

根据式(1)-(4)中描述的多无人机围捕问题，总结为随机博弈模型，各个符号的含义如下：

1)状态集S

根据任务的具体情况，将t时刻每个障碍物中心点的位置，己方无人机的位置和速度，对方无人机的位置，作为状态量s，即。

s＝(p_k,p_i,v_i,p_j,v_j)∈S (15)

其中，i∈[1,N_I]，j∈[N_I+1,N_I+N_J]，k∈[1,N_K]。

2)观测状态集O_i,O_j，

对于第i个己方无人机，将t时刻自身的位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测状态

类似的，对于第j个对方无人机，观测状态写为

3)动作集A

将己方无人机的附加加速度作为动作a_i，将对方无人机的加速度作为a_j，即

那么己方无人机的实际加速度为初始加速度与附加加速度之和，即

4)立即收益值R_i,R_j

将己方无人机收到的立即收益值设计为

其中，

5)状态转移概率

由于区域内障碍物的位置不会变动，给出无人机的状态转移函数Γ_P，将无人机的运动学和动力学方程作为状态转移函数，写为如式(21)所示形式

p_i(t+1)＝p_i(t)+v_i(t+1)Δt+d_1i(t)

v_i(t+1)＝v_i(t)+a_i(t)Δt+d_2i(t)

p_j(t+1)＝p_j(t)+v_j(t+1)Δt+d_1j(t)

v_j(t+1)＝v_j(t)+a_j(t)Δt+d_2j(t) (21)

其中，d_1i(t)，d_2i(t)，d_1j(t)，d_2j(t)为己方无人机和对方无人机在环境中受到的外界干扰。考虑速度约束，当己方无人机或对方无人机的飞行速度v_i(t+1)，v_j(t+1)超过最大速度时，按照对(14)其进行修正，而式(21)中的位置转移函数修正为

6)折扣因子γ

γ表示未来收益值相对于当前收益值的重要程度，当γ＝0时，相当于只考虑当前收益不考虑未来收益，γ＝1时，将未来收益和当前收益看得同等重要，这里选取折扣因子γ＝0.95；

通过对随机博弈模型五个符号的定义，基于围捕任务的多无人机任务决策过程可描述为：当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时，各无人机根据自身传感器获得与其他无人机及障碍物的相对距离，无人机的自身位置与速度、对方无人机速度等观测信息o_i(t),o_j(t)，选择附加加速度a_i(t)或加速度a_j(t)，并根据式(20)获得相应的立即收益值R_i(t)，由状态转移函数(21)-(22)，此时实际状态变为s(t+1)，重复该过程直到实现成功围捕的目标；

(2)建立评价网络与决策网络

采用中心式评价-去中心式执行的网络框架，通过神经网络的拟合功能，建立决策与评价网络，分别用来输出当前决策结果与此时可能获得的平均总收益值；

1)建立评价网络

评价函数为第i个己方无人机的中心式评价值的近似值，表明在当前时刻所有无人机的观测状态集合下，当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时，己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值，引入神经网络近似环节对评价值进行参数化，得到评价网络，由于采用中心式评价的结构，评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合；输出为在当前其他无人机选择动作为时，己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值，采用的评价网络为全连接层神经网络，对于每一个己方无人机，网络层数为7层，包括1层输入层，5层隐藏层和1层输出层，输入节点个数为所有无人机观测状态集合和动作集合的维度；由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益，因此，输出节点个数为1；

2)建立决策网络

采用确定性策略，那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作，由于采用去中心式决策的结构，决策网络的输入为无人机自身的可观测状态，输出为当前时刻的附加加速度，采用的决策网络也为全连接层神经网络，网络层数为5层，包括1层输入层，3层隐藏层和1层输出层，输入节点个数为第i个无人机观测状态的维度，由于决策网络输出为无人机的附加加速度或飞行加速度，因此输出节点个数为动作维度；

(3)更新网络参数

基于给定的网络结构，网络参数更新方式如下

对于第i个己方无人机来说，其决策网络以最大化自身的平均总收益为目标，即

因此通过最小化梯度

来训练决策网络的网络参数，接下来进一步给出评价网络的更新方程，若评价网络的输出值

近似真实值Q_i，需满足

最小，结合贝尔曼方程：Q′_i＝R_i+γQ_i，其中Q′_i表示在下一时刻的评价值。

此时，评价网络的更新方程

考虑到训练网络所用的经验数据之间具有相关性，为了避免其影响网络的收敛效果，设计目标决策网络和目标评价网络，用来输出目标Q_i值；

需要注意的是，由于相邻的数据之间具有相关性，因此不能按照存储顺序直接从经验回放池中提取数据，这里从经验回放池D中进行随机收取经历数据E进行训练，这种数据存储和提取方式称为一致经验回放，由于在训练过程中，双方无人机需要提取同一训练回合中同一时刻的数据进行训练，否则会出现无人机的行动策略收敛到不同平衡点的情况，因此采用一致经验回放机制进行数据采样，即从经验数据库D中随机抽取同一训练回合中同一时刻的数据；

第三步，在线决策，即利用训练好的网络进行实时决策：在完成离线学习过程之后，评价网络的网络参数和决策网络的网络参数也被确定下来，此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略，考虑到实际任务执行过程中的无人机仅能观测到部分状态，这时需要全局状态信息和动作信息作为输入的评价网络将无法应用，因此对于多无人机围捕任务，己方各无人机采用去中心式决策结构，即仅将离线学习后得到的决策网络用于在线环节，在存在环境不确定影响的真实任务环境中，最终实现多无人机分布式实时任务决策；

在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息，输入到决策网络中；训练好的决策网络会快速给出该时刻的附加加速度，与初步加速度相加得到实际飞行加速度，考虑环境不确定对无人机完成任务效果的影响，即飞行环境中可能受到的外界干扰，得到无人机实际位置与速度，重复这一过程，直到到达执行任务时间或完成围捕目标。

本发明的特点及有益效果是：

(1)考虑到多无人机围捕问题中环境动态性是环境内所有无人机共同作用的结果，这就导致对于每个无人机来说环境是不平稳的，不满足单智能体强化学习方法的收敛性条件，因此本发明采用基于中心式评价-去中心式决策的多智能体确定性策略梯度方法，即评价网络在评价改进环节中可以接收所有无人机的观测状态，从而更好的改进评价结果的准确度，指导动作选择，这一结构还可以解决由于以无人机为决策主体带来的部分状态可观测性问题，提高算法的收敛性。

(2)本发明将先进智能方法(多智能体确定性策略梯度)与传统控制方法(人工势场法与比例控制方法)结合起来，既通过引入先验经验的方式加快了先进智能方法的收敛时间，又增强了传统控制方法的智能性，使其能够在无人机速度受限的情况下完成围捕任务，有效解决了环境动态性、不确定性与状态部分可观测性给无人机任务决策的有效性带来的影响，实现快速智能任务决策。

附图说明：

附图1总体技术方案。

附图2各无人机与区域环境的交互过程。

附图3每组己方无人机获得的平均累计总收益。

附图4每回合己方无人机的平均单步决策时间。

具体实施方式

本发明涉及强化学习、传统控制和多智能体融合领域。具体来说，首先基于比例控制和避障机制建立初步决策方案，随后采用多智能体确定性策略梯度方法对初步决策方案进行评价改进，获得最优行动策略，最后，在线应用优化后的网络实时给出决策结果，完成面向围捕任务的多无人机任务决策。

本发明提出了一种面向围捕任务的基于多智能体确定性策略梯度和避障机制的多无人机智能协同决策方法。总体技术方案如图1所示，具体技术方案如下：

第一部分，建立初步决策方案，即根据人工势场法与比例控制方法得出每一架己方无人机的初步加速度：首先，由于区域内存在若干静态障碍物，为安全考虑，无人机在飞行过程中不能与障碍物碰撞，考虑这一约束，采用人工势场法获得可以避免无人机撞向障碍物的加速度分量；其次，考虑到己方无人机之间、对方无人机之间均不能发生碰撞，同样采用人工势场法获得可以避免无人机之间互相碰撞的加速度分量；再次，考虑己方无人机想要短时间内尽快完成围捕任务的目标，采用比例控制方法尽可能缩短两者之间的距离与速度差；最后考虑双方无人机的最大速度限制，当己方或对方无人机的飞行速度超过最大速度时，对其进行修正，最终根据得到的加速度分量，计算每一架己方无人机的初步飞行加速度获得初步决策方案。

第二部分，改进决策方案，即采用多智能体强化学习方法通过评价改进的方式优化决策结果：首先，考虑多无人机围捕问题中需要满足的避碰避障约束、速度约束和快速完成围捕的目标，建立随机博弈模型(Stochastic Game，SG)，即确定围捕问题中的状态集、观测状态集、动作集、立即收益值、状态转移概率以及折扣因子；然后，基于中心式评价-去中心式决策的结构，利用神经网络拟合特性，建立评价网络与决策网络，分别用来输出当前决策结果与此时可能获得的平均总收益值；最后，在与仿真环境的交互过程中，采用多智能体确定性策略梯度方法训练评价网络与决策网络的网路参数，通过评价网络的输出指导决策网络的决策结果，通过一致经验回放机制，抽取数据库中的数据逐步改进评价结果的准确度与改进决策结果，最终获得最优行动策略。

第三部分，在线决策，即利用训练好的网络进行实时决策：通过前两部分完成离线学习过程之后，评价网络和决策网络的网络参数也被确定下来，此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态，这时需要全局状态信息和动作信息作为输入的评价网络将无法应用，因此对于待解决的多无人机围捕任务，己方各无人机采用去中心式决策结构，即仅将离线学习后得到的决策网络用于在线环节，在存在环境不确定影响的真实任务环境中，最终实现多无人机分布式实时任务决策。

下面结合附图对本发明做进一步描述。

本发明实现方法的总体技术方案如图1所示。该方法主要分为三个部分，下面结合说明书附图分别对各个部分进行详细阐述：

1、速度约束

||v_i||≤v_maxI,||v_j||≤v_maxJ (1)

其中v_i和v_j分别表示己方无人机和对方无人机的速度，i∈[1,N_I]，j∈[N_I+1,N_I+N_J]。N_I和N_J分别为任务区域内的己方和对方无人机总数。v_maxI和v_maxJ分别表示己方无人机和对方无人机的最大速度。

2、避碰避障约束

Δp_ik＞d_outI,Δp_jk＞d_outJ (2)

其中Δp_ik＝||p_i-p_k||,Δp_jk＝||p_j-p_k||，分别表示第i个己方无人机和第j个对方无人机相对第k个障碍物之间的距离，p_i，p_j和p_k分别表示第i个己方无人机的位置、第j个对方无人机的位置以及第k个障碍物中心点的位置，i∈[1,N_I]，k∈[1,N_K]，j∈[N_I+1,N_I+N_J]，N_K表示区域内障碍物的总个数。d_inI和d_outI分别表示己方无人机的最小安全半径和最大安全半径。

表示第i个己方无人机相对第

个己方无人机的距离，

表示第j个己方无人机相对第

个己方无人机的距离，

3、性能指标

由围捕任务的成功条件可知，性能指标可以设置为使如式(4)所示函数J^task最小化

J^task＝T^task (4)

其中T^task表示完成围捕任务需要的时间步。

其中，

表示第

个无人机与第

个障碍物之间的排斥力，为障碍物势能场函数

的负梯度，即

其中障碍物势能场函数

定义为

因此，

可以写为

其中，

表示己方无人机之间的排斥力，为己方无人机势能场函数

的负梯度

其中障碍物势能场函数

定义为

因此，

可以写为

可以表示为

超过最大速度时，对其进行修正，即

通过上述分析，得到初步决策方案：

1、建立随机博弈模型

1)状态集S

s＝(p_k,p_i,v_i,p_j,v_j)∈S (15)

其中，i∈[1,N_I]，j∈[N_I+1,N_I+N_J]，k∈[1,N_K]。

2)观测状态集O_i,O_j，

类似的，对于第j个对方无人机，观测状态可以写为

3)动作集A

4)立即收益值R_i,R_j

将己方无人机收到的立即收益值设计为

其中，

5)状态转移概率

由于区域内障碍物的位置不会变动，给出无人机的状态转移函数Γ_P，将无人机的运动学和动力学方程作为状态转移函数，可以写为如式(21)所示形式

p_i(t+1)＝p_i(t)+v_i(t+1)Δt+d_1i(t)

v_i(t+1)＝v_i(t)+a_i(t)Δt+d_2i(t)

p_j(t+1)＝p_j(t)+v_j(t+1)Δt+d_1j(t)

v_j(t+1)＝v_j(t)+a_j(t)Δt+d_2j(t) (21)

6)折扣因子γ

γ表示未来收益值相对于当前收益值的重要程度。当γ＝0时，相当于只考虑当前收益不考虑未来收益，γ＝1时，将未来收益和当前收益看得同等重要。这里选取折扣因子γ＝0.95。

通过对随机博弈模型五个符号的定义，基于围捕任务的多无人机任务决策过程可描述为：当各无人机在任务环境中的实际位置、速度、静态障碍物的位置组成状态s(t)时，各无人机根据自身传感器获得与其他无人机及障碍物的相对距离，无人机的自身位置与速度、对方无人机速度等观测信息o_i(t),o_j(t)，选择附加加速度a_i(t)或加速度a_j(t)，并根据式(20)获得相应的立即收益值R_i(t)。由状态转移函数(21)-(22)，此时实际状态变为s(t+1)，重复该过程直到实现成功围捕的目标，如附图2所示。

2、建立评价网络与决策网络

采用中心式评价-去中心式执行的网络框架，通过神经网络的拟合功能，建立决策与评价网络，分别用来输出当前决策结果与此时可能获得的平均总收益值。

1)建立评价网络

评价函数为第i个己方无人机的中心式评价值的近似值，表明在当前时刻所有无人机的观测状态集合下，当其他无人机根据各自的行动策略和观测状态分别选择附加加速度或加速度时，己方无人机根据行动策略和当前观测值选择附加加速度可能获得的平均总收益值。引入神经网络近似环节对评价值进行参数化，得到评价网络。由于采用中心式评价的结构，评价网络的输入为当前时刻任务环境内所有无人机的观测状态集合与动作集合；输出为在当前其他无人机选择动作为时，己方无人机根据当前观测值与行动策略选择动作可能获得的平均总收益值的近似值。本发明设计的评价网络为全连接层神经网络，对于每一个己方无人机，网络层数为7层，包括1层输入层，5层隐藏层和1层输出层，输入节点个数为所有无人机观测状态集合和动作集合的维度；由于评价网络输出为当前观测状态集合下第i个无人机执行当前动作可能获得的平均累计总收益，因此，输出节点个数为1。

2)建立决策网络

本发明中采用确定性策略，那么参数化之前的第i个无人机的行动策略为仅根据当前的观测值决定该时刻的动作。由于采用去中心式决策的结构，决策网络的输入为无人机自身的可观测状态，输出为当前时刻的附加加速度。本发明设计的决策网络也为全连接层神经网络，网络层数为5层，包括1层输入层，3层隐藏层和1层输出层，输入节点个数为第i个无人机观测状态的维度，由于决策网络输出为无人机的附加加速度或飞行加速度，因此输出节点个数为动作维度。

3、更新网络参数

基于给定的网络结构，下面介绍评价网络与决策网路的网络参数更新方式。从上述分析可知，对于第i个己方无人机来说，其决策网络以最大化自身的平均总收益为目标，即

因此可以通过最小化梯度

来训练决策网络的网络参数。接下来进一步给出评价网络的更新方程，若评价网络的输出值

近似真实值Q_i，需满足

最小。结合贝尔曼方程：Q′_i＝R_i+γQ_i，其中Q′_i表示在下一时刻的评价值。此时，评价网络的更新方程

考虑到训练网络所用的经验数据之间具有相关性，为了避免其影响网络的收敛效果，设计目标决策网络和目标评价网络，用来输出目标Q_i值。

需要注意的是，由于相邻的数据之间具有相关性，因此不能按照存储顺序直接从经验回放池中提取数据，这里从经验回放池D中进行随机收取经历数据E进行训练，这种数据存储和提取方式称为一致经验回放。由于在训练过程中，双方无人机需要提取同一训练回合中同一时刻的数据进行训练，否则会出现无人机的行动策略收敛到不同平衡点的情况，因此采用一致经验回放机制进行数据采样，即从经验数据库D中随机抽取同一训练回合中同一时刻的数据。

第三步，在线决策，即利用训练好的网络进行实时决策：在通过上述环节完成离线学习过程之后，评价网络的网络参数和决策网络的网络参数也被确定下来，此时决策网络拟合的可观测状态与无人机动作之间的映射关系近似等于最优行动策略。考虑到实际任务执行过程中的无人机仅能观测到部分状态，这时需要全局状态信息和动作信息作为输入的评价网络将无法应用，因此对于多无人机围捕任务，己方各无人机采用去中心式决策结构，即仅将离线学习后得到的决策网络用于在线环节，在存在环境不确定影响的真实任务环境中，最终实现多无人机分布式实时任务决策。

在围捕过程中己方各无人机将探测到的自身位置、速度、与区域内各个障碍物之间的相对位置、与己方其他无人机之间的相对位置、与对方无人机之间的相对位置、对方无人机的移动速度作为观测信息，输入到决策网络中；训练好的决策网络会快速给出该时刻的附加加速度，与初步加速度相加得到实际飞行加速度，考虑环境不确定对无人机完成任务效果的影响，即飞行环境中可能受到的外界干扰，得到无人机实际位置与速度。重复这一过程，直到到达执行任务时间或完成围捕目标。

为了显示本发明的有效性，假设对方无人机采用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)方法优化自身策略，己方无人机则分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案作为对照组；在评价改进环节中，共训练120000个回合，附图3给出了每1000个回合的己方无人机和对方无人机获得的平均累计收益值，从图中可以看出，每1000个回合的平均累计收益值随着训练回合的增多逐渐稳定，表明评价网络和决策网络的网络参数逐渐收敛。进一步将训练后的评价网络用于在线任务决策，对方无人机同样采用上一环节中训练好的DDPG方法，己方无人机分别采用本发明提出的方法、DDPG方法结合初步决策方案以及独立的初步决策方案。进行1000组实验，即训练回合，在每个回合中，对方无人机和己方无人机的初始位置随机产生，计算每1000个训练回合中己方无人机和对方无人机获得的平均累计收益值。附图3是10组围捕任务实验的仿真效果图，图中横坐标为训练回合数，纵坐标分别为1000个训练回合中己方无人机和对方无人机对应的总收益值。从图中可以看出，在每个回合中，若己方无人机采用本节提出的分布式类脑智能方法，其围捕效果明显优于另外两种方法，证明了该方法在面对部分状态可观测性和环境不确定性问题时的有效性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。