CN113641192A

CN113641192A - 一种基于强化学习的无人机群智感知任务的路径规划方法

Info

Publication number: CN113641192A
Application number: CN202110763664.3A
Authority: CN
Inventors: 魏凯敏; 黄凯; 翁健; 吴永东; 贺宏亮; 刘志全; 冯丙文
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-12
Anticipated expiration: 2041-07-06
Also published as: CN113641192B

Abstract

本发明公开了一种基于强化学习的无人机群智感知任务的路径规划方法，在演员‑批评者架构中加入多头注意力机制和对其他无人机策略的拟合，使得无人机执行决策时，充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时，给予额外的奖励值以加速任务完成。当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正它们的奖励值，从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值，使无人机更有远见。最后，为使无人机更好的探索最大化数据收集量，使用分布式架构，给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。

Description

一种基于强化学习的无人机群智感知任务的路径规划方法

技术领域

本发明涉及移动群智感知任务技术领域，具体涉及一种基于强化学习的无人机群智感知任务的路径规划方法。

背景技术

在传统群智感知任务中，大量的非专业用户使用手机、智能穿戴设备等作为基本的感知单元，通过互联网进行协作，实现感知任务的分发和数据收集利用，最终完成复杂的、大规模的感知任务。

随着传感器技术和无线通信技术的高速发展，以及日渐成熟的无人机技术，市面上的无人机集成了越来越多的传感器，拥有越来越强大的感知能力和计算能力。在此背景下，利用无人机感知大规模数据成为可能。

强化学习是研究代理如何通过在环境中反复试验学习的方法。环境是代理与之互动的世界，在交互的每个步骤中，代理可以得到对环境的观察，然后根据策略决定所要采取的动作。当代理对环境进行操作时，环境会随之发生变化，并依据当前环境状态、动作、下一时刻环境状态得到奖励值。而策略是从环境中反复试验所学得的。强化学习的目标是学得一个能够使预期收益最大化的策略。

演员-批评者架构集成了值函数估计算法和策略搜索算法。由于在传统的策略梯度算法中，会因为采样次数的不足导致训练过程中对累积奖励期望值的估计不稳定，因此使用批评者网络作为值函数Q，来估计在当前环境状态下演员策略网络采取某动作的预期收益。

发明内容

本发明的目的是为了解决现有多智能体强化学习算法中的上述缺陷，公开了一种基于强化学习的无人机群智感知任务的路径规划方法，在演员-批评者架构中加入多头注意力机制和对其他无人机策略的拟合，使得无人机执行决策时，充分考虑其他无人机的状态和策略。当无人机的数据收集量大于平均水平时，给予额外的奖励值以加速任务完成。当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正它们的奖励值，从而促进其协作。使用n步返回时序差分计算批评者网络的目标价值，使无人机更有远见。最后，为使无人机更好的探索最大化数据收集量，使用分布式架构，给不同虚拟场景的无人机决策网络输出的动作加上不同方差的噪声。

本发明的目的可以通过采取如下技术方案达到：

一种基于强化学习的无人机群智感知任务的路径规划方法，所述路径规划方法包括以下步骤：

S1、根据感知任务的环境，构建无人机的仿真环境，设置无人机u在t时刻所能观测到的局部观测值

为无人机u设置通讯功能，使无人机u能获得其他无人机的局部观测值；

S2、使用使用演员-批评者架构，为每个无人机初始化四个网络，包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络，其中，所有无人机的演员策略网络μ＝{μ¹,…,μ^u,…,μ^|U|}，演员目标策略网络μ′＝{μ′¹,…,μ′^u,…,μ′^|U|}，批评者网络Q＝{Q¹,…,Q^u,…,Q^|U|}，批评者目标网络Q′＝{Q′¹,…,Q′^u,…,Q′^|U|}，|U|为无人机的数量，μ^u为无人机u的演员策略网络，μ′^u为无人机u的演员目标策略网络，Q^u为无人机u的批评者网络，Q′^u为无人机u的批评者目标网络，设置无人机u在t时刻的动作

其中

为无人机u在t时刻的局部观测值，

是随机噪声；通过合理设置该随机噪声能够使得无人机做更好的探索；

S3、根据感知任务目标构造奖励函数，在利用无人机感知数据的任务中，需要达到以下目标：(1)无人机飞行的安全性，(2)所有无人机数据收集量之和最大化，(3)无人机能源效率的最大化，(4)信号点被感知数据量之间满足均衡性；基于以上目标，构造奖励函数；

S4、使用演员-批评者架构，在演员决策网络加入多头注意力机制；

S5、在无人机的演员决策网络中，加入对其他无人机决策网络的拟合，使得无人机在决策时，能够充分考虑其他无人机的策略，从而做出更优的决策；

S6、在批评者网络加入多头注意力机制；

S7、计算每时刻无人机数据收集量的均值，根据无人机在该时刻所收集的数据量修正其奖励值；当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正它们的奖励值；

S8、使用n步返回时序差分计算批评者网络Q的目标值；

S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值；

S10、设置最大迭代轮次；

S11、使用分布式架构执行动作，获取经验四元组；

S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ；

S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′；

S14、反复执行步骤S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′，直至迭代次数达到最大迭代次数。

进一步地，所述步骤S3中奖励函数的构造具体计算公式为：

其中

是惩罚项，无人机u在执行动作a_t后，撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚，f_t表示无人机在执行动作a_t后，感知任务环境中信号点被感知数据的均衡程度，具体f_t的构造如下：

其中P为信号点集合，|P|为信号点数量，

代表无人机在执行演员决策网络μ的输出动作后信号点p所剩余的数据量，

代表无人机u在执行动作

后，所收集的数据量，

代表能量消耗量函数，具体构建如下：

若无人机u的动作

是充电，则此时

为0，若无人机u的动作是继续飞行，则此时

为飞行过程中用于收集数据所消耗的电量，

为飞行所消耗的电量，

代表无人机u在执行动作

后的一段时间内，在充电桩充电所增加的电量，

代表无人机u在执行动作

后，剩余电量百分比。

进一步地，所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值，过程如下：

MultiHead(q,k,v)＝Concat(head¹,head²,head³)

其中，head^h＝Attention(W^Q,hq,W^K,hk,W^V,hv)，h＝1、2、3，W^Q,h为第h个注意力头用于分割q的矩阵，W^K,h为第h个注意力头用于分割k的矩阵，W^V,h为第h个注意力头用于分割v的矩阵，Attention(·)融合注意力机制计算的输出，Concat(·)用于拼接各个注意力头的输出，具体计算如下：

S401、计算q,k,v，需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量，其中对于无人机u的局部观测值

转换如下：

其中，

为t时刻无人机u的局部观测值

的查询向量，

为无人机u的局部观测值

的键向量，

为无人机u的局部观测值

的值向量，

的计算分别使用参数为W^Q、W^K、W^V的线性全连接层；而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接，具体如下：

S402、使用3头注意力，分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分，对

具体操作如下：

为使用矩阵W^Q,h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，

为使用矩阵W^K,h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为使用矩阵W^V,h分割

所得的无人机u的局部观测值

的第h个注意力头的值向量，h＝1、2、3，以上计算分别使用不同的线性全连接层；

S403、分别对3头注意力计算注意力权重，得到t时刻的第h个注意力头的输出，对t时刻的第h个注意力头权重矩阵

具体计算如下：

其中

为步骤S402中使用矩阵W^K,h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为步骤S402中使用矩阵W^Q,h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，d为向量

的维度，Softmax(·)的输出是大小为|U|*|U|的矩阵

其中第u行、第u列元素

计算如下：

其中EXP(·)为自然指数函数，

为步骤S402中使用矩阵W^K,h分割

所得的无人机i的局部观测值

的第h个注意力头的键向量，

为步骤S402中使用矩阵W^Q,h分割

所得的无人机i的局部观测值

的第h个注意力头的查询向量，i＝1,2,…,u,…,|U|，从而t时刻的第h个注意力头的输出head^h计算如下：

其中

为步骤S402中使用矩阵W^V,h分割

所得的无人机u的局部观测值

的第h个注意力头的值向量，函数ReLU为激活函数，记

为时刻t无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出，

计算如下：

为步骤S402中使用矩阵W^V,h分割

所得的无人机i的局部观测值

的第h个注意力头的值向量，

为矩阵

中的第i行第u列元素；

S404、计算多头注意力机制的输出，得到基于多头注意力机制的融合其他无人机局部观测值，其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出

计算如下：

其中函数Concat(·)表示拼接向量。

进一步地，所述步骤S5在无人机u的演员策略网络μ^u中，加入对其他无人机决策网络的拟合，使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出

其中

为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出，记除了无人机u的其他无人机组成的集合为\u，则t时刻无人机u对其他无人机策略的估计

其中t时刻无人机u对无人机j策略的估计

计算如下：

其中

和

为线性全连接层，Tanh为激活函数；而t时刻无人机u自身的初步决策

计算如下：

其中

和

为线性全连接层，

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出，为使无人机u能够做出更优的决策，在无人机u得到对其他无人机j的估计策略及无人机j基于多头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后，再次使用3头注意力机制，结构与步骤S4中的3头注意力机制相同，但无人机u的演员策略网络μ^u的输入为：

输出为：

其中

为t时刻无人机u自身的初步决策，

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出，

为t时刻无人机u基于3头注意力机制的融合对其他无人机策略的估计p′_t、自身的初步决策

和所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出

所计算得到的输出向量，则t时刻无人机u的决策网络μ^u最终计算结果，即动作

计算如下：

其中

和

为线性全连接层。

进一步地，所述步骤S6在无人机u的批评者网络加入多头注意力机制，使用3头注意力机制，其结构与步骤S4中的3头注意力机制相同，无人机u的批评者网络Q^u输入为：

其中

为t时刻无人机u的局部观测值和动作值，输出为：

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出，则t时刻无人机u的批评者网络最终计算结果，即价值

计算如下：

其中

和

为线性全连接层。

进一步地，所述步骤S7中计算每时刻无人机数据收集量的均值，根据无人机在该时刻所收集的数据量修正其奖励值；当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正与其他无人机之间存在路径重叠的无人机的奖励值，具体过程如下：

每个无人机u存放n个时刻的经验四元组

的本地缓冲区B_u和经验池M_u，在每个无人机u获得奖励值后，按时间顺序将经验四元组

存入缓冲区B_i：

S701、当缓冲区满后，每个无人机u从本地缓冲区B_u中提取出n个时刻的三维位置信息

计算每个时刻无人机数据收集量的均值A_i，当无人机u在i时刻执行动作

后的数据收集量

时，

其中

S702、计算在过去n个时刻无人机u的行进轨迹与其余无人机行进轨迹之间的相似度，不同无人机的轨迹间相似度用矩阵相似度衡量，返回与其相似的无人机集合S_u；

S703、若S_u非空，则遍历集合

其中u_β为无人机集合S_u中的无人机β，|S_u|为集合S_u的大小：

计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量

具体计算如下：

其中

为无人机u和与其轨迹相似的无人机集合S_u中的无人机β的相同覆盖范围中的信号点集合，

为信号点

在i时刻的数据剩余量，对数据剩余量

进行判断，执行如下操作：

当

时，遍历本地缓冲区B_u中的n个经验四元组

执行

当

时，遍历本地缓冲区B_u中的n个经验四元组

执行

其中λ为判断区域内信号点剩余数据总量大小的阈值，

为修正奖励值

的正常数，具体计算如下：

S704、将本地缓冲区B_u中的n个经验四元组

存放进经验池M_u，并清空本地缓冲区B_u。

进一步地，所述步骤S8中使用n步返回时序差分来计算批评者网络Q的目标值，对于无人机u的批评者网络Q^u的目标值计算方式如下：

其中，

表示无人机u的批评者目标网络Q′^u以t+N-1时刻的环境状态值

为输入所计算出的目标价值，

表示在t+N-1时刻无人机u的局部观测值，

表示在t+N-1时刻无人机u的演员目标策略网络μ′^u以该时刻所有无人机的观测值

为输入所计算出的目标动作；

对于所有n步返回值都可以认为是完全返回的近似值，在n步之后通过

来校正剩余的缺失值，其中γ为折现因子，取值为0.9，而对于t+n≥T(即n步返回值超过终止状态，T为终止状态时刻)的部分都缺省为0。

进一步地，所述步骤S9中基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组

的优先级δ_i，由时序差分误差计算得到，从而使得无人机u的演员策略网络μ^u和批评者网络Q^u在更新参数时，不但能够更加关注优先级高的经验值，而且能防止时序差分误差为0的经验四元组被忽略，具体计算如下：

其中

为步骤S8中使用n步返回时序差分计算出的无人机u的批评者网络Q_u的目标值，

是i时刻无人机u的局部观测值和动作值，

是无人机u的批评者网络Q^u的参数，∈是一个很小的正常数，防止时序差分误差为0的经验四元组被忽略，设置∈＝0.01。

进一步地，所述步骤S11中使用分布式架构执行动作，获取经验四元组中，具体过程如下：

创建m个场景并行训练，其中，所创建的训练场景数量取决于计算资源CPU，并设置场景的最大状态转移次数，在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声，而同一场景中的所有无人机使用相同的噪声

无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组；对于最终无人机u中用于更新批评者网络Q的经验池M′_u，使用从m个场景的无人机u的经验池

中挑选出的高优先级的经验值进行填充，若M′_u已满，则清除时间最早的经验值，其中

为第m个场景的无人机u的经验池，优先级由步骤S9计算得出。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明采用演员-批评者架构，利用批评者网络对演员决策网络的输出动作评估价值，经过训练最大化演员决策网络的输出动作的价值，从而使得达到感知任务目标的过程简单且高效。

(2)本发明基于注意力机制，不但能使得无人机的演员决策网络和批评者网络更关注对其有较大影响的无人机，而且能增强无人机数量的可扩展性。

(3)本发明在无人机的演员决策网络中加入对其他无人机的决策网络的拟合，使得无人机在决策时，能够充分考虑其他无人机的策略，从而做出更优的决策。

(4)本发明加入对无人机数据收集量和路径重叠情况的特殊处理，不但能使无人机倾向于收集更多的数据，而且能促进无人机之间的合作，避免不必要的竞争，从而加速感知任务的完成。

(5)本发明使用分布式架构，创建多个场景，分别使用不同方差的噪声，不但能加速训练进程，而且能促使无人机更好的探索最优动作。

附图说明

图1是本发明实施例中无人机u与仿真环境交互示意图；

图2是本发明实施例中无人机u的融合多头注意力机制和对其他无人机策略估计的演员网络结构图；

图3是本发明实施例中无人机u的融合多头注意力机制的批评者网络结构图；

图4是本发明实施例中基于强化学习的奖励值修正方法的分布式训练结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例公开了一种基于强化学习的无人机群智感知任务的路径规划方法，包括以下步骤：

S1、确定感知任务部署环境，构建训练无人机的仿真环境。以城市场景为例，在仿真环境中至少需要饱含以下组件：信号点P、障碍物(如楼房、路灯等)O、充电桩C，最大程度地模拟无人机队U在现实中飞行的场景，确保所训练模型能够迁移到现实场景中。无人机需装载障碍物距离测量部件，以计算前进方向上的障碍物与无人机的距离。此外，无人机u在每做下一个动作之前，它在t时刻需要获得的观测值

如下：当前的位置(x(u),y(u),z(u))、水平方向的角度、竖直方向的角度、指向最接近的3个信号点的三维方向向量以及与该信号点的距离和数据剩余量、指向最接近的充电桩的三维方向向量以及与该充电桩的距离和是否有无人机正在充电、与行进方向上的障碍物的距离、剩余电量和数据收集量。最后，为无人机设置通讯功能，使其能获得其他无人机的局部观测值

S2、使用使用演员-批评者架构，为每个无人机初始化四个网络，包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络。所有无人机的演员策略网络μ＝{μ¹,…,μ^u,…,μ^|U|}，演员目标策略网络μ′＝{μ′¹,…,μ′^u,…,μ′^|U|}，批评者网络Q＝{Q¹,…,Q^u,…,Q^|U|}，批评者目标网络Q′＝{Q′¹,…,Q′^u,…,Q′^|U|}，其中|U|为无人机的数量。

其中无人机u的演员策略网络为μ^u、演员目标策略网络为μ′^u、批评者网络为Q^u、批评者目标网络为Q′^u。在使用无人机的场景中，无人机具有通讯功能，在此通讯延迟忽略不计，故无人机能够通过通讯功能获取到其他无人机的局部观测值。其中演员策略网络是无人机用来根据当前环境的所有无人机的观测值

产生动作a_t的，|U|为无人机数量，而无人机u在t时刻的动作

其中

是能够使得无人机做更好的探索的随机噪声。如图1所示，无人机u通过动作

与环境产生交互，得到当前状态下执行

的奖励值

和下一个状态的观测值

并组成经验四元组

S3、根据感知任务目标构造奖励函数。在利用无人机感知数据的任务中，需要达到以下目标：(1)无人机飞行的安全性；(2)所有无人机数据收集量之和最大化；(3)无人机能源效率的最大化；(4)信号点被感知数据量之间满足均衡性。基于以上目标，构造如下奖励函数：

其中

是惩罚项，无人机在执行动作a_t后，撞击障碍物或没有收集到数据或电量耗尽所受到的惩罚，f_t表示无人机在执行动作a_t后，感知任务环境中信号点被感知数据的均衡程度，具体f_t的构造如下：

其中P为信号点集合，|P|为信号点数量，

代表能量消耗量函数，具体构建如下：

若无人机u的动作

是充电，则此时

为0，若无人机u的动作是继续飞行，则此时

为飞行过程中用于收集数据所消耗的电量，

为飞行所消耗的电量。

代表无人机u在执行动作

后的一段时间内，在充电桩充电所增加的电量，

代表无人机u在执行动作

后，剩余电量百分比。其中

的作用是指示当前无人机u前往充电桩充电的动作是否必要，若剩余电量百分比低于0.6，则此时充电可防止未来的长时间飞行中因电量不足而导致坠机的后果；若剩余电量百分比高于0.6，则此时无人机剩余电量较多，我们更希望它能够去收集数据，所以在这个情况下进行充电，其奖励值为负数。

S4、使用演员-批评者架构，在演员决策网络加入多头注意力机制。原始MADDPG算法的演员决策网络的输入仅仅是单一智能体的局部观测值，而在使用无人机的场景中，无人机具有通讯功能，在此通讯延迟忽略不计，故无人机能够通过通讯功能获取到其他无人机的局部观测值。但直接将所有无人机的局部观测值作为该无人机的演员决策网络的输入是不合适的，因为并不是所有的无人机对其的影响力都相同。因此使用如图2所示的3头注意力机制处理所有无人机的局部观测值，具体步骤如下：

MultiHead(q,k,v)＝Concat(head¹,head²,head³)

其中，head^h＝Attention(W^Q,hq,W^K,hk,W^V,hv),h＝1、2、3，W^Q,h为第h个注意力头用于分割q的矩阵，W^K,h为第h个注意力头用于分割k的矩阵，W^V,h为第h个注意力头用于分割v的矩阵，Attention(·)融合注意力机制计算的输出，Concat(·)用于拼接各个注意力头的输出，具体计算如下：

S401、为计算q,k,v，需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量，其中对于无人机u的局部观测值

转换如下：

其中

为t时刻无人机u的局部观测值

的查询向量，

为无人机u的局部观测值

的键向量，

为无人机u的局部观测值

的值向量，

的计算分别使用参数为W^Q、W^K、W^V的线性全连接层。而q,k,v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接，具体如下：

其中|U|为无人机的数量。

S402、为使用3头注意力，分别将t时刻无人机u的局部观测值查询向量、局部观测值键向量和局部观测值值向量分为三部分，对

具体操作如下：

为使用矩阵W^Q,h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，

为使用矩阵W^K,h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为使用矩阵W^V,h分割

所得的无人机u的局部观测值

的第h个注意力头的值向量，h＝1、2、3，以上计算分别使用不同的线性全连接层。

具体计算如下：

其中

为S402中所述使用矩阵W^K,h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为S402中所述使用矩阵W^Q,h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，d为向量

的维度，Softmax(·)的输出是大小为|U|*|U|的矩阵

其中第u行，第u列元素

计算如下：

其中EXP(·)自然指数函数，

为步骤S402中使用矩阵W^K,h分割

所得的无人机i的局部观测值

的第h个注意力头的键向量，i＝1,2,…,u,…,|U|，

为步骤S402中使用矩阵W^Q,h分割

所得的无人机i的局部观测值

其中

为S402中所述使用矩阵W^V,h分割

所得的无人机u的局部观测值

的第h个注意力头的值向量，函数ReLU(·)为激活函数，记

为t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的第h个注意力头的输出，其中

为步骤S402中使用矩阵W^V,h分割

所得的无人机i的局部观测值

的第h个注意力头的值向量，i＝1,2,…,u,…,|U|，

为矩阵

中的第i行，第u列元素。

S404、为计算基于多头注意力机制的融合其他无人机局部观测值，需计算多头注意力机制的输出，其中t时刻无人机u基于多头注意力机制的融合其他无人机局部观测值的输出

计算如下：

其中函数Concat(·)表示拼接向量。

S5、在无人机u的演员决策网络μ^u中，加入对其他无人机决策网络的拟合，使得无人机u在决策时，能够充分考虑其他无人机的策略，从而做出更优的决策。使用经过S4所得t时刻所有无人机的基于3头注意力机制的融合其他无人机局部观测值的输出

其中

为t时刻无人机j基于3头注意力机制的融合其他无人机局部观测值的输出，记除了无人机u的其他无人机组成的集合为\u。则t时刻无人机u对其他无人机策略的估计

其中t时刻无人机u对无人机j策略的估计

计算如下：

其中

和

为线性全连接层，Tanh(·)为激活函数；而t时刻无人机u自身的初步决策

计算如下：

其中

和

为线性全连接层，

为t时刻无人机u基于3头注意力机制的融合其他无人机局部观测值的输出，为使无人机u能够做出更优的决策，在无人机u得到对其他无人机的估计策略p′_t及无人机基于3头注意力机制的融合其他无人机局部观测值、无人机u自身的初步决策及无人机u基于多头注意力机制的融合其他无人机局部观测值后，再次使用3头注意力机制，结构与步骤S4中的3头注意力机制相同，但无人机u的演员决策网络的输入为：

输出为：

其中

为t时刻无人机u自身的初步决策，

所计算得到的输出向量，则t时刻无人机u的演员决策网络μ^u最终计算结果，即动作

计算如下：

其中

和

为线性全连接层。

S6、在批评者网络加入多头注意力机制。原始MADDPG算法的批评者网络的输入为所有智能体的动作和局部观测值，但不是所有的无人机对无人机u的影响力都相同。因此使用多头注意力机制处理所有无人机的动作和局部观测值，使用如图3所示的3头注意力机制，其结构与步骤S4中的3头注意力机制相同，但输入为：

其中

为t时刻无人机u的局部观测值和动作值。

输出为：

计算如下：

其中

和

为线性全连接层。

S7、计算每时刻无人机数据收集量的均值，根据无人机在该时刻所收集的数据量修正其奖励值。当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正与其他无人机之间存在路径重叠的无人机的奖励值，其计算步骤如下：

每个无人机u都有各自的可以存放n个时刻的经验四元组

存入缓冲区B_i：

后的数据收集量

时，

其中

S703、若S_u非空，则遍历集合

其中u_β为无人机集合S_u中的无人机β，|S_u|为集合S_u的大小:

计算相似轨迹的覆盖区域的信号点在i时刻数据剩余量

具体计算如下：

其中

为信号点

在i时刻的数据剩余量，对数据剩余量

进行判断，执行如下操作：

当

时，遍历本地缓冲区B_u中的n个经验四元组

执行

当

时，遍历本地缓冲区B_u中的n个经验四元组

执行

其中λ为判断区域内信号点剩余数据总量大小的阈值，

为修正奖励值

的正常数，具体计算如下：

S704、将B_u中的n个经验四元组

存放进M_u，并清空本地缓冲区B_u。

S8、使用n步返回时序差分。从S3中的奖励函数的构建可知，无人机会倾向于飞往信号点感知数据、在电量不足时飞往充电桩，以及在感知过程中充分考虑信号点感知的均衡性，然而在它到达信号点或充电桩之前，它不会得到正奖励。因此，为了训练出更有远见的无人机，使用n步返回时序差分来计算批评者网络Q的目标值，对于无人机u的批评者网络Q^u的目标值计算方式如下：

其中，

表示无人机u的批评者目标网络Q′^u以t+N-1时刻的环境状态值

为输入所计算出的目标价值，

表示在t+N-1时刻无人机u的局部观测值，

为输入所计算出的目标动作。

来校正剩余的缺失值，其中γ为折现因子，取值为0.9。而对于t+n≥T(即n步返回值超过终止状态，T为终止状态时刻)的部分都缺省为0，这时候n步返回值就等价于常规的完全返回值。

S9、在基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样经验值。传统的贪婪时序差分误差优先级经验重放机制直接使用时序差分误差计算经验值的优先级，虽然能够使批评者网络Q的参数在更新时更加关注优先级高的经验值，但存在一定的问题：过于关注高时序差分误差的经验值，这一少部分的经验值频繁的重放，而忽视低时序差分误差的经验值，会带来批评者目标网络Q′的过拟合问题。具体的，基于时序差分误差的优先级经验重放机制的基础上使用随机采样策略采样得到的无人机u的标号为i的经验四元组

的优先级δ_i计算如下：

其中

为使用n步返回时序差分计算出的无人机u的批评者网络Q^u的目标值，

是i时刻无人机u的局部观测值和动作值，

S10、设置最大迭代轮次。

S11、使用分布式架构，加速训练过程。如图4所示，在训练过程中，创建m个场景并行训练(所创建的训练场景数量取决于计算资源CPU)，并设置场景的最大状态转移次数，在不同场景中的无人机的演员策略网络产生的动作加上不同方差的噪声，而同一场景中的所有无人机使用相同的噪声

无人机的演员策略网络和批评者策略网络的训练数据来源于多个场景收集经验四元组。对于最终无人机u中用于更新批评者网络Q^u的经验池M′_u，使用从m个场景的无人机u的经验池

中挑选出的高优先级的经验值进行填充(若M′_u已满，则清除最旧的经验值)，其中

为第m个场景的无人机u的经验池，优先级由步骤S9计算得出，从而使无人机能够在训练过程中更好地探索最优动作，避免陷入局部最优，进而更加全面的寻找优先级最高的经验进行训练。

S12、所有无人机使用批量大小为b的经验四元组更新无人机的批评者网络Q和演员策略网络μ。对于无人机u按照经验值的优先级从经验池M′_u中采样批量大小为b的经验四元组，并使用如下损失函数更新批评者网络Q^u：

其中，在批评者网络Q^u和批评者目标网络Q′^u的输入为

即所有无人机在t时刻的观测值和动作，

为无人机u的批评者网络Q^u的参数。

演员策略网络μ^u的更新使用以下策略梯度：

其中

为无人机u的演员策略网络μ^u的参数，而

表示所有无人机在t时刻的观测值，

表示无人机u的演员策略网络μ^u以o_t为输入所计算出的动作。

为了使得无人机u的演员策略网络μ^u中对其他无人机j策略的拟合的训练过程更加稳定，使用伪Huber损失函数更新网络参数，具体计算如下：

其中δ是需要通过实验确定的超参数，

表示无人机j在t时刻的动作，

表示无人机u在t时刻对无人机j策略的估计。

S13、使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′。由于在演员策略网络μ和批评者网络Q的训练过程中，使用了演员目标策略网络μ′和批评者目标网络Q′来计算梯度，为了使该过程更加稳定，易于收敛，使用软更新策略以更新演员目标策略网络μ′和批评者目标网络Q′：

其中τ为一个小正常数，设置τ＝0.001，θ^Q′为批评者目标网络Q′的参数，θ^μ′为演员目标策略网络μ′的参数。

S14、反复执行S11-S13以更新所有无人机的演员策略网络μ、演员目标策略网络μ′、批评者网络Q、批评者目标网络Q′，直至迭代次数达到最大迭代次数。

在S14完成后，即可得到能够实现无人机安全飞行，所有无人机数据收集量之和最大化、能源效率最大化、信号点被感知数据量之间满足均衡性的目标的所有的无人机的策略网络，即μ。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述路径规划方法包括以下步骤：

S2、使用使用演员-批评者架构，为每个无人机初始化四个网络，包括演员策略网络、演员目标策略网络、批评者网络、批评者目标网络，其中，所有无人机的演员策略网络μ＝{μ¹，...，μ^u，...，μ^|U|}，演员目标策略网络μ′＝{μ′¹，...，μ′^u，...，μ′^|U|}，批评者网络Q＝{Q¹，...，Q^u，...，Q^|U|}，批评者目标网络Q′＝{Q′¹，...，Q′^u，...，Q′^|U|}，|U|为无人机的数量，μ^u为无人机u的演员策略网络，μ′^u为无人机u的演员目标策略网络，Q^u为无人机u的批评者网络，Q′^u为无人机u的批评者目标网络，设置无人机u在t时刻的动作

其中

为无人机u在t时刻的局部观测值，

是随机噪声；

S5、在无人机的演员决策网络中，加入对其他无人机决策网络的拟合；

S6、在批评者网络加入多头注意力机制；

S8、使用n步返回时序差分计算批评者网络Q的目标值；

S10、设置最大迭代轮次；

S11、使用分布式架构执行动作，获取经验四元组；

2.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述步骤S3中奖励函数的构造具体计算公式为：

其中

其中P为信号点集合，|P|为信号点数量，

代表无人机u在执行动作

后，所收集的数据量，

代表能量消耗量函数，具体构建如下：

若无人机u的动作

是充电，则此时

为0，若无人机u的动作是继续飞行，则此时

为飞行过程中用于收集数据所消耗的电量，

为飞行所消耗的电量，

代表无人机u在执行动作

后的一段时间内，在充电桩充电所增加的电量，

代表无人机u在执行动作

后，剩余电量百分比。

3.根据权利要求1所述的一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述步骤S4中使用3头注意力机制处理所有无人机的局部观测值，过程如下：

MultiHead(q，k，v)＝Concat(head¹，head²，head³)

其中，head^h＝Attention(W^Q，hq，W^K，hk，W^V，hv)，h＝1、2、3，W^Q，h为第h个注意力头用于分割q的矩阵，W^K，h为第h个注意力头用于分割k的矩阵，W^V，h为第h个注意力头用于分割v的矩阵，Attention(·)融合注意力机制计算的输出，Concat(·)用于拼接各个注意力头的输出，具体计算如下：

S401、计算q，k，v，需先将无人机所有无人机的局部观测值转换为计算注意力权重所需的向量，其中对于无人机u的局部观测值

转换如下：

其中，

为t时刻无人机u的局部观测值

的查询向量，

为无人机u的局部观测值

的键向量，

为无人机u的局部观测值

的值向量，

的计算分别使用参数为W^Q、W^K、W^V的线性全连接层；而q，k，v分别为所有无人机局部观测值的查询向量、键向量和值向量的拼接，具体如下：

具体操作如下：

为使用矩阵W^Q，h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，

为使用矩阵W^K，h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为使用矩阵W^V，h分割

所得的无人机u的局部观测值

具体计算如下：

其中

为步骤S402中使用矩阵W^K，h分割

所得的无人机u的局部观测值

的第h个注意力头的键向量，

为步骤S402中使用矩阵W^Q，h分割

所得的无人机u的局部观测值

的第h个注意力头的查询向量，d为向量

的维度，Softmax(·)的输出是大小为|U|*|U|的矩阵

其中第u行、第u列元素

计算如下：

其中EXP(·)为自然指数函数，

为步骤S402中使用矩阵W^K，h分割

所得的无人机i的局部观测值

的第h个注意力头的键向量，

为步骤S402中使用矩阵W^Q，h分割

所得的无人机i的局部观测值

的第h个注意力头的查询向量，i＝1，2，...，u，...，|U|，从而t时刻的第h个注意力头的输出head^h计算如下：

其中

为步骤S402中使用矩阵W^V，h分割

所得的无人机u的局部观测值

的第h个注意力头的值向量，函数ReLU为激活函数，记

计算如下：

为步骤S402中使用矩阵W^V，h分割

所得的无人机i的局部观测值

的第h个注意力头的值向量，

为矩阵

中的第i行第u列元素；

计算如下：

其中函数Concat(·)表示拼接向量。

4.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述步骤S5在无人机u的演员策略网络μ^u中，加入对其他无人机决策网络的拟合，使用经过步骤S4所得t时刻所有无人机的基于多头注意力机制的融合其他无人机局部观测值的输出

其中

其中t时刻无人机u对无人机j策略的估计

计算如下：

其中

和

计算如下：

其中

和

为线性全连接层，

输出为：

其中

为t时刻无人机u自身的初步决策，

计算如下：

其中

和

为线性全连接层。

5.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述步骤S6在无人机u的批评者网络加入多头注意力机制，使用3头注意力机制，其结构与步骤S4中的3头注意力机制相同，无人机u的批评者网络Qu输入为：

其中

为t时刻无人机u的局部观测值和动作值，输出为：

计算如下：

其中

和

为线性全连接层。

6.根据权利要求3所述的一种基于强化学习的无人机群智感知任务的路径规划方法，其特征在于，所述步骤S7中计算每时刻无人机数据收集量的均值，根据无人机在该时刻所收集的数据量修正其奖励值；当无人机间的路径重叠时，根据信号点数据量判断属于协作或竞争，依此修正与其他无人机之间存在路径重叠的无人机的奖励值，具体过程如下：

每个无人机u存放n个时刻的经验四元组