CN113283169B

CN113283169B - 一种基于多头注意力异步强化学习的三维群体探索方法

Info

Publication number: CN113283169B
Application number: CN202110567571.3A
Authority: CN
Inventors: 刘驰; 王昊; 戴子彭
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-04-26
Anticipated expiration: 2041-05-24
Also published as: CN113283169A

Abstract

本发明公开了一种基于多头注意力异步强化学习的三维群体探索方法。包括以下步骤：步骤1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略；步骤2、指挥中心开启子进程；步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略；步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹；步骤5、反复执行步骤2、3、4直至无人机群行动轨迹不再发生变化；步骤6、指挥中心向无人机群发送最优轨迹调动指令。本发明解决了强化学习算法样本采样效率低下的问题，在使用同等数量的样本进行学习时算法达到了更好的数据采集效果，进一步得到最大化数据采集的最优轨迹。

Description

一种基于多头注意力异步强化学习的三维群体探索方法

技术领域

本发明属于移动群体感知领域，具体涉及一种基于多头注意力异步强化学习的三维群体探索方法。

背景技术

移动群体感知技术目前得到飞速发展并支撑了智慧城市下的数据获取需求。移动群体感知技术采用大量用户使用的移动设备作为基本感知单元，通过移动互联网进行协作，形成交互式的、参与式的感知网络，实现感知任务分发与数据收集利用，最终完成大规模的、复杂的社会感知任务，从而帮助专业人员或公众收集数据、分析数据和共享数据。然而基于移动设备的移动群体感知系统往往会受到多方面的影响，如用户移动的不确定性、移动设备的质量问题，这些因素会导致采集的数据质量低下、用户满意度差。

不同于以人为中心、以可携带设备为工具的群体感知方法，以移动无人终端特别是无人机为中心的移动群体感知技术为智慧城市提供更高质量和更广范围的感知数据获取服务。在一个智慧城市中分布着各种包含不同数据类型的传感器节点，例如监控摄像头、二氧化碳传感器、烟雾报警器以为雷达测速仪等。机动性强、灵活性高的无人机群通过搭载智能天线在较短的时间内收集大量来自传感器节点的数据，这单靠传统群体感知技术是难以实现的。现实场景中无人机群作为群体感知任务的执行者，其携带的能源是非常有限的，需要找到一种能够在最大化数据采集率的同时尽可能减小无人机群能耗的行为模式，结合实际的三维移动群体感知场景，以无人机群为核心的移动无人群体感知的现有技术中存在以下技术问题：

1、复杂应用环境建模困难，移动群体感知的现实应用场景往往是动态且复杂的，例如面向灾后救援的移动群体感知数据采集，场景中存在大量不规则建筑残骸并随时可能变化，指挥中心需根据环境建模结果合理规划当前无人机群飞行轨迹进行数据采集任务，因此环境建模的精准度很大程度上影响了群体感知任务的完成质量，如何针对真实应用环境进行准确且快速的空间建模成为了一大难题；

2、三维空间探索程度不足，针对三维空间维度爆炸引起的探索不充分的问题，需要设计一个合理又稳定高效的探索机制，促使无人机群对整个未知的三维移动群体感知场景进行快速且高效的探索，以提高无人机群环境建模和最优轨迹搜索工作的质量和效率。

3、强化学习样本利用率低，已有的强化学习算法面临着样本利用率极低的问题，不能针对仅有的样本进行有效而充分的学习，现实中三维移动群体感知任务的样本来源成本高、获取速度慢，如何在不影响算法的学习效果的前提下让算法更有效更充分的对已有样本进行采样学习是一个急待解决的难题。

发明内容

针对以上现有技术中的缺陷，本发明提出一种基于多头注意力异步强化学习的三维群体探索方法。

本发明所述方法包括以下步骤：

步骤1、指挥中心初始化基准探索策略与环境参数，无人机群根据感知环境变化进行数据采集：

步骤1.1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略，在三维移动群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策略；

步骤1.2、建立多个子进程，同步子进程的探索策略并初始化各子进程中的环境参数，环境参数包括无人机群位置、无人机群电量、传感器位置和传感器数据初始值，建立一个三维移动群体感知场景，部署了N台无人机作为感知数据采集任务的执行者，场景中存在P个随机分布的多天线传感器节点和无人机群应避开的随机分布的建筑障碍；

步骤1.3、整个感知任务被划分为相等的T个离散的时间步，每个时间步具有相同的时长τ_total，每个时间步内无人机群的活动分为终端移动与数据采集两部分，在每一个时间步内，每一个无人机u以固定速度μm/s沿着极角

和方位角

的方向移动距离

则无人机u移动所需时间为τ_r,u ^m＝l_t ^u/μ，当前时间步内无人机u还剩余τ_t,u ^c＝τ_total-τ_t,u ^m长度的时间进行数据采集任务，在数据采集任务时间内，无人机以轮询方式与周围最近的

个传感器节点进行数据采集任务；

步骤1.4、建立一个三维直角坐标系，其中每个无人机u在t时刻的位置坐标表示为(x_t ^u,y_t ^u,z_t ^u)，每个传感器p在t时刻的位置坐标则使用(x_t ^p,y_t ^p,z_t ^p)表示，无人机u与传感器p 之间的距离l(u,p)使用欧式距离进行度量，考虑到场景信道大尺度衰弱，无人机u与传感器p之间的信道衰弱由下式(1)进行计算：

公式(1)中，f为通信信道频率，c为光速，Ψ_NLoS,Ψ_LoS,α₁和α₂是根据群体感知环境变化包括郊区、市区、山区的场景常量，l(u,p)和θ(u,p)代表无人机群u与传感器p间的距离和方位角，设定无人机群的信号发射功率与环境噪声功率恒定，当前通信的信号信噪比表示为 snr_t ^u,p＝Ψ_tx-ω_t ^u,p-Ψ_n，当通信信噪比小于某一阈值snr₀时，认定此次通信传输失败，无人机群无法解码得到有效数据，无人机等分τ_t,u ^c时间对周围

个节点以香农定理计算得到的数据传输速率进行数据采集；

步骤2、指挥中心开启子进程，基于多头注意力机制收集当前轨迹数据并上传至共享样本复用缓存：

步骤201、指挥中心开启各子进程，各子进程开启新一轮数据采集任务并监测维护自身环境，无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做出行动；

步骤202、各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取的变化进行模拟，当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情况，则立即结束子进程这一轮数据采集任务并重新初始化自身的环境参数；

否则，在当前时间t中，无人机群观察当前环境状态s_t，按照第一计算模型对环境状态s_t进行建模，第一计算模型如下公式(2)：

查询：q＝f_q(s_t)

键：k＝f_k(s_t)

值：v＝f_v(s_t)

公式(2)中，f_q为查询映射算子，f_k为键映射算子，f_v为值映射算子，

为归一化因子， softmax表示将键值点乘结果归一化至[0,1]操作；

步骤203、根据多头注意力机制的建模结果，从当前探索策略中采样出动作a_t，执行移动和数据获取动作，即移动到当前环境中需要采集感知数据的传感器位置，并采集这些传感器的当前剩余数据，根据各个传感器上数据剩余变化和无人机群能量消耗计算当前奖励r_t，子进程将当前轨迹数据发送至共享样本复用缓存，当前轨迹数据指的是状态s_t、本次移动和数据获取动作a_t、当前奖励r_t和当前动作的概率分布π_act；

步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略：

步骤301、当共享样本复用缓存满足一次策略更新的当前轨迹数据时，从共享样本复用缓存中采样出批量当前轨迹数据；

步骤302、指挥中心的主进程根据状态s_t和下一时刻状态s_t+1的像素差计算内在奖励

并根据状态s_t和已执行动作a_t反卷积得到探索策略的动作价值采样Q^aux(s_t,a_t)，按照第二计算模型计算内在奖励的累计回报，第二计算模型如下公式(3)：

公式(3)中，γ为衰减因子,max为最大值操作；

步骤303、指挥中心根据第三计算模型计算探索策略的均方误差并通过梯度下降法更新探索策略，更新完成后同步所有子进程的探索策略，第三计算模型如下公式(4)：

公式(4)中，

为第二计算模型所得到的内在奖励的累计回报，Q^aux(s_t,a_t)为反卷积得到的动作价值采样并采取均方误差方法进行误差计算；

步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹以最大化数据采集效率：

步骤401、指挥中心的主进程根据批量当前轨迹数据，按照第四计算模型使用采用广义优势估计算法计算动作优势函数，第四计算模型如下公式(5)：

公式(5)中，λ和γ为广义优势估计算法的折扣因子与估计因子，

为重要性采样加权因子，δ_iV＝r_t+γV_t+1-V_t为单步TD误差；

步骤402、指挥中心的主进程采用信任域策略优化算法更新参数，目标函数

第五计算模型如下公式(6)所示：

公式(6)中，clip为价值裁剪操作，A(n,t)为第四计算模型的动作优势函数计算结果；

步骤5、反复执行步骤2、步骤3、步骤4直至无人机群行动轨迹不再发生变化；

步骤6、指挥中心向无人机群发送最优轨迹调动指令以获取感知区域内传感器的最新数据：

步骤601、指挥中心的主进程初始化环境并基于步骤5执行完毕输出的探索策略为无人机群生成动作轨迹，此动作轨迹即为可最大化数据采集效率的最优轨迹；

步骤602、在三维移动群体感知场景中，指挥中心根据当前计算出的最优轨迹，向无人机群发送一系列控制指令，调度无人机群通过移动依次获取感知区域内传感器的数据并发送回指挥中心。

本发明所述方法具有如下的有益效果：

1、本发明所述方法通过不断调度搭载智能天线的无人机群移动以最大化群体感知的数据采集能源效率，基于多用户单天线轮询通讯技术下的数据上传模型，采用了最大化所有传感器数据获取的方式建模整个问题以保证传感器网络感知数据获取的有效性，采用本发明所述方法为调度算法的无人机作为群体感知任务的执行者相比于传统人工执行或机器辅助执行具有更好的感知数据采集效果，并能够广泛应用于面积大、环境复杂、噪音干扰强、问题难以建模的场景；

2、本发明所述方法通过使用多头注意力机制对环境进行关系建模，克服了环境空间难以建模的问题，通过使用多个自注意力头部关注状态空间不同层次的信息，基于关系特征加权对环境空间进行多层次、多维度的细粒度建模，能够更准确、更详细地描述场景环境信息，从而能够更好地服务于指挥中心进行无人机群数据采集轨迹规划；

3、本发明所述方法提出了基于像素控制的探索策略优化算法，有效地解决了环境空间的探索不充分问题，具体而言是通过神经网络计算预测当前状态的像素变化与实际像素变化的差异性来估算，最大化估算值从而增强策略的探索性，因此，本发明所述方法能够快速探索未知且庞大的三维移动群体感知场景，能够有效捕捉场景内的任务信息，避免因探索不足陷入局部最优解，增加了最大化数据采集的效果；

4、本发明所述方法构建了基于共享样本复用缓存的异步更新架构，并使用近端策略优化算法进行更新，解决了强化学习算法样本采样效率低下的问题，在使用同等数量的样本进行学习时，本发明算法达到了更好的数据采集效果，共享样本复用缓存机制能够有效存储并多次对当前轨迹进行采样学习且近端策略优化算法保证了更新幅度处于建立的可信任域之内，本发明所述方法能够充分利用有限的学习样本并进一步得到最大化数据采集的最优轨迹；

5、本发明所述方法能够准确掌握在给定时间内进行数据采集任务的无人机群移动轨迹，基于：(1)得益于多头注意力机制对环境进行精确的建模，无人机群间学会了分工的合作模式，不同无人机负责不同的任务区域进行数据采集，从而避免很多无意义的移动消耗并达到了更高的数据采集能源效率，(2)基于本发明所述方法提出的像素控制的探索策略优化算法，无人机群的移动轨迹均匀地布满整个任务空间，有效地解决了环境空间的探索不充分问题，一些难移动、难采集的传感器节点也得到了相应的采集，(3)本发明所述方法在有限的学习样本的限制下采用共享样本复用缓存机制对当前轨迹进行多次学习，加快了与建筑物内传感器节点的数据传输速率。

附图说明

图1为本发明所述方法的基于深度强化学习的无人机群调度算法原理图；

图2为本发明所述方法的无人机群数量对地理公平性的影响示意图；

图3为本发明所述方法的无人机群数量对数据采集率的影响示意图；

图4为本发明所述方法的无人机群数量对数据采集能源效率的影响示意图；

图5为本发明所述方法的无人机群数量对数据丢失率的影响示意图；

图6为本发明所述方法的传感器数量对地理公平性的影响示意图；

图7为本发明所述方法的传感器数量对数据采集率的影响示意图；

图8为本发明所述方法的传感器数量对数据采集能源效率的影响示意图；

图9为本发明所述方法的传感器数量对数据丢失率的影响示意图。

具体实施方式

下面结合说明书附图对本发明内容作进一步详细说明。如图1所示，本发明所述方法包括以下步骤：

和方位角

的方向移动距离

个传感器节点进行数据采集任务；

个节点以香农定理计算得到的数据传输速率进行数据采集；

查询：q＝f_q(s_t)

键：k＝f_k(s_t)

值：v＝f_v(s_t)

公式(3)中，γ为衰减因子,max为最大值操作；

公式(4)中，

为重要性采样加权因子，δ_iV＝r_t+γV_t+1-V_t为单步TD误差；

第五计算模型如下公式(6)所示：

在本发明的具体实施例中的仿真实验中，构建了一个长宽高分别为1km,1km,0.2km的三维移动群体感知场景，每个传感器节点的初始数据量

并随机分布在场景中，无人机群的初始位置为(500,500,100)m，并且以20m/s速度匀速进行飞行，整个数据采集任务被分为400个时间步，每个时间步的长度为20秒，本发明的具体实施例中场景以智慧城市为背景，场景通信参数设置为Ψ_Los＝0.1,Ψ_NLoS＝21,α₁＝39.79,α₂＝0.43，无人机群的信号传输功率恒定为Ψ_tx＝20dbm，场景噪音功率Ψ_n＝-70dbm，数据传输信噪比阈值为snr₀＝ 15dbm，每个无人机的初始电量e₀＝1500kJ，当无人机群电量耗尽或撞到障碍物时，当前回合数据采集任务立刻结束。

在本发明的具体实施例中的对算法的实现过程中，设置异步子进程的数量为16，神经网络的学习批量数据大小为150，序列长度为15，学习率为0.0007，计算累计回报的折扣因子为0.99，共享样本复用缓存的最大容量N＝4，每份样本的最大使用次数K＝2，如图1所示，算法中用于训练的神经网络包含2层卷积神经网络、2层多头注意力机制、像素控制反卷积网络和策略网络价值网络所需要的全连接层。

为了展示本发明所述方法在三维群体感知数据采集任务方面的性能，进行了详尽完整的系统测试，具体评价形式为当整个移动无人群体智能感知任务完成时系统的如下4个指标：

1.数据采集率(ζ)：所有无人机群采集的总数据量占传感器初始携带数据总量比例；

2.数据丢失率(σ)：由于真实环境中存在噪声干扰，当信息传输信噪比低于固定阈值snr₀时，本次数据传输视为无效，数据丢失率即为丢失数据总量与总传输数据总量之比；

3.地理公平性(κ)：无人机群采集数据的地理公平性，采用Jain公平指数进行计算；

4.数据采集能源效率(ξ)：无人机群采集数据的能量利用效率；

在以下测试中，依次改变场景中无人机群的个数U和传感器数量P，分别进行对比测试并分析结果，下面详细评估本算法的测试结果，采用以下基准算法进行对比：

IMPACT：作为同样采用异步式深度强化学习算法和共享样本复用缓存的算法，并未使用多头注意力机制和像素控制辅助任务且其余部分与本发明所述方法相同；

IMPALA：采用异步式计算机制的深度强化学习方法，是目前异步式深度强化学习的最优算法；

CA2C：采用Actor-Critic的同步深度强化学习框架，是目前使用深度强化学习算法求解群体感知数据采集路径的最佳方法；

Shortest Path：采用遗传算法求解顺序访问全部传感器的最短路径，无人机群对所有传感器进行遍历访问；

Random：每个无人机u采用随机策略进行移动。

总共进行了两组组仿真测试，分别以场景中无人机的个数U和传感器数量P作为自变量，因变量为上述评价指标，即数据采集率(ζ)，数据丢失率(σ)，地理公平性(κ)，数据采集能源效率(ξ)。

如图2、3、4、5所示，展示了无人机群个数对数据采集任务的影响，在实验中，传感器节点数量P＝256个，依次改变无人机数量U＝2到U＝25，如图2所示，本发明所述方法在数据采集能源效率方面均优于所述基准算法，例如，当无人机数量为4时，本发明所述方法达到了1.16的数据采集能源效率，相比于最佳对照组IMPACT提升了16％，本发明所述方法在数据采集能源效率方面比IMPACT、IMPALA、CA2C、Shortest Path基准算法分别有27％、45％、64％、68％的提升。

如图2和图3所示，随着更多的无人机部署，数据采集率和地理公平性均有明显上升，但由于能量消耗成倍增加，数据采集能源效率极速下降，得益于本发明所述方法的多头注意力机制的帮助和像素控制辅助任务帮助无人机群进行环境探索，无人机群之间学习到了更好的合作模式并提高了了数据采集能源效率，基于多头注意力机制的细粒度环境建模使得本发明所述方法表现优于其他对照算法，例如，当U＝10个无人机部署时，本发明所述方法达到了0.54的数据采集能源效率，但最优对照IMPACT只达到了0.48的数据采集能源效率；样本使用效率的不足使得IMPALA无法同时控制更多的无人机移动从而很容易陷入局部最优，当U＝10时，仅达到了0.4的数据采集能源效率，相比本发明所述方法的表现差34％。

从图3中能够看出，当部署4个或以上的无人机时，Shortest Path算法几乎收集了全部的传感器数据，但与此同时数据采集能源效率最大仅为0.70，这是因为Shortest Path算法没有考虑到无人机群间的协同关系，恰当地分工能够有效减少能量的消耗，例如，当部署U＝6个无人机群时，本发明所述方法和Shortest Path算法分别消耗了2455.82kJ和4740.46kJ，二者相差一倍之多，从而导致shortest path算法无法达到很高的数据采集能源效率。

如图6、7、8、9所示，展示了传感器数量对数据采集任务的影响，在本组实验中，无人机数量U＝2个，依次改变传感器数量P＝175到P＝475，当更多的传感器数据被采集时，这对无人机群的路径规划提出了更大的挑战；在策略迭代初期，无人机群若困于起始位置的高奖励而缺乏对于环境的探索，则整个策略训练过程很容易掉进局部最优，本发明所述方法相比于其他对照算法具有更高的数据采集率和地理公平性；从图6和图7能够看出，随着传感器数量的增加，不同算法的数据采集率和地理公平性均有不同程度的下降，但数据采集能源效率均明显提高，这是因为无人机群移动更短距离的同时采集到更多数据，但同时也导致了局部最优解；当环境信息密度极大P＝475时，本发明所述方法仍然达到了0.84的地理公平性和2.07的能源效率且相比于IMPACT算法、IMPALA算法、CA2C算法、ShortestPath 算法分别有16％、34％、75％、96％的提升，当问题的解空间规模上升时，基于遗传算法求解的最短路算法无法求解出最优遍历路径。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域技术人员可以想到的任何变形、改进、替换均落入本发明的保护范围。

Claims

1.一种基于多头注意力异步强化学习的三维群体探索方法，其特征在于，

和方位角

的方向移动距离

则无人机u移动所需时间为τ_t，u ^m＝l_t ^u/μ，当前时间步内无人机u还剩余τ_t，u ^c＝τ_total-τ_t，u ^m长度的时间进行数据采集任务，在数据采集任务时间内，无人机以轮询方式与周围最近的

个传感器节点进行数据采集任务；

步骤1.4、建立一个三维直角坐标系，其中每个无人机u在t时刻的位置坐标表示为(x_t ^u，y_t ^u，z_t ^u)，每个传感器p在t时刻的位置坐标则使用(x_t ^p，y_t ^p，z_t ^p)表示，无人机u与传感器p之间的距离l(u，p)使用欧式距离进行度量，考虑到场景信道大尺度衰弱，无人机u与传感器p之间的信道衰弱由下式(1)进行计算：