CN113283169B - 一种基于多头注意力异步强化学习的三维群体探索方法 - Google Patents

一种基于多头注意力异步强化学习的三维群体探索方法 Download PDF

Info

Publication number
CN113283169B
CN113283169B CN202110567571.3A CN202110567571A CN113283169B CN 113283169 B CN113283169 B CN 113283169B CN 202110567571 A CN202110567571 A CN 202110567571A CN 113283169 B CN113283169 B CN 113283169B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
data
data acquisition
command center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110567571.3A
Other languages
English (en)
Other versions
CN113283169A (zh
Inventor
刘驰
王昊
戴子彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110567571.3A priority Critical patent/CN113283169B/zh
Publication of CN113283169A publication Critical patent/CN113283169A/zh
Application granted granted Critical
Publication of CN113283169B publication Critical patent/CN113283169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于多头注意力异步强化学习的三维群体探索方法。包括以下步骤:步骤1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略;步骤2、指挥中心开启子进程;步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略;步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹;步骤5、反复执行步骤2、3、4直至无人机群行动轨迹不再发生变化;步骤6、指挥中心向无人机群发送最优轨迹调动指令。本发明解决了强化学习算法样本采样效率低下的问题,在使用同等数量的样本进行学习时算法达到了更好的数据采集效果,进一步得到最大化数据采集的最优轨迹。

Description

一种基于多头注意力异步强化学习的三维群体探索方法
技术领域
本发明属于移动群体感知领域,具体涉及一种基于多头注意力异步强化学习的三维群体探索方法。
背景技术
移动群体感知技术目前得到飞速发展并支撑了智慧城市下的数据获取需求。移动群体感知技术采用大量用户使用的移动设备作为基本感知单元,通过移动互联网进行协作,形成交互式的、参与式的感知网络,实现感知任务分发与数据收集利用,最终完成大规模的、复杂的社会感知任务,从而帮助专业人员或公众收集数据、分析数据和共享数据。然而基于移动设备的移动群体感知系统往往会受到多方面的影响,如用户移动的不确定性、移动设备的质量问题,这些因素会导致采集的数据质量低下、用户满意度差。
不同于以人为中心、以可携带设备为工具的群体感知方法,以移动无人终端特别是无人机为中心的移动群体感知技术为智慧城市提供更高质量和更广范围的感知数据获取服务。在一个智慧城市中分布着各种包含不同数据类型的传感器节点,例如监控摄像头、二氧化碳传感器、烟雾报警器以为雷达测速仪等。机动性强、灵活性高的无人机群通过搭载智能天线在较短的时间内收集大量来自传感器节点的数据,这单靠传统群体感知技术是难以实现的。现实场景中无人机群作为群体感知任务的执行者,其携带的能源是非常有限的,需要找到一种能够在最大化数据采集率的同时尽可能减小无人机群能耗的行为模式,结合实际的三维移动群体感知场景,以无人机群为核心的移动无人群体感知的现有技术中存在以下技术问题:
1、复杂应用环境建模困难,移动群体感知的现实应用场景往往是动态且复杂的,例如面向灾后救援的移动群体感知数据采集,场景中存在大量不规则建筑残骸并随时可能变化,指挥中心需根据环境建模结果合理规划当前无人机群飞行轨迹进行数据采集任务,因此环境建模的精准度很大程度上影响了群体感知任务的完成质量,如何针对真实应用环境进行准确且快速的空间建模成为了一大难题;
2、三维空间探索程度不足,针对三维空间维度爆炸引起的探索不充分的问题,需要设计一个合理又稳定高效的探索机制,促使无人机群对整个未知的三维移动群体感知场景进行快速且高效的探索,以提高无人机群环境建模和最优轨迹搜索工作的质量和效率。
3、强化学习样本利用率低,已有的强化学习算法面临着样本利用率极低的问题,不能针对仅有的样本进行有效而充分的学习,现实中三维移动群体感知任务的样本来源成本高、获取速度慢,如何在不影响算法的学习效果的前提下让算法更有效更充分的对已有样本进行采样学习是一个急待解决的难题。
发明内容
针对以上现有技术中的缺陷,本发明提出一种基于多头注意力异步强化学习的三维群体探索方法。
本发明所述方法包括以下步骤:
步骤1、指挥中心初始化基准探索策略与环境参数,无人机群根据感知环境变化进行数据采集:
步骤1.1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略,在三维移动群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策略;
步骤1.2、建立多个子进程,同步子进程的探索策略并初始化各子进程中的环境参数,环境参数包括无人机群位置、无人机群电量、传感器位置和传感器数据初始值,建立一个三维移动群体感知场景,部署了N台无人机作为感知数据采集任务的执行者,场景中存在P个随机分布的多天线传感器节点和无人机群应避开的随机分布的建筑障碍;
步骤1.3、整个感知任务被划分为相等的T个离散的时间步,每个时间步具有相同的时长τtotal,每个时间步内无人机群的活动分为终端移动与数据采集两部分,在每一个时间步内,每一个无人机u以固定速度μm/s沿着极角
Figure BDA0003081457820000021
和方位角
Figure BDA0003081457820000022
的方向移动距离
Figure BDA0003081457820000023
则无人机u移动所需时间为τr,u m=lt u/μ,当前时间步内无人机u还剩余τt,u c=τtotalt,u m长度的时间进行数据采集任务,在数据采集任务时间内,无人机以轮询方式与周围最近的
Figure BDA0003081457820000024
个传感器节点进行数据采集任务;
步骤1.4、建立一个三维直角坐标系,其中每个无人机u在t时刻的位置坐标表示为(xt u,yt u,zt u),每个传感器p在t时刻的位置坐标则使用(xt p,yt p,zt p)表示,无人机u与传感器p 之间的距离l(u,p)使用欧式距离进行度量,考虑到场景信道大尺度衰弱,无人机u与传感器p之间的信道衰弱由下式(1)进行计算:
Figure BDA0003081457820000025
公式(1)中,f为通信信道频率,c为光速,ΨNLoSLoS1和α2是根据群体感知环境变化包括郊区、市区、山区的场景常量,l(u,p)和θ(u,p)代表无人机群u与传感器p间的距离和方位角,设定无人机群的信号发射功率与环境噪声功率恒定,当前通信的信号信噪比表示为 snrt u,p=Ψtxt u,pn,当通信信噪比小于某一阈值snr0时,认定此次通信传输失败,无人机群无法解码得到有效数据,无人机等分τt,u c时间对周围
Figure BDA0003081457820000026
个节点以香农定理计算得到的数据传输速率进行数据采集;
步骤2、指挥中心开启子进程,基于多头注意力机制收集当前轨迹数据并上传至共享样本复用缓存:
步骤201、指挥中心开启各子进程,各子进程开启新一轮数据采集任务并监测维护自身环境,无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做出行动;
步骤202、各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取的变化进行模拟,当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情况,则立即结束子进程这一轮数据采集任务并重新初始化自身的环境参数;
否则,在当前时间t中,无人机群观察当前环境状态st,按照第一计算模型对环境状态st进行建模,第一计算模型如下公式(2):
查询:q=fq(st)
键:k=fk(st)
值:v=fv(st)
Figure BDA0003081457820000031
公式(2)中,fq为查询映射算子,fk为键映射算子,fv为值映射算子,
Figure BDA0003081457820000032
为归一化因子, softmax表示将键值点乘结果归一化至[0,1]操作;
步骤203、根据多头注意力机制的建模结果,从当前探索策略中采样出动作at,执行移动和数据获取动作,即移动到当前环境中需要采集感知数据的传感器位置,并采集这些传感器的当前剩余数据,根据各个传感器上数据剩余变化和无人机群能量消耗计算当前奖励rt,子进程将当前轨迹数据发送至共享样本复用缓存,当前轨迹数据指的是状态st、本次移动和数据获取动作at、当前奖励rt和当前动作的概率分布πact
步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略:
步骤301、当共享样本复用缓存满足一次策略更新的当前轨迹数据时,从共享样本复用缓存中采样出批量当前轨迹数据;
步骤302、指挥中心的主进程根据状态st和下一时刻状态st+1的像素差计算内在奖励
Figure BDA0003081457820000033
并根据状态st和已执行动作at反卷积得到探索策略的动作价值采样Qaux(st,at),按照第二计算模型计算内在奖励的累计回报,第二计算模型如下公式(3):
Figure BDA0003081457820000034
公式(3)中,γ为衰减因子,max为最大值操作;
步骤303、指挥中心根据第三计算模型计算探索策略的均方误差并通过梯度下降法更新探索策略,更新完成后同步所有子进程的探索策略,第三计算模型如下公式(4):
Figure BDA0003081457820000041
公式(4)中,
Figure BDA0003081457820000042
为第二计算模型所得到的内在奖励的累计回报,Qaux(st,at)为反卷积得到的动作价值采样并采取均方误差方法进行误差计算;
步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹以最大化数据采集效率:
步骤401、指挥中心的主进程根据批量当前轨迹数据,按照第四计算模型使用采用广义优势估计算法计算动作优势函数,第四计算模型如下公式(5):
Figure BDA0003081457820000043
公式(5)中,λ和γ为广义优势估计算法的折扣因子与估计因子,
Figure BDA0003081457820000044
为重要性采样加权因子,δiV=rt+γVt+1-Vt为单步TD误差;
步骤402、指挥中心的主进程采用信任域策略优化算法更新参数,目标函数
Figure BDA0003081457820000046
第五计算模型如下公式(6)所示:
Figure BDA0003081457820000045
公式(6)中,clip为价值裁剪操作,A(n,t)为第四计算模型的动作优势函数计算结果;
步骤5、反复执行步骤2、步骤3、步骤4直至无人机群行动轨迹不再发生变化;
步骤6、指挥中心向无人机群发送最优轨迹调动指令以获取感知区域内传感器的最新数据:
步骤601、指挥中心的主进程初始化环境并基于步骤5执行完毕输出的探索策略为无人机群生成动作轨迹,此动作轨迹即为可最大化数据采集效率的最优轨迹;
步骤602、在三维移动群体感知场景中,指挥中心根据当前计算出的最优轨迹,向无人机群发送一系列控制指令,调度无人机群通过移动依次获取感知区域内传感器的数据并发送回指挥中心。
本发明所述方法具有如下的有益效果:
1、本发明所述方法通过不断调度搭载智能天线的无人机群移动以最大化群体感知的数据采集能源效率,基于多用户单天线轮询通讯技术下的数据上传模型,采用了最大化所有传感器数据获取的方式建模整个问题以保证传感器网络感知数据获取的有效性,采用本发明所述方法为调度算法的无人机作为群体感知任务的执行者相比于传统人工执行或机器辅助执行具有更好的感知数据采集效果,并能够广泛应用于面积大、环境复杂、噪音干扰强、问题难以建模的场景;
2、本发明所述方法通过使用多头注意力机制对环境进行关系建模,克服了环境空间难以建模的问题,通过使用多个自注意力头部关注状态空间不同层次的信息,基于关系特征加权对环境空间进行多层次、多维度的细粒度建模,能够更准确、更详细地描述场景环境信息,从而能够更好地服务于指挥中心进行无人机群数据采集轨迹规划;
3、本发明所述方法提出了基于像素控制的探索策略优化算法,有效地解决了环境空间的探索不充分问题,具体而言是通过神经网络计算预测当前状态的像素变化与实际像素变化的差异性来估算,最大化估算值从而增强策略的探索性,因此,本发明所述方法能够快速探索未知且庞大的三维移动群体感知场景,能够有效捕捉场景内的任务信息,避免因探索不足陷入局部最优解,增加了最大化数据采集的效果;
4、本发明所述方法构建了基于共享样本复用缓存的异步更新架构,并使用近端策略优化算法进行更新,解决了强化学习算法样本采样效率低下的问题,在使用同等数量的样本进行学习时,本发明算法达到了更好的数据采集效果,共享样本复用缓存机制能够有效存储并多次对当前轨迹进行采样学习且近端策略优化算法保证了更新幅度处于建立的可信任域之内,本发明所述方法能够充分利用有限的学习样本并进一步得到最大化数据采集的最优轨迹;
5、本发明所述方法能够准确掌握在给定时间内进行数据采集任务的无人机群移动轨迹,基于:(1)得益于多头注意力机制对环境进行精确的建模,无人机群间学会了分工的合作模式,不同无人机负责不同的任务区域进行数据采集,从而避免很多无意义的移动消耗并达到了更高的数据采集能源效率,(2)基于本发明所述方法提出的像素控制的探索策略优化算法,无人机群的移动轨迹均匀地布满整个任务空间,有效地解决了环境空间的探索不充分问题,一些难移动、难采集的传感器节点也得到了相应的采集,(3)本发明所述方法在有限的学习样本的限制下采用共享样本复用缓存机制对当前轨迹进行多次学习,加快了与建筑物内传感器节点的数据传输速率。
附图说明
图1为本发明所述方法的基于深度强化学习的无人机群调度算法原理图;
图2为本发明所述方法的无人机群数量对地理公平性的影响示意图;
图3为本发明所述方法的无人机群数量对数据采集率的影响示意图;
图4为本发明所述方法的无人机群数量对数据采集能源效率的影响示意图;
图5为本发明所述方法的无人机群数量对数据丢失率的影响示意图;
图6为本发明所述方法的传感器数量对地理公平性的影响示意图;
图7为本发明所述方法的传感器数量对数据采集率的影响示意图;
图8为本发明所述方法的传感器数量对数据采集能源效率的影响示意图;
图9为本发明所述方法的传感器数量对数据丢失率的影响示意图。
具体实施方式
下面结合说明书附图对本发明内容作进一步详细说明。如图1所示,本发明所述方法包括以下步骤:
步骤1、指挥中心初始化基准探索策略与环境参数,无人机群根据感知环境变化进行数据采集:
步骤1.1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略,在三维移动群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策略;
步骤1.2、建立多个子进程,同步子进程的探索策略并初始化各子进程中的环境参数,环境参数包括无人机群位置、无人机群电量、传感器位置和传感器数据初始值,建立一个三维移动群体感知场景,部署了N台无人机作为感知数据采集任务的执行者,场景中存在P个随机分布的多天线传感器节点和无人机群应避开的随机分布的建筑障碍;
步骤1.3、整个感知任务被划分为相等的T个离散的时间步,每个时间步具有相同的时长τtotal,每个时间步内无人机群的活动分为终端移动与数据采集两部分,在每一个时间步内,每一个无人机u以固定速度μm/s沿着极角
Figure BDA0003081457820000061
和方位角
Figure BDA0003081457820000062
的方向移动距离
Figure BDA0003081457820000063
则无人机u移动所需时间为τr,u m=lt u/μ,当前时间步内无人机u还剩余τt,u c=τtotalt,u m长度的时间进行数据采集任务,在数据采集任务时间内,无人机以轮询方式与周围最近的
Figure BDA0003081457820000064
个传感器节点进行数据采集任务;
步骤1.4、建立一个三维直角坐标系,其中每个无人机u在t时刻的位置坐标表示为(xt u,yt u,zt u),每个传感器p在t时刻的位置坐标则使用(xt p,yt p,zt p)表示,无人机u与传感器p 之间的距离l(u,p)使用欧式距离进行度量,考虑到场景信道大尺度衰弱,无人机u与传感器p之间的信道衰弱由下式(1)进行计算:
Figure BDA0003081457820000065
公式(1)中,f为通信信道频率,c为光速,ΨNLoSLoS1和α2是根据群体感知环境变化包括郊区、市区、山区的场景常量,l(u,p)和θ(u,p)代表无人机群u与传感器p间的距离和方位角,设定无人机群的信号发射功率与环境噪声功率恒定,当前通信的信号信噪比表示为 snrt u,p=Ψtxt u,pn,当通信信噪比小于某一阈值snr0时,认定此次通信传输失败,无人机群无法解码得到有效数据,无人机等分τt,u c时间对周围
Figure BDA0003081457820000066
个节点以香农定理计算得到的数据传输速率进行数据采集;
步骤2、指挥中心开启子进程,基于多头注意力机制收集当前轨迹数据并上传至共享样本复用缓存:
步骤201、指挥中心开启各子进程,各子进程开启新一轮数据采集任务并监测维护自身环境,无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做出行动;
步骤202、各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取的变化进行模拟,当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情况,则立即结束子进程这一轮数据采集任务并重新初始化自身的环境参数;
否则,在当前时间t中,无人机群观察当前环境状态st,按照第一计算模型对环境状态st进行建模,第一计算模型如下公式(2):
查询:q=fq(st)
键:k=fk(st)
值:v=fv(st)
Figure BDA0003081457820000071
公式(2)中,fq为查询映射算子,fk为键映射算子,fv为值映射算子,
Figure BDA0003081457820000072
为归一化因子, softmax表示将键值点乘结果归一化至[0,1]操作;
步骤203、根据多头注意力机制的建模结果,从当前探索策略中采样出动作at,执行移动和数据获取动作,即移动到当前环境中需要采集感知数据的传感器位置,并采集这些传感器的当前剩余数据,根据各个传感器上数据剩余变化和无人机群能量消耗计算当前奖励rt,子进程将当前轨迹数据发送至共享样本复用缓存,当前轨迹数据指的是状态st、本次移动和数据获取动作at、当前奖励rt和当前动作的概率分布πact
步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略:
步骤301、当共享样本复用缓存满足一次策略更新的当前轨迹数据时,从共享样本复用缓存中采样出批量当前轨迹数据;
步骤302、指挥中心的主进程根据状态st和下一时刻状态st+1的像素差计算内在奖励
Figure BDA0003081457820000073
并根据状态st和已执行动作at反卷积得到探索策略的动作价值采样Qaux(st,at),按照第二计算模型计算内在奖励的累计回报,第二计算模型如下公式(3):
Figure BDA0003081457820000074
公式(3)中,γ为衰减因子,max为最大值操作;
步骤303、指挥中心根据第三计算模型计算探索策略的均方误差并通过梯度下降法更新探索策略,更新完成后同步所有子进程的探索策略,第三计算模型如下公式(4):
Figure BDA0003081457820000081
公式(4)中,
Figure BDA0003081457820000082
为第二计算模型所得到的内在奖励的累计回报,Qaux(st,at)为反卷积得到的动作价值采样并采取均方误差方法进行误差计算;
步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹以最大化数据采集效率:
步骤401、指挥中心的主进程根据批量当前轨迹数据,按照第四计算模型使用采用广义优势估计算法计算动作优势函数,第四计算模型如下公式(5):
Figure BDA0003081457820000083
公式(5)中,λ和γ为广义优势估计算法的折扣因子与估计因子,
Figure BDA0003081457820000084
为重要性采样加权因子,δiV=rt+γVt+1-Vt为单步TD误差;
步骤402、指挥中心的主进程采用信任域策略优化算法更新参数,目标函数
Figure BDA0003081457820000086
第五计算模型如下公式(6)所示:
Figure BDA0003081457820000085
公式(6)中,clip为价值裁剪操作,A(n,t)为第四计算模型的动作优势函数计算结果;
步骤5、反复执行步骤2、步骤3、步骤4直至无人机群行动轨迹不再发生变化;
步骤6、指挥中心向无人机群发送最优轨迹调动指令以获取感知区域内传感器的最新数据:
步骤601、指挥中心的主进程初始化环境并基于步骤5执行完毕输出的探索策略为无人机群生成动作轨迹,此动作轨迹即为可最大化数据采集效率的最优轨迹;
步骤602、在三维移动群体感知场景中,指挥中心根据当前计算出的最优轨迹,向无人机群发送一系列控制指令,调度无人机群通过移动依次获取感知区域内传感器的数据并发送回指挥中心。
在本发明的具体实施例中的仿真实验中,构建了一个长宽高分别为1km,1km,0.2km的三维移动群体感知场景,每个传感器节点的初始数据量
Figure BDA0003081457820000087
并随机分布在场景中,无人机群的初始位置为(500,500,100)m,并且以20m/s速度匀速进行飞行,整个数据采集任务被分为400个时间步,每个时间步的长度为20秒,本发明的具体实施例中场景以智慧城市为背景,场景通信参数设置为ΨLos=0.1,ΨNLoS=21,α1=39.79,α2=0.43,无人机群的信号传输功率恒定为Ψtx=20dbm,场景噪音功率Ψn=-70dbm,数据传输信噪比阈值为snr0= 15dbm,每个无人机的初始电量e0=1500kJ,当无人机群电量耗尽或撞到障碍物时,当前回合数据采集任务立刻结束。
在本发明的具体实施例中的对算法的实现过程中,设置异步子进程的数量为16,神经网络的学习批量数据大小为150,序列长度为15,学习率为0.0007,计算累计回报的折扣因子为0.99,共享样本复用缓存的最大容量N=4,每份样本的最大使用次数K=2,如图1所示,算法中用于训练的神经网络包含2层卷积神经网络、2层多头注意力机制、像素控制反卷积网络和策略网络价值网络所需要的全连接层。
为了展示本发明所述方法在三维群体感知数据采集任务方面的性能,进行了详尽完整的系统测试,具体评价形式为当整个移动无人群体智能感知任务完成时系统的如下4个指标:
1.数据采集率(ζ):所有无人机群采集的总数据量占传感器初始携带数据总量比例;
2.数据丢失率(σ):由于真实环境中存在噪声干扰,当信息传输信噪比低于固定阈值snr0时,本次数据传输视为无效,数据丢失率即为丢失数据总量与总传输数据总量之比;
3.地理公平性(κ):无人机群采集数据的地理公平性,采用Jain公平指数进行计算;
4.数据采集能源效率(ξ):无人机群采集数据的能量利用效率;
在以下测试中,依次改变场景中无人机群的个数U和传感器数量P,分别进行对比测试并分析结果,下面详细评估本算法的测试结果,采用以下基准算法进行对比:
IMPACT:作为同样采用异步式深度强化学习算法和共享样本复用缓存的算法,并未使用多头注意力机制和像素控制辅助任务且其余部分与本发明所述方法相同;
IMPALA:采用异步式计算机制的深度强化学习方法,是目前异步式深度强化学习的最优算法;
CA2C:采用Actor-Critic的同步深度强化学习框架,是目前使用深度强化学习算法求解群体感知数据采集路径的最佳方法;
Shortest Path:采用遗传算法求解顺序访问全部传感器的最短路径,无人机群对所有传感器进行遍历访问;
Random:每个无人机u采用随机策略进行移动。
总共进行了两组组仿真测试,分别以场景中无人机的个数U和传感器数量P作为自变量,因变量为上述评价指标,即数据采集率(ζ),数据丢失率(σ),地理公平性(κ),数据采集能源效率(ξ)。
如图2、3、4、5所示,展示了无人机群个数对数据采集任务的影响,在实验中,传感器节点数量P=256个,依次改变无人机数量U=2到U=25,如图2所示,本发明所述方法在数据采集能源效率方面均优于所述基准算法,例如,当无人机数量为4时,本发明所述方法达到了1.16的数据采集能源效率,相比于最佳对照组IMPACT提升了16%,本发明所述方法在数据采集能源效率方面比IMPACT、IMPALA、CA2C、Shortest Path基准算法分别有27%、45%、64%、68%的提升。
如图2和图3所示,随着更多的无人机部署,数据采集率和地理公平性均有明显上升,但由于能量消耗成倍增加,数据采集能源效率极速下降,得益于本发明所述方法的多头注意力机制的帮助和像素控制辅助任务帮助无人机群进行环境探索,无人机群之间学习到了更好的合作模式并提高了了数据采集能源效率,基于多头注意力机制的细粒度环境建模使得本发明所述方法表现优于其他对照算法,例如,当U=10个无人机部署时,本发明所述方法达到了0.54的数据采集能源效率,但最优对照IMPACT只达到了0.48的数据采集能源效率;样本使用效率的不足使得IMPALA无法同时控制更多的无人机移动从而很容易陷入局部最优,当U=10时,仅达到了0.4的数据采集能源效率,相比本发明所述方法的表现差34%。
从图3中能够看出,当部署4个或以上的无人机时,Shortest Path算法几乎收集了全部的传感器数据,但与此同时数据采集能源效率最大仅为0.70,这是因为Shortest Path算法没有考虑到无人机群间的协同关系,恰当地分工能够有效减少能量的消耗,例如,当部署U=6个无人机群时,本发明所述方法和Shortest Path算法分别消耗了2455.82kJ和4740.46kJ,二者相差一倍之多,从而导致shortest path算法无法达到很高的数据采集能源效率。
如图6、7、8、9所示,展示了传感器数量对数据采集任务的影响,在本组实验中,无人机数量U=2个,依次改变传感器数量P=175到P=475,当更多的传感器数据被采集时,这对无人机群的路径规划提出了更大的挑战;在策略迭代初期,无人机群若困于起始位置的高奖励而缺乏对于环境的探索,则整个策略训练过程很容易掉进局部最优,本发明所述方法相比于其他对照算法具有更高的数据采集率和地理公平性;从图6和图7能够看出,随着传感器数量的增加,不同算法的数据采集率和地理公平性均有不同程度的下降,但数据采集能源效率均明显提高,这是因为无人机群移动更短距离的同时采集到更多数据,但同时也导致了局部最优解;当环境信息密度极大P=475时,本发明所述方法仍然达到了0.84的地理公平性和2.07的能源效率且相比于IMPACT算法、IMPALA算法、CA2C算法、ShortestPath 算法分别有16%、34%、75%、96%的提升,当问题的解空间规模上升时,基于遗传算法求解的最短路算法无法求解出最优遍历路径。
本发明并不限于上述实施方式,在不背离本发明实质内容的情况下,本领域技术人员可以想到的任何变形、改进、替换均落入本发明的保护范围。

Claims (4)

1.一种基于多头注意力异步强化学习的三维群体探索方法,其特征在于,
步骤1、指挥中心初始化基准探索策略与环境参数,无人机群根据感知环境变化进行数据采集:
步骤1.1、指挥中心主进程设立共享样本复用缓存并初始化基准探索策略,在三维移动群体感知场景中的指挥中心上建立一个空的共享样本复用缓存并初始化一个基准探索策略;
步骤1.2、建立多个子进程,同步子进程的探索策略并初始化各子进程中的环境参数,环境参数包括无人机群位置、无人机群电量、传感器位置和传感器数据初始值,建立一个三维移动群体感知场景,部署了N台无人机作为感知数据采集任务的执行者,场景中存在P个随机分布的多天线传感器节点和无人机群应避开的随机分布的建筑障碍;
步骤1.3、整个感知任务被划分为相等的T个离散的时间步,每个时间步具有相同的时长τtotal,每个时间步内无人机群的活动分为终端移动与数据采集两部分,在每一个时间步内,每一个无人机u以固定速度μm/s沿着极角
Figure FDA0003081457810000011
和方位角
Figure FDA0003081457810000012
的方向移动距离
Figure FDA0003081457810000013
则无人机u移动所需时间为τt,u m=lt u/μ,当前时间步内无人机u还剩余τt,u c=τtotalt,u m长度的时间进行数据采集任务,在数据采集任务时间内,无人机以轮询方式与周围最近的
Figure FDA0003081457810000014
个传感器节点进行数据采集任务;
步骤1.4、建立一个三维直角坐标系,其中每个无人机u在t时刻的位置坐标表示为(xt u,yt u,zt u),每个传感器p在t时刻的位置坐标则使用(xt p,yt p,zt p)表示,无人机u与传感器p之间的距离l(u,p)使用欧式距离进行度量,考虑到场景信道大尺度衰弱,无人机u与传感器p之间的信道衰弱由下式(1)进行计算:
Figure FDA0003081457810000015
公式(1)中,f为通信信道频率,c为光速,ΨNLoSLoS1和α2是根据群体感知环境变化包括郊区、市区、山区的场景常量,l(u,p)和
Figure FDA0003081457810000017
代表无人机群u与传感器p间的距离和方位角,设定无人机群的信号发射功率与环境噪声功率恒定,当前通信的信号信噪比表示为snrt u,p=Ψtxt u,pn,当通信信噪比小于某一阈值snr0时,认定此次通信传输失败,无人机群无法解码得到有效数据,无人机等分τt,u c时间对周围
Figure FDA0003081457810000016
个节点以香农定理计算得到的数据传输速率进行数据采集;
步骤2、指挥中心开启子进程,基于多头注意力机制收集当前轨迹数据并上传至共享样本复用缓存:
步骤201、指挥中心开启各子进程,各子进程开启新一轮数据采集任务并监测维护自身环境,无人机群基于多头注意力机制对当前环境状态进行建模并根据自身当前探索策略做出行动;
步骤202、各子进程以异步执行的方式对各自环境中无人机群轨迹与传感器数据获取的变化进行模拟,当某一轮数据采集任务检测到无人机群碰撞到障碍物或者耗尽能量的情况,则立即结束子进程这一轮数据采集任务并重新初始化自身的环境参数;
否则,在当前时间t中,无人机群观察当前环境状态st,按照第一计算模型对环境状态st进行建模,第一计算模型如下公式(2):
查询:q=fq(st)
键:k=fk(st)
值:v=fv(st)
Figure FDA0003081457810000021
公式(2)中,fq为查询映射算子,fk为键映射算子,fv为值映射算子,
Figure FDA0003081457810000022
为归一化因子,softmax表示将键值点乘结果归一化至[0,1]操作;
步骤203、根据多头注意力机制的建模结果,从当前探索策略中采样出动作at,执行移动和数据获取动作,即移动到当前环境中需要采集感知数据的传感器位置,并采集这些传感器的当前剩余数据,根据各个传感器上数据剩余变化和无人机群能量消耗计算当前奖励rt,子进程将当前轨迹数据发送至共享样本复用缓存,当前轨迹数据指的是状态st、本次移动和数据获取动作at、当前奖励rt和当前动作的概率分布πact
步骤3、指挥中心基于共享样本复用缓存采用像素控制算法优化无人机探索策略;
步骤4、指挥中心基于共享样本复用缓存采用信任域策略算法获取无人机群体飞行轨迹以最大化数据采集效率;
步骤5、反复执行步骤2、步骤3、步骤4直至无人机群行动轨迹不再发生变化;
步骤6、指挥中心向无人机群发送最优轨迹调动指令以获取感知区域内传感器的最新数据。
2.根据权利要求1所述的一种基于多头注意力异步强化学习的三维群体探索方法,其特征在于,所述步骤3包括以下步骤:
步骤301、当共享样本复用缓存满足一次策略更新的当前轨迹数据时,从共享样本复用缓存中采样出批量当前轨迹数据;
步骤302、指挥中心的主进程根据状态st和下一时刻状态st+1的像素差计算内在奖励
Figure FDA0003081457810000023
并根据状态st和已执行动作at反卷积得到探索策略的动作价值采样Qaux(st,at),按照第二计算模型计算内在奖励的累计回报,第二计算模型如下公式(3):
Figure FDA0003081457810000024
公式(3)中,γ为衰减因子,max为最大值操作;
步骤303、指挥中心根据第三计算模型计算探索策略的均方误差并通过梯度下降法更新探索策略,更新完成后同步所有子进程的探索策略,第三计算模型如下公式(4):
Figure FDA0003081457810000025
公式(4)中,
Figure FDA0003081457810000026
为第二计算模型所得到的内在奖励的累计回报,Qaux(st,at)为反卷积得到的动作价值采样并采取均方误差方法进行误差计算。
3.根据权利要求1所述的一种基于多头注意力异步强化学习的三维群体探索方法,其特征在于,所述步骤4包括以下步骤:
步骤401、指挥中心的主进程根据批量当前轨迹数据,按照第四计算模型使用采用广义优势估计算法计算动作优势函数,第四计算模型如下公式(5):
Figure FDA0003081457810000031
公式(5)中,λ和γ为广义优势估计算法的折扣因子与估计因子,
Figure FDA0003081457810000032
为重要性采样加权因子,δiV=rt+γVt+1-Vt为单步TD误差;
步骤402、指挥中心的主进程采用信任域策略优化算法更新参数,目标函数
Figure FDA0003081457810000034
第五计算模型如下公式(6)所示:
Figure FDA0003081457810000033
公式(6)中,clip为价值裁剪操作,A(n,t)为第四计算模型的动作优势函数计算结果。
4.根据权利要求1所述的一种基于多头注意力异步强化学习的三维群体探索方法,其特征在于,所述步骤6包括以下步骤:
步骤601、指挥中心的主进程初始化环境并基于步骤5执行完毕输出的探索策略为无人机群生成动作轨迹,此动作轨迹即为可最大化数据采集效率的最优轨迹;
步骤602、在三维移动群体感知场景中,指挥中心根据当前计算出的最优轨迹,向无人机群发送一系列控制指令,调度无人机群通过移动依次获取感知区域内传感器的数据并发送回指挥中心。
CN202110567571.3A 2021-05-24 2021-05-24 一种基于多头注意力异步强化学习的三维群体探索方法 Active CN113283169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110567571.3A CN113283169B (zh) 2021-05-24 2021-05-24 一种基于多头注意力异步强化学习的三维群体探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110567571.3A CN113283169B (zh) 2021-05-24 2021-05-24 一种基于多头注意力异步强化学习的三维群体探索方法

Publications (2)

Publication Number Publication Date
CN113283169A CN113283169A (zh) 2021-08-20
CN113283169B true CN113283169B (zh) 2022-04-26

Family

ID=77281326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110567571.3A Active CN113283169B (zh) 2021-05-24 2021-05-24 一种基于多头注意力异步强化学习的三维群体探索方法

Country Status (1)

Country Link
CN (1) CN113283169B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848868B (zh) * 2021-10-18 2023-09-22 东南大学 一种意图驱动的强化学习路径规划方法
CN114527666B (zh) * 2022-03-09 2023-08-11 西北工业大学 基于注意力机制的cps系统强化学习控制方法
CN115630710B (zh) * 2022-11-16 2023-04-11 清华大学 基于自组织群组的多智能体强化学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN112512070A (zh) * 2021-02-05 2021-03-16 之江实验室 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040030571A1 (en) * 2002-04-22 2004-02-12 Neal Solomon System, method and apparatus for automated collective mobile robotic vehicles used in remote sensing surveillance
WO2020180480A1 (en) * 2019-03-05 2020-09-10 Hrl Laboratories, Llc A robust, scalable and generalizable machine learning paradigm for multi-agent applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111432015A (zh) * 2020-03-31 2020-07-17 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN112512070A (zh) * 2021-02-05 2021-03-16 之江实验室 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning;Chi Harold Liu;《IEEE Transactions on Mobile Computing》;20190830;全文 *
Distributed Energy-Efficient Multi-UAV Navigatrion for Long-term Communication Coverage by Deep Reinforcement Learning;Chi Harold Liu;《IEEE Transactions on Mobile Computing》;20190329;第19卷(第06期);全文 *
Multi-Task-Oriented Vehicular Crowdaensing:A Deep Learning Approach;Chi Harold Liu等;《IEEE Conference on Computer Communications》;20200803;全文 *
Time-Aware Location Prediction by Convolutional Area-of-Interest Modeling and Memory-Augmented Attentive LSTM;Chi Harold Liu;《IEEE Transactions on Knowledge and Date Engineering》;20200629;全文 *
基于MAXQ分层强化学习的有人机/无人机协同路径规划研究;程先峰等;《信息化研究》;20200220(第01期);全文 *
基于深度强化学习的群体对抗策略研究;刘强等;《智能计算机与应用》;20200501(第05期);全文 *
跨传感器异步迁移学习的室内单目无人机避障;李湛等;《宇航学报》;20200630(第06期);全文 *

Also Published As

Publication number Publication date
CN113283169A (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
CN113283169B (zh) 一种基于多头注意力异步强化学习的三维群体探索方法
Jiang et al. AI driven heterogeneous MEC system with UAV assistance for dynamic environment: Challenges and solutions
CN110244715B (zh) 一种基于超宽带技术的多移动机器人高精度协同跟踪方法
CN110989352B (zh) 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN109327797B (zh) 基于WiFi网络信号的移动机器人室内定位系统
Dai et al. AoI-minimal UAV crowdsensing by model-based graph convolutional reinforcement learning
Esrafilian et al. Three-dimensional-map-based trajectory design in UAV-aided wireless localization systems
Venturini et al. Distributed reinforcement learning for flexible and efficient UAV swarm control
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
Yang et al. A digital twins enabled underwater intelligent internet vehicle path planning system via reinforcement learning and edge computing
CN116405111B (zh) 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116627162A (zh) 基于多智能体强化学习的多无人机数据采集位置优化方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN103260238A (zh) 无线传感器网络中基于速度采样区的移动节点定位方法
Liu et al. Uav intelligent coverage navigation based on drl in complex geometrical environments
Hu et al. A novel indoor localization system using machine learning based on bluetooth low energy with cloud computing
Li et al. UAV trajectory optimization for spectrum cartography: A PPO approach
Zhu et al. Path planning for adaptive CSI map construction with A3C in dynamic environments
Thompson et al. Information-optimal selective data return for autonomous rover traverse science and survey
Brunori et al. A reinforcement learning environment for multi-service UAV-enabled wireless systems
CN112867023B (zh) 一种通过动态调度无人终端最小化感知数据获取时延方法
CN114884595B (zh) 一种基于强化学习的认知无人机频谱感知方法
Bhandarkar et al. User coverage maximization for a uav-mounted base station using reinforcement learning and greedy methods
CN115052245A (zh) 基于深度学习的无人机辅助无线传感器网络节点定位方法
CN113934966A (zh) 一种群体感知中利用图卷积强化学习最小化信息年龄方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant