CN112580537B - 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法 - Google Patents

一种用于多无人机系统持续覆盖特定区域的深度强化学习方法 Download PDF

Info

Publication number
CN112580537B
CN112580537B CN202011542223.2A CN202011542223A CN112580537B CN 112580537 B CN112580537 B CN 112580537B CN 202011542223 A CN202011542223 A CN 202011542223A CN 112580537 B CN112580537 B CN 112580537B
Authority
CN
China
Prior art keywords
network
unmanned aerial
aerial vehicle
reinforcement learning
specific area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011542223.2A
Other languages
English (en)
Other versions
CN112580537A (zh
Inventor
王楠
孙兆梅
牛轶峰
康瀚文
林弘
丁宇航
李雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011542223.2A priority Critical patent/CN112580537B/zh
Publication of CN112580537A publication Critical patent/CN112580537A/zh
Application granted granted Critical
Publication of CN112580537B publication Critical patent/CN112580537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种用于多无人机系统持续覆盖特定区域的深度强化学习方法,其步骤包括:步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;步骤S2:基于强化学习actor‑critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;步骤S4:基于强化学习策略梯度方法,训练步骤S1和S2中的神经网络模型。本发明具有鲁棒性能好、可扩展性强、覆盖周期短、协调性好等优点。

Description

一种用于多无人机系统持续覆盖特定区域的深度强化学习 方法
技术领域
本发明主要涉及到无人机协同控制技术领域,特指一种用于多无人机系统持续覆盖特定区域的深度强化学习方法。
背景技术
无人机集群区域覆盖是一个重要的研究问题,主要解决如何通过大规模无人机进行指定区域的覆盖,从而达到集群系统的最佳性能,如覆盖时间最短、覆盖率最高等。无人机集群区域覆盖具有十分广泛的应用,如地理测绘、搜索救援、灾情监视等。
早期覆盖规划的研究主要是针对单机覆盖指定区域的方法研究,如扫描方式、区域分割、和进程规划等。近年来,研究者侧重于多无人机协同区域覆盖,例如主要有维诺图法、虚拟力法、基于深度强化学习方法的覆盖算法、基于PS0的持续性覆盖控制方法、基于动态规划的覆盖路径规划算法、由单个无人机推广至多个无人机的启发式持续性覆盖方法等。
上述传统的方法中,有些方法只研究覆盖率相关问题,并没有考虑对区域的持续性覆盖和无人机之间的协调性;有些方法虽然研究了持续覆盖的问题,但并没有最小化持续覆盖的周期,且这些方法鲁棒性差、扩展性弱,且没有处理异构无人机的控制问题。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种鲁棒性能好、可扩展性强、覆盖周期短、协调性好的用于多无人机系统持续覆盖特定区域的深度强化学习方法。
为解决上述技术问题,本发明采用以下技术方案:
一种用于多无人机系统持续覆盖特定区域的深度强化学习方法,其步骤包括:
步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;
步骤S2:基于强化学习actor-critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;
步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;
步骤S4:基于强化学习策略梯度方法,训练步骤S1和S2中的神经网络模型。
作为本发明方法的进一步改进:所述步骤S3中利用WLU方法,为每架无人机设置个体奖励。
作为本发明方法的进一步改进:所述步骤S4中,基于强化学习Actor-critic网络,利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型,直至loss收敛时终止。
作为本发明方法的进一步改进:所述步骤S2中,将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中。所有无人机共享网络参数,多无人机在持续覆盖区域时,单个无人机可以自由加入和结束覆盖任务而不影响整个系统的性能,即解决多无人机控制决策系统的可扩展性和鲁棒稳定性问题。
作为本发明方法的进一步改进:所述步骤S2中,将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入,将无人机的航向和飞行距离作为控制决策模型的输出。
作为本发明方法的进一步改进:所述步骤S2中,扩展输出参数,用以实现异构无人机的控制。
作为本发明方法的进一步改进:所述步骤S2中,建立双向循环网络actor网络、critic网络,所述actor网络以步骤S1中提取的特征向量为输入,以无人机的控制输出——航向、飞行距离为输出;所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入,以Q值为输出。
作为本发明方法的进一步改进:假定无人机飞行在固定高度,每个无人机的探测区域为以无人机为中心,半径为r的圆形区域,无人机飞行距离为vt;假定待覆盖区域被划分
Figure BDA0002855054430000031
个正方形网格,每个网格边长为r,定义每个网格的覆盖周期,初始值为0,若网格被无人机覆盖时,覆盖周期重置为0,否则覆盖周期随时间步长递增,增量为1;定义网格与无人机的相对距离、相对角度,并对其归一化处理;建立vggNet网络,以网格覆盖周期、无人机与网格相对距离、相对位置组成
Figure BDA0002855054430000032
的featuremap输入vggNet,提取待覆盖区域的特征向量。
作为本发明方法的进一步改进:在所述actor网络中,利用vggNet提取待覆盖区域的特征,将提取的特征输入双向循环神经网络,最后得到无人机的控制输出,即无人机的航向及飞行距离。
作为本发明方法的进一步改进:所述步骤S4的步骤包括:
步骤S401:将步骤S1提取特征的vggNet合并入actor、critic网络;
步骤S402:随机初始化online actor网络、online critic网络的参数;
步骤S403:建立target actor网络、target critic网络,并用online网络参数对其初始化;
步骤S404:初始化经验池;
步骤S405:随机初始化无人机位置,初始化网格覆盖周期,获取初始featuremaps1
步骤S405:训练网络,迭代执行下述步骤S407-步骤S411;
步骤S407:通过online actor网络得到一个动作a(st),加上0rnsteinUhlenbeck扰动N得到一个探索的动作a(st)+N;
步骤S408:无人机执行动作a(st)+N,得到相应的奖励r=(r1,r2,...,rn)和下一个feature map st+1,并将(st,at,rt,st+1)存储到经验池B;
步骤S409:从经验池B中选取小批量的数据,通过online critic网络、onlineactor网络计算
Figure BDA0002855054430000041
同时利用Bellman方程及target actor网络、target critic网络估计Q,得到:
Figure BDA0002855054430000042
沿着平方误差:
Figure BDA0002855054430000043
的负梯度方向更新online critic网络参数;
步骤S410:沿着策略梯度:
Figure BDA0002855054430000044
的方向,更新onlineactor网络参数;
步骤S411:利用online网络参数更新target网络参数。
与现有技术相比,本发明的优点在于:
1、本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法,本具有原理简单、可持续性地全覆盖指定区域、并具有最小化覆盖周期、可扩展性好、鲁棒稳定性强、可实现异构无人机系统的控制等优点,对多无人机持续性覆盖区域的分布式控制任务具有重要的理论和实用价值。
2、本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法,用卷积神经网络提取覆盖区域的特征,有效地利用了区域的空间结构信息,可提高覆盖性能;利用卷积神经网络的权值共享特性,大大减少模型参数,进而提升模型训练的收敛速度;利用双向循环网络的结构特性,实现无人机之间协调控制,进而提高控制决策系统的鲁棒性、扩展性以及覆盖性能;通过扩展控制策略模型的输出参数可解决异构无人机的协调控制问题。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中单架无人机单位时间内覆盖区域示意图。
图3是本发明在具体应用实例中待覆盖区域仿真模型示意图。
图4是本发明在具体应用实例中actor网络示意图。
图5是本发明在具体应用实例中critic网络示意图
图6是本发明在具体应用实例中的框架示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1所示,本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其步骤包括:
步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;
通过采用卷积神经网络提取待覆盖区域的特征,能够有效地利用了区域的空间结构信息,提高了覆盖性能;利用卷积神经网络的局部感知特性,实现无人机之间局部协调通讯;利用卷积神经网络的权值共享特性,大大减少模型参数,进而提升模型训练的收敛速度。
在步骤S1中,覆盖区域指定为矩形区域,建立提取特征的卷积神经网络模型时将区域划分为正方形网格,定义每个网格的覆盖周期、定义每个网格与无人机的相对距离、相对角度,以覆盖周期、相对距离、角度组成的特征矩阵为卷积神经网络的输入,经过若干卷积层池化层,输出待覆盖区域的特征向量。
步骤S2:基于强化学习actor-critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;
利用双向循环神经网络模型中双向循环神经网络权值共享的特性,可以提高多无人机控制决策系统的可扩展性和鲁棒性,即无人机自由加入和结束覆盖任务而不影响整个系统的覆盖性能。
步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;利用WLU方法,为每架无人机设置个体奖励,从而实现整体性能的最大化,使得集体效益最大化,即整个区域的覆盖性能最优;
步骤S4:基于强化学习策略梯度方法,训练步骤中S1和S2的神经网络模型,对步骤S1和步骤S2建立的神经网络参数进行迭代更新。
即,基于强化学习Actor-critic网络,利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型,直至loss收敛时终止。
在具体应用实例中,所述步骤S2中,将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中。
在具体应用实例中,所述步骤S2中,多无人机系统控制决策模型以无人机航向和飞行距离为输出;进一步,还可以扩展输出参数,用以实现异构无人机的控制。
参见图2,为在具体应用中单架无人机单位时间内覆盖区域示意图。无人机上可携带激光雷达、CCD电视摄像机、前视红外设备、超光谱成像设备、合成孔径雷达等设备用于检测地面情况,日间和夜间都支持生成图像,能够对图像进行处理(如目标识别、目标分类、目标定位)。为了简化计算模型,假设机载侦察设备放置在无人机的中心位置,无人机看成一个质点,侦察设备扫描的范围是以无人机为中心,r为半径的圆形区域。
参见图3,为本发明在具体应用实例中待覆盖区域仿真模型示意图。本发明在构建模型时不考虑无人机飞行高度的变化,限制覆盖区域为矩形的平原或沿海(陆地为平原地段)区域中,将区域以等距网格划分,且单个网格为正方形,边长为无人机覆盖区域的半径。定义每个网格的覆盖周期T,初始值设置为0,当网格被无人机覆盖时,覆盖周期重置为0,当网格未被无人机覆盖时,覆盖周期随时间步长递增,增量为1。如图3仿真环境中显示的网格灰度为255-5T。
在具体应用实例中,所述步骤S2中,如图4和图5所示,建立双向循环网络actor网络、critic网络,所述actor网络以步骤S1中提取的特征向量为输入,以无人机的控制输出——航向、飞行距离为输出;所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入,以Q值为输出。
参见图4,为本发明在具体应用实例中的actor网络示意图。利用vggNet提取待覆盖区域的特征,将提取的特征输入双向循环神经网络,最后得到无人机的控制输出,即无人机的航向及飞行距离。图中所有vggNet、LSTM单元共享网络参数,即所有无人机控制策略网格(actor网络)共享网络参数。
在具体应用实例中,在步骤S2中,利用双向循环网络当前时刻的输出不仅和之前的状态有关,还和未来的状态有关系的特性,从而实现了多无人机的分布式协调控制。
在具体应用实例中,所述步骤S1中,假定无人机飞行在固定高度,每个无人机的探测区域为以无人机为中心,半径为r的圆形区域,无人机飞行距离为vt时,无人机的覆盖区域如图2所示;假定待覆盖区域被划分
Figure BDA0002855054430000071
个正方形网格,每个网格边长为r,定义每个网格的覆盖周期,初始值为0,若网格被无人机覆盖时,覆盖周期重置为0,否则覆盖周期随时间步长递增,增量为1;定义网格与无人机的相对距离、相对角度,并对其归一化处理;建立vggNet网络,以网格覆盖周期、无人机与网格相对距离、相对位置组成
Figure BDA0002855054430000072
的featuremap输入vggNet,提取待覆盖区域的特征向量。
参见图6,为本发明方法在应用时的框架示意图。本发明基于深度强化学习actor-critic网络,利用确定性策略梯度算法训练策略网络和评价网络。算法中构建online网络和target网络,使得网络参数的学习过程更加稳定,易收敛。利用Bellman方程及targetcritic网络估计的Q值与online critic网络计算的Q值计算平方误差,更新online critic网络的参数,利用性能的策略梯度更新online actor网络的参数,最后利用online网络的参数更新目标网络参数。
在具体应用实例中,所述步骤S4包括以下详细流程:
步骤S401:将步骤S1提取特征的vggNet合并入actor、critic网络;
步骤S402:随机初始化online actor网络、online critic网络的参数;
步骤S403:建立target actor网络、target critic网络,并用online网络参数对其初始化;
步骤S404:初始化经验池;
步骤S405:随机初始化无人机位置,初始化网格覆盖周期,获取初始featuremaps1
步骤S406:训练网络,迭代执行下述步骤S407-步骤S411;
步骤S407:通过online actor网络得到一个动作a(st),加上OrnsteinUhlenbeck扰动N得到一个探索的动作a(st)+N;
步骤S408:无人机执行动作a(st)+N,得到相应的奖励r=(r1,r2,...,rn)和下一个feature map st+1,并将(st,at,rt,st+1)存储到经验池B;
步骤S409:从经验池B中选取小批量的数据,通过online critic网络、onlineactor网络计算
Figure BDA0002855054430000081
同时利用Bellman方程及target actor网络、target critic网络估计Q,得到:
Figure BDA0002855054430000082
沿着平方误差:
Figure BDA0002855054430000083
的负梯度方向更新online critic网络参数;
步骤S410:沿着策略梯度:
Figure BDA0002855054430000084
的方向,更新onlineactor网络参数;
步骤S411:利用online网络参数更新target网络参数。
在具体应用时,训练神经网络的强化学习的过程可以如下:
步骤1:随机初始化多无人机系统控制策略网络a(s|θ)和评价网络Q(s,a|w)的权重参数θ和w;
步骤2:初始化目标网络Q′和弘′的参数θ′=θ,w′=w;
步骤3:初始化经验池B;
步骤4:随机初始化无人机位置,初始化待覆盖区域网格的覆盖周期为0,得到初始状态s1
步骤5:循环执行episode=1,...E:
循环执行t=1,...,T:
1.对第i个无人机执行动作
Figure BDA0002855054430000091
其中N是OrnsteinUhlenbeck扰动;
2.获得n个奖励
Figure BDA0002855054430000092
和下一个状态向量st+1
3.将四元组(st,at,rt,st+1)存储到经验池B,其中
Figure BDA0002855054430000093
Figure BDA0002855054430000094
4.从B中随机选择一个小批量H个样本
Figure BDA0002855054430000095
5.利用Bellman方程对Q进行估计,得到结果如下:
Figure BDA0002855054430000096
6.沿着平方误差负梯度方向,更新评价网络权重w;
7.沿着性能指标的梯度方向,更新无人机控制策略网络权重θ;
更新目标网络参数θ′=τθ+(1-τ)θ′,w′=τw+(1-τ)w′。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,步骤包括:
步骤S1:建立待覆盖区域特征提取的深度卷积神经网络模型;
步骤S2:基于强化学习actor-critic网络,建立多无人机系统持续覆盖特定区域的深度强化学习模型,分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型;具体为,将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中;
步骤S3:基于WLU,为多无人机决策系统设计个体奖励函数;
步骤S4:基于强化学习策略梯度方法,训练步骤S1和S2中的神经网络模型。
2.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S3中利用WLU方法,为每架无人机设置个体奖励。
3.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S4中,基于强化学习Actor-critic网络,利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型,直至loss收敛时终止。
4.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S2中,将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入,将无人机的航向和飞行距离作为控制决策模型的输出。
5.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S2中,扩展输出参数,用以实现异构无人机的控制。
6.根据权利要求1-3中任意一项所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S2中,建立双向循环网络actor网络、critic网络,所述actor网络以步骤S1中提取的特征向量为输入,以无人机的控制输出——航向、飞行距离为输出;所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入,以Q值为输出。
7.根据权利要求6所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,在步骤S1中,覆盖区域指定为矩形区域,建立提取特征的卷积神经网络模型时将区域划分为正方形网格,定义每个网格的覆盖周期、定义每个网格与无人机的相对距离、相对角度,以覆盖周期、相对距离、角度组成的特征矩阵为卷积神经网络的输入,经过若干卷积层池化层,输出待覆盖区域的特征向量。
8.根据权利要求7所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,在所述actor网络中,利用vggNet提取待覆盖区域的特征,将提取的特征输入双向循环神经网络,最后得到无人机的控制输出,即无人机的航向及飞行距离。
9.根据权利要求8所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法,其特征在于,所述步骤S4的步骤包括:
步骤S401:将步骤S1提取特征的vggNet合并入actor、critic网络;
步骤S402:随机初始化online actor网络、online critic网络的参数;
步骤S403:建立target actor网络、target critic网络,并用online网络参数对其初始化;
步骤S404:初始化经验池;
步骤S405:随机初始化无人机位置,初始化网格覆盖周期,获取初始feature maps1
步骤S406:训练网络,迭代执行下述步骤S407-步骤S411;
步骤S407:通过online actor网络得到一个动作a(st),加上OrnsteinUhlenbeck扰动N得到一个探索的动作a(st)+N;
步骤S408:无人机执行动作a(st)+N,得到相应的奖励r=(r1,r2,...,rn)和下一个feature map st+1,并将(st,at,rt,st+1)存储到经验池B;
步骤S409:从经验池B中选取小批量的数据,通过online critic网络、online actor网络计算
Figure FDA0003613293070000031
同时利用Bellman方程及target actor网络、target critic网络估计Q,得到:
Figure FDA0003613293070000032
沿着平方误差:
Figure FDA0003613293070000033
的负梯度方向更新online critic网络参数;
步骤S410:沿着策略梯度:
Figure FDA0003613293070000034
的方向,更新onlineactor网络参数;
步骤S411:利用online网络参数更新target网络参数。
CN202011542223.2A 2020-12-23 2020-12-23 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法 Active CN112580537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011542223.2A CN112580537B (zh) 2020-12-23 2020-12-23 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011542223.2A CN112580537B (zh) 2020-12-23 2020-12-23 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Publications (2)

Publication Number Publication Date
CN112580537A CN112580537A (zh) 2021-03-30
CN112580537B true CN112580537B (zh) 2022-06-21

Family

ID=75139185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011542223.2A Active CN112580537B (zh) 2020-12-23 2020-12-23 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Country Status (1)

Country Link
CN (1) CN112580537B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065709B (zh) * 2021-04-13 2023-06-30 西北工业大学 一种基于强化学习的跨域异构集群路径规划方法
CN113449823B (zh) * 2021-08-31 2021-11-19 成都深蓝思维信息技术有限公司 自动驾驶模型训练方法及数据处理设备
CN113807230B (zh) * 2021-09-14 2023-11-03 中国人民解放军国防科技大学 基于主动强化学习的装备目标识别方法及装置
CN114374951B (zh) * 2022-01-12 2024-04-30 重庆邮电大学 一种多无人机动态预部署方法
CN116074851A (zh) * 2023-02-07 2023-05-05 厦门大学 一种多无人机空中基站具体环境追踪覆盖方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616302A (zh) * 2018-04-28 2018-10-02 中国人民解放军陆军工程大学 一种功率控制下的无人机多重覆盖模型及部署方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229125A1 (en) * 2018-05-29 2019-12-05 Deepmind Technologies Limited Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
CN109870162B (zh) * 2019-04-04 2020-10-30 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110197120B (zh) * 2019-04-23 2021-09-10 中国人民解放军国防科技大学 用于无人值守传感器系统的人员目标识别方法
CN110321811B (zh) * 2019-06-17 2023-05-02 中国工程物理研究院电子工程研究所 深度逆强化学习的无人机航拍视频中的目标检测方法
KR20190104486A (ko) * 2019-08-21 2019-09-10 엘지전자 주식회사 행동 방향성 인식기반 서비스 요구자 식별 방법
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN111142557B (zh) * 2019-12-23 2020-12-22 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111811513B (zh) * 2020-06-28 2023-03-28 西安电子科技大学 一种多无人机协同覆盖及避障的航迹规划方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108616302A (zh) * 2018-04-28 2018-10-02 中国人民解放军陆军工程大学 一种功率控制下的无人机多重覆盖模型及部署方法

Also Published As

Publication number Publication date
CN112580537A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112580537B (zh) 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN112256056B (zh) 基于多智能体深度强化学习的无人机控制方法及系统
CN108459616B (zh) 基于人工蜂群算法的无人机群协同覆盖航路规划方法
CN109358638A (zh) 基于分布式地图的无人机视觉避障方法
Cao et al. Concentrated coverage path planning algorithm of UAV formation for aerial photography
CN113848984B (zh) 一种无人机集群控制方法及系统
CN112965507B (zh) 一种基于智能优化的集群无人机协同工作系统及方法
CN113536564B (zh) 基于虚拟仿真的无人蜂群自主协同评估方法及系统
CN113434966B (zh) 基于弹性力场的蜂群避撞控制方法
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN114169066A (zh) 基于微纳星群抵近侦察的空间目标特性测量、侦察方法
Devo et al. Autonomous single-image drone exploration with deep reinforcement learning and mixed reality
Wang et al. Oracle-guided deep reinforcement learning for large-scale multi-UAVs flocking and navigation
CN111831010A (zh) 一种基于数字空间切片的无人机避障飞行方法
CN115115785A (zh) 面向野外山林环境搜救的多机协同三维建模系统及方法
CN113485409A (zh) 一种面向地理公平性的无人机路径规划分配方法及系统
Quintero et al. Robust coordination of small UAVs for vision‐based target tracking using output‐feedback MPC with MHE
Chen et al. An improved spherical vector and truncated mean stabilization based bat algorithm for uav path planning
CN113297506A (zh) 一种基于社交位置细胞/网格细胞的类脑相对导航方法
CN105760813A (zh) 一种基于植物枝根演化行为的无人机目标检测方法
Suenaga et al. Experimental study on angle-aware coverage control with application to 3-d visual map reconstruction
CN116954258A (zh) 未知扰动下多四旋翼无人机编队的分层控制方法及装置
CN116339321A (zh) 一种基于5g通信的全局信息驱动的分布式多机器人强化学习编队合围方法
Cao et al. Quadrotor swarm flight experimentation inspired by pigeon flock topology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant