CN113342030B - 基于强化学习的多无人机协同自组织控制方法及系统 - Google Patents

基于强化学习的多无人机协同自组织控制方法及系统 Download PDF

Info

Publication number
CN113342030B
CN113342030B CN202110460859.0A CN202110460859A CN113342030B CN 113342030 B CN113342030 B CN 113342030B CN 202110460859 A CN202110460859 A CN 202110460859A CN 113342030 B CN113342030 B CN 113342030B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
target
reward
signal strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110460859.0A
Other languages
English (en)
Other versions
CN113342030A (zh
Inventor
张少波
陈国春
沈宇婷
赵伟伟
杨硕
高跃清
吴金亮
郭伟
杨晓亮
陈路路
杜楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Science and Technology
CETC 54 Research Institute
Original Assignee
Hunan University of Science and Technology
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Science and Technology, CETC 54 Research Institute filed Critical Hunan University of Science and Technology
Priority to CN202110460859.0A priority Critical patent/CN113342030B/zh
Publication of CN113342030A publication Critical patent/CN113342030A/zh
Application granted granted Critical
Publication of CN113342030B publication Critical patent/CN113342030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于强化学习的多无人机协同自组织控制方法及系统,该方法步骤包括:S1.初始化无人机群以及目标位置;S2.获取各无人机当前所在位置的信号强度;S3.无人机群中各无人机根据信号强度分别计算不同方向位移的奖励,并根据奖励选择各自的位移方向;S4.各无人机按照选择的位移方向执行位移行为,并反馈执行位移后信息,更新各无人机在各方向的位移信息;S5.判断当前是否存在预设数量的无人机满足任务条件,如果为否,返回执行步骤S3,否则转入步骤S6;S6.根据无人机群的位置信息求解目标位置。本发明能够实现多无人机自组织协同控制,且具有实现方法简单、控制成本以及控制效率低、控制效果好等优点。

Description

基于强化学习的多无人机协同自组织控制方法及系统
技术领域
本发明涉及多无人机自主协同定位技术领域,尤其涉及一种基于强化学习的多无人机协同自组织控制方法及系统。
背景技术
无人机由于其具有体积小、灵活性高、隐蔽性好等特点,常用于机载相关测距测角及定位设备中,通过获取无人机载机自身的位置信息、无人机到目标的距离及角度信息,综合利用这些位置和角度信息,可以解算出目标的位置。
目前常用的无人机目标定位方法主要有:单站测角测距目标定位法、多站测向交叉定位法、到达时间差定位法、多航迹点交会定位法等,各类方法分别为:
1、单站测角测距定位法是单无人机目标定位最常用的方式,该方法中无人机通过自身的光电测量平台获取无人机到目标的距离信息及目标相对无人机的角度信息,以大地坐标系为基准坐标系,结合无人机的GPS定位信息,利用数学方法求解出目标位置信息。
2、多站测向交叉定位法是使用两台或两台以上的无人机,获取各无人机到目标的距离及相对观测角度信息,经过几何计算求解出目标位置信息,定位原理如图1所示。但是该方法仍然采用了单站测角测距定位法的思想,需要自身姿态角及无人机到目标的相对观测角等角度信息来确定目标位置,因而目标定位精度依旧受限于测角设备的有限的测量精度。
3、多航迹点交会定位法是无人机在执行目标定位任务过程中,在三个不同位置分别测量自身到目标的距离,再构建空间立体锥形求解目标位置信息,如图1所示。由于该方法无需无人机自身姿态角及无人机到目标的观测角等角度信息的测量,定位精度仅依赖于无人机到目标的测距精度及自身的自定位精度,定位结果更加可靠。但是,在该方法中,要求无人机在采取航机点的过程中,目标位置不变,否则三个航机点对应目标三个不同的位置,无法完成目标位置的解算。因此,有必要使用多无人机对目标协同定位。
在多无人机协同目标定位任务中,无人机群要自组织编队形成到目标点距离相等的空间结构以满足任务需求。目前多智能体系统的编队控制方法主要有主从结构(leader-follower)方法、基于行为的队形控制、人工势场法等,但是这些方法均各有不足,具体如下:
(1)leader-follower方法能较好的维持空间结构,但是该方法过于依赖leader的可靠性。即便将无人机群的中心位置作为一个虚拟leader,可以解决leader可能出现故障的问题,但又会存在着难以实时计算出无人机群中心位置的问题。
(2)基于行为的队形控制方法即为基于个体行为的方法事先设定无人机的行为规则,系统内各无人机可根据任务指令采取相应行为模式,然而这种分布式控制难以实现群体行为,即难以形成所需空间结构。
(3)人工势场法能有效避免无人机间的碰撞,但是在形成空间结构的过程中可能会陷入局部最小值解,无法形成所需空间结构。
综上,上述针对多智能体系统的编队控制方法,均存在一定的问题缺陷,且均没有将无人机群视为一个整体,未能充分利用多无人机相互协同配合完成任务,因而不能体现无人机群的群体智能性。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、控制成本以及控制效率低、控制效果好的基于强化学习的多无人机协同自组织控制方法及系统。
为解决上述技术问题,本发明提出的技术方案为:
一种基于强化学习的多无人机协同自组织控制方法,步骤包括:
S1.初始化无人机群以及目标位置;
S2.无人机群通过机间通信获取各无人机当前所在位置接收到目标信号的信号强度;
S3.无人机群中各无人机根据所述信号强度分别计算不同方向位移的奖励,并根据计算的奖励选择各自的位移方向;
S4.各无人机按照步骤S3选择的位移方向执行位移行为,并反馈执行位移后信息,更新各无人机在各方向的位移信息;
S5.判断当前是否存在预设数量的无人机满足任务条件,如果为否,返回执行步骤S3,否则转入步骤S6;
S6.根据无人机群的位置信息求解目标位置。
进一步的,所述步骤S3中,根据目的无人机当前所在位置的所述信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵,选择能够最快到所述信号强度平均值位置的方向,所述位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值,所述信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值。
进一步的,所述步骤S4中执行位移行为后,将执行位移行为得到的关于当前方向的反馈返回,并更新目的无人机的所述位移反馈矩阵。
进一步的,所述步骤S5中任务条件为:无人机群中信号强度最大值与最小值的差值不超过预设阈值deltas,即:
Figure BDA0003042178670000031
其中,
Figure BDA0003042178670000032
表示无人机群中接收到目标信号的信号强度最大值,
Figure BDA0003042178670000033
表示无人机群中接收到目标信号的信号强度最小值。
进一步的,该方法按照无人机坐标位置分类的方式区分无人机的不同状态,无人机的方向向量在三维空间的x,y,z三个维度分量为单位向量或零向量。
进一步的,所述步骤S3中计算奖励时,分别根据无人机当前所在位置的所述信号强度计算第一奖励RS,以及根据无人机到目标的距离计算第二奖励RD,综合所述第一奖励RS与所述第二奖励RD计算得到最终的奖励值。
进一步的,计算所述第一奖励RS时,将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度,根据无人机每个时间步的信号强度与所述最佳信号强度之间的关系计算得到所述第一奖励RS;计算所述第二奖励RD时,配置使得若无人机到目标的距离在目标可侦测范围内时,无人机继续靠近目标会得到负奖励。
进一步的,计算奖励的步骤具体包括:
S301.将任务执行的时刻表示为T={t0,t1,...,ti,...,tn},0≤i≤n,无人机群中无人机总数为N,目的无人机在ti时刻测得的信号强度为
Figure BDA0003042178670000034
无人机群中各无人机的信号强度列表为
Figure BDA0003042178670000035
Figure BDA0003042178670000036
S302.将距离目的无人机最近的指定数量无人机所在位置接收到目标信号的信号强度存于列表
Figure BDA0003042178670000037
取邻居无人机群的最佳信号强度为
Figure BDA0003042178670000038
计算目的无人机在ti时刻采取的飞行行为会得到的所述第一奖励RS为:
Figure BDA0003042178670000039
以及目的无人机在ti时刻根据目的无人机到目标的信号强度
Figure BDA00030421786700000310
计算第二奖励RD为:
Figure BDA00030421786700000311
其中d1、d2为预设距离值,且d1<d2
S303.按照下式计算最终无人机每个时间步的奖励为:
R=λ1RS+λ2RD
其中,λ1、λ2分别为预设系数且λ12=1。
进一步的,步骤S1前还包括在各无人机的动作空间中各方向安装信号传感器,以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来的奖励。
一种基于强化学习的多无人机协同自组织控制系统,包括由多架无人机组成的无人机群,无人机群中各无人机中搭载有处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,所述处理器用于执行所述计算机程序以执行如上述方法。
与现有技术相比,本发明的优点在于:
1、本发明基于强化学习实现多无人机协同自组织控制,利用无人机之间接收目标信号强度的关系特性,将多无人机协同对单目标定位问题转化为使得各无人机接收目标信号的信号强度相等,通过在各无人机每次行动时根据信号强度得到任务和环境给予它的奖励,依据奖励做出下一时间步的飞行决策,可以使无人机群快速形成满足需求的特定空间结构,能够充分利用无人机间信号强度关系使得多无人机相互协同配合完成任务,充分体现无人机群的群体智能性。
2、本发明能够有效指导多无人机在动态环境下对目标进行协同定位,提升无人机群协同定位的效率以及精度,同时可用于支持多无人机在多种场景下对静态或动态目标执行定位任务。
3、本发明在多无人机自组织协同方法中的每次循环,无人机都会基于位移反馈值表选择最快到信号强度平均值位置的方向,使得可以快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值,进而使得可以快速、精准控制各无人机完成协同自组织控制。
附图说明
图1是传统的多航迹点交会定位法的原理示意图。
图2是四架无人机协同对单目标定位原理示意图。
图3是本实施例基于强化学习实现多无人机协同自组织控制的实现流程示意图。
图4是在具体应用实施例中目标及无人机群初始位置示意图。
图5是在具体应用实施例中无人机群运动轨迹示意图。
图6是在具体应用实施例中无人机群信号强度变化结果示意图。
图7是在具体应用实施例中采用本发明方法与传统方法得到的最大飞行路程结果对比示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
本实施首先分析多无人机协同对单目标定位任务中各无人机接收目标信号的信号强度之间的关系:
以多无人机协同对单目标定位为任务,完成该任务至少需要四架不在同一平面上的无人机,且这四架无人机到目标的距离相等,才能唯一确定目标的位置。根据数学知识,这四架无人机在以目标为中心、无人机到目标的距离长度为半径的球面上。那么,这四架无人机的位置可以唯一确定球心的位置,即目标的位置,如图2所示。
无线信号的信号强度在空间传播的过程中会逐渐衰减损耗,随着传播距离越来越小,接收设备所能接收到的信号源产生的信号强度(RSSI)也相应的越来越小。信号强度与距离所满足的关系具体如下:
RSSI=Pr-PL(d0)-10nlog10(di/d0)+X0 (1)
上式中,Pr为信号源信号的发射功率,PL(d0)为常规环境下无线信号传播单位距离的平均信号损耗;n为信号的衰减系数,通常取值范围为2~4;di为接收设备与信号源的距离;d0为距离的单位长度;X0为符合均值为0、标准差2~4的高斯分布的随机数。
由上述理论公式(1)可知,距离目标越远,信号强度就越小;且对于同一目标,测得信号强度相等的点,到目标的距离相等。基于上述分析,可以将多无人机协同对单目标定位问题等价于如何使得各无人机接收目标信号的信号强度相等。而由于实际信号强度测量等误差,信号强度很难绝对精确,因此进一步的可等价于如何使得各无人机接收目标信号的信号强度差值不超过条件能接受的阈值。
本实施例利用上述特性,结合无人机接收目标信号的信号强度,计算任务和环境给予无人机的奖励以自主决策选择下一时间步的飞行方向,直至形成满足目标定位任务需求的特定空间结构,多无人机协同自组织控制实现对单目标定位。如图3所示,本实施例基于强化学习的多无人机协同自组织控制方法的步骤包括:
S1.初始化无人机群以及目标位置;
S2.无人机群通过机间通信获取各无人机当前所在位置接收到目标信号的信号强度;
S3.无人机群中各无人机根据信号强度分别计算不同方向位移的奖励,并根据计算的奖励选择各自的位移方向;
S4.各无人机按照步骤S3选择的位移方向执行位移行为,并反馈执行位移后信息,更新各无人机在各方向的位移信息;
S5.判断当前是否存在预设数量的无人机满足任务条件,如果为否,返回执行步骤S3,否则转入步骤S6;
S6.根据无人机群的位置信息求解目标位置。
本实施例上述方法,将无人机群视为一个整体,无人机自组织控制时,利用无人机之间接收目标信号强度的关系特性,将多无人机协同对单目标定位问题转化为使得各无人机接收目标信号的信号强度相等,通过在各无人机每次行动时根据信号强度得到任务和环境给予它的奖励,依据奖励做出下一时间步的飞行决策,实现基于强化学习的多无人机协同自组织控制,使无人机群快速形成满足需求的特定空间结构,能够充分利用无人机间信号强度关系使得多无人机相互协同配合完成任务,充分体现无人机群的群体智能性,从而能够有效指导多无人机在动态环境下对目标进行协同定位,提升无人机群协同定位的效率以及精度,同时可用于支持多无人机在多种场景下对静态或动态目标执行定位任务。
无人机在执行任务的过程中处于动态环境下,可能会面临目标运动导致的位置发生变化、无人机间发生碰撞、存在定位误差、通信不畅等情况。本实施例进一步分析通信限制下的无人机奖励相关因素及通信限制程度、目标是否运动等条件对多无人机目标协同定位的影响。
具体地,多无人机目标协同定位任务中无人机的状态空间、动作空间、单个时间步的飞行奖励、飞行方向选择策略、无人机间通信限制、目标运动模型、奖励更新机制等重要信息如下所示:
(一)状态空间
多无人机目标定位任务中,状态空间可按以下两类标准分类:
(1)按无人机坐标位置分类。无人机在不同的空间位置,接收到目标信号的信号强度也不一样,可将其视为不一样的状态。
(2)按无人机运行状态分类。将处于执行任务过程中的无人机分为一类,处于待机状态的无人机分为另外一类,那么任务空间就只有执行任务状态S运行和待机状态S待机,即S={S运行,S待机}。
本实施例采用按照无人机坐标位置分类的方式来区分不同状态,则无人机处于当前位置这一状态只与当前位置有关,与之前的位置无关,因而该任务具有马尔可夫性。
(二)动作空间
多无人机目标定位任务中,无人机可以朝任意方向飞行,这会导致动作空间是个无限集,求解的计算量过大。因此,本实施例设定无人机的方向向量在三维空间的(x,y,z)三个维度分量的为单位向量或零向量,即方向向量
Figure BDA0003042178670000071
为:
Figure BDA0003042178670000072
其中,x,y,z∈{-1,0,1}。
具体无人机一共有27个可选的飞行方向,即无人机的动作空间有27个元素。
(三)奖励
在多无人机目标定位任务中,由环境根据无人机采取的不同飞行方向的行为,给予无人机不同的奖励值。当此次行为使得多无人机系统更接近理想状态时,环境给予它正奖励;当此次行为使得多无人机系统远离理想状态或使得无人机系统不稳定时,环境给予它负奖励。本实施例中步骤S3中计算奖励时,分别根据无人机当前所在位置的信号强度计算第一奖励RS,以及根据无人机到目标的距离计算第二奖励RD,综合第一奖励RS与第二奖励RD计算得到最终的奖励值,即奖励值具体由各无人机接收到目标信号的信号强度、无人机到目标的距离等因素共同决定,以充分考虑在多无人机协同定位过程中无人机接收到目标信号的信号强度、无人机到目标的距离等的关系,使得能够得到合理、精准的奖励值,进而无人机基于该奖励值可以准确的选择合适的位移方向。
本实施例中,计算第一奖励RS时,将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度,根据无人机每个时间步的信号强度与最佳信号强度之间的关系计算得到所述第一奖励RS;计算第二奖励RD时,配置使得若无人机到目标的距离在目标可侦测范围内时,无人机继续靠近目标会得到负奖励,详细为:
(1)信号强度
多无人机目标定位任务最终目的是形成各无人机接收到目标信号的信号强度近似相等的空间结构,因此各无人机接收到目标信号的信号强度越接近越好,即各无人机接收到目标信号的信号强度的最大值与最小值之间的差越小越好。本实施例将每个时间步的信号强度的最大值和最小值的平均值的相应状态作为无人机满足到目标距离相等的空间结构的最佳状态。
步骤S301.将任务执行的时刻表示为T={t0,t1,...,ti,...,tn},0≤i≤n,无人机群中无人机总数为N,agentk在ti时刻测得的信号强度为
Figure BDA0003042178670000073
agentk掌握的各无人机的信号强度存于列表
Figure BDA0003042178670000074
Figure BDA0003042178670000075
因四架无人机形成到目标距离相等的空间结构即可满足多无人机目标定位需求,所以每架无人机只需要协同距离其最近的三架无人机。如果当前时间步能与该无人机通信的邻居无人机数量少于三架,那么无人机优先协同已知的能进行通信的邻居无人机即可。
步骤S302.将距离目的无人机最近的指定数量无人机所在位置接收到目标信号的信号强度存于列表
Figure BDA0003042178670000081
取邻居无人机群的最佳信号强度为
Figure BDA0003042178670000082
无人机在ti时刻采取的飞行行为会得到的第一奖励RS具体为:
Figure BDA0003042178670000083
本实施例具体将距离其最近的三架无人机所在位置接收到目标信号的信号强度存于列表
Figure BDA0003042178670000084
再取邻居无人机群的最佳信号强度为
Figure BDA0003042178670000085
(2)无人机到目标的距离
在多无人机目标定位任务中,无人机与目标应当保持合适的距离,距离过近或过远都不利于任务的实施。无人机与目标的距离对该任务的影响分析如下:
i.无人机与目标越近,无人机在对目标定位的行为被目标发现的可能性就越大,所以要求无人机与目标保持一定距离。因此,当无人机到目标的距离在目标可侦测范围内时,无人机继续靠近目标会得到负奖励(惩罚)。而且越靠近目标,所得的惩罚就越大。
ii.无人机与目标距离越远,它能够测得目标信号的信号强度就越小,定位的准确性就越差,因此当无人机侦测到目标信号的信号强度不在合理的信号测量范围时,无人机继续远离目标会得到负奖励(惩罚)。
基于上述分析,本实施例具体按照下式计算无人机ti时刻根据其到目标的信号强度
Figure BDA0003042178670000086
所得到的第二奖励RD:
Figure BDA0003042178670000087
其中d1、d2为预设距离值,且d1<d2,具体如d1取70,d2取80;
步骤S303.按照下式计算最终无人机每个时间步的奖励为:
R=λ1RS+λ2RD (5)
其中λ1、λ2分别为预设系数且λ12=1,本实施例具体取λ1=0.5,λ2=0.5。
由于无人机在执行任务的过程中处于动态环境下,可能会面临目标运动导致的位置发生变化、存在定位误差、通信不畅等情况,以及要满足无人机不能进入目标可侦测范围内的条件,因而无人机在搜索最优解的过程中可能会陷入局部最小值。无人机选择下一时间步的行为时不能总是选择奖励最大的方向,需要以一定的概率接受较差的结果。本实施例具体使得无人机的行为策略以第一概率(如95%)选择最大奖励的行为,以第二概率(如5%)的概率随机选择行为,以使得能够有一定概率接受较差的结果。
由于多无人机在动态环境中执行任务,有一定概率会失去和周围部分无人机的通讯。而在多无人机协同目标定位任务中,由奖励机制及策略机制可知,无人机的飞行行为的决策与其他无人机接收到目标信号的信号强度的信息密切相关。本实施例中设置无人机与其他每台无人机在指定比例(如90%)的时间步中都能实现正常的信息交互,即每两台无人机之间都有一定比例(如10%)的可能性无法正常通讯。
由于在多无人机目标定位任务中,目标并不一定是静止的。多无人机系统根据接收到目标的信号强度以及根已有的飞行策略来对目标进行追踪。本实施例中构建目标运动模型时,目标在环境中保持低速运动(低速指目标运动速度小于无人机飞行速度),设其在x轴方向每个时间步前进0.5m,在y轴方向每个时间步可能是前进0.5m或后退0.5m或未发生y轴方向的移动,z轴方向上保持不变。即目标单个时间步位移的方向向量
Figure BDA0003042178670000091
为:
Figure BDA0003042178670000092
其中xtarget=0.5,ytarget=0.5或-0.5或0,ztarget=0
由于无人机完成一次一个单位时间步的飞行行为后,会得到环境给予它的一个关于任务的奖励。然而无人机并不能知道当前位置采取的飞行决策会在下一个时间步带来怎样的奖励。为减少无人机的飞行决策试错过程,本实施例中步骤S1前还包括在各无人机的动作空间中各方向都安装信号传感器,以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来怎样的奖励。
本实施例步骤S3中,根据目的无人机当前所在位置的信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵,选择能够最快到信号强度平均值位置的方向,位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值,信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值。即在多无人机自组织协同方法中的每次循环,无人机都会基于位移反馈值表选择最快到信号强度平均值
Figure BDA0003042178670000093
位置的方向,使得可以快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值,进而使得可以快速、精准控制各无人机完成协同自组织控制。
本实施例步骤S4中执行位移行为后,将执行位移行为得到的关于当前方向的反馈返回,并更新目的无人机的位移反馈矩阵。
本实施例步骤S5中任务条件具体为:无人机群中信号强度最大值与最小值的差值(信号强度极差)不超过预设阈值deltas,即:
Figure BDA0003042178670000101
其中,
Figure BDA0003042178670000102
表示无人机群中接收到目标信号的信号强度最大值,
Figure BDA0003042178670000103
表示无人机群中接收到目标信号的信号强度最小值。
在具体应用实施例中,记agentk在ti时刻测得的信号强度为
Figure BDA0003042178670000104
任务要求信号强度极差(信号强度最大值与最小值的差值)不能超过deltas,即任务条件为
Figure BDA0003042178670000105
当不满足该条件时,各无人机通过自组织协同来减小无人机群的信号强度极差值,上述实现多无人机协同自组织控制的详细步骤为:
步骤1:取无人机群最大信号强度与最小信号强度的平均值,记为
Figure BDA0003042178670000106
Figure BDA0003042178670000107
记agentk向dj方向位移后得到的反馈为
Figure BDA0003042178670000108
将该无人机向不同方向位移后的反馈值存在一个矩阵中,即无人机agentk位移后得到的反馈为
Figure BDA0003042178670000109
步骤2:无人机agentk根据当前位置信号强度
Figure BDA00030421786700001010
最大信号强度与最小信号强度平均值
Figure BDA00030421786700001011
向各方向的位移反馈矩阵
Figure BDA00030421786700001012
选择位移反馈值最好的方向,也即为使得能够最快到信号强度平均值位置的方向。
步骤3:执行本次位移行为,并将位移得到的关于该方向的反馈返回,以更新无人机的各方向位移反馈矩阵。
步骤4:判断是否满足任务条件
Figure BDA00030421786700001013
如果不满足该条件,继续从步骤1开始执行;如果满足该条件,继续执行下一步。
步骤5:根据无人机群的位置,利用数学几何关系求解目标位置。
本实施例通过上述步骤,多无人机自组织协同方法中的每次循环,无人机都会位移反馈值表选择最快到信号强度平均值
Figure BDA00030421786700001014
位置的方向,最终可以收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值。
在具体应用实施例中,通过设置多边极差收敛算法来实现上述多无人机协同自组织控制步骤,多边极差收敛算法如下算法1所示。通过调用该算法即可使得快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值。
Figure BDA0003042178670000111
本实施例上述分析了通信限制下的无人机奖励相关因素及通信限制程度、目标是否运动等条件对多无人机目标协同定位的影响,通过任务和环境给予它的奖励自主决策选择下一时间步的飞行方向,直至达到满足目标定位任务需求的特定空间结构,能够基于强化学习的多无人机自组织协同方法使无人机群快速形成满足需求的特定空间结构,解决多无人机在动态环境下对目标的协同定位问题,可以支持多无人机在多种场景下对静态或动态目标执行定位。
为验证本发明应用于无人机群形成特定空间结构过程的有效性,即验证本发明方法是否能形成符合条件的特定空间结构并优于其他方法,在具体应用实施例中进行了模拟实验,将本发明上方法与优化后的leader-follower算法进行对比,该leader-follower算法是当前研究中已有的较成熟的无人机编队组织算法,它是将信号强度最大和最小的两架无人机作为follower,剩下的一架无人机作为leader,follower朝着与leader信号强度相近的方向去靠近,使得无人机间的信号强度差值逐渐减小。
实验中,设计模拟环境具体为1000×1000×1000m的未知区域,其中,无人机数量为3架,其位置随机初始化。为了模拟环境的不确定性,目标的位置也是随机生成。如图4所示,图中无人机初始分别位于圆形、方形、三角形、菱形所在位置,目标初始位于五角星所在位置。无人机群通过机间通信,使得所有无人机都能获取各无人机所在位置的信号强度,采用本发明上述自组织协同方法,最终使得四架无人机接收到目标信号的信号强度相近,即形成四架无人机到目标距离近似相等的空间结构,将无人机群运动轨迹从开始到结束由浅至深绘制,如图5所示。
无人机在飞行过程中以匀速运动,以多无人机协同过程中的单个无人机飞行路程为横坐标,无人机所处位置的信号强度为纵坐标,得到无人机群信号强度变化结果如图6所示。由图6可知,无人机间的信号强度差距越来越小,最终四架无人机的信号强度相近,形成了到目标距离近似相等的空间结构。
本实施例具体对本发明上述方法进行30次模拟实验,统计每次模拟实验无人机群形成空间结构所需要的单个无人机飞行的最大路程。同样地,对于每次模拟实验,也采用已有的成熟编队控制方法,即leader-follower方法,记录下每次实验中无人机群形成空间结构所需要的单个无人机飞行的最大路程。图7展示了两种方法在每次实验中需要的最大飞行路程。从图7中可以看出,本发明协同自组织控制方法能够更快地形成了所需的空间结构,提高了任务完成效率,如传统的Leader-follower方法平均需要的路程为271.3m,而本发明协同自组织方法平均仅需要235.1m,相比之下提升了13.34%,即结果表明了本发明协同自组织方法能够有效提升空间结构形成的效率。
本实施例还包括基于强化学习的多无人机协同自组织控制系统,该系统包括由多架无人机组成的无人机群,无人机群中各无人机中搭载有处理器以及存储器,存储器用于存储计算机程序,处理器用于执行计算机程序,处理器用于执行计算机程序以执行如上述方法。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (7)

1.一种基于强化学习的多无人机协同自组织控制方法,其特征在于,步骤包括:
S1.初始化无人机群以及目标位置;
S2.无人机群通过机间通信获取各无人机当前所在位置接收到目标信号的信号强度;
S3.无人机群中各无人机根据所述信号强度分别计算不同方向位移的奖励,并根据计算的奖励选择各自的位移方向,计算所述奖励时,分别根据无人机当前所在位置的所述信号强度计算第一奖励RS,以及根据无人机到目标的距离计算第二奖励RD,综合所述第一奖励RS与所述第二奖励RD计算得到最终的奖励值,计算所述第一奖励RS时,将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度,根据无人机每个时间步的信号强度与所述最佳信号强度之间的关系计算得到所述第一奖励RS;计算所述第二奖励RD时,配置使得若无人机到目标的距离在目标可侦测范围内时,无人机继续靠近目标会得到负奖励,以第一概率选择最大奖励的行为,以第二概率的概率随机选择行为;根据目的无人机当前所在位置的所述信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵,选择能够最快到所述信号强度平均值位置的方向,所述位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值,所述信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值;
S4.各无人机按照步骤S3选择的位移方向执行位移行为,并反馈执行位移后信息,更新各无人机在各方向的位移信息;
S5.判断当前是否存在预设数量的无人机满足任务条件,如果为否,返回执行步骤S3,否则转入步骤S6,所述任务条件为:无人机群中信号强度最大值与最小值的差值不超过预设阈值deltas
S6.根据无人机群的位置信息求解目标位置。
2.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法,其特征在于,所述步骤S4中执行位移行为后,将执行位移行为得到的关于当前方向的反馈信息返回,并更新目的无人机的所述位移反馈矩阵。
3.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法,其特征在于,所述步骤S5中任务条件为:
Figure FDA0003650394290000011
其中,
Figure FDA0003650394290000012
表示无人机群中接收到目标信号的信号强度最大值,
Figure FDA0003650394290000013
表示无人机群中接收到目标信号的信号强度最小值。
4.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法,其特征在于,该方法按照无人机坐标位置分类的方式区分无人机的不同状态,无人机的方向向量在三维空间的x,y,z三个维度分量为单位向量或零向量。
5.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法,其特征在于,计算奖励的步骤具体包括:
S301.将任务执行的时刻表示为T={t0,t1,…,ti,…,tn},0≤i≤n,无人机群中无人机总数为N,目的无人机在ti时刻测得的信号强度为
Figure FDA0003650394290000021
无人机群中各无人机的信号强度列表为
Figure FDA0003650394290000022
Figure FDA0003650394290000023
S302.将距离目的无人机最近的指定数量无人机所在位置接收到目标信号的信号强度存于列表
Figure FDA0003650394290000024
取邻居无人机群的最佳信号强度为
Figure FDA0003650394290000025
计算目的无人机在ti时刻采取的飞行行为会得到的所述第一奖励RS为:
Figure FDA0003650394290000026
以及目的无人机在ti时刻根据目的无人机到目标的信号强度
Figure FDA0003650394290000027
计算第二奖励RD为:
Figure FDA0003650394290000028
其中d1、d2为预设距离值,且d1<d2
S303.按照下式计算最终无人机每个时间步的奖励为:
R=λ1RS+λ2RD
其中,λ1、λ2分别为预设系数且λ12=1。
6.根据权利要求1~5中任意一项所述的基于强化学习的多无人机协同自组织控制方法,其特征在于,步骤S1前还包括在各无人机的动作空间中各方向安装信号传感器,以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来的奖励。
7.一种基于强化学习的多无人机协同自组织控制系统,包括由多架无人机组成的无人机群,无人机群中各无人机中搭载有处理器以及存储器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序以执行如权利要求1~6中任意一项所述方法。
CN202110460859.0A 2021-04-27 2021-04-27 基于强化学习的多无人机协同自组织控制方法及系统 Active CN113342030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460859.0A CN113342030B (zh) 2021-04-27 2021-04-27 基于强化学习的多无人机协同自组织控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460859.0A CN113342030B (zh) 2021-04-27 2021-04-27 基于强化学习的多无人机协同自组织控制方法及系统

Publications (2)

Publication Number Publication Date
CN113342030A CN113342030A (zh) 2021-09-03
CN113342030B true CN113342030B (zh) 2022-07-08

Family

ID=77468736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460859.0A Active CN113342030B (zh) 2021-04-27 2021-04-27 基于强化学习的多无人机协同自组织控制方法及系统

Country Status (1)

Country Link
CN (1) CN113342030B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848984B (zh) * 2021-10-29 2022-06-10 哈尔滨工业大学 一种无人机集群控制方法及系统
CN113867416B (zh) * 2021-12-03 2022-04-22 特金智能科技(上海)有限公司 用于无人机探测的处理方法、系统以及装置
CN114264220B (zh) * 2021-12-23 2022-11-22 湖南大学 一种移动设备的相对位移精确感知与检测方法
CN115021800B (zh) * 2022-07-19 2023-03-31 国家无线电监测中心福建监测站 使用无人机查找Ka频段卫星终端的方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000017722A2 (en) * 1998-08-11 2000-03-30 Nekton Technologies, Inc. Devices and methods for orienting and steering in three-dimensional space
CN109743210B (zh) * 2019-01-25 2020-04-17 电子科技大学 基于深度强化学习的无人机网络多用户接入控制方法
CN110196605B (zh) * 2019-04-26 2022-03-22 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
US11675324B2 (en) * 2019-09-19 2023-06-13 Bao Tran Air transportation systems and methods
CN110753384B (zh) * 2019-10-12 2023-02-03 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN112783192B (zh) * 2019-11-11 2022-11-22 中国移动通信集团上海有限公司 无人机路径规划方法、装置、设备和存储介质
CN111381499B (zh) * 2020-03-10 2022-09-27 东南大学 基于三维空间射频地图学习的网联飞行器自适应控制方法
CN111431644B (zh) * 2020-03-24 2022-06-10 南京航空航天大学 面向频谱认知的无人机路径自主规划装置及方法
CN111580564B (zh) * 2020-04-30 2022-06-10 湖南科技大学 一种三维群无人机并行式多目标搜索协同作业方法
CN111857161A (zh) * 2020-08-19 2020-10-30 湖南科技大学 未知复杂凸环境下群机器人多目标搜索方法

Also Published As

Publication number Publication date
CN113342030A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113342030B (zh) 基于强化学习的多无人机协同自组织控制方法及系统
Lin et al. A Novel Improved Bat Algorithm in UAV Path Planning.
Obermeyer Path planning for a UAV performing reconnaissance of static ground targets in terrain
Levine et al. Information-rich path planning with general constraints using rapidly-exploring random trees
de Moraes et al. Distributed control for groups of unmanned aerial vehicles performing surveillance missions and providing relay communication network services
CN113625733B (zh) 一种基于ddpg多目标三维无人机路径规划方法
CN112947594B (zh) 一种面向无人机的航迹规划方法
CN114706422B (zh) 基于未知环境碰撞冲突预测的群机器人多目标搜索方法
US20210294357A1 (en) Cooperative path planning method and device for automatic control aerocraft and aerocraft system
CN112363539B (zh) 多无人机协同目标搜索方法
CN112130587A (zh) 一种针对机动目标的多无人机协同跟踪方法
CN112099486A (zh) 任意位置多机器人编队成形控制方法、系统、设备及应用
CN115237151A (zh) 一种基于信息素启发的群无人机多运动目标搜索方法
CN117492469A (zh) 无人机集群的并行轨迹规划方法、装置、设备及介质
Li et al. An efficient deep reinforcement learning algorithm for Mapless navigation with gap-guided switching strategy
CN112987713B (zh) 自动驾驶设备的控制方法、装置及存储介质
CN112130110A (zh) 一种无人机无源定位航迹生成方法及装置
Kilic et al. Leader-Follower Control and Distributed Communication based UAV Swarm Navigation in GPS-Denied Environment
CN113959446A (zh) 一种基于神经网络的机器人自主物流运输导航方法
Peti et al. A Search Strategy and Vessel Detection in Maritime Environment Using Fixed-Wing UAVs
Liu et al. Research on cooperative search technology of heterogeneous UAVs in complex environments
CN117035263B (zh) 一种水下大范围环境内多auv节点的任务分配方法、计算机及存储介质
CN116027816A (zh) 飞行器天线定位方法、系统及计算机存储介质
Shuo Multi-AGV Path Planning Method via Reinforcement Learning and Particle Filters
Liu et al. Indoor Navigation System of Mobile Robot with Trajectory Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant