CN113342030B

CN113342030B - 基于强化学习的多无人机协同自组织控制方法及系统

Info

Publication number: CN113342030B
Application number: CN202110460859.0A
Authority: CN
Inventors: 张少波; 陈国春; 沈宇婷; 赵伟伟; 杨硕; 高跃清; 吴金亮; 郭伟; 杨晓亮; 陈路路; 杜楚
Original assignee: Hunan University of Science and Technology; CETC 54 Research Institute
Current assignee: Hunan University of Science and Technology; CETC 54 Research Institute
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-07-08
Anticipated expiration: 2041-04-27
Also published as: CN113342030A

Abstract

本发明公开一种基于强化学习的多无人机协同自组织控制方法及系统，该方法步骤包括：S1.初始化无人机群以及目标位置；S2.获取各无人机当前所在位置的信号强度；S3.无人机群中各无人机根据信号强度分别计算不同方向位移的奖励，并根据奖励选择各自的位移方向；S4.各无人机按照选择的位移方向执行位移行为，并反馈执行位移后信息，更新各无人机在各方向的位移信息；S5.判断当前是否存在预设数量的无人机满足任务条件，如果为否，返回执行步骤S3，否则转入步骤S6；S6.根据无人机群的位置信息求解目标位置。本发明能够实现多无人机自组织协同控制，且具有实现方法简单、控制成本以及控制效率低、控制效果好等优点。

Description

基于强化学习的多无人机协同自组织控制方法及系统

技术领域

本发明涉及多无人机自主协同定位技术领域，尤其涉及一种基于强化学习的多无人机协同自组织控制方法及系统。

背景技术

无人机由于其具有体积小、灵活性高、隐蔽性好等特点，常用于机载相关测距测角及定位设备中，通过获取无人机载机自身的位置信息、无人机到目标的距离及角度信息，综合利用这些位置和角度信息，可以解算出目标的位置。

目前常用的无人机目标定位方法主要有：单站测角测距目标定位法、多站测向交叉定位法、到达时间差定位法、多航迹点交会定位法等，各类方法分别为：

1、单站测角测距定位法是单无人机目标定位最常用的方式，该方法中无人机通过自身的光电测量平台获取无人机到目标的距离信息及目标相对无人机的角度信息，以大地坐标系为基准坐标系，结合无人机的GPS定位信息，利用数学方法求解出目标位置信息。

2、多站测向交叉定位法是使用两台或两台以上的无人机，获取各无人机到目标的距离及相对观测角度信息，经过几何计算求解出目标位置信息，定位原理如图1所示。但是该方法仍然采用了单站测角测距定位法的思想，需要自身姿态角及无人机到目标的相对观测角等角度信息来确定目标位置，因而目标定位精度依旧受限于测角设备的有限的测量精度。

3、多航迹点交会定位法是无人机在执行目标定位任务过程中，在三个不同位置分别测量自身到目标的距离，再构建空间立体锥形求解目标位置信息，如图1所示。由于该方法无需无人机自身姿态角及无人机到目标的观测角等角度信息的测量，定位精度仅依赖于无人机到目标的测距精度及自身的自定位精度，定位结果更加可靠。但是，在该方法中，要求无人机在采取航机点的过程中，目标位置不变，否则三个航机点对应目标三个不同的位置，无法完成目标位置的解算。因此，有必要使用多无人机对目标协同定位。

在多无人机协同目标定位任务中，无人机群要自组织编队形成到目标点距离相等的空间结构以满足任务需求。目前多智能体系统的编队控制方法主要有主从结构(leader-follower)方法、基于行为的队形控制、人工势场法等，但是这些方法均各有不足，具体如下：

(1)leader-follower方法能较好的维持空间结构，但是该方法过于依赖leader的可靠性。即便将无人机群的中心位置作为一个虚拟leader，可以解决leader可能出现故障的问题，但又会存在着难以实时计算出无人机群中心位置的问题。

(2)基于行为的队形控制方法即为基于个体行为的方法事先设定无人机的行为规则，系统内各无人机可根据任务指令采取相应行为模式，然而这种分布式控制难以实现群体行为，即难以形成所需空间结构。

(3)人工势场法能有效避免无人机间的碰撞，但是在形成空间结构的过程中可能会陷入局部最小值解，无法形成所需空间结构。

综上，上述针对多智能体系统的编队控制方法，均存在一定的问题缺陷，且均没有将无人机群视为一个整体，未能充分利用多无人机相互协同配合完成任务，因而不能体现无人机群的群体智能性。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、控制成本以及控制效率低、控制效果好的基于强化学习的多无人机协同自组织控制方法及系统。

为解决上述技术问题，本发明提出的技术方案为：

一种基于强化学习的多无人机协同自组织控制方法，步骤包括：

S1.初始化无人机群以及目标位置；

S2.无人机群通过机间通信获取各无人机当前所在位置接收到目标信号的信号强度；

S3.无人机群中各无人机根据所述信号强度分别计算不同方向位移的奖励，并根据计算的奖励选择各自的位移方向；

S4.各无人机按照步骤S3选择的位移方向执行位移行为，并反馈执行位移后信息，更新各无人机在各方向的位移信息；

S5.判断当前是否存在预设数量的无人机满足任务条件，如果为否，返回执行步骤S3，否则转入步骤S6；

S6.根据无人机群的位置信息求解目标位置。

进一步的，所述步骤S3中，根据目的无人机当前所在位置的所述信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵，选择能够最快到所述信号强度平均值位置的方向，所述位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值，所述信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值。

进一步的，所述步骤S4中执行位移行为后，将执行位移行为得到的关于当前方向的反馈返回，并更新目的无人机的所述位移反馈矩阵。

进一步的，所述步骤S5中任务条件为：无人机群中信号强度最大值与最小值的差值不超过预设阈值delta_s，即：

其中，

表示无人机群中接收到目标信号的信号强度最大值，

表示无人机群中接收到目标信号的信号强度最小值。

进一步的，该方法按照无人机坐标位置分类的方式区分无人机的不同状态，无人机的方向向量在三维空间的x,y,z三个维度分量为单位向量或零向量。

进一步的，所述步骤S3中计算奖励时，分别根据无人机当前所在位置的所述信号强度计算第一奖励RS，以及根据无人机到目标的距离计算第二奖励RD，综合所述第一奖励RS与所述第二奖励RD计算得到最终的奖励值。

进一步的，计算所述第一奖励RS时，将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度，根据无人机每个时间步的信号强度与所述最佳信号强度之间的关系计算得到所述第一奖励RS；计算所述第二奖励RD时，配置使得若无人机到目标的距离在目标可侦测范围内时，无人机继续靠近目标会得到负奖励。

进一步的，计算奖励的步骤具体包括：

S301.将任务执行的时刻表示为T＝{t₀,t₁,...,t_i,...,t_n},0≤i≤n，无人机群中无人机总数为N，目的无人机在t_i时刻测得的信号强度为

无人机群中各无人机的信号强度列表为

且

S302.将距离目的无人机最近的指定数量无人机所在位置接收到目标信号的信号强度存于列表

取邻居无人机群的最佳信号强度为

计算目的无人机在t_i时刻采取的飞行行为会得到的所述第一奖励RS为：

以及目的无人机在t_i时刻根据目的无人机到目标的信号强度

计算第二奖励RD为：

其中d₁、d₂为预设距离值，且d₁<d₂；

S303.按照下式计算最终无人机每个时间步的奖励为：

R＝λ₁RS+λ₂RD

其中，λ₁、λ₂分别为预设系数且λ₁+λ₂＝1。

进一步的，步骤S1前还包括在各无人机的动作空间中各方向安装信号传感器，以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来的奖励。

一种基于强化学习的多无人机协同自组织控制系统，包括由多架无人机组成的无人机群，无人机群中各无人机中搭载有处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，所述处理器用于执行所述计算机程序以执行如上述方法。

与现有技术相比，本发明的优点在于：

1、本发明基于强化学习实现多无人机协同自组织控制，利用无人机之间接收目标信号强度的关系特性，将多无人机协同对单目标定位问题转化为使得各无人机接收目标信号的信号强度相等，通过在各无人机每次行动时根据信号强度得到任务和环境给予它的奖励，依据奖励做出下一时间步的飞行决策，可以使无人机群快速形成满足需求的特定空间结构，能够充分利用无人机间信号强度关系使得多无人机相互协同配合完成任务，充分体现无人机群的群体智能性。

2、本发明能够有效指导多无人机在动态环境下对目标进行协同定位，提升无人机群协同定位的效率以及精度，同时可用于支持多无人机在多种场景下对静态或动态目标执行定位任务。

3、本发明在多无人机自组织协同方法中的每次循环，无人机都会基于位移反馈值表选择最快到信号强度平均值位置的方向，使得可以快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值，进而使得可以快速、精准控制各无人机完成协同自组织控制。

附图说明

图1是传统的多航迹点交会定位法的原理示意图。

图2是四架无人机协同对单目标定位原理示意图。

图3是本实施例基于强化学习实现多无人机协同自组织控制的实现流程示意图。

图4是在具体应用实施例中目标及无人机群初始位置示意图。

图5是在具体应用实施例中无人机群运动轨迹示意图。

图6是在具体应用实施例中无人机群信号强度变化结果示意图。

图7是在具体应用实施例中采用本发明方法与传统方法得到的最大飞行路程结果对比示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

本实施首先分析多无人机协同对单目标定位任务中各无人机接收目标信号的信号强度之间的关系：

以多无人机协同对单目标定位为任务，完成该任务至少需要四架不在同一平面上的无人机，且这四架无人机到目标的距离相等，才能唯一确定目标的位置。根据数学知识，这四架无人机在以目标为中心、无人机到目标的距离长度为半径的球面上。那么，这四架无人机的位置可以唯一确定球心的位置，即目标的位置，如图2所示。

无线信号的信号强度在空间传播的过程中会逐渐衰减损耗，随着传播距离越来越小，接收设备所能接收到的信号源产生的信号强度(RSSI)也相应的越来越小。信号强度与距离所满足的关系具体如下：

RSSI＝P_r-P_L(d₀)-10nlog10(d_i/d₀)+X₀ (1)

上式中，P_r为信号源信号的发射功率，P_L(d₀)为常规环境下无线信号传播单位距离的平均信号损耗；n为信号的衰减系数，通常取值范围为2～4；d_i为接收设备与信号源的距离；d₀为距离的单位长度；X₀为符合均值为0、标准差2～4的高斯分布的随机数。

由上述理论公式(1)可知，距离目标越远，信号强度就越小；且对于同一目标，测得信号强度相等的点，到目标的距离相等。基于上述分析，可以将多无人机协同对单目标定位问题等价于如何使得各无人机接收目标信号的信号强度相等。而由于实际信号强度测量等误差，信号强度很难绝对精确，因此进一步的可等价于如何使得各无人机接收目标信号的信号强度差值不超过条件能接受的阈值。

本实施例利用上述特性，结合无人机接收目标信号的信号强度，计算任务和环境给予无人机的奖励以自主决策选择下一时间步的飞行方向，直至形成满足目标定位任务需求的特定空间结构，多无人机协同自组织控制实现对单目标定位。如图3所示，本实施例基于强化学习的多无人机协同自组织控制方法的步骤包括：

S1.初始化无人机群以及目标位置；

S3.无人机群中各无人机根据信号强度分别计算不同方向位移的奖励，并根据计算的奖励选择各自的位移方向；

S6.根据无人机群的位置信息求解目标位置。

本实施例上述方法，将无人机群视为一个整体，无人机自组织控制时，利用无人机之间接收目标信号强度的关系特性，将多无人机协同对单目标定位问题转化为使得各无人机接收目标信号的信号强度相等，通过在各无人机每次行动时根据信号强度得到任务和环境给予它的奖励，依据奖励做出下一时间步的飞行决策，实现基于强化学习的多无人机协同自组织控制，使无人机群快速形成满足需求的特定空间结构，能够充分利用无人机间信号强度关系使得多无人机相互协同配合完成任务，充分体现无人机群的群体智能性，从而能够有效指导多无人机在动态环境下对目标进行协同定位，提升无人机群协同定位的效率以及精度，同时可用于支持多无人机在多种场景下对静态或动态目标执行定位任务。

无人机在执行任务的过程中处于动态环境下，可能会面临目标运动导致的位置发生变化、无人机间发生碰撞、存在定位误差、通信不畅等情况。本实施例进一步分析通信限制下的无人机奖励相关因素及通信限制程度、目标是否运动等条件对多无人机目标协同定位的影响。

具体地，多无人机目标协同定位任务中无人机的状态空间、动作空间、单个时间步的飞行奖励、飞行方向选择策略、无人机间通信限制、目标运动模型、奖励更新机制等重要信息如下所示：

(一)状态空间

多无人机目标定位任务中，状态空间可按以下两类标准分类：

(1)按无人机坐标位置分类。无人机在不同的空间位置，接收到目标信号的信号强度也不一样，可将其视为不一样的状态。

(2)按无人机运行状态分类。将处于执行任务过程中的无人机分为一类，处于待机状态的无人机分为另外一类，那么任务空间就只有执行任务状态S_运行和待机状态S_待机，即S＝{S_运行,S_待机}。

本实施例采用按照无人机坐标位置分类的方式来区分不同状态，则无人机处于当前位置这一状态只与当前位置有关，与之前的位置无关，因而该任务具有马尔可夫性。

(二)动作空间

多无人机目标定位任务中，无人机可以朝任意方向飞行，这会导致动作空间是个无限集，求解的计算量过大。因此，本实施例设定无人机的方向向量在三维空间的(x,y,z)三个维度分量的为单位向量或零向量，即方向向量

为：

其中，x,y,z∈{-1,0,1}。

具体无人机一共有27个可选的飞行方向，即无人机的动作空间有27个元素。

(三)奖励

在多无人机目标定位任务中，由环境根据无人机采取的不同飞行方向的行为，给予无人机不同的奖励值。当此次行为使得多无人机系统更接近理想状态时，环境给予它正奖励；当此次行为使得多无人机系统远离理想状态或使得无人机系统不稳定时，环境给予它负奖励。本实施例中步骤S3中计算奖励时，分别根据无人机当前所在位置的信号强度计算第一奖励RS，以及根据无人机到目标的距离计算第二奖励RD，综合第一奖励RS与第二奖励RD计算得到最终的奖励值，即奖励值具体由各无人机接收到目标信号的信号强度、无人机到目标的距离等因素共同决定，以充分考虑在多无人机协同定位过程中无人机接收到目标信号的信号强度、无人机到目标的距离等的关系，使得能够得到合理、精准的奖励值，进而无人机基于该奖励值可以准确的选择合适的位移方向。

本实施例中，计算第一奖励RS时，将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度，根据无人机每个时间步的信号强度与最佳信号强度之间的关系计算得到所述第一奖励RS；计算第二奖励RD时，配置使得若无人机到目标的距离在目标可侦测范围内时，无人机继续靠近目标会得到负奖励，详细为：

(1)信号强度

多无人机目标定位任务最终目的是形成各无人机接收到目标信号的信号强度近似相等的空间结构，因此各无人机接收到目标信号的信号强度越接近越好，即各无人机接收到目标信号的信号强度的最大值与最小值之间的差越小越好。本实施例将每个时间步的信号强度的最大值和最小值的平均值的相应状态作为无人机满足到目标距离相等的空间结构的最佳状态。

步骤S301.将任务执行的时刻表示为T＝{t₀,t₁,...,t_i,...,t_n},0≤i≤n，无人机群中无人机总数为N，agent_k在t_i时刻测得的信号强度为

agent_k掌握的各无人机的信号强度存于列表

且

因四架无人机形成到目标距离相等的空间结构即可满足多无人机目标定位需求，所以每架无人机只需要协同距离其最近的三架无人机。如果当前时间步能与该无人机通信的邻居无人机数量少于三架，那么无人机优先协同已知的能进行通信的邻居无人机即可。

步骤S302.将距离目的无人机最近的指定数量无人机所在位置接收到目标信号的信号强度存于列表

取邻居无人机群的最佳信号强度为

无人机在t_i时刻采取的飞行行为会得到的第一奖励RS具体为：

本实施例具体将距离其最近的三架无人机所在位置接收到目标信号的信号强度存于列表

再取邻居无人机群的最佳信号强度为

(2)无人机到目标的距离

在多无人机目标定位任务中，无人机与目标应当保持合适的距离，距离过近或过远都不利于任务的实施。无人机与目标的距离对该任务的影响分析如下：

i.无人机与目标越近，无人机在对目标定位的行为被目标发现的可能性就越大，所以要求无人机与目标保持一定距离。因此，当无人机到目标的距离在目标可侦测范围内时，无人机继续靠近目标会得到负奖励(惩罚)。而且越靠近目标，所得的惩罚就越大。

ii.无人机与目标距离越远，它能够测得目标信号的信号强度就越小，定位的准确性就越差，因此当无人机侦测到目标信号的信号强度不在合理的信号测量范围时，无人机继续远离目标会得到负奖励(惩罚)。

基于上述分析，本实施例具体按照下式计算无人机t_i时刻根据其到目标的信号强度

所得到的第二奖励RD：

其中d₁、d₂为预设距离值，且d₁<d₂，具体如d₁取70，d₂取80；

步骤S303.按照下式计算最终无人机每个时间步的奖励为：

R＝λ₁RS+λ₂RD (5)

其中λ₁、λ₂分别为预设系数且λ₁+λ₂＝1，本实施例具体取λ₁＝0.5，λ₂＝0.5。

由于无人机在执行任务的过程中处于动态环境下，可能会面临目标运动导致的位置发生变化、存在定位误差、通信不畅等情况，以及要满足无人机不能进入目标可侦测范围内的条件，因而无人机在搜索最优解的过程中可能会陷入局部最小值。无人机选择下一时间步的行为时不能总是选择奖励最大的方向，需要以一定的概率接受较差的结果。本实施例具体使得无人机的行为策略以第一概率(如95％)选择最大奖励的行为，以第二概率(如5％)的概率随机选择行为，以使得能够有一定概率接受较差的结果。

由于多无人机在动态环境中执行任务，有一定概率会失去和周围部分无人机的通讯。而在多无人机协同目标定位任务中，由奖励机制及策略机制可知，无人机的飞行行为的决策与其他无人机接收到目标信号的信号强度的信息密切相关。本实施例中设置无人机与其他每台无人机在指定比例(如90％)的时间步中都能实现正常的信息交互，即每两台无人机之间都有一定比例(如10％)的可能性无法正常通讯。

由于在多无人机目标定位任务中，目标并不一定是静止的。多无人机系统根据接收到目标的信号强度以及根已有的飞行策略来对目标进行追踪。本实施例中构建目标运动模型时，目标在环境中保持低速运动(低速指目标运动速度小于无人机飞行速度)，设其在x轴方向每个时间步前进0.5m，在y轴方向每个时间步可能是前进0.5m或后退0.5m或未发生y轴方向的移动，z轴方向上保持不变。即目标单个时间步位移的方向向量

为：

其中x_target＝0.5，y_target＝0.5或-0.5或0，z_target＝0

由于无人机完成一次一个单位时间步的飞行行为后，会得到环境给予它的一个关于任务的奖励。然而无人机并不能知道当前位置采取的飞行决策会在下一个时间步带来怎样的奖励。为减少无人机的飞行决策试错过程，本实施例中步骤S1前还包括在各无人机的动作空间中各方向都安装信号传感器，以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来怎样的奖励。

本实施例步骤S3中，根据目的无人机当前所在位置的信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵，选择能够最快到信号强度平均值位置的方向，位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值，信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值。即在多无人机自组织协同方法中的每次循环，无人机都会基于位移反馈值表选择最快到信号强度平均值

位置的方向，使得可以快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值，进而使得可以快速、精准控制各无人机完成协同自组织控制。

本实施例步骤S4中执行位移行为后，将执行位移行为得到的关于当前方向的反馈返回，并更新目的无人机的位移反馈矩阵。

本实施例步骤S5中任务条件具体为：无人机群中信号强度最大值与最小值的差值(信号强度极差)不超过预设阈值delta_s，即：

其中，

表示无人机群中接收到目标信号的信号强度最大值，

表示无人机群中接收到目标信号的信号强度最小值。

在具体应用实施例中，记agent_k在t_i时刻测得的信号强度为

任务要求信号强度极差(信号强度最大值与最小值的差值)不能超过delta_s，即任务条件为

当不满足该条件时，各无人机通过自组织协同来减小无人机群的信号强度极差值，上述实现多无人机协同自组织控制的详细步骤为：

步骤1：取无人机群最大信号强度与最小信号强度的平均值，记为

即

记agent_k向d_j方向位移后得到的反馈为

将该无人机向不同方向位移后的反馈值存在一个矩阵中，即无人机agent_k位移后得到的反馈为

步骤2：无人机agent_k根据当前位置信号强度

最大信号强度与最小信号强度平均值

向各方向的位移反馈矩阵

选择位移反馈值最好的方向，也即为使得能够最快到信号强度平均值位置的方向。

步骤3：执行本次位移行为，并将位移得到的关于该方向的反馈返回，以更新无人机的各方向位移反馈矩阵。

步骤4：判断是否满足任务条件

如果不满足该条件，继续从步骤1开始执行；如果满足该条件，继续执行下一步。

步骤5：根据无人机群的位置，利用数学几何关系求解目标位置。

本实施例通过上述步骤，多无人机自组织协同方法中的每次循环，无人机都会位移反馈值表选择最快到信号强度平均值

位置的方向，最终可以收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值。

在具体应用实施例中，通过设置多边极差收敛算法来实现上述多无人机协同自组织控制步骤，多边极差收敛算法如下算法1所示。通过调用该算法即可使得快速收敛到所有无人机信号强度最大值和最小值相差小于误差要求的阈值。

本实施例上述分析了通信限制下的无人机奖励相关因素及通信限制程度、目标是否运动等条件对多无人机目标协同定位的影响，通过任务和环境给予它的奖励自主决策选择下一时间步的飞行方向，直至达到满足目标定位任务需求的特定空间结构，能够基于强化学习的多无人机自组织协同方法使无人机群快速形成满足需求的特定空间结构，解决多无人机在动态环境下对目标的协同定位问题，可以支持多无人机在多种场景下对静态或动态目标执行定位。

为验证本发明应用于无人机群形成特定空间结构过程的有效性，即验证本发明方法是否能形成符合条件的特定空间结构并优于其他方法，在具体应用实施例中进行了模拟实验，将本发明上方法与优化后的leader-follower算法进行对比，该leader-follower算法是当前研究中已有的较成熟的无人机编队组织算法，它是将信号强度最大和最小的两架无人机作为follower，剩下的一架无人机作为leader，follower朝着与leader信号强度相近的方向去靠近，使得无人机间的信号强度差值逐渐减小。

实验中，设计模拟环境具体为1000×1000×1000m的未知区域，其中，无人机数量为3架，其位置随机初始化。为了模拟环境的不确定性，目标的位置也是随机生成。如图4所示，图中无人机初始分别位于圆形、方形、三角形、菱形所在位置，目标初始位于五角星所在位置。无人机群通过机间通信，使得所有无人机都能获取各无人机所在位置的信号强度，采用本发明上述自组织协同方法，最终使得四架无人机接收到目标信号的信号强度相近，即形成四架无人机到目标距离近似相等的空间结构，将无人机群运动轨迹从开始到结束由浅至深绘制，如图5所示。

无人机在飞行过程中以匀速运动，以多无人机协同过程中的单个无人机飞行路程为横坐标，无人机所处位置的信号强度为纵坐标，得到无人机群信号强度变化结果如图6所示。由图6可知，无人机间的信号强度差距越来越小，最终四架无人机的信号强度相近，形成了到目标距离近似相等的空间结构。

本实施例具体对本发明上述方法进行30次模拟实验，统计每次模拟实验无人机群形成空间结构所需要的单个无人机飞行的最大路程。同样地，对于每次模拟实验，也采用已有的成熟编队控制方法，即leader-follower方法，记录下每次实验中无人机群形成空间结构所需要的单个无人机飞行的最大路程。图7展示了两种方法在每次实验中需要的最大飞行路程。从图7中可以看出，本发明协同自组织控制方法能够更快地形成了所需的空间结构，提高了任务完成效率，如传统的Leader-follower方法平均需要的路程为271.3m，而本发明协同自组织方法平均仅需要235.1m，相比之下提升了13.34％，即结果表明了本发明协同自组织方法能够有效提升空间结构形成的效率。

本实施例还包括基于强化学习的多无人机协同自组织控制系统，该系统包括由多架无人机组成的无人机群，无人机群中各无人机中搭载有处理器以及存储器，存储器用于存储计算机程序，处理器用于执行计算机程序，处理器用于执行计算机程序以执行如上述方法。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于强化学习的多无人机协同自组织控制方法，其特征在于，步骤包括：

S1.初始化无人机群以及目标位置；

S3.无人机群中各无人机根据所述信号强度分别计算不同方向位移的奖励，并根据计算的奖励选择各自的位移方向，计算所述奖励时，分别根据无人机当前所在位置的所述信号强度计算第一奖励RS，以及根据无人机到目标的距离计算第二奖励RD，综合所述第一奖励RS与所述第二奖励RD计算得到最终的奖励值，计算所述第一奖励RS时，将无人机每个时间步的信号强度的最大值和最小值的平均值作为最佳信号强度，根据无人机每个时间步的信号强度与所述最佳信号强度之间的关系计算得到所述第一奖励RS；计算所述第二奖励RD时，配置使得若无人机到目标的距离在目标可侦测范围内时，无人机继续靠近目标会得到负奖励，以第一概率选择最大奖励的行为，以第二概率的概率随机选择行为；根据目的无人机当前所在位置的所述信号强度、无人机群的信号强度平均值、目的无人机向各方向的位移反馈矩阵，选择能够最快到所述信号强度平均值位置的方向，所述位移反馈矩阵用于存储目的无人机向不同方向位移后的反馈值，所述信号强度平均值为无人机群中最大信号强度与最小信号强度的平均值；

S5.判断当前是否存在预设数量的无人机满足任务条件，如果为否，返回执行步骤S3，否则转入步骤S6，所述任务条件为：无人机群中信号强度最大值与最小值的差值不超过预设阈值delta_s；

S6.根据无人机群的位置信息求解目标位置。

2.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法，其特征在于，所述步骤S4中执行位移行为后，将执行位移行为得到的关于当前方向的反馈信息返回，并更新目的无人机的所述位移反馈矩阵。

3.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法，其特征在于，所述步骤S5中任务条件为：

其中，

表示无人机群中接收到目标信号的信号强度最大值，

表示无人机群中接收到目标信号的信号强度最小值。

4.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法，其特征在于，该方法按照无人机坐标位置分类的方式区分无人机的不同状态，无人机的方向向量在三维空间的x,y,z三个维度分量为单位向量或零向量。

5.根据权利要求1所述的基于强化学习的多无人机协同自组织控制方法，其特征在于，计算奖励的步骤具体包括：

S301.将任务执行的时刻表示为T＝{t₀，t₁，…，t_i，…，t_n}，0≤i≤n，无人机群中无人机总数为N，目的无人机在t_i时刻测得的信号强度为

无人机群中各无人机的信号强度列表为

且

取邻居无人机群的最佳信号强度为

以及目的无人机在t_i时刻根据目的无人机到目标的信号强度

计算第二奖励RD为：

其中d₁、d₂为预设距离值，且d₁<d₂；

S303.按照下式计算最终无人机每个时间步的奖励为：

R＝λ₁RS+λ₂RD

其中，λ₁、λ₂分别为预设系数且λ₁+λ₂＝1。

6.根据权利要求1～5中任意一项所述的基于强化学习的多无人机协同自组织控制方法，其特征在于，步骤S1前还包括在各无人机的动作空间中各方向安装信号传感器，以提前感知无人机在当前位置采取的飞行决策会在下一个时间步带来的奖励。

7.一种基于强化学习的多无人机协同自组织控制系统，包括由多架无人机组成的无人机群，无人机群中各无人机中搭载有处理器以及存储器，所述存储器用于存储计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～6中任意一项所述方法。