CN109445456A

CN109445456A - 一种多无人机集群导航方法

Info

Publication number: CN109445456A
Application number: CN201811198966.5A
Authority: CN
Inventors: 王剑; 王超
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-03-08

Abstract

本发明公开了一种多无人机集群导航方法，包括以下步骤：确定无人机之间的交互协议；根据所述交互协议，利用无人机的传感设备和/或定位设备确定多无人机集群中每个无人机的飞行状态；确定无人机的控制向量；根据无人机的飞行状态确定收益函数；基于飞行状态、控制向量和收益函数，利用学习算法集中式训练神经网络模型，获得用于描述无人机从飞行状态到控制策略的映射关系的控制函数，所述控制函数在多无人机集群的无人机之间共享；基于所述控制函数，每个无人机根据自身的飞行状态生成相应的控制指令，以实现自主集群导航。

Description

一种多无人机集群导航方法

技术领域

本发明属于无人机领域，尤其涉及一种多无人机集群导航方法。

背景技术

小型无人机在军民领域的广泛应用，使得基于小型无人机的智能化应用得到了迅猛发展，例如利用无人机进行侦查、监控、航拍、送货等。多无人机应用于现代战争是一个重要的发展趋势。在实际应用中，往往要求一群无人机同时从一个出发点集群飞行到目标位置，然后执行特定的任务。因此，能够实现多无人机在大尺度复杂环境中的自主集群导航，是无人机在战场应用的关键技术之一。

目前，实现多无人机自主集群的方法主要分为两类。第一类就是利用集群控制技术，该技术主要遵循三条准则，即：集群集中(每一个成员尽力靠近它的临近成员)、规避障碍物(每一个成员尽量避免与其临近成员发生碰撞)、速度匹配(每一个成员尽量和它的临近成员保持速度一致)。集群控制技术的基本准则来源于人类对大自然中鱼群和鸟群的行为观测，该技术虽然能够实现多成员的集群行为，但是一般很难实现导航行为，并且无法应对大尺度复杂环境。第二类技术就是利用增强学习来实现集群和导航功能，其基本思路就是把集群导航问题建模成一个马尔可夫决策过程，然后应用增强学习对其进行求解。然而，单纯的利用增强学习无法很好的实现多成员之间的协同，效果比较差。为此，部分研究试图把增强学习和集群控制结合起来，以期实现更好的协同性能，例如将增强学习中的控制策略与集群控制的三条准则一一对应，即靠近，远离以及速度匹配。这些结合了集群控制的增强学习方法，最大的优点在于能够应对复杂一些的环境，但是由于其简单的控制策略，限制了其在实际问题中的应用。

另外，上述方法都致力于解决多成员的集群问题以及障碍物规避问题，并没有方法致力于实现多成员的集群导航问题。

发明内容

针对上述技术问题，本发明的主要目的在于提供一种多无人机集群导航方法，以解决现有技术中多无人机集群不能再复杂环境中导航的问题。

本发明的目的是通过以下技术方案实现的：

一种多无人机集群导航方法，包括以下步骤：

S1，确定无人机之间的交互协议；

S2，根据所述交互协议，利用无人机的传感设备和/或定位设备确定多无人机集群中每个无人机的飞行状态；

S3，确定无人机的控制向量；

S4，根据无人机的飞行状态确定收益函数；

S5，基于所定义的飞行状态、控制向量和收益函数，利用学习算法集中式训练神经网络模型，获得用于描述无人机从飞行状态到控制策略的映射关系的控制函数，所述控制函数在多无人机集群的无人机之间共享；

S6，基于所述控制函数，每个无人机根据自身的飞行状态生成相应的控制指令，以实现自主集群导航。

优选地，所述交互协议是指无人机利用其传感设备感知和/或利用其通信设备获知包含其周围无人机与其空间距离以及与其相对夹角等信息。

优选地，所述步骤S2包括以下步骤：

S21，获取无人机与其所处周围环境中障碍物之间的距离，作为无人机的环境状态；

S22，获取无人机第一视角与正北方向的夹角，作为无人机的自身状态；

S23，获取无人机分别与其左侧和右侧距离最近的无人机之间的距离和夹角，作为无人机的协同状态；

S24，获取无人机当前位置与目标位置之间的距离和夹角，作为无人机的位置状态；

S25，将无人机的环境状态、自身状态、协同状态和位置状态整合，作为无人机的飞行状态。

优选地，所述步骤S25中，将无人机的环境状态、自身状态、协同状态和位置状态整合是指将表征无人机的环境状态、自身状态、协同状态和位置状态的四个向量拼接成一个状态向量。

优选地，所述步骤S3中，所述无人机的控制向量包括无人机的飞行方向、飞行高度和飞行速度中的一部分或者全部。

优选地，所述步骤S4中，所述收益函数与以下至少四个函数相关：

环境惩罚函数，用于表示当无人机在飞行过程中与障碍物之间的距离小于预设的距离阈值时给予惩罚；

距离奖励函数，用于表示当无人机在飞行指定时间后与目标之间的距离减小时给予奖励；

协同奖励函数，用于表示当无人机与其左侧和右侧最近的无人机保持一定距离时给与奖励；

转移惩罚函数，用于表示当无人机每执行一次控制指令而转到下一个状态时给予惩罚。

优选地，所述收益函数为所述环境惩罚函数、距离奖励函数、协同奖励函数和转移奖励函数之和。

优选地，所述环境惩罚函数为阶跃函数；

所述距离奖励函数为线性函数；

所述协同奖励函数为高斯函数；

所述转移奖励函数为常数函数。

优选地，所述步骤S5包括以下步骤：

所述学习算法采用适用于多无人机集群的深度增强学习算法；

根据选择的深度增强学习算法设计相应的神经网络模型；

采用集中式训练、分布式执行的方法来训练所述神经网络模型的参数，确定所述控制函数。

优选地，所述深度增强学习算法是基于共享回放缓存的深度增强学习算法，设计了两个神经网络模型，分别用来近似操作-值函数和所述控制函数，所述操作-值函数用于在训练所述神经网络模型的过程中对训练神经网络模型后得到的控制函数进行评价。

具体地，所述步骤S5包括以下步骤：

S501，初始化在所有无人机之间共享的操作-值函数、控制函数、目标操作-值函数、目标控制函数以及共享的回放缓存；

S502，初始化一个操作搜索随机过程、所有无人机的出发位置以及它们的共同目标位置；

S503，获取无人机的当前飞行状态；

S504，将无人机的当前飞行状态输入控制函数，并增加探索噪声，获得对应的控制策略的控制函数；

S505，执行控制函数对应的控制动作，使无人机从当前飞行状态跳转到下一个飞行状态，并根据收益函数得到相应的收益；

S506，判断无人机的飞行状态是否为结束状态：

若是，执行步骤S513，若否，执行步骤S507；

S507，将跳转过程的相关参数存储进共享回放缓存R中；S508，从共享回放缓存R中均匀随机采样L组跳转过程的相关参数；

S509，根据采样得到的L组跳转过程的相关参数，分别计算它们对应的目标值；

S510，根据计算得到的目标值分别计算操作值函数的梯度和控制函数的梯度，然后利用随机梯度下降法更新操作-值函数和控制函数的网络参数；

S511，更新目标操作-值函数和目标控制函数的网络参数；

S512，判断无人机飞行状态的跳转次数是否超过了给定的阈值：

若是，执行步骤S513，若否，执行步骤S503；

S513，结束本次循环。

与现有技术相比，本发明多无人机集群导航方法具有如下优点或有益效果：

本发明可以使不同无人机之间能够保持一个合适的距离，从而实现了集群的目的。而速度变化曲线和方向变化曲线表明无人机通过控制自身的速度和方向，在实现集群的同时，又实现了导航的功能。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本发明实施例中无人机所在复杂环境的仿真图；

图2为图1所示的复杂环境的俯视图；

图3为本发明实施例的方法流程示意图；

图4为本发明实施例中无人机的环境状态测量示意图；

图5为本发明实施例中无人机的自身状态和位置状态的测量示意图；

图6为本发明实施例中无人机的协同状态测量示意图；

图7为本发明实施例中深度增强学习算法中近似操作-值函数网络结构的示意图；

图8为本发明实施例中深度增强学习算法中近似控制函数的网络结构示意图；

图9为本发明实施例中深度增强学习算法得到控制函数的流程示意图；

图10为本发明实施例中多无人机在图2所示的复杂环境中进行集群导航测试的示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

结合附图对本发明进行进一步说明。

本发明实施例通过采用仿真手段来验证本发明所提供的方法的有效性。为了降低问题的复杂度并不失一般性，通过仿真产生虚拟无人机及其飞行所在区域的复杂环境。由于利用仿真产生无人机，因此在控制无人机的过程中并不受实际物理过程的限制，为了简化问题，本实施例中假设所有无人机飞行高度相同，并且为常数假设。

如图1所示，为本发明实施例中无人机所在复杂环境的仿真图，图2为图1所示的复杂环境的俯视图。通过仿真产生一个随机的大尺度复杂环境，该环境为样本环境，其覆盖面积超过1平方公里，并用高度随机的圆柱体表示建筑物(障碍物)。图1中每个圆柱体代表一个建筑物样本，图2为该样本环境的俯视图，本发明实施例中的多无人机集群在样本环境中进行飞行导航测试。

如图3所示，为本发明实施例的方法流程示意图。该方法包括以下步骤：

S1，确定无人机之间的交互协议。

S2，根据所述交互协议，利用无人机的传感设备和/或定位设备确定多无人机集群中每个无人机的飞行状态。

S3，确定无人机的控制向量。

S4，根据无人机的飞行状态确定收益函数。

S5，基于所定义的飞行状态、控制向量和收益函数，利用学习算法集中式训练神经网络模型，获得用于描述无人机从飞行状态到控制策略的映射关系的控制函数，所述控制函数在多无人机集群中共享。

S6，基于所述控制函数，每个无人机根据自身的飞行状态生成相应的控制指令，以实现自主集群导航。其中：

所述步骤S1具体为：

在本实施例中，对于无人机群中的任意一台无人机，它与周围其它无人机的交互方式为该无人机利用其传感设备感知和/或利用其通信设备获知包含其周围无人机与其空间距离以及与其相对夹角的信息。传感设备可以是测距仪、雷达、超声波、摄像头等能测量上述信息的设备，本实施例中采用测距仪。本实施例中，以一个无人机为例进行说明，通过上述交互方式分别获得该无人机左侧和右侧距离最近的无人机与其之间的距离以及和它的相对夹角。特别需要说明的是，如果该无人机的左侧或者右侧没有其他无人机存在，则将该无人机与其左侧或者右侧距离最近的无人机之间的距离和相对夹角设置为固定常数，本实施例中，将关于距离和夹角的固定常数分别设置为20米，0度。每个无人机上还设置有定位设备，例如GPS模块，也可以为其他可以实现定位的设备。

所述步骤S2：通过步骤S1中的交互方式，利用无人机的传感设备和/或定位设备确定多无人机集群中每个无人机的飞行状态，具体包括以下步骤：

步骤S21，获取无人机与其所处周围环境中障碍物之间的距离，作为无人机的环境状态。该步骤所获取的距离等信息是通过无人机的传感设备和定位设备进行测量的。如图4所示，为本发明实施例中无人机的环境状态测量示意图，无人机的环境状态由九个测距仪进行测量，九个测距仪测量无人机距离周围环境中不同方向的障碍物的距离。将九个测距仪测量的九个不同方向的距离分别记作d⁴,d⁵,…,d¹¹,d¹²，将九个测距仪所测量的九个不同方向的距离作为该无人机的环境状态，记作s_env＝[d⁴,d⁵,…,d¹¹,d¹²]。在实际应用中，可以根据实际需要设定测距仪的个数进行测量无人机与周围环境中不同方向的障碍物的距离。

步骤S22，获取无人机第一视角与正北方向的夹角，作为无人机的自身状态。该步骤中，通过无人机的传感设备测量无人机的第一视角与正北方向之间的夹角θ¹，根据该夹角将无人机的此时的状态记作S_self＝[θ¹]，表示该无人机的自身状态，如图5所示。

步骤S23，通过无人机的传感设备获取无人机分别与其左侧和右侧距离最近的无人机之间的距离以及相对夹角。如图6所示，将该无人机与其左侧距离最近的无人机之间的距离记作d²，相应的夹角为θ²；将该无人机与其右侧距离最近的无人机之间的距离记作d³，相应的夹角为θ³。然后将上述测量的距离以及相应的夹角记作S_cor＝[d²,θ²,d³,θ³]，作为该无人机的协同状态。

步骤S24，通过无人机的传感设备和定位设备获取无人机当前位置与目标位置之间的距离和夹角，作为无人机的位置状态。如图5所示，将无人机的传感设备测量的无人机当前位置与目标位置之间的距离记作d¹，相应的夹角记作θ¹，夹角θ¹为该无人机的第一视角与目标位置之间的夹角。将该步骤测量的距离与夹角表示该无人机的位置状态，记作S_pos＝[θ¹,d¹]。

由于本实施例是通过采用仿真手段进行的，所以上述步骤中需要测量的信息是可以直接通过仿真得出的。但是，实际应用中还是根据上述步骤中的原理进行测量的。

步骤S25，将步骤S21、S22、S23和S24中测量的该无人机的环境状态、自身状态、协同状态和位置状态进行整合，作为该无人机的飞行状态。具体地，将该无人机的环境状态、自身状态、协同状态和位置状态整合是指将表征无人机的环境状态、自身状态、协同状态和位置状态的四个向量拼接成一个状态向量，拼接后的状态向量表示该无人机的飞行状态，记作S＝[S_env,S_cor,S_self,S_pos]，拼接后的状态向量为十六维的向量。

每个无人机的飞行状态均是由步骤S1、S2所述的方法得到的。

需要指出的是，表征无人机的四种状态的向量的融合方法不局限于上述方法。例如，在实际应用中，环境状态可能完全由二维图像信号表征，位置状态却往往只能用一维向量表征，二者的融合可以通过神经网络或其它方法实现。

所述步骤S3，确定无人机的控制向量。其中，无人机的控制向量包括无人机的飞行方向、飞行高度和飞行速度中的一部分或者全部。

在本实施例中，由于是通过仿真产生的无人机，因此在控制无人机的过程中并不受实际物理过程的限制。为了简化问题，假设无人机飞行高度为常数，那么仅需控制无人机的飞行方向和飞行速度即可。因此无人机的控制向量由飞行速度和飞行方向两个维度组成，记作其中a_speed表示速度控制，a_air表示方向控制。在本文中，无人机的控制策略指的是对无人机的飞行速度、飞行方向和(必要时)飞行高度这三种参数进行控制。

所述步骤S4，根据无人机的飞行状态确定收益函数。具体如下：

在确定收益函数之前先根据无人机的飞行状态确定以下函数：

环境惩罚函数，用于表示当无人机在飞行过程中与障碍物之间的距离小于预设的距离阈值时给予惩罚。在此，所述环境惩罚函数优选为阶跃函数。

如果无人机与环境中任意障碍物的距离小于一定的范围(该范围为九个测距仪测量的距离中的最小值)，就会得到一个常数量的惩罚，环境惩罚函数p_env表示为：

距离奖励函数，用于表示当无人机在飞行指定时间后与目标之间的距离减小时给予奖励。在此，所述距离奖励函数优选为线性函数。

当无人机飞行一个时间单位后，它收到的距离奖励正比于它与目标位置之间的距离的变化量。假设在一个时间单位之前的位置为(X₁,Y₁)，无人机飞行一个时间单位之后的位置为(X₂,Y₂)，目标位置为(X₃,Y₃)，那么距离奖励函数r_dis利用以下函数表示：

此外，在本实施例中，为了防止无人机飞行速度过大，给距离奖励乘以一个由无人机当前速度决定的非线性衰减因子，使得当无人机速度过大(超过一定值)时，得到的距离奖励相对之前未乘衰减因子时减小。因此，最终的距离奖励函数表示为(其中v表示无人机当前的速度)：

协同奖励函数，用于表示当无人机与其左侧和右侧最近的无人机保持一定距离时给与奖励。在此，所述协同奖励函数优选为截尾高斯函数。

如果该无人机与其左侧和右侧最近的无人机保持恰当的距离(该距离为预设距离)，那么得到最大的奖励，否则得到的奖励会呈高斯函数形式随着距离的变化逐渐衰减，当距离超过一定范围(该范围同样为预设范围)，奖励变成零。协同奖励函数r_cor由以下函数表示：

转移惩罚函数，用于表示当无人机每执行一次控制指令而转到下一个状态时给予惩罚。在此，所述转移惩罚函数优选为常数函数，例如表示为r_trans＝-3。

所述收益函数与以上至少四个函数相关。在此，优选地，所述收益函数为所述环境惩罚函数、距离奖励函数、协同奖励函数和转移奖励函数之和，则该无人机的收益函数r可以表示为：

r＝p_env+r_trans+r_cor+r_dis。

所述步骤S5，基于步骤S2所确定的无人机的飞行状态、步骤S3确定的无人机的控制向量和步骤S4确定的收益函数，利用深度增强学习算法集中式训练神经网络模型，获得用于描述无人机从飞行状态到控制策略的映射关系的控制函数，所述控制函数在多无人机集群中共享。具体包括如下步骤：

S51，选择适用于多无人机集群的深度增强学习算法，所述深度增强学习算法是基于共享回放缓存的深度增强学习算法。由于无人机的控制向量的取值是连续的(无人机可以以任意角度旋转，速度变化也是连续的)，因此必须选取适用于连续控制的深度增强学习算法。本发明的一个实施例基于深度确定性策略梯度算法DDPG，设计了一种适应于多无人机集群导航的深度增强学习算法，在此命名为Flocking-DDPG算法。该算法是基于增强学习中的actor-critic框架，通过函数近似的方法，得到描述无人机从飞行状态到控制策略的映射关系的控制函数(具体实施过程参见步骤S52)。

S52，根据步骤S51中选择的深度增强学习算法设计相应的深度神经网络模型，用于近似控制函数。

具体地，基于步骤S51中选择的Flocking-DDPG深度增强学习算法的actor-critic框架，建立critic深度神经网络模型和actor深度神经网络模型，分别用来近似操作-值函数Q^w(S_t，a_t)和控制函数μ^θ(S_t)。其中，w表示操作-值函数的网络参数，θ表示控制函数的网络参数，S_t表示在t时刻无人机的飞行状态，a_t表示在t时刻无人机的控制向量，S_t和a_t均为向量。

图7示出了本实施例的近似操作-值函数的critic深度神经网络结构，其中输入层有16个神经元，对应的是飞行状态输入，第一层隐藏层有300个神经元，控制指令由在第一层隐藏层和第一层隐藏层的300个神经元拼接起来，第二层隐藏层有402个神经元，输出层有1个神经元，对应操作-值函数的输出，该输出是对当前飞行状态S_t采取的控制函数a_t的评价结果。critic深度神经网络用于对在当前状态S_t下采取的控制函数a_t进行评价，该网络的输入就是S_t和a_t，输出为一个标量值Q^w(S_t，a_t)，网络参数为w，从而实现对控制函数Q^w(S_t，a_t)的近似。

图8示出了本实施例的近似控制函数的actor深度神经网络结构，其中输入层有16个神经元，对应的是飞行状态输入，第一层隐藏层有300个神经元，第二层隐藏层有400个神经元，输出层为2个神经元，对应于控制向量a_t的输出。actor深度神经网络用于近似飞行状态S_t到控制函数a_t的映射关系，即a_t＝μ^θ(S_t)，该网络的输入就是S_t，输出就是a_t，网络参数为θ，从而实现对μ^θ(S_t)的近似。

应当说明的是，本发明并不局限于上述两种神经网络结构。

为了加快算法的收敛速度，本实施例在上述算法中还优选地集成了共享回放缓存的功能。这是由于无人机从初始状态到达结束状态的过程中，相邻的两个飞行状态s_t和s_t+1显然非常相似；此外，无人机集群所有无人机共享同一个控制函数。为了消除这种相邻状态强相关性而导致算法收敛缓慢的问题并利用控制函数被共享的特点，在此设计了共享回放缓存。其基本原理为：在训练上述神经网络的过程中，假设任一无人机当前的飞行状态为s_t，采取控制策略的控制函数a_t之后，跳转到s_t+1并得到奖励r_t，然后不立即使用(s_t,a_t,s_t+1,r_t)对两个函数a_t和Q^w(S_t，a_t)的参数进行更新，而是先把它们放入共享回放缓存中，训练时从共享回放缓存中随机地得到L组跳转过程的相关参数(s_i,a_i,s_i',r_i)，i＝1,2,…,L，利用(s_i,a_i,s_i',r_i)，i＝1,2,…,L进行参数优化。

此外，目标操作-值函数神经网络和目标控制函数神经网络是本发明所采用的另一个防止算法发散的优选措施。其基本原理为：采用目标操作-值函数和目标控制函数来计算y_i＝r_i+γQ^w'(S_i,μ^θ'(Si'))。

S53，采用集中式训练、分布式执行的方法来训练所述神经网络模型，确定所述控制函数。操作-值函数用于在训练所述神经网络模型的过程中对训练神经网络模型后得到的控制函数进行评价。

图9示出了采用集中式训练、分布式执行的方法来训练上述两个神经网络结构，以确定所述控制函数参数的工作流程图。

S501，初始化在所有无人机之间共享的操作-值函数神经网络Q^w(S_t，a_t)和控制函数神经网络μ^θ(S_t)，其中随机赋值网络参数w和θ，S_t表示在t时刻无人机的飞行状态，a_t表示在t时刻无人机的控制向量。

初始化在所有无人机之间共享的目标操作-值函数Q^w'(S_t，a_t)和目标控制函数μ^θ'(S_t)，其中令网络参数w'和θ'分别等于网络参数w和θ。

初始化在所有无人机之间共享的回放缓存R。

然后，按照预先设定的循环条件执行以下步骤：

S502，初始化一个操作搜索随机过程。

随机初始化所有无人机的出发位置以及它们的共同目标位置。

对于每架无人机，执行以下步骤：

S503，获取无人机的当前飞行状态S_t。其中，对于初始情况，当前飞行状态即为初始状态S_t＝S₀。

S504，将无人机的当前飞行状态S_t输入控制函数，并增加探索噪声N_t，获得对应的控制策略的控制函数a_t＝μ^θ(S_t)+N_t。

S505，执行控制函数a_t＝μ^θ(S_t)+N_t对应的控制动作，使无人机从当前飞行状态S_t跳转到下一个飞行状态s_t+1，并根据收益函数的定义得到相应的收益r_t+1。

S506，判断无人机的飞行状态s_t+1是否为结束状态，记作T_t+1，如果为结束状态，则T_t+1为真，否则为假。

其中，当任意一架无人机到达目标位置，或者任意一架无人机距离其它无人机中的距离的最小值大于预设距离，或者任意一架无人机与环境中的障碍物或者其它无人机发生碰撞时，判定无人机的飞行状态为结束状态。在本实施例中，当任一无人机距离目标位置的距离小于20米，或任一无人机与障碍物或者其它无人机的距离小于等于0米，或任意一架无人机距离其它无人机的最小距离大于40米时，判定无人机的飞行状态为结束状态。

S507，将这一跳转过程的相关参数(s_t,a_t,s_t+1,r_t+1,T_t+1)存储进共享回放缓存R中。

S508，从共享回放缓存R中均匀随机地采样L组跳转过程的相关参数(s_i,a_i,s'_i,r_i,T_i)，i＝1,2,…,L。该步骤中采样的五个相关参数分别与步骤S507中存储的五个相关参数相对应，例如，S_i对应步骤S507中的S_t，S'_i对应步骤S507中的S_t+1。

S509，如果T_i为真，y_i＝r_i，跳转执行步骤S512，结束本次循环。r_i为步骤S508中采样得到的r_i。

如果T_i为假，根据步骤S508采样得到的L组跳转过程的相关参数，分别计算它们对应的目标值，y_i＝r_i+γQ^w'(S'_i,μ^θ'(S_i'))。其中，i＝1～L；γ是比例因子，其取值范围为0到1，γ根据需要选取一定的值，以后每次循环都采用选取的该值。式中的S'_i为步骤S508中采样得到的S'_i，网络参数w'和θ'为步骤S501中的网络参数w'和θ'。

S510，通过步骤S509得到目标值y_i，根据计算得到的目标值y_i,i＝1～L，分别计算操作-值函数的梯度和控制函数的梯度，然后利用随机梯度下降法更新操作-值函数和控制函数的网络参数；其中，

按照下式计算操作-值函数的梯度

按照下式计算控制函数的梯度

利用随机梯度下降法，更新操作-值函数神经网络和控制函的网络参数w和θ。该步骤完成了对网络参数w和θ的更新。

S511，按照以下公式，更新目标操作-值函数和目标控制函的网络参数w'和θ'：

w'＝εw+(1-ε)w'

θ'＝εθ+(1-ε)θ'

其中，等式左边的w'和θ'为更新后的目标操作-值函数和目标控制函数的网络参数，等式右边的w'和θ'为更新前的目标操作-值函数和目标控制函数的网络参数，等式右边的w和θ为步骤S510中更新后的w和θ，等号表示赋值的意义。ε表示网络参数的更新程度，其取值范围为0到1。该步骤完成了对w'和θ'的更新。下一次循环利用更新后的w'和θ'求y_i，进一步求得下一次循环中的w和θ。

若是，执行步骤S512，结束本次循环；否则，返回执行步骤S503。

S513，结束本次循环。

如此，通过上述集中式训练确定了用于在多无人机集群中控制无人机的控制函数。该控制函数在多无人机集群的无人机之间共享。

所述步骤S7，待训练结束后，对于每一个无人机，利用训练得到的共享的控制函数a_t＝μ^θ(S_t)，根据自身的飞行状态，确定相应的控制指令，以实现自主集群导航。

在本实施例中，首先在虚拟复杂场景中随机产生多无人机的出发位置和它们的共同目标位置。然后获得无人机的飞行状态，将该状态输入到控制函数中，得到控制信号，执行该控制信号。重复以上步骤，进行自主导航测试。图10的(a)部分示出了随机产生一组起始位置和共同目标位置后，多无人机集群自主导航测试的测试轨迹。从图中可以看出无人机能够成功的从任意起始位置，利用传感设备和定位设备，完成在大尺度位置复杂环境中的自主导航任务。图10的(b)部分、(c)部分和(d)部分分别示出了在该次集群导航过程中不同无人机与其距离最近的无人机之间的距离、不同无人机在该次导航过程中的速度和第一视角方向的变化曲线。从图中可以看出，在整个集群导航过程中，不同无人机之间能够保持一个合适的距离，从而实现了集群的目的。而速度变化曲线和方向变化曲线表明无人机通过控制自身的速度和方向，在实现集群的同时，又实现了导航的功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多无人机集群导航方法，其特征在于，包括以下步骤：

S1，确定无人机之间的交互协议；

S3，确定无人机的控制向量；

S4，根据无人机的飞行状态确定收益函数；

S5，基于飞行状态、控制向量和收益函数，利用学习算法集中式训练神经网络模型，获得用于描述无人机从飞行状态到控制策略的映射关系的控制函数，所述控制函数在多无人机集群的无人机之间共享；

2.根据权利要求1所述的多无人机集群导航方法，其特征在于：

所述交互协议是指无人机利用其传感设备感知和/或利用其通信设备获知至少包括其周围无人机与其空间距离以及与其相对夹角的信息。

3.根据权利要求1所述的多无人机集群导航方法，其特征在于，所述步骤S2包括以下步骤：

4.根据权利要求3所述的多无人机集群导航方法，其特征在于：

所述步骤S25中，将无人机的环境状态、自身状态、协同状态和位置状态整合是指将表征无人机的环境状态、自身状态、协同状态和位置状态的四个向量拼接成一个状态向量。

5.根据权利要求1所述的多无人机集群导航方法，其特征在于：

所述步骤S3中，所述无人机的控制向量包括无人机的飞行方向、飞行高度和飞行速度中的一部分或者全部。

6.根据权利要求1所述的多无人机集群导航方法，其特征在于，所述步骤S4中，所述收益函数与以下至少四个函数相关：

7.根据权利要求6所述的多无人机集群导航方法，其特征在于：

所述收益函数为所述环境惩罚函数、距离奖励函数、协同奖励函数和转移奖励函数之和。

8.根据权利要求6所述的多无人机集群导航方法，其特征在于：

所述环境惩罚函数为阶跃函数；

所述距离奖励函数为线性函数；

所述协同奖励函数为高斯函数；

所述转移奖励函数为常数函数。

9.根据权利要求1所述的多无人机集群导航方法，其特征在于，所述步骤S5包括以下步骤：

根据深度增强学习算法设计相应的神经网络模型；

采用集中式训练、分布式执行的方法来训练所述神经网络模型的参数，确定所述控制函数；

其中，所述深度增强学习算法是基于共享回放缓存的深度增强学习算法，设计两个神经网络模型，分别用来近似操作-值函数和所述控制函数，所述操作-值函数用于在训练所述神经网络模型的过程中对训练神经网络模型后得到的控制函数进行评价。

10.根据权利要求9所述的多无人机集群导航方法，其特征在于：具体地，所述步骤S5包括以下步骤：

S503，获取无人机的当前飞行状态；

S506，判断无人机的飞行状态是否为结束状态：

若是，执行步骤S513，若否，执行步骤S507；

S507，将跳转过程的相关参数存储进共享回放缓存R中；

S508，从共享回放缓存R中均匀随机采样L组跳转过程的相关参数；

S511，更新目标操作-值函数和目标控制函数的网络参数；

若是，执行步骤S513，若否，执行步骤S503；

S513，结束本次循环。