CN110007688A

CN110007688A - 一种基于强化学习的无人机集群分布式编队方法

Info

Publication number: CN110007688A
Application number: CN201910339659.2A
Authority: CN
Inventors: 魏大卫; 罗林波; 马建峰; 汪新宇; 马承彦
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-07-12
Anticipated expiration: 2039-04-25
Also published as: CN110007688B

Abstract

本发明公开了一种基于强化学习的无人机集群分布式编队方法，步骤1)：获取编队目标状态函数和环境不确定性因素仿真模型；构建无人机编队仿真模型；步骤2)：在环境不确定性因素的干扰下，基于步骤1)构建的无人机编队仿真模型，采用Q学习方法对无人机集群进行训练来更新飞行策略表；步骤3)：根据获取的编队目标状态函数计算编队目标状态完成度的值，并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较，根据比较结果判断是否达到编队目标状态，若达到编队目标状态，则执行步骤4)，否则转至步骤2)；步骤4)：保存更新的飞行策略表。本发明为集群提供具有自适应性质的飞行策略参数，保障无人机集群编队的稳定性与鲁棒性。

Description

一种基于强化学习的无人机集群分布式编队方法

技术领域

本发明属于无人机自动控制领域，具体涉及一种基于强化学习的无人机集群分布式编队方法，用于不同编队目标下无人机集群的自适应队形控制。

背景技术

随着无人机技术的发展，无人机在军事与民用领域的应用得到了极大的拓展。在军事领域，无人机以其具有的低人员伤亡、全寿命周期成本低、持续作战能力强等优点，被认为能够替代有人机执行“枯燥、恶劣、危险、纵深”等任务；在民用领域，无人机展示出了其在地质勘探、抗震救灾、应急通信以及货运等活动上的优势。然而，由于单个无人机在具有受限的通信距离、计算能力与电池能量，使得无人机个体单独执行任务时存在鲁棒性差、执行效率低等问题。与之相对，无人机集群具有的协同控制、能力互补等特点，极大的提高了任务的执行效率，获得了研究人员的广泛关注。从2014年开始，美国通过国防高级研究局(Defense Advanced Research Projects Agency,DARPA)和海军研究实验室(UnitedStates Naval Research Laborator,NRL)等机构全力探究无人机集群最新技术，应用于军事发展，典型项目包括：小精灵(Gremlins)项目、拒止环境中协同作战项目(CODE)、“山鹑”(Perdix)微型无人机项目、低成本无人机集群技术项目(LOCUST)等。中国电子科技科集团公司(CETC)也曾分别在2016年和2017年完成了67架和119架固定翼无人机集群飞行试验。

目前，编队模式可以分为结构化编队模式与非结构化编队模式：结构化编队模式依赖实体领航者或虚拟领航者，形成预设的结构化队形，然而，队形的形成与维持依赖领航者对全局信息的掌控，对集群内通信网络的性能提出了较高的要求，并且由于中心式的控制方式，领航者的失效会给集群编队带来严重影响；相对于结构化编队模式，非结构化编队模式采用无中心的控制方式，在编队稳定性与网络可用性上具有较大优势，然而，随着编队规模的增大，非结构编队模式对集群行为的控制能力大大低于结构化编队模式，无法有效统一集群行为。

在开放空域中，受气流、温度、地形等未知因素的影响，无人机集群队形极易遭受破坏。现有基于模型的编队方法受建模能力的影响，仅适用于部分空域，不具有足够的鲁棒性与普适性。

发明内容

针对现有技术中的问题，本发明提供了一种基于强化学习的无人机集群分布式编队方法，其目的在于有效应对开放空域中遭受的气流、未知障碍物等不确定性因素的影响，提升无人机集群编队的稳定性。

为解决上述技术问题，本发明通过以下技术方案予以解决：

一种基于强化学习的无人机集群分布式编队方法，包括以下步骤：

步骤1)：获取编队目标状态函数和环境不确定性因素仿真模型；构建无人机编队仿真模型；

步骤2)：在环境不确定性因素的干扰下，基于步骤1)构建的无人机编队仿真模型，采用 Q学习方法对无人机集群进行训练来更新飞行策略表；

步骤3)：根据步骤1)获取的编队目标状态函数计算编队目标状态完成度的值，并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较，根据比较结果判断是否达到编队目标状态，若达到编队目标状态，则执行步骤4)，否则转至步骤2)；

步骤4)：保存步骤2)更新的飞行策略表。

进一步地，步骤1)中，所述编队目标状态函数为其中Δd_i表示第i架无人机距目标点的距离，MAX表示所有无人机距目标点距离总和的最大值；

所述环境不确定性因素仿真模型为高斯函数；

所述无人机编队仿真模型包括：无人机集群状态空间、无人机集群机动动作空间和无人机集群Q学习参数；

构建无人机编队仿真模型的方法如下：

构建无人机集群状态空间，无人机集群状态空间其中uⁱ表示第i架无人机当前的位置，vⁱ表示第i架无人机当前的速度，表示第i架无人机当前的航向角，即第i个无人机的状态为M(Z^-M)表示当前无人机集群编队完成度的值，值的范围为[0,1]；

将构建的无人机集群状态空间离散化，形成离散的无人机集群状态集合

具体方法为：

选取高斯型隶属度函数对连续的无人机集群状态空间离散化，其中选取的高斯函数为

其中U为无人机集群在连续空间中出现的状态数量，P为映射到离散空间后，无人机集群的状态数量，c_ij,σ_ij分别为隶属度函数的中心及宽度；

利用选取的高斯型隶属度函数，针对无人机集群状态Zi，使用高斯函数f_j(Zⁱ)计算无人机集群状态Zⁱ隶属度的值，选取隶属度的最大值所对应的离散状态，将其表示为

构建无人机集群机动动作空间：将单个无人机作为质点处理，单个无人机在二维空间中以恒定的速度v^a运动，其恒定的速度v^a的范围为形成无人机集群机动动作空间；其中表示无人机可以采取的动作，x表示无人机可以采取的动作总数；

构建无人机集群Q学习参数，具体包括：Q学习加速矩阵、Q学习表、Q学习方法的优势函数和Q学习加速参数，定义分别如下：

Q学习加速矩阵，Q学习加速矩阵其中，(D,v)表示Q学习加速矩阵中“状态-速度”对，i表示无人机编号，c表示当前时刻；

所述飞行策略表为Q学习表，Q学习表为二维矩阵，每一行表示对应的无人机集群状态空间，每一列表示无人机可以采取的机动动作，Q学习表中元素表示在对应的无人机集群状态下，无人机采取对应的机动动作获取的奖励值；

Q学习方法的优势函数A(·)，该优势函数是角度优势函数RA、距离优势函数DA以及速度优势函数VA的加权平均数，A(RA,DA,VA)＝ω₁RA+ω₂DA+ω₃VA，其中，∑ω_i＝1为三个优势函数的权重；

Q学习加速参数为：

其中，γ为折扣因子，为第c时刻第i架无人机执行机动动作后的奖励值，为第c时刻无人机集群的状态，表示第c时刻第i架无人机的Q学习表，表示第c时刻第i架无人机的速度。

进一步地，所述角度优势函数RA、距离优势函数DA以及速度优势函数VA分别如下：

角度优势函数为：其中，π为无人机当前时刻的航向角，π_nei为该无人机邻居当前时刻的航向角；

距离优势函数为：其中，d是无人机与该无人机邻居无人机的距离，e₀、m、n均为常数，w是无人机与该无人机邻居无人机的最大距离；

速度优势函数为：其中，v为无人机当前时刻的速度，v_nei为该无人机邻居当前时刻的速度。

进一步地，步骤2)中训练的具体步骤如下：

步骤2.1)：编队飞行及不确定性因素干扰模拟：无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰其中c为当前时刻；

无人机机动动作选择，无人机集群内各个无人机分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作，并将环境不确定因素模型生成的干扰加入到机动动作上，形成机动动作集合无人机以该速度飞行一个固定的时间间隔；其中c为当前时刻，i为无人机编号，N为无人机集群内无人机的数量；

步骤2.2)：无人机通过飞行自组网共享自身飞行状态，并利用优势函数与编队目标状态函数，获取机动动作奖励值

步骤2.3)：无人机根据步骤2.2)得到的奖励值计算Q学习加速参数，并通过飞行自组网共享Q学习加速参数；

步骤2.4)：无人机利用步骤2.3)得到的Q学习加速参数和邻居无人机共享的Q学习加速参数计算综合Q学习加速参数，并利用计算得到的综合Q学习加速参数更新自身的Q学习加速矩阵和Q学习表。

进一步地，步骤2.1)中，无人机集群内各个无人机基于ε贪婪算法，分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作。

进一步地，所述步骤2.2)获取机动动作奖励值的具体方法为：

步骤2.2.1)：在集群内单个无人机飞行完时间间隔Ti后，第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor，并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角j∈neighbor；

步骤2.2.2)单个无人机使用步骤1)建立的优势函数A(RA,DA,VA)，并结合编队目标状态函数M(·)，计算第i架无人机在c时刻采取步骤2.1)中的机动动作后所得到的奖励值

进一步地，所述步骤2.3)的具体方法为：

步骤2.3.1)：基于步骤1)构建的Q学习加速参数，计算自身在第c时刻的Q学习加速参数：

步骤2.3.2)：无人机集群内单个无人机将自身在第c时刻的Q学习加速参数以及依靠飞行自组网，并基于当前的网络拓扑，传递给自己的邻居无人机，并接收邻居无人机Q 学习加速参数以及

进一步地，所述步骤2.4)包括如下步骤：

步骤2.4.1)：集群内单个无人机利用邻居无人机的Q学习加速参数以及计算综合 Q学习加速参数：

其中c(i,j)表示无人机i对其邻居j的信任度；

步骤2.4.2)：集群内单个无人机利用步骤2.4.1)得到的综合Q学习加速参数，并结合离散的无人机集群状态集合更新自身的Q学习加速矩阵以及Q学习表：

步骤2.4.3)：集群内单个无人机利用步骤2.4.2)更新后的Q学习表及综合Q学习加速参数第二次更新Q学习表，得到第c+1时刻的第i架无人机飞行策略：

其中α为折扣因子。

与现有技术相比，本发明至少具有以下有益效果：本发明针对开放空域面临的气流扰动、未知障碍物阻挡等不确定性因素，利用Q学习方法，为集群提供具有自适应性质的飞行策略参数，保障无人机集群编队的稳定性与鲁棒性。在设定无人机集群状态阶段，通过定义编队目标函数，能够灵活设定编队目标，进一步的，通过定义参数编队目标完成度阈值，能够定量度量编队效果，有效提高了本发明方法对不同编队目标的适应度。本发明中Q学习方法作为一种无监督的学习方式，能够利用“动作-奖励”机制与学习环境进行交互，动态调整行动策略应对环境的影响。通过设计的系统状态与奖励函数，Q学习方法能够为无人机集群提供具有自适应控制能力的编队算法。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，作为本发明的某一优选实施例，一种基于强化学习的无人机集群分布式编队方法，包括以下步骤：

步骤1)：获取外部输入，包括编队目标状态函数和环境不确定性因素仿真模型，其中编队目标状态依赖于编队形式，例如在领航-追随者形式下，编队目标状态的类型包括领航者与追随者间距离、领航者速度与位置、追随者速度与位置、领航者航向角、追随者航向角，Δd_i表示第i架无人机距目标点的距离，MAX表示所有无人机距目标点距离总和的最大值；环境不确定性因素仿真模型为高斯函数；

构建无人机编队仿真模型，具体包括：无人机集群状态空间、无人机集群机动动作空间和无人机集群Q学习参数；

构建无人机编队仿真模型的方法如下：

具体方法为：

①:选取高斯型隶属度函数对连续的无人机集群状态空间离散化，其中选取的高斯函数为其中U为无人机集群在连续空间中出现的状态数量，P为映射到离散空间后，无人机集群的状态数量，c_ij,σ_ij分别为隶属度函数的中心及宽度；

②:利用①中选取的高斯型隶属度函数，针对无人机集群状态Zi，使用高斯函数f_j(Zⁱ)计算无人机集群状态Zⁱ隶属度的值，选取隶属度的最大值所对应的离散状态，将其表示为

构建无人机集群机动动作空间：将单个无人机作为质点处理，即单个无人机在二维空间中以恒定的速度v^a运动，其恒定的速度v^a的范围为形成无人机集群机动动作空间；其中表示无人机可以采取的动作，x表示无人机可以采取的动作总数；

Q学习加速矩阵，Q学习加速矩阵其中，(D,v)表示Q学习加速矩阵中“状态-速度”对，i表示无人机编号，c表示当前时刻；该Q学习加速矩阵用于加速算法收敛，提高无人机编队的形成速率；

飞行策略表为Q学习表，Q学习表为二维矩阵，每一行表示对应的无人机集群状态空间，每一列表示无人机可以采取的机动动作，Q学习表中元素表示在对应的无人机集群状态下，无人机采取对应的机动动作获取的奖励值；

Q学习方法的优势函数A(·)，确定用于无人机集群编队的Q学习方法的优化目标，该优势函数是角度优势函数RA、距离优势函数DA以及速度优势函数VA的加权平均数，其中，

角度优势函数为：其中π为无人机当前时刻的航向角，π_nei为该无人机邻居当前时刻的航向角；

距离优势函数为：其中，d是无人机与自己邻居无人机的距离，e₀、m、n均为常数，w是无人机与自己邻居无人机的最大距离

速度优势函数为：其中v为无人机当前时刻的速度，v_nei为该无人机邻居当前时刻的速度；

Q学习方法的优势函数为A(RA,DA,VA)＝ω₁RA+ω₂DA+ω₃VA，其中∑ω_i＝1为三个优势函数的权重；

Q学习加速参数为：

其中，γ为折扣因子，为第c时刻第i架无人机执行机动动作后的奖励值，为第c 时刻无人机集群的状态，表示第c时刻第i架无人机的Q学习表，表示第c时刻第i架无人机的速度。

步骤2)：在环境不确定性因素的干扰下，基于步骤1)构建的无人机编队仿真模型，采用 Q学习方法对无人机集群进行训练来更新飞行策略表；具体步骤如下：

步骤2.1)：如图2所示，编队飞行及不确定性因素干扰模拟：无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰其中c为当前时刻；

无人机机动动作选择，无人机集群内各个无人机基于ε贪婪算法，分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作，并将环境不确定因素模型生成的干扰加入到机动动作上，形成动作集合无人机以该速度飞行一个固定的时间间隔；其中c为当前时刻，i为无人机编号，N为无人机集群内无人机的数量；

步骤2.2)：无人机通过飞行自组网共享自身飞行状态，并利用优势函数与编队目标状态函数，获取机动动作奖励值具体方法为：

步骤2.2.1)：在集群内单个无人机飞行完时间间隔T_i后，第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor，并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角 j∈neighbor；

步骤2.3)：无人机根据步骤2.2)获取的奖励值计算Q学习加速参数，并通过飞行自组网共享Q学习加速参数；具体方法为：

步骤2.4)：根据步骤2.3)得到的Q学习加速参数和邻居无人机共享的Q学习加速参数计算综合Q学习加速参数，并利用计算得到的综合Q学习加速参数更新自身的Q学习加速矩阵和Q学习表，具体包括如下步骤：

其中c(i,j)表示无人机i对其邻居j的信任度；

步骤2.4.2)：集群内单个无人机利用步骤2.4.1)得到的综合Q学习加速参数，并结合离散的无人机集群状态集合更新自身的Q学习加速矩阵以及Q学习表如下：

其中α为折扣因子。

步骤3)：编队目标状态完成度检验，判断无人机集群是否达到，具体为：根据步骤1)获取的编队目标状态函数计算编队目标状态完成度的值，并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较，根据比较结果判断是否达到编队目标状态，若达到编队目标状态，则执行步骤4)，否则转至步骤2)；

步骤4)：保存步骤2)更新的飞行策略表。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于强化学习的无人机集群分布式编队方法，其特征在于，包括以下步骤：

步骤2)：在环境不确定性因素的干扰下，基于步骤1)构建的无人机编队仿真模型，采用Q学习方法对无人机集群进行训练来更新飞行策略表；

步骤4)：保存步骤2)更新的飞行策略表。

2.根据权利要求1所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，步骤1)中，所述编队目标状态函数为其中Δd_i表示第i架无人机距目标点的距离，MAX表示所有无人机距目标点距离总和的最大值；

所述环境不确定性因素仿真模型为高斯函数；

构建无人机编队仿真模型的方法如下：

具体方法为：

选取高斯型隶属度函数对连续的无人机集群状态空间离散化，其中选取的高斯函数为其中U为无人机集群在连续空间中出现的状态数量，P为映射到离散空间后，无人机集群的状态数量，c_ij,σ_ij分别为隶属度函数的中心及宽度；

所述飞行策略表为Q学习表，Q学习表为二维矩阵，每一行表示对应的无人机集群状态空间，每一列表示无人机可以采取的机动动作；Q学习表中元素表示在对应的无人机集群状态下，无人机采取对应的机动动作获取的奖励值；

Q学习加速参数为：

3.根据权利要求2所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，所述角度优势函数RA、距离优势函数DA以及速度优势函数VA分别如下：

4.根据权利要求2所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，步骤2)中训练的具体步骤如下：

5.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，步骤2.1)中，无人机集群内各个无人机基于ε贪婪算法，分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作。

6.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，所述步骤2.2)获取机动动作奖励值的具体方法为：

步骤2.2.1)：在集群内单个无人机飞行完时间间隔T_i后，第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor，并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角j∈neighbor；

7.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，所述步骤2.3)的具体方法为：

步骤2.3.2)：无人机集群内单个无人机将自身在第c时刻的Q学习加速参数以及依靠飞行自组网，并基于当前的网络拓扑，传递给自己的邻居无人机，并接收邻居无人机Q学习加速参数以及

8.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法，其特征在于，所述步骤2.4)包括如下步骤：

步骤2.4.1)：集群内单个无人机利用邻居无人机的Q学习加速参数以及计算综合Q学习加速参数：

其中c(i,j)表示无人机i对其邻居j的信任度；

其中α为折扣因子。