CN110007688A - 一种基于强化学习的无人机集群分布式编队方法 - Google Patents

一种基于强化学习的无人机集群分布式编队方法 Download PDF

Info

Publication number
CN110007688A
CN110007688A CN201910339659.2A CN201910339659A CN110007688A CN 110007688 A CN110007688 A CN 110007688A CN 201910339659 A CN201910339659 A CN 201910339659A CN 110007688 A CN110007688 A CN 110007688A
Authority
CN
China
Prior art keywords
unmanned plane
cluster
state
formation
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910339659.2A
Other languages
English (en)
Other versions
CN110007688B (zh
Inventor
魏大卫
罗林波
马建峰
汪新宇
马承彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910339659.2A priority Critical patent/CN110007688B/zh
Publication of CN110007688A publication Critical patent/CN110007688A/zh
Application granted granted Critical
Publication of CN110007688B publication Critical patent/CN110007688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的无人机集群分布式编队方法,步骤1):获取编队目标状态函数和环境不确定性因素仿真模型;构建无人机编队仿真模型;步骤2):在环境不确定性因素的干扰下,基于步骤1)构建的无人机编队仿真模型,采用Q学习方法对无人机集群进行训练来更新飞行策略表;步骤3):根据获取的编队目标状态函数计算编队目标状态完成度的值,并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较,根据比较结果判断是否达到编队目标状态,若达到编队目标状态,则执行步骤4),否则转至步骤2);步骤4):保存更新的飞行策略表。本发明为集群提供具有自适应性质的飞行策略参数,保障无人机集群编队的稳定性与鲁棒性。

Description

一种基于强化学习的无人机集群分布式编队方法
技术领域
本发明属于无人机自动控制领域,具体涉及一种基于强化学习的无人机集群分布式编队方法,用于不同编队目标下无人机集群的自适应队形控制。
背景技术
随着无人机技术的发展,无人机在军事与民用领域的应用得到了极大的拓展。在军事领域,无人机以其具有的低人员伤亡、全寿命周期成本低、持续作战能力强等优点,被认为能够替代有人机执行“枯燥、恶劣、危险、纵深”等任务;在民用领域,无人机展示出了其在地质勘探、抗震救灾、应急通信以及货运等活动上的优势。然而,由于单个无人机在具有受限的通信距离、计算能力与电池能量,使得无人机个体单独执行任务时存在鲁棒性差、执行效率低等问题。与之相对,无人机集群具有的协同控制、能力互补等特点,极大的提高了任务的执行效率,获得了研究人员的广泛关注。从2014年开始,美国通过国防高级研究局(Defense Advanced Research Projects Agency,DARPA)和海军研究实验室(UnitedStates Naval Research Laborator,NRL)等机构全力探究无人机集群最新技术,应用于军事发展,典型项目包括:小精灵(Gremlins)项目、拒止环境中协同作战项目(CODE)、“山鹑”(Perdix)微型无人机项目、低成本无人机集群技术项目(LOCUST)等。中国电子科技科集团公司(CETC)也曾分别在2016年和2017年完成了67架和119架固定翼无人机集群飞行试验。
目前,编队模式可以分为结构化编队模式与非结构化编队模式:结构化编队模式依赖实体领航者或虚拟领航者,形成预设的结构化队形,然而,队形的形成与维持依赖领航者对全局信息的掌控,对集群内通信网络的性能提出了较高的要求,并且由于中心式的控制方式,领航者的失效会给集群编队带来严重影响;相对于结构化编队模式,非结构化编队模式采用无中心的控制方式,在编队稳定性与网络可用性上具有较大优势,然而,随着编队规模的增大,非结构编队模式对集群行为的控制能力大大低于结构化编队模式,无法有效统一集群行为。
在开放空域中,受气流、温度、地形等未知因素的影响,无人机集群队形极易遭受破坏。现有基于模型的编队方法受建模能力的影响,仅适用于部分空域,不具有足够的鲁棒性与普适性。
发明内容
针对现有技术中的问题,本发明提供了一种基于强化学习的无人机集群分布式编队方法,其目的在于有效应对开放空域中遭受的气流、未知障碍物等不确定性因素的影响,提升无人机集群编队的稳定性。
为解决上述技术问题,本发明通过以下技术方案予以解决:
一种基于强化学习的无人机集群分布式编队方法,包括以下步骤:
步骤1):获取编队目标状态函数和环境不确定性因素仿真模型;构建无人机编队仿真模型;
步骤2):在环境不确定性因素的干扰下,基于步骤1)构建的无人机编队仿真模型,采用 Q学习方法对无人机集群进行训练来更新飞行策略表;
步骤3):根据步骤1)获取的编队目标状态函数计算编队目标状态完成度的值,并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较,根据比较结果判断是否达到编队目标状态,若达到编队目标状态,则执行步骤4),否则转至步骤2);
步骤4):保存步骤2)更新的飞行策略表。
进一步地,步骤1)中,所述编队目标状态函数为其中Δdi表示第i架无人机距目标点的距离,MAX表示所有无人机距目标点距离总和的最大值;
所述环境不确定性因素仿真模型为高斯函数;
所述无人机编队仿真模型包括:无人机集群状态空间、无人机集群机动动作空间和无人机集群Q学习参数;
构建无人机编队仿真模型的方法如下:
构建无人机集群状态空间,无人机集群状态空间其中ui表示第i架无人机当前的位置,vi表示第i架无人机当前的速度,表示第i架无人机当前的航向角,即第i个无人机的状态为M(Z-M)表示当前无人机集群编队完成度的值,值的范围为[0,1];
将构建的无人机集群状态空间离散化,形成离散的无人机集群状态集合
具体方法为:
选取高斯型隶属度函数对连续的无人机集群状态空间离散化,其中选取的高斯函数为
其中U为无人机集群在连续空间中出现的状态数量,P为映射到离散空间后,无人机集群的状态数量,cijij分别为隶属度函数的中心及宽度;
利用选取的高斯型隶属度函数,针对无人机集群状态Zi,使用高斯函数fj(Zi)计算无人机集群状态Zi隶属度的值,选取隶属度的最大值所对应的离散状态,将其表示为
构建无人机集群机动动作空间:将单个无人机作为质点处理,单个无人机在二维空间中以恒定的速度va运动,其恒定的速度va的范围为形成无人机集群机动动作空间;其中表示无人机可以采取的动作,x表示无人机可以采取的动作总数;
构建无人机集群Q学习参数,具体包括:Q学习加速矩阵、Q学习表、Q学习方法的优势函数和Q学习加速参数,定义分别如下:
Q学习加速矩阵,Q学习加速矩阵其中,(D,v)表示Q学习加速矩阵中“状态-速度”对,i表示无人机编号,c表示当前时刻;
所述飞行策略表为Q学习表,Q学习表为二维矩阵,每一行表示对应的无人机集群状态空间,每一列表示无人机可以采取的机动动作,Q学习表中元素表示在对应的无人机集群状态下,无人机采取对应的机动动作获取的奖励值;
Q学习方法的优势函数A(·),该优势函数是角度优势函数RA、距离优势函数DA以及速度优势函数VA的加权平均数,A(RA,DA,VA)=ω1RA+ω2DA+ω3VA,其中,∑ωi=1为三个优势函数的权重;
Q学习加速参数为:
其中,γ为折扣因子,为第c时刻第i架无人机执行机动动作后的奖励值,为第c时刻无人机集群的状态,表示第c时刻第i架无人机的Q学习表,表示第c时刻第i架无人机的速度。
进一步地,所述角度优势函数RA、距离优势函数DA以及速度优势函数VA分别如下:
角度优势函数为:其中,π为无人机当前时刻的航向角,πnei为该无人机邻居当前时刻的航向角;
距离优势函数为:其中,d是无人机与该无人机邻居无人机的距离,e0、m、n均为常数,w是无人机与该无人机邻居无人机的最大距离;
速度优势函数为:其中,v为无人机当前时刻的速度,vnei为该无人机邻居当前时刻的速度。
进一步地,步骤2)中训练的具体步骤如下:
步骤2.1):编队飞行及不确定性因素干扰模拟:无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰其中c为当前时刻;
无人机机动动作选择,无人机集群内各个无人机分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作,并将环境不确定因素模型生成的干扰加入到机动动作上,形成机动动作集合无人机以该速度飞行一个固定的时间间隔;其中c为当前时刻,i为无人机编号,N为无人机集群内无人机的数量;
步骤2.2):无人机通过飞行自组网共享自身飞行状态,并利用优势函数与编队目标状态函数,获取机动动作奖励值
步骤2.3):无人机根据步骤2.2)得到的奖励值计算Q学习加速参数,并通过飞行自组网共享Q学习加速参数;
步骤2.4):无人机利用步骤2.3)得到的Q学习加速参数和邻居无人机共享的Q学习加速参数计算综合Q学习加速参数,并利用计算得到的综合Q学习加速参数更新自身的Q学习加速矩阵和Q学习表。
进一步地,步骤2.1)中,无人机集群内各个无人机基于ε贪婪算法,分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作。
进一步地,所述步骤2.2)获取机动动作奖励值的具体方法为:
步骤2.2.1):在集群内单个无人机飞行完时间间隔Ti后,第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor,并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角j∈neighbor;
步骤2.2.2)单个无人机使用步骤1)建立的优势函数A(RA,DA,VA),并结合编队目标状态函数M(·),计算第i架无人机在c时刻采取步骤2.1)中的机动动作后所得到的奖励值
进一步地,所述步骤2.3)的具体方法为:
步骤2.3.1):基于步骤1)构建的Q学习加速参数,计算自身在第c时刻的Q学习加速参数:
步骤2.3.2):无人机集群内单个无人机将自身在第c时刻的Q学习加速参数以及依靠飞行自组网,并基于当前的网络拓扑,传递给自己的邻居无人机,并接收邻居无人机Q 学习加速参数以及
进一步地,所述步骤2.4)包括如下步骤:
步骤2.4.1):集群内单个无人机利用邻居无人机的Q学习加速参数以及计算综合 Q学习加速参数:
其中c(i,j)表示无人机i对其邻居j的信任度;
步骤2.4.2):集群内单个无人机利用步骤2.4.1)得到的综合Q学习加速参数,并结合离散的无人机集群状态集合更新自身的Q学习加速矩阵以及Q学习表:
步骤2.4.3):集群内单个无人机利用步骤2.4.2)更新后的Q学习表及综合Q学习加速参数第二次更新Q学习表,得到第c+1时刻的第i架无人机飞行策略:
其中α为折扣因子。
与现有技术相比,本发明至少具有以下有益效果:本发明针对开放空域面临的气流扰动、未知障碍物阻挡等不确定性因素,利用Q学习方法,为集群提供具有自适应性质的飞行策略参数,保障无人机集群编队的稳定性与鲁棒性。在设定无人机集群状态阶段,通过定义编队目标函数,能够灵活设定编队目标,进一步的,通过定义参数编队目标完成度阈值,能够定量度量编队效果,有效提高了本发明方法对不同编队目标的适应度。本发明中Q学习方法作为一种无监督的学习方式,能够利用“动作-奖励”机制与学习环境进行交互,动态调整行动策略应对环境的影响。通过设计的系统状态与奖励函数,Q学习方法能够为无人机集群提供具有自适应控制能力的编队算法。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式中的技术方案,下面将对具体实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2为本发明的原理图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,作为本发明的某一优选实施例,一种基于强化学习的无人机集群分布式编队方法,包括以下步骤:
步骤1):获取外部输入,包括编队目标状态函数和环境不确定性因素仿真模型,其中编队目标状态依赖于编队形式,例如在领航-追随者形式下,编队目标状态的类型包括领航者与追随者间距离、领航者速度与位置、追随者速度与位置、领航者航向角、追随者航向角,Δdi表示第i架无人机距目标点的距离,MAX表示所有无人机距目标点距离总和的最大值;环境不确定性因素仿真模型为高斯函数;
构建无人机编队仿真模型,具体包括:无人机集群状态空间、无人机集群机动动作空间和无人机集群Q学习参数;
构建无人机编队仿真模型的方法如下:
构建无人机集群状态空间,无人机集群状态空间其中ui表示第i架无人机当前的位置,vi表示第i架无人机当前的速度,表示第i架无人机当前的航向角,即第i个无人机的状态为M(Z-M)表示当前无人机集群编队完成度的值,值的范围为[0,1];
将构建的无人机集群状态空间离散化,形成离散的无人机集群状态集合
具体方法为:
①:选取高斯型隶属度函数对连续的无人机集群状态空间离散化,其中选取的高斯函数为其中U为无人机集群在连续空间中出现的状态数量,P为映射到离散空间后,无人机集群的状态数量,cijij分别为隶属度函数的中心及宽度;
②:利用①中选取的高斯型隶属度函数,针对无人机集群状态Zi,使用高斯函数fj(Zi)计算无人机集群状态Zi隶属度的值,选取隶属度的最大值所对应的离散状态,将其表示为
构建无人机集群机动动作空间:将单个无人机作为质点处理,即单个无人机在二维空间中以恒定的速度va运动,其恒定的速度va的范围为形成无人机集群机动动作空间;其中表示无人机可以采取的动作,x表示无人机可以采取的动作总数;
构建无人机集群Q学习参数,具体包括:Q学习加速矩阵、Q学习表、Q学习方法的优势函数和Q学习加速参数,定义分别如下:
Q学习加速矩阵,Q学习加速矩阵其中,(D,v)表示Q学习加速矩阵中“状态-速度”对,i表示无人机编号,c表示当前时刻;该Q学习加速矩阵用于加速算法收敛,提高无人机编队的形成速率;
飞行策略表为Q学习表,Q学习表为二维矩阵,每一行表示对应的无人机集群状态空间,每一列表示无人机可以采取的机动动作,Q学习表中元素表示在对应的无人机集群状态下,无人机采取对应的机动动作获取的奖励值;
Q学习方法的优势函数A(·),确定用于无人机集群编队的Q学习方法的优化目标,该优势函数是角度优势函数RA、距离优势函数DA以及速度优势函数VA的加权平均数,其中,
角度优势函数为:其中π为无人机当前时刻的航向角,πnei为该无人机邻居当前时刻的航向角;
距离优势函数为:其中,d是无人机与自己邻居无人机的距离,e0、m、n均为常数,w是无人机与自己邻居无人机的最大距离
速度优势函数为:其中v为无人机当前时刻的速度,vnei为该无人机邻居当前时刻的速度;
Q学习方法的优势函数为A(RA,DA,VA)=ω1RA+ω2DA+ω3VA,其中∑ωi=1为三个优势函数的权重;
Q学习加速参数为:
其中,γ为折扣因子,为第c时刻第i架无人机执行机动动作后的奖励值,为第c 时刻无人机集群的状态,表示第c时刻第i架无人机的Q学习表,表示第c时刻第i架无人机的速度。
步骤2):在环境不确定性因素的干扰下,基于步骤1)构建的无人机编队仿真模型,采用 Q学习方法对无人机集群进行训练来更新飞行策略表;具体步骤如下:
步骤2.1):如图2所示,编队飞行及不确定性因素干扰模拟:无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰其中c为当前时刻;
无人机机动动作选择,无人机集群内各个无人机基于ε贪婪算法,分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作,并将环境不确定因素模型生成的干扰加入到机动动作上,形成动作集合无人机以该速度飞行一个固定的时间间隔;其中c为当前时刻,i为无人机编号,N为无人机集群内无人机的数量;
步骤2.2):无人机通过飞行自组网共享自身飞行状态,并利用优势函数与编队目标状态函数,获取机动动作奖励值具体方法为:
步骤2.2.1):在集群内单个无人机飞行完时间间隔Ti后,第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor,并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角 j∈neighbor;
步骤2.2.2)单个无人机使用步骤1)建立的优势函数A(RA,DA,VA),并结合编队目标状态函数M(·),计算第i架无人机在c时刻采取步骤2.1)中的机动动作后所得到的奖励值
步骤2.3):无人机根据步骤2.2)获取的奖励值计算Q学习加速参数,并通过飞行自组网共享Q学习加速参数;具体方法为:
步骤2.3.1):基于步骤1)构建的Q学习加速参数,计算自身在第c时刻的Q学习加速参数:
步骤2.3.2):无人机集群内单个无人机将自身在第c时刻的Q学习加速参数以及依靠飞行自组网,并基于当前的网络拓扑,传递给自己的邻居无人机,并接收邻居无人机Q 学习加速参数以及
步骤2.4):根据步骤2.3)得到的Q学习加速参数和邻居无人机共享的Q学习加速参数计算综合Q学习加速参数,并利用计算得到的综合Q学习加速参数更新自身的Q学习加速矩阵和Q学习表,具体包括如下步骤:
步骤2.4.1):集群内单个无人机利用邻居无人机的Q学习加速参数以及计算综合 Q学习加速参数:
其中c(i,j)表示无人机i对其邻居j的信任度;
步骤2.4.2):集群内单个无人机利用步骤2.4.1)得到的综合Q学习加速参数,并结合离散的无人机集群状态集合更新自身的Q学习加速矩阵以及Q学习表如下:
步骤2.4.3):集群内单个无人机利用步骤2.4.2)更新后的Q学习表及综合Q学习加速参数第二次更新Q学习表,得到第c+1时刻的第i架无人机飞行策略:
其中α为折扣因子。
步骤3):编队目标状态完成度检验,判断无人机集群是否达到,具体为:根据步骤1)获取的编队目标状态函数计算编队目标状态完成度的值,并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较,根据比较结果判断是否达到编队目标状态,若达到编队目标状态,则执行步骤4),否则转至步骤2);
步骤4):保存步骤2)更新的飞行策略表。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于强化学习的无人机集群分布式编队方法,其特征在于,包括以下步骤:
步骤1):获取编队目标状态函数和环境不确定性因素仿真模型;构建无人机编队仿真模型;
步骤2):在环境不确定性因素的干扰下,基于步骤1)构建的无人机编队仿真模型,采用Q学习方法对无人机集群进行训练来更新飞行策略表;
步骤3):根据步骤1)获取的编队目标状态函数计算编队目标状态完成度的值,并将所得编队目标状态完成度的值与预设的编队目标状态的值进行比较,根据比较结果判断是否达到编队目标状态,若达到编队目标状态,则执行步骤4),否则转至步骤2);
步骤4):保存步骤2)更新的飞行策略表。
2.根据权利要求1所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,步骤1)中,所述编队目标状态函数为其中Δdi表示第i架无人机距目标点的距离,MAX表示所有无人机距目标点距离总和的最大值;
所述环境不确定性因素仿真模型为高斯函数;
所述无人机编队仿真模型包括:无人机集群状态空间、无人机集群机动动作空间和无人机集群Q学习参数;
构建无人机编队仿真模型的方法如下:
构建无人机集群状态空间,无人机集群状态空间其中ui表示第i架无人机当前的位置,vi表示第i架无人机当前的速度,表示第i架无人机当前的航向角,即第i个无人机的状态为M(Z-M)表示当前无人机集群编队完成度的值,值的范围为[0,1];
将构建的无人机集群状态空间离散化,形成离散的无人机集群状态集合
具体方法为:
选取高斯型隶属度函数对连续的无人机集群状态空间离散化,其中选取的高斯函数为其中U为无人机集群在连续空间中出现的状态数量,P为映射到离散空间后,无人机集群的状态数量,cijij分别为隶属度函数的中心及宽度;
利用选取的高斯型隶属度函数,针对无人机集群状态Zi,使用高斯函数fj(Zi)计算无人机集群状态Zi隶属度的值,选取隶属度的最大值所对应的离散状态,将其表示为
构建无人机集群机动动作空间:将单个无人机作为质点处理,单个无人机在二维空间中以恒定的速度va运动,其恒定的速度va的范围为形成无人机集群机动动作空间;其中表示无人机可以采取的动作,x表示无人机可以采取的动作总数;
构建无人机集群Q学习参数,具体包括:Q学习加速矩阵、Q学习表、Q学习方法的优势函数和Q学习加速参数,定义分别如下:
Q学习加速矩阵,Q学习加速矩阵其中,(D,v)表示Q学习加速矩阵中“状态-速度”对,i表示无人机编号,c表示当前时刻;
所述飞行策略表为Q学习表,Q学习表为二维矩阵,每一行表示对应的无人机集群状态空间,每一列表示无人机可以采取的机动动作;Q学习表中元素表示在对应的无人机集群状态下,无人机采取对应的机动动作获取的奖励值;
Q学习方法的优势函数A(·),该优势函数是角度优势函数RA、距离优势函数DA以及速度优势函数VA的加权平均数,A(RA,DA,VA)=ω1RA+ω2DA+ω3VA,其中,∑ωi=1为三个优势函数的权重;
Q学习加速参数为:
其中,γ为折扣因子,为第c时刻第i架无人机执行机动动作后的奖励值,为第c时刻无人机集群的状态,表示第c时刻第i架无人机的Q学习表,表示第c时刻第i架无人机的速度。
3.根据权利要求2所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,所述角度优势函数RA、距离优势函数DA以及速度优势函数VA分别如下:
角度优势函数为:其中,π为无人机当前时刻的航向角,πnei为该无人机邻居当前时刻的航向角;
距离优势函数为:其中,d是无人机与该无人机邻居无人机的距离,e0、m、n均为常数,w是无人机与该无人机邻居无人机的最大距离;
速度优势函数为:其中,v为无人机当前时刻的速度,vnei为该无人机邻居当前时刻的速度。
4.根据权利要求2所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,步骤2)中训练的具体步骤如下:
步骤2.1):编队飞行及不确定性因素干扰模拟:无人机集群在飞行过程中遭遇环境不确定因素模型生成干扰其中c为当前时刻;
无人机机动动作选择,无人机集群内各个无人机分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作,并将环境不确定因素模型生成的干扰加入到机动动作上,形成机动动作集合无人机以该速度飞行一个固定的时间间隔;其中c为当前时刻,i为无人机编号,N为无人机集群内无人机的数量;
步骤2.2):无人机通过飞行自组网共享自身飞行状态,并利用优势函数与编队目标状态函数,获取机动动作奖励值
步骤2.3):无人机根据步骤2.2)得到的奖励值计算Q学习加速参数,并通过飞行自组网共享Q学习加速参数;
步骤2.4):无人机利用步骤2.3)得到的Q学习加速参数和邻居无人机共享的Q学习加速参数计算综合Q学习加速参数,并利用计算得到的综合Q学习加速参数更新自身的Q学习加速矩阵和Q学习表。
5.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,步骤2.1)中,无人机集群内各个无人机基于ε贪婪算法,分别从步骤1)构建的无人机集群机动动作空间中选取对应的机动动作。
6.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,所述步骤2.2)获取机动动作奖励值的具体方法为:
步骤2.2.1):在集群内单个无人机飞行完时间间隔Ti后,第i架无人机获取自身的飞行状态所述自身的状态包括位置速度以及航向角其中并将自身飞行状态传递给自己的邻居无人机集合neighbor,并接收邻居无人机的状态所述邻居无人机的状态包括位置速度以及航向角j∈neighbor;
步骤2.2.2)单个无人机使用步骤1)建立的优势函数A(RA,DA,VA),并结合编队目标状态函数M(·),计算第i架无人机在c时刻采取步骤2.1)中的机动动作后所得到的奖励值
7.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,所述步骤2.3)的具体方法为:
步骤2.3.1):基于步骤1)构建的Q学习加速参数,计算自身在第c时刻的Q学习加速参数:
步骤2.3.2):无人机集群内单个无人机将自身在第c时刻的Q学习加速参数以及依靠飞行自组网,并基于当前的网络拓扑,传递给自己的邻居无人机,并接收邻居无人机Q学习加速参数以及
8.根据权利要求4所述的一种基于强化学习的无人机集群分布式编队方法,其特征在于,所述步骤2.4)包括如下步骤:
步骤2.4.1):集群内单个无人机利用邻居无人机的Q学习加速参数以及计算综合Q学习加速参数:
其中c(i,j)表示无人机i对其邻居j的信任度;
步骤2.4.2):集群内单个无人机利用步骤2.4.1)得到的综合Q学习加速参数,并结合离散的无人机集群状态集合更新自身的Q学习加速矩阵以及Q学习表:
步骤2.4.3):集群内单个无人机利用步骤2.4.2)更新后的Q学习表及综合Q学习加速参数第二次更新Q学习表,得到第c+1时刻的第i架无人机飞行策略:
其中α为折扣因子。
CN201910339659.2A 2019-04-25 2019-04-25 一种基于强化学习的无人机集群分布式编队方法 Active CN110007688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339659.2A CN110007688B (zh) 2019-04-25 2019-04-25 一种基于强化学习的无人机集群分布式编队方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339659.2A CN110007688B (zh) 2019-04-25 2019-04-25 一种基于强化学习的无人机集群分布式编队方法

Publications (2)

Publication Number Publication Date
CN110007688A true CN110007688A (zh) 2019-07-12
CN110007688B CN110007688B (zh) 2021-06-01

Family

ID=67174353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339659.2A Active CN110007688B (zh) 2019-04-25 2019-04-25 一种基于强化学习的无人机集群分布式编队方法

Country Status (1)

Country Link
CN (1) CN110007688B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN110803302A (zh) * 2019-10-15 2020-02-18 西北工业大学 一种航天器集群拓扑连通性的快速预报方法
CN110865655A (zh) * 2019-12-12 2020-03-06 电子科技大学 无人机系统中无人机的编队和避障控制方法
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111554128A (zh) * 2020-04-27 2020-08-18 深圳市高巨创新科技开发有限公司 集群无人机的编号方法及终端
CN111857184A (zh) * 2020-07-31 2020-10-30 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群集控制避碰方法及装置
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112817327A (zh) * 2020-12-30 2021-05-18 北京航空航天大学 一种通信约束下的多无人机协同搜索方法
CN112947554A (zh) * 2021-02-03 2021-06-11 南京航空航天大学 基于强化学习的多设备自适应监测方法
CN112965525A (zh) * 2021-02-10 2021-06-15 成都两江前沿科技有限公司 约束条件下的大规模固定翼无人机集群编队方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113239508A (zh) * 2021-03-03 2021-08-10 北京航空航天大学 一种面向破坏恢复的无人装备集群全局弹性均衡度量与评价方法
CN113485323A (zh) * 2021-06-11 2021-10-08 同济大学 一种级联多移动机器人灵活编队方法
CN113495574A (zh) * 2021-08-18 2021-10-12 北京邮电大学 一种无人机群飞行的控制方法、装置
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113848984A (zh) * 2021-10-29 2021-12-28 哈尔滨工业大学 一种无人机集群控制方法及系统
CN113885576A (zh) * 2021-10-29 2022-01-04 南京航空航天大学 基于深度强化学习的无人机编队环境建立与控制方法
CN115328203A (zh) * 2022-08-31 2022-11-11 哈尔滨工业大学 一种基于数据驱动的大规模无人机集群编队仿真加速方法及系统
CN117192982A (zh) * 2023-08-28 2023-12-08 四川大学 基于控制参数化的近距空战机动决策优化方法
CN117192982B (zh) * 2023-08-28 2024-05-14 四川大学 基于控制参数化的近距空战机动决策优化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN105844068A (zh) * 2016-06-16 2016-08-10 中国人民解放军国防科学技术大学 一种面向仿真的q学习攻击目标分配方法
CN106873621A (zh) * 2017-02-26 2017-06-20 南京航空航天大学 一种基于拉格朗日方程的无人机编队队形控制算法
US20180005083A1 (en) * 2015-09-16 2018-01-04 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108919640A (zh) * 2018-04-20 2018-11-30 西北工业大学 无人机自适应多目标跟踪的实现方法
CN109116868A (zh) * 2018-10-31 2019-01-01 中国人民解放军32181部队 分布式无人机编队协同控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
US20180005083A1 (en) * 2015-09-16 2018-01-04 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
CN105844068A (zh) * 2016-06-16 2016-08-10 中国人民解放军国防科学技术大学 一种面向仿真的q学习攻击目标分配方法
CN106873621A (zh) * 2017-02-26 2017-06-20 南京航空航天大学 一种基于拉格朗日方程的无人机编队队形控制算法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108919640A (zh) * 2018-04-20 2018-11-30 西北工业大学 无人机自适应多目标跟踪的实现方法
CN109116868A (zh) * 2018-10-31 2019-01-01 中国人民解放军32181部队 分布式无人机编队协同控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MIN FANG 等: "Collaborative multi-agent reinforcement learning based on experience propagation", 《IEEE》 *
丁林静 等: "基于强化学习的无人机空战机动决策", 《航空电子技术》 *
李学思: "复杂环境下的多目标动态协同对抗辅助决策方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110502034B (zh) * 2019-09-04 2022-08-09 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法
CN110803302A (zh) * 2019-10-15 2020-02-18 西北工业大学 一种航天器集群拓扑连通性的快速预报方法
CN110803302B (zh) * 2019-10-15 2021-05-18 西北工业大学 一种航天器集群拓扑连通性的快速预报方法
CN110554707A (zh) * 2019-10-17 2019-12-10 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN110865655A (zh) * 2019-12-12 2020-03-06 电子科技大学 无人机系统中无人机的编队和避障控制方法
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111240356B (zh) * 2020-01-14 2022-09-02 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN111554128B (zh) * 2020-04-27 2021-05-04 深圳市高巨创新科技开发有限公司 集群无人机的编号方法及终端
CN111554128A (zh) * 2020-04-27 2020-08-18 深圳市高巨创新科技开发有限公司 集群无人机的编号方法及终端
CN111857184A (zh) * 2020-07-31 2020-10-30 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群集控制避碰方法及装置
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112817327B (zh) * 2020-12-30 2022-07-08 北京航空航天大学 一种通信约束下的多无人机协同搜索方法
CN112817327A (zh) * 2020-12-30 2021-05-18 北京航空航天大学 一种通信约束下的多无人机协同搜索方法
CN112947554A (zh) * 2021-02-03 2021-06-11 南京航空航天大学 基于强化学习的多设备自适应监测方法
CN112965525A (zh) * 2021-02-10 2021-06-15 成都两江前沿科技有限公司 约束条件下的大规模固定翼无人机集群编队方法
CN113239508A (zh) * 2021-03-03 2021-08-10 北京航空航天大学 一种面向破坏恢复的无人装备集群全局弹性均衡度量与评价方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113485323A (zh) * 2021-06-11 2021-10-08 同济大学 一种级联多移动机器人灵活编队方法
CN113485323B (zh) * 2021-06-11 2024-04-12 同济大学 一种级联多移动机器人灵活编队方法
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113589842B (zh) * 2021-07-26 2024-04-19 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN113495574B (zh) * 2021-08-18 2023-05-23 北京邮电大学 一种无人机群飞行的控制方法、装置
CN113495574A (zh) * 2021-08-18 2021-10-12 北京邮电大学 一种无人机群飞行的控制方法、装置
CN113885576A (zh) * 2021-10-29 2022-01-04 南京航空航天大学 基于深度强化学习的无人机编队环境建立与控制方法
CN113848984A (zh) * 2021-10-29 2021-12-28 哈尔滨工业大学 一种无人机集群控制方法及系统
CN115328203A (zh) * 2022-08-31 2022-11-11 哈尔滨工业大学 一种基于数据驱动的大规模无人机集群编队仿真加速方法及系统
CN115328203B (zh) * 2022-08-31 2023-03-14 哈尔滨工业大学 一种基于数据驱动的大规模无人机集群编队仿真加速方法及系统
CN117192982A (zh) * 2023-08-28 2023-12-08 四川大学 基于控制参数化的近距空战机动决策优化方法
CN117192982B (zh) * 2023-08-28 2024-05-14 四川大学 基于控制参数化的近距空战机动决策优化方法

Also Published As

Publication number Publication date
CN110007688B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110007688A (zh) 一种基于强化学习的无人机集群分布式编队方法
Wu et al. Distributed trajectory optimization for multiple solar-powered UAVs target tracking in urban environment by Adaptive Grasshopper Optimization Algorithm
CN110196605B (zh) 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
Tang et al. Swarm intelligence algorithms for multiple unmanned aerial vehicles collaboration: A comprehensive review
CN110929394B (zh) 基于超网络理论的联合作战体系建模方法以及存储介质
Duan et al. New progresses in swarm intelligence–based computation
CN106705970A (zh) 一种基于蚁群算法的多无人机协同路径规划方法
CN109144102A (zh) 一种基于改进蝙蝠算法的无人机航路规划方法
CN110069075B (zh) 一种仿鸽群应急避障机制的集群超机动避障方法
Duan et al. Advancements in pigeon-inspired optimization and its variants
Hu et al. SaCHBA_PDN: Modified honey badger algorithm with multi-strategy for UAV path planning
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
Xie et al. Application of improved Cuckoo search algorithm to path planning unmanned aerial vehicle
Liang et al. Bio-inspired self-organized cooperative control consensus for crowded UUV swarm based on adaptive dynamic interaction topology
Qingwen et al. Cooperative jamming resource allocation of UAV swarm based on multi-objective DPSO
Zhou et al. A chaotic parallel artificial fish swarm algorithm for water quality monitoring sensor networks 3D coverage optimization
Su et al. An improved adaptive differential evolution algorithm for single unmanned aerial vehicle multitasking
Li et al. Multi-mechanism swarm optimization for multi-UAV task assignment and path planning in transmission line inspection under multi-wind field
Abidin et al. An introduction to swarming robotics: application development trends
Zhan et al. Flocking of discrete-time multi-agent systems with predictive mechanisms
CN109375642A (zh) 一种无人机节能控制方法
Chen et al. Cooperative threat assessment of multi-aircrafts based on synthetic fuzzy cognitive map
Price et al. GA directed self-organized search and attack UAV swarms
Zhang et al. An improved particle swarm optimization based on age factor for multi-AUV cooperative planning
Cui et al. UAV path planning method for data collection of fixed-point equipment in complex forest environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant