CN114815882A - 一种基于强化学习的无人飞行器自主编队智能控制方法 - Google Patents

一种基于强化学习的无人飞行器自主编队智能控制方法 Download PDF

Info

Publication number
CN114815882A
CN114815882A CN202210369183.9A CN202210369183A CN114815882A CN 114815882 A CN114815882 A CN 114815882A CN 202210369183 A CN202210369183 A CN 202210369183A CN 114815882 A CN114815882 A CN 114815882A
Authority
CN
China
Prior art keywords
formation
aircraft
network
unmanned aerial
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210369183.9A
Other languages
English (en)
Other versions
CN114815882B (zh
Inventor
张淼
赵红波
李凯
张鹏
吴森堂
康鹏斌
冯卓
王彤
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing Institute of Control and Electronic Technology
Original Assignee
Beihang University
Beijing Institute of Control and Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Beijing Institute of Control and Electronic Technology filed Critical Beihang University
Priority to CN202210369183.9A priority Critical patent/CN114815882B/zh
Publication of CN114815882A publication Critical patent/CN114815882A/zh
Application granted granted Critical
Publication of CN114815882B publication Critical patent/CN114815882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的无人飞行器自主编队智能控制方法,应用于多无人机系统。本发明方法首先构建多无人飞行器系统模型,确定多无人飞行器协同编队的任务目标;然后基于MADDPG框架构建自主编队协同控制器,布置在每个跟随无人飞行器上;自主编队协同控制器包括基于策略梯度的编队行为者网络和编队目标行为者网络,以及基于值的编队评价者网络和编队目标评价者网络;行为者网络允许单个智能体策略网络的优化过程使用邻居节点的观测信息,训练完成之后每个智能体以分散的方式行动,本发明方法可实现多飞行器智能协同编队,共同完成特定的队形保持、冲突协调以及避免碰撞等协同问题,提高采样效率,适用于大规模的多智能体系统。

Description

一种基于强化学习的无人飞行器自主编队智能控制方法
技术领域
本发明属于多飞行器智能编队控制技术领域,具体来说是一种基于强化学习的无人飞行 器自主编队智能控制方法。
背景技术
在真实世界中,存在一些较为复杂的系统,如非常规布局的无人飞行器,其系统的非线 性程度、时变或非时变、比例或积分特性、时间常数、过渡过程时间等先验知识获取难度较 大,而这些先验知识对预选系统数学模型种类和辨识试验设计将起到指导性的作用。如果系 统的结构、组成和运动规律是已知的,适合于通过机理分析进行建模,则系统可以称为“白盒”, 例如常规布局的固定翼飞行器、旋翼无人机等,此类系统可通过大量有效的队形设计方法以 及队形控制方法实现协同编队控制,协同完成任务。如果系统的客观规律不清楚,只能从系 统的试验中测量系统的响应数据,应用辨识方法建立系统的数学模型,则称系统为“黑盒”, 例如包含多个开裂舵面的非常规布局的固定翼飞行器、可变翼型飞行器等。而通过传统的系 统辨识方法得到的数学模型会产生很大的近似残差,无法有效获得精确的数学模型。无人机 集群是执行任务的主要载体,多无人飞行器智能编队控制技术是一个研究热点。
随着人工智能技术的发展与突破,深度强化学习的研究得到了广泛的关注以及应用。强 化学习(Reinforcement Learning,RL)是一个智能体通过其与环境的交互来最大化/最小化其 累积奖励/累积代价函数的过程。这类似于优化长期目标函数的最优控制。强化学习与控制的 关系推动了RL技术在控制领域的广泛应用。多无人飞行器智能编队问题属于多智能体协同 控制问题。现有的解决多智能体协同控制问题的经典RL方法主要可分为两类:基于值的方法 和基于策略的方法。
Q学习方法是最常见和最直接的基于值的方法,用深度神经网络(Deep NeuralNetwork, DNN)拟合价值函数估计器的深度Q学习方法(Deep Q Network,DQN)在RL中得到了广泛的 应用。但是DQN是一个面向离散控制的算法,即网络的输出是所有可能执行的动作的概率, 是离散的动作。然而在实际中,控制问题则是连续的、高维的,比如一个具有升降舵、副翼 和方向舵的无人机,每组舵面的偏转角度输出是连续值,假设范围是-50°~50°,归一化后为 (-1,1)。若把每组舵偏角取值范围离散化,比如精度到0.01,则一个关节有200个取值,那 么3组舵面共有600维度的动作值,学习起来数据量太大,效率较低。
基于策略的方法,比如策略梯度(Policy Gradient,PG)方法是另外一种被广泛应用的强化 学习方法。众所周知,策略梯度方法中的梯度估计值具有高方差的问题。这种情况在多智能 体系统的学习任务中更为严重。行动者-评价者(Actor-Critic,AC)方法是基于价值和基于策略 的强化学习方法的结合,AC方法综合了基于值的在线策略学习的无偏性和稳定性,以及基于 策略梯度的离线策略学习的数据采样效率的优势。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是一种无模型的基于离线策略的AC算法,利用DQN扩展Q学习算 法的思路对确定性策略梯度(Deterministic Policy Gradient,DPG)方法进行改造,其策略模型 和评价者模型都用DNN近似,它结合了DPG和DQN的特点,该算法可用于解决连续动作 空间上的深度强化学习问题。多智能体深度确定性策略梯度(Multi-agent DDPG,MADDPG) 将DDPG扩展到一个多智能体环境中,是一个经过重新设计的AC模型,旨在解决不断变化 的环境与智能体之间的互动问题。
目前多无人飞行器智能编队技术中,非常规布局的无人飞行器应用越来越广泛,由于无 法获取无人机精确的数学大规模,多采用流体仿真获取气动参数,计算消耗量大,不利获取 多无人机协同编队控制策略。而利用强化学习技术多是针对常规布局的无人飞行器的编队。 而随着任务的复杂度,参与执行任务的无人飞行器数量也越多,若采用中心式控制方式,多 智能体状态空间随规模的增大呈现指数爆炸现象。
发明内容
针对非常规布局的无人飞行器的编队控制问题,本发明提出一种基于强化学习的无人飞 行器自主编队智能控制方法,基于MADDPG网络模型实现多无人机编队的自适应动态规划。 本发明方法利用现有的和过去的系统经验数据,让飞行器学习与周围飞行器保持一致或者保 持相应队形的控制调节方法,利用深度神经网络代替精确的数学模型来拟合复杂系统的非线 性特性以及泛化能力,利用强化学习使累积奖励最大化来获取高性能的协同控制策略。
本发明的基于强化学习的无人飞行器自主编队智能控制方法,包括如下步骤:
步骤1,构建多无人飞行器系统模型,确定多无人飞行器协同编队的任务目标;
步骤2,基于强化学习为每个跟随无人飞行器构建自主编队协同控制器;
步骤3,训练自主编队协同控制器,以用于完成多无人飞行器协同编队任务。
所述步骤1中,设多无人飞行器系统包括1个领航者和N个跟随者,在t时刻,领航者的状态向量为x0(t),跟随者i的状态向量为xi(t),i=1,2,…,N,N为正整数;多无人飞行器协 同编队的任务目标表示为:使所有跟随者通过自主训练学习与领航者形成期望队形,设fi为 跟随者i的期望位置信息,对于任意有界的初始状态,若跟随者与领航者的队形保持误差, 满足
Figure BDA0003587236010000021
i=1,2,…,N,则表示多无人飞行器系统实现了期望队形保持。
所述步骤2中,自主编队协同控制器采用MADDPG框架,包括四个深度神经网络:基于策略梯度的编队行为者网络和编队目标行为者网络,基于值的编队评价者网络和编队目标 评价者网络。其中,无人飞行器i来说:编队行为者网络的输入是飞行器i的邻域飞行器的位 置信息,输出动作是飞行器i的速度;编队行动者网络的目标是最小化达到期望编队队形的 累积代价。编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作, 以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置。编队评价者网络的输出是 飞行器i的值函数,用于表示飞行器i及其邻域飞行器的期望编队的误差。编队目标行为者网 络的结构和输入、输出与编队行为者网络相同,定期利用经验池中的数据更新网络参数,为 编队行为者网络提供一个参考目标。编队目标评价者网络的结构和输入、输出与编队评价者 网络相同,定期利用经验池中的数据更新网络参数,为编队目标评价者网络提供一个参考目 标。
自主编队协同控制器中还包括经验池,用于存储所有飞行器的元组数据,元组表示为 (X,A,R,X'),其中X记录所有飞行器当前位置,A记录所有飞行器通过编队行为者网络得到 的速度,R记录所有飞行器执行动作A后从环境中得到的奖励,X′记录所有飞行器通过动作 A与环境交互后转换的下一个位置。
相对于现有技术,本发明的优点和积极效果在于:
(1)对于模型较为复杂的飞行器来说,其精确的数学模型无法获得,通过流体仿真获取 相应的气动参数需要消耗大量的计算成本。本发明方法针对这一难点,设计基于强化学习的 黑盒控制器,展开其中编队队形的控制方法研究。本发明研究了基于MADDPG方法的多飞 行器协同编队控制问题,利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特 性以及泛化能力;利用训练过程中现有的和过去的系统经验数据,让飞行器学习与周围飞行 器保持一致或者保持相应队形的控制调节方法,利用强化学习使累积奖励最大化来获取高性 能的协同控制策略;学习的过程中,对单个飞行器来说,环境的状态转移模型是未知的,通 过不断环境进行交互、不断试错的过程中,强化有利于系统控制的信号,从而改善深度神经 网络的参数,使深度神经网络具有更好的控制特性,因此只需通过多飞行器系统与环境交互 过程中不断地试错来得到最优控制策略,不需要系统精确的运动模型。
(2)本发明方法采用部分中心化训练分散式执行的强化学习框架,相对于现有模型,本 模型是完全分布式的,其中部分中心化是指单个智能体策略网络的优化过程中仅使用能观测 到的邻居节点的信息而不是其他所有智能体的信息,在提高采样效率的同时,不会有过多的 信息输入,从而适用于大规模的多智能体系统,不会存在状态空间随规模的增大而呈现指数 爆炸的现象;分散式执行是指训练完成之后每个智能体以分散的方式行动。本发明方法的强 化学习网络框架在合作和竞争的环境中同样适用。
附图说明
图1是本发明方法所构建的MADDPG框架的自主编队协同控制器示意图;
图2是本发明实施例的一个多无人飞行器通信的有向连通图;
图3是本发明实施例中累积价值曲线示意图;
图4是本发明实施例中即时奖励曲线示意图;
图5是本发明实施例中单回合多智能体训练前后状态对比图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明针对多智能体系统设计了一个MADDPG框架,并将该框架应用于多无人机系统, 实现模型复杂的多飞行器智能协同编队,共同完成特定的队形保持、冲突协调以及避免碰撞 等协同目标。利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化 能力。本发明采用完全分布式去中心化的信息传递协议,每个飞行器只会利用邻域内可观测 到的飞行器的信息作为经验数据进行自身参数的训练,适用于大规模的多智能体系统。
首先,说明本发明实施例的多无人飞行器模型以及协同编队任务目标。
考虑一个由1个领航者和N个跟随者组成的多飞行器系统,领航者飞行器编号为0,表 示为节点v0,跟随者编号i=1,2,…,N,跟随者i表示为节点vi。其中,每个跟随节点的动态模 型如下:
Figure BDA0003587236010000041
其中,
Figure BDA0003587236010000042
表示节点vi在t时刻的状态向量,
Figure BDA0003587236010000043
表示xi(t)的一阶导数,
Figure BDA0003587236010000044
表示 实数域,n表示节点状态向量的维度;
Figure BDA0003587236010000045
为系统矩阵,
Figure BDA0003587236010000046
为输入矩阵。对于所有 的跟随节点,A和B都是未知的。
Figure BDA0003587236010000047
表示节点vi在t时刻的控制输入向量,m表示节 点控制输入向量的维度。x0(t)代表领航者节点在t时刻的状态向量。参考系统,即领航者的 动态模型,表示为:
Figure BDA0003587236010000048
本发明实施例中,节点的状态向量包含飞行器的位置, 节点的控制输入向量包含飞行器的速度。
本发明的目标是使所有无模型的跟随者飞行器基于强化学习模型通过自主训练学习与领 航者形成期望队形,即
Figure BDA0003587236010000049
其中,fi为编队队形参数,其定义如 下:领航节点与跟随节点之间的期望队形关系定义为:
Figure BDA00035872360100000410
fi T表示fi的转置,fi表示节点i的编队队形参数,编队队形参数也即节点的期望位置信息。
对于任意有界的初始状态,跟随者节点与领航者的队形保持误差若满足:
Figure BDA00035872360100000411
则称多无人飞行器系统实现了编队队形保持。
在上述目标下,本发明基于MADDPG框架进行智能编队队形控制器设计。如图1所示, 本发明的MADDPG框架中,为每个飞行器都构建一个自主编队协同控制器,协同控制器中 包含四个深度神经网络,也即,基于策略梯度的编队行为者网络和编队目标行为者网络,基 于值的编队评价者网络和编队目标评价者网络。如图1所示,Actor网络、Critic网络、Actor 目标网络和Critic目标网络分别对应的编队行为者网络、编队评价者网络、编队目标行为者 网络以及编队目标评价者网络。本发明使用MADDPG框架,通过构造目标行为者-评价者网 络带来了更有效、更稳定的学习过程,具体自主编队协同控制器的结构说明如下。
(1)编队行为者网络:无人飞行器节点vi的行为者网络
Figure BDA0003587236010000051
的参数为θAi,该深度神经网 络
Figure BDA0003587236010000052
的输入为环境中得到的节点vi的邻域飞行器的状态,状态包括飞行器的位置信息,输出 为节点vi确定的行为ai(t),即飞行器i的速度,值得注意的是,行为者网络输出的行为是连 续可微的。
(2)编队评价者网络:无人飞行器节点vi的编队评价者网络的作用是估计该节点的值函 数
Figure BDA0003587236010000053
也即该飞行器与邻域内飞行器期望编队的误差;节点vi的编队评价者网 络的输入为节点vi及其邻域内节点vj,
Figure BDA0003587236010000054
的编队行为者网络的输出动作,也即飞行器i及 其邻域内飞行器的速度信息,以及使用该动作与环境交互之后转换得到的状态,也即飞行器 i及其邻域内飞行器当前的位置信息,编队评价者网络的输出是节点vi的值函数。
Figure BDA0003587236010000055
表示无 人飞行器节点vi的邻域内飞行器节点集合,
Figure BDA0003587236010000056
分别表示飞行器i本身以及其邻域内飞 行器的状态和动作。
编队评价者网络的特点是部分中心化的结构,也即其输入仅包含节点vi邻域内所有的策 略而不是所有其它节点的信息,节点vi通过学习邻域内所有节点的策略来优化自身的控制策 略。值函数用于评价编队行为者网络输出的动作能带来的未来累积代价,也即从初始队形到 达期望队形过程中消耗的总的控制代价,以调整编队行为者网络的参数。需要注意的是,每 个节点的编队评价者网络的学习过程是相互独立的,也就是可以对不同的节点设计不同的奖 励函数,使每个节点完成不同的任务,例如,保持一定的队形完成任务或者设计具有竞争关 系的小组完成攻防对抗的任务。
(3)编队目标行为者网络:每个节点的编队目标行为者网络会在一定数量的回合中保持 不变,以等待编队行为者-评价者网络不断的更新以及累积一定的数据,从而为编队行为者- 评价者网络提供一个基线或者参考的目标。当累积足够的数据之后,编队目标行为者网络会 利用经验池中的数据学习一次,以更新该网络的参数。因此目标行为者的更新频率相对编队 行为者网络来说更低,从而为编队行为者网络提供一个参考的目标,因此可以降低编队行为 者网络参数的波动性。编队目标行为者网络与编队行为者网络的结构相同,输入和输出也相 同。
(4)编队目标评价者网络:每个节点的编队目标评价者网络的作用类似于编队目标行为 者网络,会在一定数量的回合中保持不变,以等待编队行为者-评价者网络不断的更新以及累 积一定的数据,从而为编队行为者-评价者网络提供一个基线或者参考的目标。当累积足够的 数据之后,编队目标评价者网络会利用经验池中的数据学习一次,以更新该网络的参数。因 此编队目标评价者的更新频率相对编队评价者网络来说也会更低,从而为编队评价者网络提 供一个参考的目标,因此可以降低编队评价者网络参数的波动性。编队目标评价者网络与编 队评价者网络的结构相同,输入和输出也相同。
(5)数据存储模块:数据池也即经验池,缓存经验数据,保存了所有与节点相关的数据, 包括元组:
Figure BDA00035872360100000617
其中X={x1,x2,...,xN}是所有节点的当前位置信息,A={a1,a2,...,aN}是所有节点在当前状态下通过编队行为者网络得到的速度信息, R={r1,r2,...,rN}是所有节点采取上述行为之后从环境中得到的奖励,X′={x1′,x2′,...,xN′}是所 有飞行器通过行为A与环境交互后转换的下一个位置。通过存储一定容量的数据,编队行为 者网络与编队评价者网络就可以在数据池中随机采样样本进行学习和参数的更新。需要注意 的是,对于每个节点,其通信能力受到如图2所示的图
Figure BDA00035872360100000618
的约束,只能获取邻域节点的数据, 因此本学习框架是完全分布式的方法。图2的示例中,0,1,2,3分别代表4个无人机节点,0 为领航者节点,1,2,3为跟随者节点,节点之间的有向边代表无人机之间的通信状况。本发明 中,自主编队协同控制器布置在每个跟随者节点上,领航者不必须布置。
编队评价者网络的目标是最小化下式所定义的TD(Temperal-Difference)误差:
Figure BDA0003587236010000061
Figure BDA0003587236010000062
表示节点vi的TD误差,
Figure BDA0003587236010000063
是节点vi的编队评价者网络估计的Q值,
Figure BDA00035872360100000619
是节点vi执行动作后的目标Q值,由编队目标评价者网络给出。
Figure BDA0003587236010000064
是目标价值,
Figure BDA0003587236010000065
估计价值。
其中,
Figure BDA0003587236010000066
定义如下:
Figure BDA0003587236010000067
Figure BDA0003587236010000068
是从飞行器i的编队目标评价者网络中估计的下一个状态的价值。
Figure BDA0003587236010000069
是从经验池中采样得到的邻域内节点采取动作
Figure BDA00035872360100000610
之后的状态,
Figure BDA00035872360100000611
是在状态
Figure BDA00035872360100000612
下从编 队目标行为者网络中输出的动作,γ是折扣因子。ri是飞行器i采取动作ai之后从环境中得到 的奖励。本发明中领航者与跟随者飞行器在协同编队控制场景中的奖励函数设计如下:
领航者节点v0的奖励函数r0(t)为:
Figure BDA00035872360100000613
其中ptar是编队的目标位置,是预先设定的领航者期望位置。
跟随者节点vi的奖励函数ri(t)为:
Figure BDA00035872360100000614
其中,
Figure BDA00035872360100000615
zij(t)=aij[(xi(t)-fi)-(xj(t)-fj)];
aij为飞行器vi与邻域节点vj的邻接矩阵参数,如果vi与vj可通信,则aij=1,否则aij=0。
编队行动者网络
Figure BDA00035872360100000616
是一个确定性的策略,它的目标是最大化累积奖励,也即最小化达 到期望编队队形的累积代价,累积奖励J(θAi)定义为:
Figure BDA0003587236010000071
上式的梯度可表示为:
Figure BDA0003587236010000072
其中,θAi表示编队行为者网络
Figure BDA0003587236010000073
的参数,
Figure BDA0003587236010000074
表示节点vi的状态xi输入编队行 为者网络得到行为ai
Figure BDA0003587236010000075
从节点vi的编队评价者网络中得到,相对于连续的动 作ai是可微的。ai表示节点vi的动作。
本发明对MADDPG框架的多飞行器自主编队协同控制器,进行训练的流程如下:
(1)初始化:首先初始化上述四个深度神经网络的超参数,然后随机初始化所有飞行器 节点v1,v2,...,vN的初始位置状态X,其中X在[-1,0]范围内服从均匀分布;
(2)执行每个回合的仿真,仿真步骤如下:
(2.1)编队行为者网络生成动作:对于每个飞行器节点vi,将状态输入到该节点的行为 者网络
Figure BDA0003587236010000076
可得到相应的速度输出:
Figure BDA0003587236010000077
其中Nt表示环境中的噪声;
(2.2)与仿真环境交互:每个飞行器节点通过按照上一步得到的速度进行运动,即采取 A={a1(t),a2(t),...,aN(t)}与环境进行交互,并且观察得到环境反馈给各个节点的奖励ri,以及 转移到的下一个位置状态X′;
(2.3)保存经验数据:将仿真得到的经验数据元组
Figure BDA0003587236010000078
存放到缓存中;
(2.4)更新所有节点的位置状态:令X←X′;
(2.5)学习过程:当经验池中的数据积累到一定数量之后,开始学习更新网络参数,具 体学习步骤如下:
(2.5.1)采样训练样本:从经验池
Figure BDA0003587236010000079
中随机采样批量样本数据(xj,aj,rj,x′j),其中
Figure BDA00035872360100000710
是飞行器节点vi邻域内的所有节点的数据,也包含节点vi的数据;xj是飞行器节点vj的当前 位置,aj是飞行器节点vj在当前状态xj下通过编队行为者网络得到的速度,rj是飞行器节点 vj在采取动作aj后从环境中得到的奖励,x′j是飞行器节点vj在采取动作aj与环境交互后转换 的下一个位置;
(2.5.2)计算代价函数:计算TD误差;
(2.5.3)更新编队评价者参数θCi:编队评价者网络参数的更新目标是使TD误差降为0, 如公式(3)所示;
(2.5.4)更新编队行为者参数θAi:编队行为者网络参数的更新通过编队任务的累积奖励 梯度方程得到;
(2.6)更新目标行为者和目标评价值网络参数:行为者-评价者网络经过一定回合的学习 更新之后,目标网络参数θAi′和θCi′通过下式更新:
Figure BDA0003587236010000081
其中,τi为神经网络参数更新频率;θAi(old)、θAi(new)分别是飞行器i的编队目标行为 者网络的当前参数和更新后参数;θ′Ci(old)、θ′Ci(new)分别是飞行器i的编队目标评价值网络 的当前参数和更新后参数;
(3)循环执行M回合仿真学习:重复步骤(2),直到训练完成M回合仿真;
(4)保存仿真数据,分析编队队形控制仿真结果。
实施例
仿真环境设置:为了进一步研究所本发明方法的有效性,本发明将MADDPG方法应用 基于领航-跟随者模型架构的飞行器协同编队控制问题中。研究对象为如图2中有向连通图
Figure RE-GDA0003716891030000082
所约束下的包含4个智能体的系统,也即N=4。该多飞行器系统的任务是花费最小的累积 代价协同地进行轨迹跟踪以及目标跟踪,在执行任务的同时,跟随飞行器与领航飞行器也需 要保持一个稳定的队形。该多飞行器系统的目标位置设置在ptar=(1.0,1.0)。在此场景下,状 态空间以及动作空间分别定义为所有飞行器的二维位置以及在两个方向上的连续的移动变 量。在深度学习网络中,本发明经过大量的调参,总结出如下参数设置,其中,本发明利用 Adam优化器进行梯度更新,设置学习率α=0.01,设置折扣因子γ=0.9,在MADDPG算法 中,经验池的容量设置为106,每次学习更新随机选取的样本大小为1024个单位的数据。所 有的仿真都是基于Ubuntu18.04下的Python语言,基于Pytorch深度学习库,仿真环境是在 gym的基础上进行设计。
仿真结果分析与讨论:仿真结果如图3~5所示。图3表示所有飞行器的长期累积奖励之 和,从图中可以得出结论,随着训练学习的回合越来越多,经验数据的累积也在增加,系统 达到目标队形以及目标位置所需花费的代价越来越少,也即,在随机初始状态下能更快的形 成期望的队形,然后到达目标位置。在学习50000回合之后,最终为了消除初始误差所需花 费的代价可以稳定在6以内,这符合设定的条件。图4表示在一个回合中,每一个仿真步长 下从环境中得到的奖励,也即当前的队形跟踪误差,本发明观察可得,在学习50000回合之 后,这四个智能体会很快的收敛到一个稳定的队形,在学习30000回合之后,跟踪误差基本 上就可以在1秒内收敛到0,从而验证了本发明方法的有效性。最终的仿真视景如图5所示, 本发明可以观察得到,四个节点从初始的随机状态出发,1s之后跟随者节点与领航者节点基 本上形成了一个稳定的队形,2s,3s按照稳定的期望队形移动,最终在第四秒的时候达到最 终的目标位置。

Claims (6)

1.一种基于强化学习的无人飞行器自主编队智能控制方法,其特征在于,包括:
步骤1,确定多无人飞行器协同编队的任务目标;
设多无人飞行器系统包括1个领航者和N个跟随者,在t时刻,领航者的状态向量为x0(t),跟随者i的状态向量为xi(t),i=1,2,…,N,N为正整数;协同编队的任务目标为:使所有跟随者通过自主训练学习与领航者形成期望队形,设fi为跟随者i的期望位置,对于任意有界的初始状态,若跟随者与领航者的队形保持误差满足
Figure FDA0003587236000000011
则表示多无人飞行器实现了期望队形保持;
步骤2,构建自主编队协同控制器,布置在每个跟随无人飞行器上;
所述自主编队协同控制器采用MADDPG框架,包括四个深度神经网络:基于策略梯度的编队行为者网络和编队目标行为者网络,基于值的编队评价者网络和编队目标评价者网络;
无人飞行器i的编队行为者网络的输入是飞行器i的邻域飞行器的位置信息,输出动作是飞行器i的速度;编队行动者网络的目标是最小化达到期望编队队形的累积代价;
无人飞行器i的编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作,以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置,编队评价者网络的输出是飞行器i的值函数,用于表示飞行器i及其邻域飞行器的期望编队的误差;
无人飞行器i的编队目标行为者网络的结构和输入、输出与编队行为者网络相同,定期利用经验池中的数据更新网络参数,为编队行为者网络提供一个参考目标;
无人飞行器i的编队目标评价者网络的结构和输入、输出与编队评价者网络相同,定期利用经验池中的数据更新网络参数,为编队目标评价者网络提供一个参考目标;
所述自主编队协同控制器中还包括经验池,用于存储所有飞行器的元组数据,元组表示为(X,A,R,X'),其中X记录所有飞行器当前位置,A记录所有飞行器通过编队行为者网络得到的速度,R记录所有飞行器执行动作A后从环境中得到的奖励,X′记录所有飞行器通过动作A与环境交互后转换的下一个位置;
步骤3,训练各无人飞行器的自主编队协同控制器。
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,为多无人飞行器系统建模,其中,将领航者作为参考系统,表示为
Figure FDA0003587236000000012
跟随者i的动态模型表示为:
Figure FDA0003587236000000013
其中,
Figure FDA0003587236000000014
表示xi(t)的一阶导数,A为系统矩阵,B为输入矩阵,跟随者的矩阵A和B都是未知的;ui(t)表示跟随者i在t时刻的控制输入向量。
3.根据权利要求1所述的方法,其特征在于,所述的步骤2中,领航者与跟随者采取动作后从环境中得到的奖励分别如下:
领航者的奖励函数r0(t)为:
Figure FDA0003587236000000015
其中,ptar是编队的目标位置;
跟随者i的奖励函数ri(t)为:
Figure FDA0003587236000000021
其中,
Figure FDA0003587236000000022
zij(t)=aij[(xi(t)-fi)-(xj(t)-fj)];
Figure FDA0003587236000000023
表示无人飞行器i的邻域内无人飞行器集合,aij为跟随者i与邻域内无人飞行器j的邻接矩阵参数,若飞行器i与j可通信,aij取值为1,否则取值为0。
4.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,无人飞行器i的编队评价者网络的目标是最小化TD误差
Figure FDA0003587236000000024
如下:
Figure FDA0003587236000000025
其中,
Figure FDA0003587236000000026
是飞行器i的编队评价者网络输出的Q值,
Figure FDA0003587236000000027
是飞行器i的编队目标评价者网络输出的Q值;
Figure FDA0003587236000000028
分别表示飞行器i以及其邻域内飞行器的位置和动作;
Figure FDA0003587236000000029
根据下式计算:
Figure FDA00035872360000000210
其中,ri是飞行器i采取动作后从环境中得到的奖励,γ是折扣因子,
Figure FDA00035872360000000211
是飞行器i以及其邻域内飞行器在状态
Figure FDA00035872360000000212
下从编队目标行为者网络中输出的动作,
Figure FDA00035872360000000213
是从经验池中采样得到的飞行器i以及其邻域内飞行器采取动作
Figure FDA00035872360000000214
之后的位置,
Figure FDA00035872360000000215
是从飞行器i的编队目标评价者网络输出的Q值。
5.根据权利要求1或3所述的方法,其特征在于,所述的步骤2中,无人飞行器i的编队行动者网络的目标是最小化达到期望编队队形的累积代价,也即最大化累积奖励,累积奖励J(θAi)定义为:
Figure FDA00035872360000000216
上式的梯度表示为:
Figure FDA00035872360000000217
其中,θAi表示飞行器i的编队行为者网络
Figure FDA00035872360000000218
的参数,
Figure FDA00035872360000000219
是飞行器i的编队评价者网络输出的Q值,
Figure FDA00035872360000000220
分别表示飞行器i以及其邻域内飞行器的位置和动作;
Figure FDA00035872360000000221
表示无人机i的邻域内无人飞行器集合;
Figure FDA00035872360000000222
表示飞行器i的状态xi输入编队行为者网络得到动作ai
6.根据权利要求1或3所述的方法,其特征在于,所述的步骤3中,训练自主编队协同控制器的方法包括:
(1)初始化:初始化四个深度神经网络的超参数,随机初始化所有飞行器的初始位置X,其中X在[-1,0]范围内服从均匀分布;
(2)执行每个回合的仿真,仿真步骤如下:
(2.1)编队行为者网络生成动作:对于每个飞行器,输入当前位置xi(t)到编队行为者网络
Figure FDA0003587236000000031
得到相应的速度
Figure FDA0003587236000000032
其中Nt为环境噪声;
(2.2)与仿真环境交互:每个飞行器按照(2.1)得到的速度进行运动,即采取A={a1(t),a2(t),...,aN(t)}与环境进行交互,并且观察得到环境反馈给各飞行器的奖励ri,以及转移到的下一个位置X′;
(2.3)保存经验数据:将仿真得到的经验数据元组
Figure FDA0003587236000000033
存放到缓存中;
(2.4)更新所有飞行器的位置状态:令X←X′;
(2.5)学习过程:当经验池中的数据积累到设定数量之后,开始学习更新网络参数,具体学习步骤如下:
(2.5.1)采样训练样本:对于飞行器i,从经验池中随机采样批量样本数据,批量样本数据包括飞行器i以及飞行器i邻域内的所有飞行器j的数据
Figure FDA0003587236000000034
xj、aj分别是飞行器j的当前位置、通过编队行为者网络得到的速度,rj是飞行器j采取动作aj后从环境中得到的奖励,x′j是飞行器j采取动作aj与环境交互后转换的下一个位置;
(2.5.2)计算代价函数:计算TD误差;
(2.5.3)更新编队评价者参数θCi
(2.5.4)更新编队行为者参数θAi
(2.6)更新编队目标行为者网络和编队目标评价值网络的参数,如下:
Figure FDA0003587236000000035
其中,τi为神经网络参数更新频率;θ′Ai(old)、θ′Ai(new)分别是飞行器i的编队目标行为者网络的当前参数和更新后参数;θ′Ci(old)、θ′Ci(new)分别是飞行器i的编队目标评价值网络的当前参数和更新后参数;
(3)循环执行M回合仿真学习:重复步骤(2)M回合仿真;
(4)保存仿真数据,分析编队队形控制仿真结果。
CN202210369183.9A 2022-04-08 2022-04-08 一种基于强化学习的无人飞行器自主编队智能控制方法 Active CN114815882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210369183.9A CN114815882B (zh) 2022-04-08 2022-04-08 一种基于强化学习的无人飞行器自主编队智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210369183.9A CN114815882B (zh) 2022-04-08 2022-04-08 一种基于强化学习的无人飞行器自主编队智能控制方法

Publications (2)

Publication Number Publication Date
CN114815882A true CN114815882A (zh) 2022-07-29
CN114815882B CN114815882B (zh) 2024-06-18

Family

ID=82533856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210369183.9A Active CN114815882B (zh) 2022-04-08 2022-04-08 一种基于强化学习的无人飞行器自主编队智能控制方法

Country Status (1)

Country Link
CN (1) CN114815882B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665804A (zh) * 2022-11-21 2023-01-31 昆明理工大学 一种协同无人机-智能车群的缓存优化方法
CN115903885A (zh) * 2022-10-26 2023-04-04 中国人民解放军陆军炮兵防空兵学院 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190033893A1 (en) * 2018-01-11 2019-01-31 Beihang University UAV autonomous swarm formation rotation control method based on simulated migratory bird evolutionary snowdrift game
CN111880567A (zh) * 2020-07-31 2020-11-03 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113741518A (zh) * 2021-08-31 2021-12-03 中国人民解放军国防科技大学 基于领航跟随模式的固定翼无人机集群仿射编队控制方法
CN114020013A (zh) * 2021-10-26 2022-02-08 北航(四川)西部国际创新港科技有限公司 一种基于深度强化学习的无人机编队避撞方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190033893A1 (en) * 2018-01-11 2019-01-31 Beihang University UAV autonomous swarm formation rotation control method based on simulated migratory bird evolutionary snowdrift game
CN111880567A (zh) * 2020-07-31 2020-11-03 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112947581A (zh) * 2021-03-25 2021-06-11 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113741518A (zh) * 2021-08-31 2021-12-03 中国人民解放军国防科技大学 基于领航跟随模式的固定翼无人机集群仿射编队控制方法
CN114020013A (zh) * 2021-10-26 2022-02-08 北航(四川)西部国际创新港科技有限公司 一种基于深度强化学习的无人机编队避撞方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢文光;吴康;阎芳;史豪斌;张啸晨;: "一种面向多无人机协同编队控制的改进深度神经网络方法", 西北工业大学学报, no. 02, 15 April 2020 (2020-04-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115903885A (zh) * 2022-10-26 2023-04-04 中国人民解放军陆军炮兵防空兵学院 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN115903885B (zh) * 2022-10-26 2023-09-29 中国人民解放军陆军炮兵防空兵学院 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN115665804A (zh) * 2022-11-21 2023-01-31 昆明理工大学 一种协同无人机-智能车群的缓存优化方法
CN116069023A (zh) * 2022-12-20 2023-05-05 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN116069023B (zh) * 2022-12-20 2024-02-23 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统

Also Published As

Publication number Publication date
CN114815882B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN114815882B (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN112131660B (zh) 一种基于多智能体强化学习的无人机集群协同学习方法
Yan et al. Collision-avoiding flocking with multiple fixed-wing UAVs in obstacle-cluttered environments: a task-specific curriculum-based MADRL approach
Zhou et al. Decentralized optimal large scale multi-player pursuit-evasion strategies: A mean field game approach with reinforcement learning
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Li et al. Leader-follower formation of light-weight UAVs with novel active disturbance rejection control
CN107092987B (zh) 一种中小型无人机自主着舰风速预测方法
CN112947575B (zh) 基于深度强化学习的无人机集群多目标搜索方法及系统
CN105427241A (zh) 一种大视场显示设备的畸变校正方法
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
Zhao et al. Graph-based multi-agent reinforcement learning for large-scale UAVs swarm system control
Yu et al. Adaptively shaping reinforcement learning agents via human reward
Ma et al. Improved DRL-based energy-efficient UAV control for maximum lifecycle
CN116520887A (zh) 一种混杂多无人机集群结构自适应调整方法
Li et al. Finite-time robust formation control of multiple aerial robotic vehicles with uncertainties and time-varying complex perturbations
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Fang et al. The collaborative combat of heterogeneous multi-UAVs based on MARL
CN113050697A (zh) 基于时间Petri网的无人机群一致性协同控制方法
Schimpf et al. Attention-Based Spatial Encoding for Multi Agent Coordination
Cheng et al. High-Sample-Efficient Multiagent Reinforcement Learning for Navigation and Collision Avoidance of UAV Swarms in Multitask Environments
Liu An Optimization Method for Accelerating UAV Trajectory Planning
Stastny Towards Solving the Robofish Leadership Problem with Deep Reinforcement Learning
Xu et al. Recent progress on multiple-unmanned aerial vehicle collision avoidance algorithms
Qiu et al. Cognition-Oriented Multiagent Reinforcement Learning
Feng et al. Multi-UAV Collaborative Reconnaissance Based on Multi Agent Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant