CN115576353A - 一种基于深度强化学习的飞行器编队控制方法 - Google Patents

一种基于深度强化学习的飞行器编队控制方法 Download PDF

Info

Publication number
CN115576353A
CN115576353A CN202211288418.8A CN202211288418A CN115576353A CN 115576353 A CN115576353 A CN 115576353A CN 202211288418 A CN202211288418 A CN 202211288418A CN 115576353 A CN115576353 A CN 115576353A
Authority
CN
China
Prior art keywords
follower
formation
training
coordinate system
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211288418.8A
Other languages
English (en)
Inventor
王晓芳
尹依伊
林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211288418.8A priority Critical patent/CN115576353A/zh
Publication of CN115576353A publication Critical patent/CN115576353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于深度强化学习的飞行器编队控制方法,考虑环境对飞行器的随机扰动,建立了飞行器编队运动模型,然后将编队问题映射为马尔可夫决策过程,构建了深度强化学习网络对飞行器的编队行为进行学习,主要是依据飞行器执行动作后环境给于的反馈进行学习,因此经过多次的学习、探索,飞行器就能获得正确的编队控制动作,这种方法无需飞行器的精确数学模型,因此,在模型中存在环境随机干扰时也是可行、有效的;将编队形成过程划分为三段能够有效降低各阶段的状态空间维度,增加网络训练成功率;在训练得到基于强化学习的编队控制算法后,可适用于从弹从不同初始位置开始编队,而无需再进行网络训练,大大拓展了本编队控制器的应用范围。

Description

一种基于深度强化学习的飞行器编队控制方法
技术领域
本发明属于多飞行器协同制导与控制技术领域,具体涉及一种基于深度强化学习的飞行器编队控制方法。
背景技术
针对编队控制问题,目前的方法主要有基于PID控制的经典控制方法和基于滑模控制、反步法控制、动态面控制、预设性能控制等现代控制理论的控制方法。文献“DU J,LIUG,JIA T,et al..Design of formation controller based on bp neural network PIDcontrol”将BP神经网络与PID控制相结合,设计了自适应PID控制器,提高了编队收敛时间,具有更小的超调量和更强的抗扰动能力;
文献“李贺,王宁,薛皓原的水面无人艇领航—跟随固定时间编队控制”、文献“施文煜,梁霄,曲星儒等的基于RBF积分滑模的无人艇集群协同路径跟踪控制”以及文献“JIAZ,WANG L,YU J,et al.Distributed adaptive neural networks leader-followingformation control for quadrotors with directed switching topologies”均基于现代控制理论设计了控制器,其中前两篇文献基于滑模控制理论设计了编队控制器,针对存在扰动的情况。第一篇通过引入扰动观测器设计了具有一定鲁棒性的编队控制器;第二篇采用神经网络逼近非线性未知项,提高控制器的抗干扰能力;第三篇基于反步法与动态表面控制技术设计了编队控制器,并采用自适应神经网络状态观测器来逼近未知项;
文献“薛瑞彬,宋建梅,张民强的具有时延及联合连通拓扑的多飞行器分布式协同编队飞行控制研究”,文献“龚健,熊俊俏的基于模糊自适应的多无人机编队协同控制平台”以及文献“李小民,毛琼,甘勤涛等的有界变化时滞和联合连通拓扑条件下的分布式无人机编队飞行控制策略”采用一致性算法设计了编队控制器,其中,第二篇文献采取模糊逻辑系统逼近未知函数以提高控制精度,第三篇文献将通信拓扑的高维矩阵求解问题转化为若干个连通部分的低维矩阵求解问题,提高了算法的求解效率。文献“尹依伊,王晓芳,田震等的基于预设性能控制的多导弹编队方法”考虑多导弹在编队形成过程中的碰撞避免问题,基于预设性能控制理论设计了编队控制器。
复杂度日益提升的战场态势对多飞行器编队飞行的自主性与智能性提出更高要求,上述前七篇文献中,均没有考虑飞行器在编队形成过程中的碰撞避免问题,如果控制器的参数设置不合适,则在队形形成过程中,可能出现飞行器碰撞的情况。第八篇文献考虑了飞行器编队控制过程中的防碰撞问题,但是当飞行器的个数很多时,方法中避碰逻辑的设计将变得非常困难,同时该文献中也没有考虑环境对飞行器的干扰。
发明内容
有鉴于此,本发明的目的是提供一种基于深度强化学习的飞行器编队控制方法,可以实现编队的精确控制。
一种基于深度强化学习的飞行器编队控制方法,包括:
步骤1、建立编队控制的马尔可夫模型:
考虑环境中的随机干扰,建立用于描述编队运动的马尔可夫模型;定义联合状态S=[xi,zi,Vfifi];其中,xi、zi分别为跟随者i的x和z方向坐标;Vfi、ψfi分别为跟随者i的速度、速度偏角;VL、ψL分别为领导者的速度、速度偏角;将跟随者的单位时间速度和速度偏角变化量△Vfi、△ψfi作为控制变量;确定△Vfi、△ψfi可变化的范围并离散化处理,得到联合动作空间A=[△Vfi,△ψfi];△Vfi=[-uV,0,+uV]、△ψfi=[-uψ,0,+uψ],uV>0、uψ>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值;
步骤2、基于深度强化学习的编队控制网络训练:
采用DQN算法,建立神经网络,设定神经网络的输入为联合状态与动作空间的各项参数,输出为联合状态、对应动作下的Q值;
将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段;通过获取每个阶段的样本,为每一个阶段训练一个对应的所述神经网络;在编队控制过程中,根据跟随者所在的阶段以及当前的联合状态,选择对应的神经网络输出的Q值最大的动作,并进行状态转移,得到下一时刻的联合状态,以此类推,控制跟随者从初始位置飞至期望位置。
进一步的,当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,定义转换坐标系z′Ox′,然后进行坐标变换,使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同,再采用已训练好的神经网络对跟随者a进行编队控制,实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行,然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。
进一步的,定义邻近区域:神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域;当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,在靠近所述邻近区域边界内侧设置一个临时期望位置,则跟随者a的初始位置到临时期望位置构成第一个飞行阶段,临时期望位置与期望位置构成第二个飞行阶段;对于第一个飞行阶段,采用初形成段的神经网络控制跟随者进入到所述邻近区域;对于第二个飞行阶段,分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。
进一步的,当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时,通过多次设置临时期望位置,最终控制跟随者a进入到所述邻近区域。
较佳的,某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,进行所述坐标变换的具体过程如下:
定义所述邻近区域的边长l1、l2满足:
Figure BDA0003900322490000031
式中,k3为比例系数,且k3>1;x1、z1分别为神经网络训练时定义的跟随者在x、z方向上的初始位置;hx1、hz1分别为神经网络训练时定义的跟随者在x、z方向上的期望位置;变换坐标系为原坐标系进行正交变换后的坐标系,其满足跟随者a在变换坐标系下的期望位置与跟随者a在神经网络训练时定义的原坐标系下的期望位置相同;为了使变换后的跟随者初始位置坐标位于变换坐标系z′Ox′内的邻近区域,定义跟随者a的初始位置在变换坐标系下的坐标为:
Figure BDA0003900322490000032
式中,x2、z2分别为跟随者a在x、z方向上的初始位置;hx′2=hx1,hz′2=hz1;为了使变换后的坐标系z′Ox′与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹,坐标系的变换满足正交变换关系:
Figure BDA0003900322490000033
式中,λ、n1、n2为正交变换参数,λ为旋转角度,n1、n2为平移量;
采用已训练好的神经网络求解初始位置为(x′2,z′2)、期望位置为(hx′2,hz′2)的跟随者a随时间变化的联合状态与动作,采用动作对跟随者a进行控制,实现在变换坐标系中从初始位置到期望位置的飞行,然后经过如下的坐标变换:
Figure BDA0003900322490000034
即可求得在原相对坐标系zOx下的飞行轨迹,即实现跟随者a从初始位置(x2,z2)飞至期望位置(hx2,hz2);
当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,实现编队飞行的具体过程如下:
若跟随者a的初始位置与期望位置满足:
|hx′2-x′2|≤2l1-L1 (13)
|hz′2-z′2|≤2l1-L1 (14)
则变换一次即可使临时期望位置位于所述邻近区域内,临时期望位置的设置方法为:
Figure BDA0003900322490000041
跟随者在临时变换坐标系z′aOx′a下的初始坐标为:
Figure BDA0003900322490000042
式中,hxa2=hx1,hza2=hz1为临时变换坐标系下的期望位置;坐标系的变换满足正交变换关系为:
Figure BDA0003900322490000043
由于临时变换坐标系与变换坐标系可通过平移得到,因此λa=0,直接根据式(17)反解得到平移坐标变换参数na1、na2
较佳的,所述神经网络包括训练网络Qnet和目标网络Qtarget;目标网络Qtarget通过每隔设定时间拷贝训练网络Qnet获得;
在对编队初形成阶段、交接阶段以及保持阶段进行神经网络训练时,将每一阶段的训练过程分为观察期与探索期两个训练阶段;
对于观察期,将获得的跟随者的联合状态及动作作为目标网络Qtarget的输入,输出Q值后,获得训练网络Qnet的期望输出,再根据跟随者的联合状态及动作得到训练网络的实际输出,由此得到一系列的样本,并存储;
对于探索期,获得新样本并存储的同时,利用已存储样本对训练网络进行更新。
较佳的,训练网络Qnet的期望输出的计算公式为:
Figure BDA0003900322490000051
式中,r为设定的回报函数值;γ为衰减值,
Figure BDA0003900322490000052
表示目标网络Qtarget在输入为t+1时刻联合状态St+1,动作空间为A时,输出的最大Q值。
较佳的,回报函数r为:
Figure BDA0003900322490000053
式中,在编队控制过程的第n个阶段时,n=1,2,3,Cxn、Czn分别表示在第n个阶段由x方向位置误差、z方向位置误差引起的损失值,CVn、Cψn分别表示在第n个阶段由速度、速度偏角误差引起的损失值,k1n、k2n为比例系数,Cnmax为第n个阶段最大位置误差损失值;参数Cxn、Czn、CVn、Cψn的解算方法为:
Figure BDA0003900322490000054
式中,hxi、hzi分别为跟随者i在n个阶段时x、z方向上的期望位置,Ln为设定的n个阶段的局部范围容忍长度,UVn、Uψn为n个阶段跟随者速度、跟随者速度偏角的容忍范围。
较佳的,训练网络Qnet的实际输出为:输入为t+1时刻联合状态St+1,动作为At时输出的Q值;其中,At从动作空间A中按照如下公式进行选择:
Figure BDA0003900322490000055
式中,random A表示在联合动作空间中任意选取的动作;randt为t时刻在(0,1)范围内的随机数取值;St表示t时刻的联合状态;argmaxAQt(St,A)表示在联合状态St,动作空间A中的各个动作下,目标网络Qtarget的最大输出,即Q值最大时对应的动作。
进一步的,还包括跟随者自主避碰方法,具体为:
跟随者在进行动作选择时,速度变化量按照Q值最大的原则选取,速度偏角变化量则在原来基础上同时考虑碰撞避免因素进行选择,具体为:
假设某跟随者与其他跟随者的最小距离为d;
情况1)、当跟随者间距离d小于初始规避距离d1
Figure BDA0003900322490000061
时,遍历速度偏角变化量△ψfi的可行动作,选择使d(t+1)最大的动作
Figure BDA0003900322490000064
作为速度偏角变化量取值;
情况2)、当跟随者间距离d小于紧急规避距离d2
Figure BDA0003900322490000065
时,速度偏角变化量取值为
Figure BDA0003900322490000062
设kd>0为常值,且其求解公式为:
Figure BDA0003900322490000063
式中,△t为设定的仿真步长,Vfimax为允许的最大速度;azimax为跟随者的最大侧向加速度;当计算得到的kd<1时,令kd=1;
情况3)、当不属于情况1)和情况2)时,取当前状态下Q值最大的动作中的速度偏角变化量。
本发明具有如下有益效果:
本发明提供一种基于深度强化学习的飞行器编队控制方法,考虑环境对飞行器的随机扰动,建立了飞行器编队运动模型,然后将编队问题映射为马尔可夫决策过程,构建了深度强化学习网络对飞行器的编队行为进行学习,主要是依据飞行器执行动作后环境给于的反馈(奖励或惩罚)进行学习,因此经过多次的学习、探索,飞行器就能获得正确的编队控制动作,这种方法无需飞行器的精确数学模型,因此,在模型中存在环境随机干扰时也是可行、有效的。
将编队形成过程划分为三段能够有效降低各阶段的状态空间维度,增加网络训练成功率。
在训练得到基于强化学习的编队控制算法后,可适用于从弹从不同初始位置开始编队,而无需再进行网络训练,并且给出了能够应用训练好的编队控制器的从弹坐标变换方法,大大拓展了本编队控制器的应用范围。
另外,本发明还设计了从弹自主避碰策略,即当存在碰撞风险时,给出了从弹的动作选择策略,可避免编队飞行过程中的碰撞。
附图说明
图1为本发明的编队变化过程示意图;
图2为本发明的DQN算法的结构;
图3为本发明的跟随者坐标变换示意图;
图4为本发明的临时期望位置示意图;
图5为本发明的规避距离示意图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
步骤1、建立编队控制的马尔可夫模型
假设各飞行器定高飞行且领导者飞行方向不变,同时考虑环境中的随机干扰,则编队运动模型为:
Figure BDA0003900322490000071
式中,xi、zi(i=1,2,3…)分别为跟随者i在领导者弹道坐标系的坐标;Vfi、ψfi、VL、ψL分别为跟随者i和领导者的速度、速度偏角;axi、azi分别为切向加速度和法向加速度;ηx、ηz为服从正态分布的随机扰动。
对于多导弹编队来讲,当跟随者到达队形要求的期望位置且与领导者的速度、弹道偏角保持一致时才形成期望编队,若将整个编队形成、保持过程看作一个整体来建立马尔可夫模型,则存在状态空间维度大、奖励稀疏等问题,强化学习中网络训练难度较大,因此,本发明将编队过程划分为编队初形成阶段、交接阶段以及保持阶段,在编队初形成阶段跟随者到达期望位置附近的局部范围内,在交接段跟随者在局部范围内调整位置,直至飞到期望位置的小邻域内且运动状态与领导者保持一致,在编队保持阶段跟随者在扰动存在的情况下通过微调控制量使其能够以一定的精度保持编队飞行,三个过程如附图1所示。
附图1中,圆圈代表初始位置,五角星代表期望位置,大方框区域为编队初形成阶段的期望局部范围,小方框区域为交接段的期望局部小邻域。将编队形成过程划分为三段能够有效降低各阶段的状态空间维度,增加网络训练成功率。
不失一般性,以一枚领导者、一枚跟随者的编队运动模型为例建立马尔科夫决策模型。建立马尔科夫决策模型需要对状态、动作以及回报函数进行设置。针对编队控制问题,状态的设置需要明确表示跟随者与领导者的相对位置关系以及相对运动关系,因此,根据式(1)中的编队控制模型,定义联合状态S=[xi,zi,Vfifi]。将编队控制问题的控制量离散化构成离散的动作空间,式(1)中的控制量为切向加速度axi和法向加速度azi,但是若将加速度直接作为动作空间,对动作进行离散化处理后会出现动作空间范围过大的问题,因此,选择△Vfi、△ψfi作为控制量,离散化处理后的动作空间分别为△Vfi=[-uV,0,+uV]、△ψfi=[-uψ,0,+uψ],uV>0、uψ>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值。本编队控制问题中的联合动作空间为A=[△Vfi,△ψfi]。
合理设置回报函数能够有效引导跟随者实现阶段目的,降低网络的训练难度。针对本发明的三段编队控制问题,设计回报函数r为:
Figure BDA0003900322490000081
式中,在第n(n=1,2,3)个阶段时,Cxn、Czn分别表示由x方向位置误差、z方向位置误差引起的损失值,CVn、Cψn分别表示由速度、速度偏角误差引起的损失值,k1n、k2n为比例系数,Cnmax为最大位置误差损失值。参数Cxn、Czn、CVn、Cψn的解算方法为:
Figure BDA0003900322490000082
式中,hxi、hzi分别为跟随者i在x、z方向上的期望位置,Ln(n=1,2,3)为设定的局部范围容忍长度,UVn、Uψn为跟随者速度、跟随者速度偏角的容忍范围。此回报函数的设置,能够保证当无人机距离期望位置越近、速度大小与方向与领导者越接近时,其获得的回报越大,以此引导飞行器向期望位置飞行。由于飞行器逐渐靠近期望位置,因此需满足C3max≤C2max<C1max,L3≤L2<L1
动作的选择策略采用改进的ε-贪婪策略。由于在训练初期跟随者对环境的认知较少,本发明将训练周期Ts引入动作选择策略中,使训练前期侧重探索性、训练后期侧重择优性,动作的选择策略为:
Figure BDA0003900322490000083
式中,random A表示在联合动作空间中任意选取的动作;randt为t时刻在(0,1)范围内的随机数取值;St表示t时刻的联合状态;argmaxAQt(St,A)表示在联合状态St,动作空间A中的各个动作下,DQN算法输出的最大输出,即Q值最大时对应的动作。
步骤2、基于深度强化学习的编队控制网络训练:
针对状态、动作空间维度大的马尔科夫决策问题,传统Q学习存在Q-table维数高、收敛慢等问题,本发明采用DQN(Deep Q Network)算法,通过神经网络模拟Q-table输出,从而提高求解效率。设定神经网络的输入为状态空间与动作空间的各项(xi、zi、Vfi、ψfi、△Vfi、△ψfi),输出为对应状态、动作下的Q值。
DQN算法包括训练网络Qnet与目标网络Qtarget,该双层网络结构可以提高网络训练的稳定性。训练网络Qnet的期望输出(Q值)的计算公式为:
Figure BDA0003900322490000091
式中,γ为衰减值,Qtarget(St+1,A)表示目标网络Qtarget在输入为St+1,A时,输出的最大Q值,目标网络Qtarget通过每隔一个设定时间拷贝训练网络Qnet获得。
根据期望输出与实际输出求解损失函数值,进而对训练网络Qnet进行更新,定义损失函数的求解公式为:
Figure BDA0003900322490000092
上式中,Qnet(St+1,At)表示训练网络Qnet在输入为St+1,At时的实际输出的Q值。At根据公式(4)选择出来的。
为了使网络在训练前获得充足的样本,提高网络的训练效率,本发明将训练过程划分为观察期与探索期两部分。在观察期不对神经网络进行训练,初始化训练网络后通过跟随者与环境进行交互获取样本,即将获得的跟随者的联合状态及动作作为目标网络Qtarget的输入,输出的Q值后,根据公式(5)获得训练网络Qnet的期望输出,再根据跟随者的联合状态及动作得到训练网络的实际输出,由此得到一系列的样本,将样本储藏在记忆回放矩阵中,直至记忆回放矩阵中有足够的样本数。训练关系示意图如附图2所示。
由于编队各阶段的阶段性目的不同,因此网络训练的终止条件有所区别,编队初形成段与交接段的终止条件为r=0或达到单幕最大迭代数tmax,而由于保持段初始时r=0,因此此阶段的终止条件为r=0持续设定次数或达到单幕最大迭代数tmax。由于各阶段是依次训练的,因此下一阶段的初始位置由上一阶段终止时刻的位置决定,即编队交接段的初始位置为采用初形成段控制跟随者时该幕终止时刻的跟随者位置,编队保持段的初始位置同理可得。
各阶段基于DQN算法的编队控制算法步骤为:
(1)、随机初始化训练网络、记忆回放矩阵,转入步骤(2)。
(2)、初始化跟随者的初始位置、期望位置,转入步骤(3)。
(3)、观察期阶段跟随者根据当前状态St和式(4)的选择策略选择的动作At,转移至新的状态St+1,将获得的样本St、At及St+1存入记忆回放矩阵中,转入步骤(4)。
(4)、判断记忆回放矩阵中样本数目是否达到设定数目,若未达到终止条件则将状态St+1作为当前状态并返回步骤(3),若达到则转步骤(5)。
(5)、进入探索期,此阶段开始对网络进行训练,转入步骤(6)。
(6)、探索期跟随者根据当前状态St和式(4)的选择策略选择的动作At,转移至新的状态St+1,将St、At及St+1存入记忆回放矩阵中。当迭代次数满足拷贝间隔时,将训练网络Qnet拷贝给目标网络Qtarget。当迭代次数满足训练间隔时,根据式(6)计算损失函数,并基于自适应梯度下降法对训练Qnet进行更新。
(7)、根据跟随者状态判断是否达到该幕的终止条件,若未达到终止条件则将状态St+1作为当前状态并返回步骤(6),若达到终止条件,完成迭代。
采用上述步骤分别对编队过程的三阶段网络进行训练,可得到三个阶段的控制网络,然后将其应用于跟随者的控制中。
步骤3、考虑飞行器不同初始位置的编队控制网络应用方法
依次根据编队初形成、编队交接及编队保持三个阶段的神经网络选取Q值最大的动作并进行状态转移,可使跟随者从初始位置飞至期望位置,并保持在期望位置的小领域内飞行。针对每一个不同初始位置、期望位置的跟随者,若都进行三个阶段的网络训练,则训练时间代价很高,因此,本发明设计位置变换法将现有网络应用于不同初始位置、期望位置的跟随者,从而提高DQN算法的编队控制效率。跟随者初始状态变化关系图如附图3所示。附图3中圆点和五角星分别为跟随者1的初始位置与期望位置,正方形、三角形分别为跟随者2的初始位置与期望位置。根据跟随者1的初始位置与期望位置进行三个阶段的训练,得到三个阶段的训练网络以及跟随者1的飞行轨迹。根据强化学习探索与择优相平衡的特点,跟随者1从初始位置到期望位置的飞行轨迹及其邻近区域内(即图中灰色区域代表的邻近区域),各状态网络训练的更充分,当跟随者1的初始位置改变且仍位于跟随者1邻近区域内且期望位置不变时,可根据已训练好网络快速得到飞行轨迹。
情况1、当跟随者2的期望位置与跟随者1不同时,也无法直接采用已有训练网络,可定义一个新的坐标系,然后进行坐标变换,使变换后跟随者2的期望位置坐标与跟随者1在原坐标系zOx下的期望位置坐标相同,进而采用已训练好的网络。情况2、在情况1的基础上,当跟随者2的初始位置不在上述定义的邻近区域时,直接应用之前训练好的网络,会导致编队性能将比较差,可以通过设计临时期望位置控制其飞入图3中跟随者1的邻近区域内,再采用已有网络进行控制。
针对情况1,本发明采用的解决方案具体过程如下:
定义图中邻近区域的边长l1、l2满足:
Figure BDA0003900322490000111
式中,k3为比例系数,且k3>1。变换坐标系为原坐标系进行正交变换后的坐标系,其满足跟随者2在变换坐标系下的期望位置与跟随者1在原坐标系下的期望位置相同。为了使变换后的跟随者2初始位置坐标位于变换坐标系z′Ox′内的灰色区域,定义跟随者2的初始位置在变换坐标系下的坐标为:
Figure BDA0003900322490000112
式中,hx′2=hx1,hz′2=hz1。为了使变换后的坐标系z′Ox′与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹,坐标系的变换满足正交变换关系:
Figure BDA0003900322490000113
式中,λ、n1、n2为正交变换参数,λ为旋转角度,n1、n2为平移量。通过代入跟随者2在原坐标系zOx下的初始位置坐标(x2,z2)、期望位置坐标(hx2,hz2)以及坐标变换后的初始位置坐标(x′2,z′2)、期望位置(hx′2,hz′2),即可通过求解方程组得到正交变换参数λ、n1、n2
采用跟随者1的神经网络求解初始位置为(x′2,z′2)、期望位置为(hx′2,hz′2)的跟随者2随时间变化的联合状态St=[x′2(t),z′2(t),Vf2(t),ψf2(t)]与联合动作At=[△Vf2(t),△ψf2(t)],采用联合动作At对跟随者2进行控制,则可实现在变换坐标系中从初始位置到期望位置的飞行,然后经过如下的坐标变换:
Figure BDA0003900322490000114
即可求得在原相对坐标系zOx下的飞行轨迹,即实现跟随者2从初始位置(x2,z2)飞至期望位置(hx2,hz2)。
针对情况2,本发明采用的解决方案具体过程如下:
若跟随者2初始位置位于图3中深灰色区域之外,即出现以下情况之一时:
|hx2-x2|≥k3|hx1-x1| (11)
|hz2-z2|≥k3|hz1-z1| (12)
根据已有的训练好的神经网络无法直接获得跟随者2的控制策略,可通过定义临时期望位置并采用初形成段网络控制跟随者2,引导其向深灰色区域内飞行。为了便于理解,本部分内容在变换坐标系z′Ox′下进行说明,如附图4所示。附图4中由于圆点表示的初始位置与五角星表示的期望位置之间的距离太大,导致超出了之前训练网络时的范围,因此,为了引导跟随者朝深灰色区域内飞行,当x方向的距离大于边长l1时,设置临时期望位置hx′a′2在深灰色区域的边界附近,并位于深灰色区域内侧,否则设置为初始位置与期望位置的中心,z方向同理,附图4中的临时期望位置如三角星所示。则可得到初始位置为(x′2,z′2)、期望位置为(hx′a2,hz′a2)和初始位置为(hx′a2,hz′a2)、期望位置为(hx′2,hz′2)的两个阶段;对于第一个阶段,采用初形成段的神经网络控制跟随者2进入到深灰色区域;对于第二个阶段则可以采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。
由附图4可见,若跟随者2的初始位置与期望位置满足:
|hx′2-x′2|≤2l1-L1 (13)
|hz′2-z′2|≤2l1-L1 (14)
则变换一次即可使临时期望位置位于深灰色区域内,临时期望位置的设置方法为:
Figure BDA0003900322490000121
类似于式(8),跟随者2在临时变换坐标系z′aOx′a下的初始坐标为:
Figure BDA0003900322490000122
式中,hxa2=hx1,hza2=hz1为临时变换坐标系下的期望位置。坐标系的变换满足正交变换关系为:
Figure BDA0003900322490000131
由于临时变换坐标系与变换坐标系可通过平移得到,因此λa=0,可直接根据式(17)反解得到平移坐标变换参数na1、na2
若跟随者2的初始位置与期望位置出现以下情况之一时:
|hx′2-x′2|>2l1-L1 (18)
|hz′2-z′2|>2l1-L1 (19)
跟随者2无法通过叠加一次平移变换到达期望位置,此时可通过设置多个临时期望位置,通过叠加多次平移变换,使跟随者2依次到达各个临时期望位置附近,直至其进入深灰色区域内。
步骤4、跟随者自主避碰策略设计:
多飞行器在队形形成过程中,可能发生碰撞,以一枚跟随者为例说明避碰策略的设计。引入初始规避距离d1及紧急规避距离d2,d1、d2的关系如附图5所示。
某跟随者在进行动作选择时,△Vfi仍然按照Q值最大的原则选取,△ψfi则在原来基础上同时考虑碰撞避免因素进行选择。假设某跟随者与其他n个跟随者的距离为d1,d2,...,dn,则最小距离d=min{d1,d2,...,dn}。
当跟随者间距离d小于初始规避距离d1
Figure BDA0003900322490000137
时,遍历△ψfi的可行动作,选择使d(t+1)最大的动作
Figure BDA0003900322490000132
作为速度偏角变化量取值;
当跟随者间距离d小于紧急规避距离d2
Figure BDA0003900322490000133
时,此时需要进行紧急避碰处理,速度偏角变化量取值为
Figure BDA0003900322490000134
为了方便,设kd>0为常值,且其求解公式为:
Figure BDA0003900322490000135
式中,△t为设定的仿真步长,Vfimax为允许的最大速度;azimax为跟随者的最大侧向加速度,由式(20)求得的kd决定了导弹以比小于或等于azimax的法向加速度飞行,同时考虑到紧急避碰要求,应有kd≥1,因此,当式(20)计算得到的kd<1时,令kd=1。其他情况,仍然取当前状态下Q值最大的动作。
综上,考虑飞行器间碰撞避免的速度偏角动作选择策略为:
Figure BDA0003900322490000136
所有跟随者均按照上述策略选取动作,即可实现在编队飞行过程中的碰撞避免。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的飞行器编队控制方法,其特征在于,包括:
步骤1、建立编队控制的马尔可夫模型:
考虑环境中的随机干扰,建立用于描述编队运动的马尔可夫模型;定义联合状态S=[xi,zi,Vfifi];其中,xi、zi分别为跟随者i的x和z方向坐标;Vfi、ψfi分别为跟随者i的速度、速度偏角;VL、ψL分别为领导者的速度、速度偏角;将跟随者的单位时间速度和速度偏角变化量△Vfi、△ψfi作为控制变量;确定△Vfi、△ψfi可变化的范围并离散化处理,得到联合动作空间A=[△Vfi,△ψfi];△Vfi=[-uV,0,+uV]、△ψfi=[-uψ,0,+uψ],uV>0、uψ>0分别为离散化处理后单位时间内速度与速度偏角变化量的幅值;
步骤2、基于深度强化学习的编队控制网络训练:
采用DQN算法,建立神经网络,设定神经网络的输入为联合状态与动作空间的各项参数,输出为联合状态、对应动作下的Q值;
将编队控制过程划分为编队初形成阶段、交接阶段以及保持阶段共三个阶段;通过获取每个阶段的样本,为每一个阶段训练一个对应的所述神经网络;在编队控制过程中,根据跟随者所在的阶段以及当前的联合状态,选择对应的神经网络输出的Q值最大的动作,并进行状态转移,得到下一时刻的联合状态,以此类推,控制跟随者从初始位置飞至期望位置。
2.如权利要求1所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,定义转换坐标系z′Ox′,然后进行坐标变换,使变换后跟随者a的期望位置坐标与训练神经网络时设定的原坐标系zOx下的期望位置坐标相同,再采用已训练好的神经网络对跟随者a进行编队控制,实现在跟随者a在变换坐标系中从初始位置到期望位置的飞行,然后再通过坐标变换求得跟随者在原坐标系zOx下的飞行轨迹。
3.如权利要求2所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,定义邻近区域:神经网络训练时设置的跟随者从初始位置到期望位置的飞行轨迹的邻近区域;当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,在靠近所述邻近区域边界内侧设置一个临时期望位置,则跟随者a的初始位置到临时期望位置构成第一个飞行阶段,临时期望位置与期望位置构成第二个飞行阶段;对于第一个飞行阶段,采用初形成段的神经网络控制跟随者进入到所述邻近区域;对于第二个飞行阶段,分别采用训练好的编队初形成、编队交接及编队保持三个阶段的神经网络进行编队控制,实现编队飞行。
4.如权利要求3所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,当设置一个临时期望位置无法控制跟随者a进入到所述邻近区域时,通过多次设置临时期望位置,最终控制跟随者a进入到所述邻近区域。
5.如权利要求4所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,某跟随者a的期望位置与训练神经网络时定义的期望位置不一致时,进行所述坐标变换的具体过程如下:
定义所述邻近区域的边长l1、l2满足:
Figure FDA0003900322480000021
式中,k3为比例系数,且k3>1;x1、z1分别为神经网络训练时定义的跟随者在x、z方向上的初始位置;hx1、hz1分别为神经网络训练时定义的跟随者在x、z方向上的期望位置;变换坐标系为原坐标系进行正交变换后的坐标系,其满足跟随者a在变换坐标系下的期望位置与跟随者a在神经网络训练时定义的原坐标系下的期望位置相同;为了使变换后的跟随者初始位置坐标位于变换坐标系z′Ox′内的邻近区域,定义跟随者a的初始位置在变换坐标系下的坐标为:
Figure FDA0003900322480000022
式中,x2、z2分别为跟随者a在x、z方向上的初始位置;hx′2=hx1,hz′2=hz1;为了使变换后的坐标系z′Ox′与原坐标系zOx针对同样相对初始位置、期望位置的跟随者进行控制时能够得到相同飞行轨迹,坐标系的变换满足正交变换关系:
Figure FDA0003900322480000023
式中,λ、n1、n2为正交变换参数,λ为旋转角度,n1、n2为平移量;
采用已训练好的神经网络求解初始位置为(x′2,z′2)、期望位置为(hx′2,hz′2)的跟随者a随时间变化的联合状态与动作,采用动作对跟随者a进行控制,实现在变换坐标系中从初始位置到期望位置的飞行,然后经过如下的坐标变换:
Figure FDA0003900322480000024
即可求得在原相对坐标系zOx下的飞行轨迹,即实现跟随者a从初始位置(x2,z2)飞至期望位置(hx2,hz2);
当跟随者a的初始位置不在训练所述神经网络时定义的邻近区域时,实现编队飞行的具体过程如下:
若跟随者a的初始位置与期望位置满足:
|hx′2-x′2|≤2l1-L1 (13)
|hz′2-z′2|≤2l1-L1 (14)
则变换一次即可使临时期望位置位于所述邻近区域内,临时期望位置的设置方法为:
Figure FDA0003900322480000031
跟随者在临时变换坐标系z′aOx′a下的初始坐标为:
Figure FDA0003900322480000032
式中,hxa2=hx1,hza2=hz1为临时变换坐标系下的期望位置;坐标系的变换满足正交变换关系为:
Figure FDA0003900322480000033
由于临时变换坐标系与变换坐标系可通过平移得到,因此λa=0,直接根据式(17)反解得到平移坐标变换参数na1、na2
6.如权利要求1、2、3、4或5所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,所述神经网络包括训练网络Qnet和目标网络Qtarget;目标网络Qtarget通过每隔设定时间拷贝训练网络Qnet获得;
在对编队初形成阶段、交接阶段以及保持阶段进行神经网络训练时,将每一阶段的训练过程分为观察期与探索期两个训练阶段;
对于观察期,将获得的跟随者的联合状态及动作作为目标网络Qtarget的输入,输出Q值后,获得训练网络Qnet的期望输出,再根据跟随者的联合状态及动作得到训练网络的实际输出,由此得到一系列的样本,并存储;
对于探索期,获得新样本并存储的同时,利用已存储样本对训练网络进行更新。
7.如权利要求6所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,训练网络Qnet的期望输出的计算公式为:
Figure FDA0003900322480000034
式中,r为设定的回报函数值;γ为衰减值,
Figure FDA0003900322480000041
表示目标网络Qtarget在输入为t+1时刻联合状态St+1,动作空间为A时,输出的最大Q值。
8.如权利要求7所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,回报函数r为:
Figure FDA0003900322480000042
式中,在编队控制过程的第n个阶段时,n=1,2,3,Cxn、Czn分别表示在第n个阶段由x方向位置误差、z方向位置误差引起的损失值,CVn、Cψn分别表示在第n个阶段由速度、速度偏角误差引起的损失值,k1n、k2n为比例系数,Cnmax为第n个阶段最大位置误差损失值;参数Cxn、Czn、CVn、Cψn的解算方法为:
Figure FDA0003900322480000043
式中,hxi、hzi分别为跟随者i在n个阶段时x、z方向上的期望位置,Ln为设定的n个阶段的局部范围容忍长度,UVn、Uψn为n个阶段跟随者速度、跟随者速度偏角的容忍范围。
9.如权利要求8所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,训练网络Qnet的实际输出为:输入为t+1时刻联合状态St+1,动作为At时输出的Q值;其中,At从动作空间A中按照如下公式进行选择:
Figure FDA0003900322480000044
式中,random A表示在联合动作空间中任意选取的动作;randt为t时刻在(0,1)范围内的随机数取值;St表示t时刻的联合状态;argmaxAQt(St,A)表示在联合状态St,动作空间A中的各个动作下,目标网络Qtarget的最大输出,即Q值最大时对应的动作。
10.如权利要求1、2、3、4或5所述的一种基于深度强化学习的飞行器编队控制方法,其特征在于,还包括跟随者自主避碰方法,具体为:
跟随者在进行动作选择时,速度变化量按照Q值最大的原则选取,速度偏角变化量则在原来基础上同时考虑碰撞避免因素进行选择,具体为:
假设某跟随者与其他跟随者的最小距离为d;
情况1)、当跟随者间距离d小于初始规避距离d1
Figure FDA0003900322480000051
时,遍历速度偏角变化量△ψfi的可行动作,选择使d(t+1)最大的动作
Figure FDA0003900322480000052
作为速度偏角变化量取值;
情况2)、当跟随者间距离d小于紧急规避距离d2
Figure FDA0003900322480000053
时,速度偏角变化量取值为
Figure FDA0003900322480000054
设kd>0为常值,且其求解公式为:
Figure FDA0003900322480000055
式中,△t为设定的仿真步长,Vfimax为允许的最大速度;azimax为跟随者的最大侧向加速度;当计算得到的kd<1时,令kd=1;
情况3)、当不属于情况1)和情况2)时,取当前状态下Q值最大的动作中的速度偏角变化量。
CN202211288418.8A 2022-10-20 2022-10-20 一种基于深度强化学习的飞行器编队控制方法 Pending CN115576353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211288418.8A CN115576353A (zh) 2022-10-20 2022-10-20 一种基于深度强化学习的飞行器编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211288418.8A CN115576353A (zh) 2022-10-20 2022-10-20 一种基于深度强化学习的飞行器编队控制方法

Publications (1)

Publication Number Publication Date
CN115576353A true CN115576353A (zh) 2023-01-06

Family

ID=84587211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211288418.8A Pending CN115576353A (zh) 2022-10-20 2022-10-20 一种基于深度强化学习的飞行器编队控制方法

Country Status (1)

Country Link
CN (1) CN115576353A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115755988A (zh) * 2023-01-10 2023-03-07 广东工业大学 一种无人机集群的纯方位无源定位方法、系统及存储介质
CN117873136A (zh) * 2024-03-11 2024-04-12 西北工业大学 一种高速飞行器协同飞行与预设性能避碰的控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660375A (zh) * 2017-10-11 2019-04-19 北京邮电大学 一种高可靠的自适应mac层调度方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
CN112469054A (zh) * 2020-11-18 2021-03-09 西北工业大学 一种面向无人机集群编队的拓扑感知路由方法
CN113191500A (zh) * 2021-02-25 2021-07-30 北京大学 去中心化离线多智能体强化学习方法以及执行系统
CN114237293A (zh) * 2021-12-16 2022-03-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660375A (zh) * 2017-10-11 2019-04-19 北京邮电大学 一种高可靠的自适应mac层调度方法
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
CN112469054A (zh) * 2020-11-18 2021-03-09 西北工业大学 一种面向无人机集群编队的拓扑感知路由方法
CN113191500A (zh) * 2021-02-25 2021-07-30 北京大学 去中心化离线多智能体强化学习方法以及执行系统
CN114237293A (zh) * 2021-12-16 2022-03-25 中国人民解放军海军航空大学 一种基于动态目标分配的深度强化学习队形变换方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孔维仁,周德云,赵艺阳,杨婉莎: "基于深度强化学习与自学习的多无人机近距空战机动策略生成算法", 控制理论与应用, vol. 39, no. 2, 28 February 2022 (2022-02-28), pages 352 - 361 *
樊龙涛;张森;普杰信;刘源源;: "基于异环境重要性采样的增强DDRQN网络", 火力与指挥控制, no. 01, 15 January 2020 (2020-01-15), pages 47 - 52 *
王醒策, 张汝波, 顾国昌: "多机器人动态编队的强化学习算法研究", 计算机研究与发展, no. 10, 30 October 2003 (2003-10-30), pages 1444 - 1450 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115755988A (zh) * 2023-01-10 2023-03-07 广东工业大学 一种无人机集群的纯方位无源定位方法、系统及存储介质
CN117873136A (zh) * 2024-03-11 2024-04-12 西北工业大学 一种高速飞行器协同飞行与预设性能避碰的控制方法
CN117873136B (zh) * 2024-03-11 2024-05-24 西北工业大学 一种高速飞行器协同飞行与预设性能避碰的控制方法

Similar Documents

Publication Publication Date Title
CN109725644B (zh) 一种高超声速飞行器线性优化控制方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN115576353A (zh) 一种基于深度强化学习的飞行器编队控制方法
Liu et al. Deep learning based trajectory optimization for UAV aerial refueling docking under bow wave
CN112462792B (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
Liu et al. Novel docking controller for autonomous aerial refueling with probe direct control and learning-based preview method
De Marco et al. A deep reinforcement learning control approach for high-performance aircraft
CN110362110B (zh) 一种固定时自适应神经网络无人机航迹角控制方法
CN114519292A (zh) 基于深度强化学习的空空导弹越肩发射制导律设计方法
Xu et al. Coordinated intelligent control of the flight control system and shape change of variable sweep morphing aircraft based on dueling-DQN
Candeli et al. A deep deterministic policy gradient learning approach to missile autopilot design
Wang et al. Intelligent control of air-breathing hypersonic vehicles subject to path and angle-of-attack constraints
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
Li et al. Time-varying formation dynamics modeling and constrained trajectory optimization of multi-quadrotor UAVs
CN116661493A (zh) 基于深度强化学习的空中加油机控制策略方法
Zhu et al. Multi-constrained intelligent gliding guidance via optimal control and DQN
CN114859712B (zh) 面向油门约束的飞行器制导控制一体化方法
Zhang et al. Autonomous morphing strategy for a long-range aircraft using reinforcement learning
CN114047778A (zh) 一种小型飞机短距离自动着陆横侧向控制方法
Abdulla et al. Roll control system design using auto tuning LQR technique
Wang et al. Parameters Optimization‐Based Tracking Control for Unmanned Surface Vehicles
CN117434838A (zh) 一种变时域事件触发交会对接协同预测控制方法
Li et al. Autopilot controller of fixed-wing planes based on curriculum reinforcement learning scheduled by adaptive learning curve
CN113377122B (zh) 一种可栖落机动的变体飞行器切换自适应控制方法
CN113778117B (zh) 一种针对飞机纵向最优路径规划的初值智能选取多阶段伪谱法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination