CN108319286B - 一种基于强化学习的无人机空战机动决策方法 - Google Patents

一种基于强化学习的无人机空战机动决策方法 Download PDF

Info

Publication number
CN108319286B
CN108319286B CN201810197989.8A CN201810197989A CN108319286B CN 108319286 B CN108319286 B CN 108319286B CN 201810197989 A CN201810197989 A CN 201810197989A CN 108319286 B CN108319286 B CN 108319286B
Authority
CN
China
Prior art keywords
rule
value
unmanned aerial
aerial vehicle
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810197989.8A
Other languages
English (en)
Other versions
CN108319286A (zh
Inventor
杨啟明
张建东
吴勇
史国庆
朱岩
徐建城
莫文莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201810197989.8A priority Critical patent/CN108319286B/zh
Publication of CN108319286A publication Critical patent/CN108319286A/zh
Application granted granted Critical
Publication of CN108319286B publication Critical patent/CN108319286B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于强化学习的无人机空战机动决策方法,首先创建飞机平台的运动模型;然后分析影响空战态势的各主要因素,在运动模型和空战态势因素分析的基础上,设计空战机动决策的动态模糊Q学习模型,确定强化学习的各要素和算法流程;对空战机动决策的状态空间进行模糊化作为强化学习的状态输入;选取典型空战动作作为强化学习基本行动,通过各模糊规则的触发强度加权求和实现连续行动空间的覆盖;在构建的空战优势函数为基础通过设置权重和叠加奖惩值的方法设置了强化学习的回报值。本发明可有效提高无人机进行空战机动自主决策的能力,具有较高的鲁棒性和自主寻优性,在不断的仿真和学习中无人机所做的决策水平不断提高。

Description

一种基于强化学习的无人机空战机动决策方法
技术领域
本发明属于人工智能的技术领域,具体涉及一种用于无人驾驶飞机的空战机动决策的实现方法。
背景技术
目前,无人机已经能够完成侦察、监视和对地攻击等任务,在现代战争中发挥着越来越难以替代的作用。但是由于空战对操控的实时性要求更高,目前对无人机采用的地面站遥控的操作办法很难完成对无人机准确、及时的操控,以期在空战中取得优势。因此,提升无人机的智能化水平,让无人机能够根据态势环境而自动产生控制指令完成空战中的机动动作是当前主要的研究方向。
让无人机完成空战机动自主决策,其实质是完成从空战态势到机动动作的映射,在不同态势下执行相应的机动动作。由于空战的态势较之于其他任务更加复杂,靠人工预编程的方法难以全面地覆盖空战任务的态势空间,更难以计算产生最优的机动动作决策。
强化学习是一种采用“试错”的方法与环境交互的学习方法,可以通过马尔科夫决策过程(MDP)对强化学习过程进行表征,通过计算当前状态下执行动作后的累计回报期望值的大小来判断动作选择的合理性。因此,通过强化学习产生的状态-动作映射考虑了动作的远期影响,能够获得很好的远期收益,而且Agent与环境交互的学习过程不需要训练样本,仅仅需要环境的回报值对执行的动作进行评价,因此通过建立无人机空战机动的强化学习模型,让代表无人机的Agent不断在仿真环境中探索和学习,反复迭代,就能产生一系列最优化的空战态势-机动动作的规则库,为无人机在空战中产生机动决策序列。
将具体实际问题完成在强化学习框架下的实例化需要完成两方面的工作,首先,需要解决实际问题中大规模连续状态空间的的划分和描述问题,合理的状态空间划分和描述能降低问题的复杂度,提升强化学习的效率和稳定性,其次,需要描述强化学习的外部环境,包括Agent在与外部环境交互过程中状态转移的模型构建和环境给予 Agent的回报函数的定义。
发明内容
为了克服现有技术的不足,本发明提供一种基于强化学习的无人机空战机动自主决策的产生方法,设计出符合空战控制问题约束的无人机空战机动强化学习算法结构,通过在构建的模拟空战环境中试错学习获得一系列合理的空战机动规则,提高无人机自主完成空战的能力。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤一,构建与目标一对一空战的无人机运动模型
Figure GDA0002596103220000021
假设速度矢量与机体轴向一致,式中x、y、z表示飞机在惯性坐标系中的位置,v为飞机速度,
Figure GDA0002596103220000022
表示v在三个坐标轴方向的分量,θ为航迹角,α为航向角,g为重力加速度,无人机的控制量为[ηxz,φ],其中ηx为沿着速度方向的过载,ηz为沿着机顶方向过载,φ为绕速度矢量的滚转角;
建立角度优势函数
Figure GDA0002596103220000023
其中
Figure GDA0002596103220000024
Figure GDA0002596103220000025
Figure GDA0002596103220000026
分别表示无人机和目标的方位角,即无人机与目标的速度向量分别与距离向量R的夹角;
建立距离优势函数
Figure GDA0002596103220000027
其中,R=||R||,即距离向量的模, Rw表示无人机的武器射程,σ为标准偏差;
建立速度优势函数
Figure GDA0002596103220000028
其中,武器相对目标的最佳攻击速度
Figure GDA0002596103220000029
vmax表示无人机的速度上限,vT表示目标速度;
建立高度优势函数
Figure GDA0002596103220000031
其中,hop表示无人机对目标的最佳攻击高度差,Δz为无人机与目标的高度差,σh为最佳攻击高度标准偏差;
得到综合空战优势函数
Figure GDA0002596103220000032
其中
Figure GDA0002596103220000033
ωR、ωv、ωh分别是角度、距离、速度、高度优势函数的权重,各权重之和为1;
步骤二,构建空战机动决策的动态模糊Q学习模型;
1)确定空战机动决策强化学习的状态空间,包括无人机和目标的方位角
Figure GDA0002596103220000034
Figure GDA0002596103220000035
无人机与目标的距离R、无人机与目标的速度vU和vR以及无人机和目标之间的高度差△z;以上述
Figure GDA0002596103220000036
R、vU、vR、△z六个量作为强化学习的输入状态,记为si,采用高斯函数作为各个输入状态的模糊隶属函数,将每一个状态的取值空间划分为多个高斯函数的叠加组合,如果状态si具有n个隶属函数,则输入状态属于其中第j个隶属函数的隶属度
Figure GDA0002596103220000037
i=1,2,…,6,j=1,2,…,n,其中cij和σij是状态si第j个高斯隶属函数的中心和宽度;
2)选择典型值构建空战中无人机的基本动作,所述的基本动作包括匀速直线运动、最大加速度飞行、最大减速飞行、最大过载左转、最大过载右转、最大过载爬升和最大过载俯冲,对应的无人机控制量[ηxz,φ]分别为[0,1,0]、
Figure GDA0002596103220000038
Figure GDA0002596103220000039
Figure GDA00025961032200000310
分别将七个基本动作的控制量输入记为ak,k=1,2,…, 7;
3)以各个状态si分属不同的隶属函数的组合为条件,以执行的7个基本动作并配属相应的动作权值为结果构建规则;通过Q学习算法,以空战优势函数的大小作为回报值进行强化学习,调整每一条规则中所执行各个动作的权值,使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势;
在一条规则中,设定一个状态隶属于其中一个隶属函数,则定义该条规则中各状态隶属于其设定隶属函数的隶属度乘积为该条规则的触发强度,规则l的触发强度
Figure GDA0002596103220000041
将触发值归一化,设有m条规则,归一化后规则 l的触发强度
Figure GDA0002596103220000042
表示对所有规则的触发强度求和,Φl表示规则l的触发强度Φl
定义规则l中基本动作的控制量输入ak的权值为
Figure GDA0002596103220000043
根据ε-greedy算法针对7个
Figure GDA0002596103220000044
选取一个控制量作为规则l的行动值al,则在t时刻全局行动的输出表征为各条规则的行动值al与其触发强度ρl的乘积之和,即
Figure GDA0002596103220000045
其中
Figure GDA0002596103220000046
表征t时刻的状态输入;
定义Q值为当前状态St下执行行动At后,所有后续获得的回报值的累加的期望值;采用线性近似的方法对Q值进行估计,
Figure GDA0002596103220000047
表示规则l 中所选取行动
Figure GDA0002596103220000048
所对应的权值;对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和,即
Figure GDA0002596103220000049
其中maxa∈Aqt(Sl,a) 表示规则l中各动作权值中的最大值,
Figure GDA00025961032200000410
表示规则l的触发强度;
以空战优势函数为基础强化学习回报值;根据设定的门限值a和b,0<a<b<1,当优势函数值ft>b时,无人机进入优势地位,强化学习回报值rt=ft+β,其中β为设定的奖励值;当优势函数值a<ft<b时,无人机处于均势位置,强化学习的回报值 rt=ft;当优势函数值ft<a时,无人机处于劣势,强化学习的回报值rt=ft+ζ,其中ζ为设定的惩罚值;
采用资格迹记录过去的学习过程中各规则中各动作的选择情况;定义规则l在时间t时动作ak的资格迹
Figure GDA00025961032200000411
其中γ是强化学习中对未来回报的折扣率,0<γ≤1,λ是资格迹随时间衰减的遗忘率;在1条规则中,所有 7个基本动作的资格迹都是先对上一时刻的资格迹进行衰减计算,然后对所选择那个动作的资格迹加上本条规则的触发强度;
定义TD误差δt+1=rt+1+γVt(St+1)-Qt(St,At),即根据t+1时刻的回报值和最优动作值函数的估计之和,减去上一时刻的Q值,以此来反映动作At的优劣;更新各规则中各动作的权值qt+1(Sl,ak)=qt(Sl,ak)+ξδt+1et(Sl,ak),l=1,2,…, m,k=1,2,…, 7,其中ξ表示强化学习的学习率;
当前状态下所有规则中触发强度最大的值Φl小于设定的门限值K时,认为此时所有现存的规则不能有效反映当前状态,增加一条规则;
在新规则产生时,对每一个输入状态进行判断,看当前输入状态si与其最邻近的隶属函数的中心值cij距离的大小,如果距离值小于设定门限,则在该状态维度不产生新的隶属函数;如果距离值大于门限,则产生一个隶属函数,该隶属函数的的中心值即为输入状态si,隶属函数的宽度
Figure GDA0002596103220000051
d为调节系数;
4)基于动态模糊Q学习的空战机动决策强化学习的算法流程;设当前时刻为t+1且无人机已经执行了动作At并已获得强化学习回报rt+1,则算法运行步骤如下:
①根据无人机和目标当前的运动状态计算出态势中的各个输入量si组成状态St+1,再计算当前状态St+1的各规则触发强度,进而计算Vt(St+1);
②计算TD误差δt+1
③调整各规则内动作的权值qt+1
④进行规则完整性检查,如果不满足规则完整性,则生成一条新规则;
⑤根据ε-greedy算法,基于各规则中更新后的权值qt+1选择各个规则的动作,再产生t+1时刻的动作输出At+1(St+1);
⑥计算出当前时刻Q函数的估计值Qt+1(St+1,At+1),用于下一步TD误差的计算;
⑦更新各规则中动作的资格迹,用于下一步的参数更新;
⑧无人机执行At+1(St+1),空战状态转移至St+2,获得回报rt+2,算法转入步骤①再次循环;
步骤三,将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练,多次训练后将模型生成的模糊规则库作为无人机空战机动的决策依据,依据规则判断在不同的态势下应该执行哪类机动,完成自主决策的过程。
当距离R>3000m时,
Figure GDA0002596103220000061
ωR=0.3、ωv=0.25、ωh=0.15,其余情况下
Figure GDA0002596103220000062
ωR=0.3、ωv=0.15、ωh=0.15。
所述的门限值a取0.35,b取0.8,β取5,ζ取-6;所述的折扣率γ取0.9,遗忘率λ取0.95,学习率ξ取0.05,门限值κ取0.25,调节系数d取0.75。
本发明的有益效果是:基于强化学习的方法,建立了无人机空战机动决策规则的产生方法,采用模糊的方法对状态空间进行了动态划分,根据规则产生的机动序列具有鲁棒性和远视性,避免了人为编写无人机空战规则的粗疏性和繁琐易错,动态学习的过程和训练方法能使得产生的规则不断精细准确,从而能够有效提升无人机的自主空战能力。
附图说明
图1是飞机运动模型参数说明图。
图2是方位角与距离定义图。
图3是目标匀速直线飞行条件下无人机机动决策的结果图。
图4是本发明的流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明从状态空间描述和环境建模两方面完成整个强化学习机动决策算法的创建,主要工作包括以下内容:
1)状态空间的划分和描述,采用模糊的方法将空战态势中的各状态模糊化,作为强化学习的状态输入。
2)空战过程强化学习环境的构建,构建无人机的运动控制模型,明确强化学习的动作空间和状态转移函数,同时基于空战态势的各个要素构建空战优势函数,作为强化学习中环境的回报值返回给无人机,以此引导无人机向取得空战优势的方向学习。
设无人机与目标进行一对一空战,如图4所示,本发明的基于强化学习的空战机动决策方法,用于无人机,具体实现步骤如下:
步骤一:构建一对一空战的态势模型,明确影响空战态势的参数和无人机的控制决策量。
a.建立飞机的运动方程。本发明阐述机动决策这类较为顶层的控制问题,因此采用三自由度的质点模型,不考虑具体的刚体姿态和飞控算法。
构建飞机的运动模型为
Figure GDA0002596103220000071
模型参数定义如图1所示,假设速度矢量与机体轴向一致,式中x、y、z表示飞机在惯性坐标系中的位置;v为飞机速度,
Figure GDA0002596103220000072
表示v在三个坐标轴方向的分量;航迹角θ表示速度与x-O-y平面的夹角;航向角α表示速度在x-O-y平面上的投影v′与 y轴的夹角;g为重力加速度;飞机的控制量设为[ηxz,φ],其中ηx为沿着速度方向的过载,代表飞机的推力,ηz为沿着机顶方向过载,即法向过载,φ为绕速度矢量的滚转角,用以表征平台滚转的控制量。
b.建立一对一空战的优势函数。优势函数从角度、距离、速度、高度四个方面综合评价空战中我方战机相对于目标的态势优劣。
①角度优势
空战中,尾追态势是优势,背向或相向飞行认为处于均势,被尾追时处于劣势,本发明采用角度函数表述角度优势,角度优势函数
Figure GDA0002596103220000073
如式(2)所示。
Figure GDA0002596103220000074
其中
Figure GDA0002596103220000075
Figure GDA0002596103220000076
Figure GDA0002596103220000077
分别表示无人机和目标的方位角,即无人机与目标的速度向量分别与距离向量R的夹角,两个角度与距离的定义如图2所示。
R=[xU-xT,yU-yT,zU-zT] (3)
v=[vcosθsinα,vcosθcosα,vsinθ]T (4)
Figure GDA0002596103220000078
由公式(2)至(5)可以计算出角度优势函数值,根据图2可知,当
Figure GDA0002596103220000081
Figure GDA0002596103220000082
趋于π时,角度优势函数最大,此时无人机处于对目标的尾追攻击态势,处于优势,反之,当
Figure GDA0002596103220000083
Figure GDA0002596103220000084
趋于0时,角度优势函数最小,此时无人机处于被目标尾追攻击态势,处于劣势。
②距离优势
距离优势函数与无人机的武器射程有关,为了使强化学习在距离维度上有一个学习的方向性的引导,距离优势函数定义为
Figure GDA0002596103220000085
式中:R=||R||,即距离向量的模,Rw表示无人机的武器射程,σ为标准偏差。
③速度优势
空战中,武器设计有相对与目标的最佳攻击速度,设为
Figure GDA0002596103220000086
式中vmax表示无人机的速度上限,vT表示目标速度。基于最佳攻击速度的定义,定义速度优势函数fv(v)为
Figure GDA0002596103220000087
④高度优势
空战中,处于较高的相对高度具有势能优势,考虑武器性能因素,在攻击时存在最佳的攻击的高度差hop。高度优势函数fh(△z)定义为
Figure GDA0002596103220000088
其中,hop表示无人机对目标的最佳攻击高度差,△z=zU-zT为无人机与目标的高度差,σh为最佳攻击高度标准偏差。
以上四个优势函数的取值范围均为[0,1],当4个优势函数均趋近于1时,无人机处于空战的优势位置,当优势函数均趋近于0时,无人机处于被目标攻击的不利态势。在不同态势下,各个因素对空战态势的影响不同,因此,综合空战优势函数设为各因素优势函数的加权和。
Figure GDA0002596103220000097
其中
Figure GDA0002596103220000091
ωR、ωv、ωh分别是角度、距离、速度、高度优势函数的权重。各个权重的和为1,但在不同态势下,各权重大小分配不同,在距离较远的情况下,距离和速度的权重较大,在进入攻击距离后角度和高度的权重较大。
步骤二:构建空战机动决策的动态模糊Q学习模型,确定强化学习的各要素和算法流程。
a.确定空战机动决策强化学习的状态空间,基于模糊理论将状态输入模糊化。
空战机动决策强化学习的状态空间应该包括所有影响空战优势函数计算的双方态势因素,包括:
①无人机、目标的方位角
Figure GDA0002596103220000092
Figure GDA0002596103220000093
在状态空间中以其乘积的形式
Figure GDA0002596103220000094
输入,则
Figure GDA0002596103220000095
②无人机与目标的距离R,R∈[Rmin,Rmax],其中Rmin和Rmax分别表示空战态势中的最小和最大距离。
③无人机与目标的速度vU和vR,v∈[vmin,vmax],无人机和目标均有运动速度的上限和下限。
④无人机和目标之间的高度差△z。
以上述
Figure GDA0002596103220000096
R、vU、vR、△z六个量作为强化学习的输入状态,记为si,描述当前时刻的空战态势。
为了强化学习的计算,以模糊隶属函数将各个状态输入的取值空间模糊化。本发明采用高斯函数作为各个输入的模糊隶属函数,将每一个状态的取值空间划分为多个高斯函数的叠加组合。如果状态si具有n个隶属函数,则输入状态属于其中第j个隶属函数的隶属度可以计算为
Figure GDA0002596103220000101
其中cij和σij是状态si第j个高斯隶属函数的中心和宽度。
通过模糊化,将各个具有连续取值范围的状态空间划分成了离散的隶属函数,为动态模糊Q学习中规则的建立构建了条件。
b.确定空战机动决策强化学习的行动空间,并从行动空间中选择典型值构建空战中无人机的基本动作。
根据(1)式所建立的飞机运动模型,飞机的控制量设为[ηxz,φ],在每一个决策时刻,输入不同的控制量,无人机根据运动模型转移至下一个状态,从而改变空战中的态势。本发明首先按照7种典型的机动动作选取7组控制量,然后在模糊强化学习中以各个规则的触发强度对各个规则学习的控制量进行加权,进而覆盖整个行动空间。 7种基本动作为:
①匀速直线运动,[ηxz,φ]=[0,1,0]。
②最大加速度飞行,
Figure GDA0002596103220000102
③最大减速飞行,
Figure GDA0002596103220000103
④最大过载左转,
Figure GDA0002596103220000104
⑤最大过载右转,
Figure GDA0002596103220000105
⑥最大过载爬升,
Figure GDA0002596103220000106
⑦最大过载俯冲,
Figure GDA0002596103220000107
分别将这7种动作的控制量输入记为ak,k=1,2,…, 7。
c.基于模糊逻辑和Q学习算法构建空战机动决策的动态模糊Q学习模型。
传统的Q学习算法是强化学习中应用最为广泛的方法之一,但是只能处理离散状态空间和离散行动空间的问题,而模糊逻辑能够在泛化状态空间的同时产生连续的行动空间,因此本发明将Q学习算法与模糊逻辑相结合,构建出空战机动决策的强化学习算法模型。
由于模糊逻辑是条件-结果的规则型结构,因此空战机动决策的思路设定为:以各个状态si分属不同的隶属函数的组合为条件,以执行的7个基本动作并配属相应的动作权值为结果构建规则。通过Q学习算法,以空战优势函数的大小作为回报值进行强化学习,不断调整每一条规则中所执行各个动作的权值,使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势。与此同时,通过设定标准阈值,让规则能够在学习过程中动态的细化和调整,不断产生新的规则,在保证机动决策的鲁棒性的同时让决策更加准确。
在算法的构建过程中,需要在上述内容的基础上计算以下这些值:
①规则的触发强度。在一条规则中,设定一个状态隶属于其中一个隶属函数,则该条规则中各状态隶属于其设定隶属函数的隶属度乘积被定义为该条规则的触发强度,规则l的触发强度为
Figure GDA0002596103220000111
为了计算的收敛,将触发值归一化,设有m条规则,归一化后规则l的触发强度为
Figure GDA0002596103220000112
②行动值的定义与更新。定义规则l中各行动值ak,k=1,2,…, 7的权值为
Figure GDA0002596103220000113
根据ε-greedy算法针对7个
Figure GDA0002596103220000114
选取规则l的行动值为al,则在t时刻全局行动的输出表征为各条规则的行动值al与其触发强度ρl的乘积之和,即
Figure GDA0002596103220000115
其中
Figure GDA0002596103220000116
表征t时刻的状态输入。
③Q值的定义与计算。在传统强化学习中,Q值定义为在当前状态St下执行行动At后,所有后续获得的回报值的累加的期望值。本方案采用线性近似的方法对Q值进行估计,Q函数为
Figure GDA0002596103220000117
式中,
Figure GDA0002596103220000118
表示规则l中所选取行动
Figure GDA0002596103220000119
所对应的权值。对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和,即
Figure GDA0002596103220000121
④强化学习回报值的定义。本发明以空战优势函数(10)为基础进行强化学习回报值的定义。
空战优势函数能从数据上反映出各个态势情况下无人机相对于目标的优势值。但是优势函数的取值范围为[0,1],不能较好地引导强化学习的学习方向,因此要在优势函数的基础上增加奖惩项,以加速引导强化学习向更好的方向发展。
设定门限值a和b,且0<a<b<1。当优势函数值ft>b时,无人机进入优势地位,强化学习回报值rt=ft+β,其中β为一个较大的奖励值;当优势函数值a<ft<b时,无人机处于均势位置,强化学习的回报值rt=ft;当优势函数值ft<a时,无人机处于劣势,强化学习的回报值rt=ft+ζ,其中ζ是一个较小的负值,用以完成惩罚。综合考虑,强化学习的回报值可计算为
Figure GDA0002596103220000122
⑤资格迹的定义与计算。为了加速强化学习的速度,本发明采用资格迹来记录过去的学习过程中各规则中各动作的选择情况。定义et(Sl,ak)为规则l在时间t时选择动作ak的资格迹,其计算公式为
Figure GDA0002596103220000123
其中γ是强化学习中对未来回报的折扣率,0<γ≤1,λ是资格迹随时间衰减的遗忘率, 0<λ<1。在1条规则中,所有7个动作的资格迹都是先对上一时刻的资格迹进行衰减计算,然后对所选择那个动作的资格迹加上本条规则的触发强度。
⑥TD误差的计算和动作权值的更新。本发明中,TD误差定义为
δt+1=rt+1+γVt(St+1)-Qt(St,At) (19)
TD误差是根据t+1时刻的回报值和最优动作值函数的估计之和,减去上一时刻的Q值,以此来反映动作At的优劣。根据TD误差,各规则中各动作的权值可以通过(20) 式更新,即
Figure GDA0002596103220000131
其中ξ表示强化学习的学习率,一般为一个小于1的正数。
⑦规则的动态生成标准。本发明采用高斯函数对六个输入状态空间进行了模糊化,但人为事先对状态空间的划分不能最大限度地反映各个状态输入在其空间中的分布情况,难免会造成划分粗疏的情况,因此采用动态规则生成的方法对状态空间进行进一步地精细化分。
设定一个门限值κ,在当前状态下当所有规则中触发强度最大的值Φl小于κ时,认为此时所有现存的规则不能有效反映当前状态,应该增加一条规则。
在新规则产生时,对每一个输入状态进行判断,看当前输入状态si与其最邻近的隶属函数的中心值cij距离的大小,如果距离值小于一定门限,则在该状态维度不产生新的隶属函数;如果距离值大于门限,则产生一个隶属函数,该隶属函数的的中心值即为输入状态si,隶属函数的宽度按(21)式计算,即
Figure GDA0002596103220000132
其中,d为调节系数,宽度的计算就是取新隶属函数中心与邻居隶属函数中心的距离的最大值再除以调节系数。在添加新的隶属函数后,其两个邻居隶属函数的宽度也要按(21)式调整。
d.基于动态模糊Q学习的空战机动决策强化学习的算法流程。设当前时刻为t+1且无人机已经执行了动作At并已获得强化学习回报rt+1,则算法运行步骤如下:
①根据无人机和目标当前的运动状态计算出态势中的各个输入量si组成状态St+1,再根据(13)式计算当前状态St+1的各规则触发强度,进而根据(16)式计算Vt(St+1);
②根据(19)式计算TD误差δt+1
③根据(20)式调整各规则内动作的权值为qt+1
④进行规则完整性检查,如果不满足规则完整性,则按照c.⑦所述内容动态生成一条新规则。
⑤根据ε-greedy算法,基于各规则中更新后的权值qt+1选择各个规则的动作,再根据(14)式产生t+1时刻的动作输出At+1(St+1);
⑥根据(15)式计算出当前时刻Q函数的估计值Qt+1(St+1,At+1),用于下一步TD误差的计算。
⑦根据(18)式更新各规则中动作的资格迹,用于下一步的参数更新。
⑧无人机执行At+1(St+1),空战状态转移至St+2,获得回报rt+2,算法转入步骤①再次循环。
步骤三:将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练,多次训练后,模型生成的模糊规则库即可作为无人机空战机动的决策依据,依据规则判断在不同的态势下应该执行哪类机动,完成自主决策的过程。
在训练过程中,无人机和目标飞机的运动模型均采用(1)式所述模型。无人机的行动决策按照所建立的强化学习算法输出控制量,目标飞机的飞行轨迹在先期训练过程中可以采取简单的基本飞行动作,如匀速直线运动、匀速转弯运动等,这样能较快地产生有助于强化学习算法在后期训练时快速收敛的规则,待无人机的对目标基本动作的强化学习成熟后,可将无人机的强化学习机动决策方法和已经产生的规则移植到目标飞机中,再进行对抗,这样就可以发挥强化学习中探索和利用相结合的特点,不断探索出新的策略,使得机动决策的输出更加合理和完善。
以无人机和目标飞机相向飞行,目标匀速直线运动飞行的空战场景为例,按照发明内容所述三个步骤对无人机空战机动决策进行强化学习建模和训练。其中各物理量的单位均为公制。
步骤一:构建一对一空战的态势模型,明确影响空战态势的参数和无人机的控制决策量。
a.建立飞机的运动方程。无人机和目标的运动模型均采用(1)式所述的质点模型。
b.建立一对一空战的优势函数。优势函数从角度、距离、速度、高度四个方面综合评价空战中我方战机相对于目标的态势优劣。
①角度优势
空战中,尾追态势是优势,背向或相向飞行认为处于均势,被尾追时处于劣势,本发明采用角度函数表述角度优势,角度优势函数
Figure GDA0002596103220000141
如式(2)所示。
②距离优势
距离优势函数与无人机的武器射程有关,距离优势函数定义如(6)式所示。
Rw表示无人机的武器射程,取1000,σ为标准偏差,取500。
③速度优势
最佳攻击速度按(7)式子计算,其中最大速度vmax取406,对最小速度vmin在此设定为90,速度优势函数fv(v)按(8)式计算。
④高度优势
高度优势函数fh(△z)按(9)式计算。其中最佳攻击高度差hop取0,最佳攻击高度标准偏差σh取1000。
综合空战优势函数按(10)式计算,对于
Figure GDA0002596103220000151
ωR、ωv、ωh,当距离R>3000时,
Figure GDA0002596103220000152
ωR=0.3、ωv=0.25、ωh=0.15,其余情况下
Figure GDA0002596103220000153
ωR=0.3、ωv=0.15、ωh=0.15。
步骤二:构建空战机动决策的动态模糊Q学习模型,确定强化学习的各要素和算法流程。
a.确定空战机动决策强化学习的状态空间,基于模糊理论将状态输入模糊化。
Figure GDA0002596103220000154
R、vU、vR、△z六个量作为强化学习的输入状态,记为si(i=1,2,…,6),描述当前时刻的空战态势,其中Rmax取10000,Rmin取100。各个状态均采用高斯函数作为输入的模糊隶属函数,将每一个状态的取值空间划分为多个高斯函数的叠加组合。隶属度计算按(11)式子完成。
b.确定空战机动决策强化学习的行动空间,并从行动空间中选择典型值构建空战中无人机的基本动作。
所构建的7种基本动作为:
①匀速直线运动,[ηxz,φ]=[0,1,0];②最大加速度飞行,
Figure GDA0002596103220000155
③最大减速飞行,
Figure GDA0002596103220000156
④最大过载左转,
Figure GDA0002596103220000157
⑤最大过载右转,
Figure GDA0002596103220000158
⑥最大过载爬升,
Figure GDA0002596103220000159
⑦最大过载俯冲,
Figure GDA00025961032200001510
分别将这7种动作的控制量输入记为ak,k=1,2,…, 7。其中
Figure GDA00025961032200001511
取1.5,
Figure GDA00025961032200001512
取-1,
Figure GDA0002596103220000161
取9。
c.基于模糊逻辑和Q学习算法构建空战机动决策的动态模糊Q学习模型。
①规则的触发强度按(12)、(13)式计算;②行动值的定义与更新按(14)式进行;③Q值的定义与计算。Q函数按(15)式计算,最优行动的Q值估计按(16)式计算。④强化学习回报值的按(17)式计算,其中a取0.35,b取0.8,β取5,ζ取 -6。⑤资格迹按(18)式计算,γ其中强化学习中对未来回报的折扣率γ取0.9,λ资格迹随时间衰减的遗忘率λ取0.95。⑥TD误差的计算按(19)式,动作权值按(20) 更新,其中强化学习的学习率ξ取0.05。⑦规则的动态生成过程中,门限值κ取0.25, (21)式中调节系数d取0.75。
d.基于动态模糊Q学习的空战机动决策强化学习的算法流程。设当前时刻为t+1且无人机已经执行了动作At并已获得强化学习回报rt+1,则算法运行步骤如下:
①根据无人机和目标当前的运动状态计算出态势中的各个输入量si(i=1,2,…,6) 组成状态St+1,再根据(13)式计算当前状态St+1的各规则触发强度,进而根据(16) 式计算Vt(St+1);
②根据(19)式计算TD误差δt+1
③根据(20)式调整各规则内动作的权值为qt+1
④进行规则完整性检查,如果不满足规则完整性,则按照c.⑦所述内容动态生成一条新规则。
⑤根据ε-greedy算法,基于各规则中更新后的权值qt+1选择各个规则的动作,再根据(14)式产生t+1时刻的动作输出At+1(St+1);
⑥根据(15)式计算出当前时刻Q函数的估计值Qt+1(St+1,At+1),用于下一步TD误差的计算。
⑦根据(18)式更新各规则中动作的资格迹,用于下一步的参数更新。
⑧无人机执行At+1(St+1),空战状态转移至St+2,获得回报rt+2,算法转入步骤①再次循环。
步骤三:将构建的空战机动决策动态模糊Q学习模型在空战场景下进行学习训练。本例中设定目标进行匀速直线运动,无人机针对目标进行试错学习。
无人机的初始坐标点为(0,0,2700),速度为250m/s,航迹俯仰角为0,航向角为45°。目标初始位置为(3000,3000,3000),速度为204m/s,航迹俯仰角为0,航向角为-135°。设决策周期T=1s,每轮学习进行30个决策周期。目标执行匀速直线飞行,则在每一时刻的行动均为[0,1,0]。目标和无人机的运动方程均为(1)式。
考虑仿真边界条件限制,当无人机的高度超出限制值之后,或者两机距离小于最小距离限制后,强化学习回报值均设为-10,且退出此轮仿真,重新从初始位置开始新一轮仿真。
按照上述场景和参数值,根据步骤二.d中给出的动态模糊Q学习算法步骤从初始状态向后运行30个决策步长,即一轮学习。执行8000轮强化学习后的效果如图3所示。
图中实线为无人机轨迹,虚线为目标轨迹,可以看出,无人机在初始时刻开始爬升,消除了高度劣势,进而右转爬升再左转,进而形成了对目标尾追的优势态势,证明本发明所提出的基于强化学习的空战机动决策方法,通过大量训练能够产生合理的机动决策序列,能够让无人机完成自主决策进而达到空战中的优势。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种基于强化学习的无人机空战机动决策方法,其特征在于包括下述步骤:
步骤一,构建与目标一对一空战的无人机运动模型
Figure FDA0002596103210000011
假设速度矢量与机体轴向一致,式中x、y、z表示飞机在惯性坐标系中的位置,v为飞机速度,
Figure FDA0002596103210000012
表示v在三个坐标轴方向的分量,θ为航迹角,α为航向角,g为重力加速度,无人机的控制量为[ηxz,φ],其中ηx为沿着速度方向的过载,ηz为沿着机顶方向过载,φ为绕速度矢量的滚转角;
建立角度优势函数
Figure FDA0002596103210000013
其中
Figure FDA0002596103210000014
Figure FDA0002596103210000015
Figure FDA0002596103210000016
分别表示无人机和目标的方位角,即无人机与目标的速度向量分别与距离向量R的夹角;
建立距离优势函数
Figure FDA0002596103210000017
其中,R=||R||,即距离向量的模,Rw表示无人机的武器射程,σ为标准偏差;
建立速度优势函数
Figure FDA0002596103210000018
其中,武器相对目标的最佳攻击速度
Figure FDA0002596103210000019
vmax表示无人机的速度上限,vT表示目标速度;
建立高度优势函数
Figure FDA00025961032100000110
其中,hop表示无人机对目标的最佳攻击高度差,Δz为无人机与目标的高度差,σh为最佳攻击高度标准偏差;
得到综合空战优势函数
Figure FDA0002596103210000021
其中
Figure FDA0002596103210000022
ωR、ωv、ωh分别是角度、距离、速度、高度优势函数的权重,各权重之和为1;
步骤二,构建空战机动决策的动态模糊Q学习模型;
1)确定空战机动决策强化学习的状态空间,包括无人机和目标的方位角
Figure FDA0002596103210000023
Figure FDA0002596103210000024
无人机与目标的距离R、无人机与目标的速度vU和vR以及无人机和目标之间的高度差△z;以上述
Figure FDA0002596103210000025
R、vU、vR、△z六个量作为强化学习的输入状态,记为si,采用高斯函数作为各个输入状态的模糊隶属函数,将每一个状态的取值空间划分为多个高斯函数的叠加组合,如果状态si具有n个隶属函数,则输入状态属于其中第j个隶属函数的隶属度
Figure FDA0002596103210000026
i=1,2,…,6,j=1,2,…,n,其中cij和σij是状态si第j个高斯隶属函数的中心和宽度;
2)选择典型值构建空战中无人机的基本动作,所述的基本动作包括匀速直线运动、最大加速度飞行、最大减速飞行、最大过载左转、最大过载右转、最大过载爬升和最大过载俯冲,对应的无人机控制量[ηxz,φ]分别为[0,1,0]、
Figure FDA0002596103210000027
Figure FDA0002596103210000028
Figure FDA0002596103210000029
分别将七个基本动作的控制量输入记为ak,k=1,2,…,7;
3)以各个状态si分属不同的隶属函数的组合为条件,以执行的7个基本动作并配属相应的动作权值为结果构建规则;通过Q学习算法,以空战优势函数的大小作为回报值进行强化学习,调整每一条规则中所执行各个动作的权值,使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势;
在一条规则中,设定一个状态隶属于其中一个隶属函数,则定义该条规则中各状态隶属于其设定隶属函数的隶属度乘积为该条规则的触发强度,规则l的触发强度
Figure FDA00025961032100000210
将触发值归一化,设有m条规则,归一化后规则l的触发强度
Figure FDA00025961032100000211
Figure FDA00025961032100000212
表示对所有规则的触发强度求和,Φl表示规则l的触发强度Φl
定义规则l中基本动作的控制量输入ak的权值为
Figure FDA0002596103210000031
根据ε-greedy算法针对7个
Figure FDA0002596103210000032
选取一个控制量作为规则l的行动值al,则在t时刻全局行动的输出表征为各条规则的行动值al与其触发强度ρl的乘积之和,即
Figure FDA0002596103210000033
其中
Figure FDA0002596103210000034
表征t时刻的状态输入;
定义Q值为当前状态St下执行行动At后,所有后续获得的回报值的累加的期望值;采用线性近似的方法对Q值进行估计,
Figure FDA0002596103210000035
Figure FDA0002596103210000036
表示规则l中所选取行动
Figure FDA0002596103210000037
所对应的权值;对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和,即
Figure FDA0002596103210000038
其中maxa∈Aqt(Sl,a)表示规则l中各动作权值中的最大值,
Figure FDA0002596103210000039
表示规则l的触发强度;
以空战优势函数为基础强化学习回报值;根据设定的门限值a和b,0<a<b<1,当优势函数值ft>b时,无人机进入优势地位,强化学习回报值rt=ft+β,其中β为设定的奖励值;当优势函数值a<ft<b时,无人机处于均势位置,强化学习的回报值rt=ft;当优势函数值ft<a时,无人机处于劣势,强化学习的回报值rt=ft+ζ,其中ζ为设定的惩罚值;
采用资格迹记录过去的学习过程中各规则中各动作的选择情况;定义规则l在时间t时动作ak的资格迹
Figure FDA00025961032100000310
其中γ是强化学习中对未来回报的折扣率,0<γ≤1,λ是资格迹随时间衰减的遗忘率;在1条规则中,所有7个基本动作的资格迹都是先对上一时刻的资格迹进行衰减计算,然后对所选择那个动作的资格迹加上本条规则的触发强度;
定义TD误差δt+1=rt+1+γVt(St+1)-Qt(St,At),即根据t+1时刻的回报值和最优动作值函数的估计之和,减去上一时刻的Q值,以此来反映动作At的优劣;更新各规则中各动作的权值qt+1(Sl,ak)=qt(Sl,ak)+ξδt+1et(Sl,ak),l=1,2,…,m,k=1,2,…,7,其中ξ表示强化学习的学习率;
当前状态下所有规则中触发强度最大的值Φl小于设定的门限值K时,认为此时所有现存的规则不能有效反映当前状态,增加一条规则;
在新规则产生时,对每一个输入状态进行判断,看当前输入状态si与其最邻近的隶属函数的中心值cij距离的大小,如果距离值小于设定门限,则在该状态维度不产生新的隶属函数;如果距离值大于门限,则产生一个隶属函数,该隶属函数的的中心值即为输入状态si,隶属函数的宽度
Figure FDA0002596103210000041
d为调节系数;
4)基于动态模糊Q学习的空战机动决策强化学习的算法流程;设当前时刻为t+1且无人机已经执行了动作At并已获得强化学习回报rt+1,则算法运行步骤如下:
①根据无人机和目标当前的运动状态计算出态势中的各个输入量si组成状态St+1,再计算当前状态St+1的各规则触发强度,进而计算Vt(St+1);
②计算TD误差δt+1
③调整各规则内动作的权值qt+1
④进行规则完整性检查,如果不满足规则完整性,则生成一条新规则;
⑤根据ε-greedy算法,基于各规则中更新后的权值qt+1选择各个规则的动作,再产生t+1时刻的动作输出At+1(St+1);
⑥计算出当前时刻Q函数的估计值Qt+1(St+1,At+1),用于下一步TD误差的计算;
⑦更新各规则中动作的资格迹,用于下一步的参数更新;
⑧无人机执行At+1(St+1),空战状态转移至St+2,获得回报rt+2,算法转入步骤①再次循环;
步骤三,将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练,多次训练后将模型生成的模糊规则库作为无人机空战机动的决策依据,依据规则判断在不同的态势下应该执行哪类机动,完成自主决策的过程。
2.根据权利要求1所述的基于强化学习的无人机空战机动决策方法,其特征在于:当距离R>3000m时,
Figure FDA0002596103210000043
ωR=0.3、ωv=0.25、ωh=0.15,其余情况下
Figure FDA0002596103210000042
ωR=0.3、ωv=0.15、ωh=0.15。
3.根据权利要求1所述的基于强化学习的无人机空战机动决策方法,其特征在于:所述的门限值a取0.35,b取0.8,β取5,ζ取-6;所述的折扣率γ取0.9,遗忘率λ取0.95,学习率ξ取0.05,门限值κ取0.25,调节系数d取0.75。
CN201810197989.8A 2018-03-12 2018-03-12 一种基于强化学习的无人机空战机动决策方法 Expired - Fee Related CN108319286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810197989.8A CN108319286B (zh) 2018-03-12 2018-03-12 一种基于强化学习的无人机空战机动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810197989.8A CN108319286B (zh) 2018-03-12 2018-03-12 一种基于强化学习的无人机空战机动决策方法

Publications (2)

Publication Number Publication Date
CN108319286A CN108319286A (zh) 2018-07-24
CN108319286B true CN108319286B (zh) 2020-09-22

Family

ID=62902307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810197989.8A Expired - Fee Related CN108319286B (zh) 2018-03-12 2018-03-12 一种基于强化学习的无人机空战机动决策方法

Country Status (1)

Country Link
CN (1) CN108319286B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255442B (zh) * 2018-09-27 2022-08-23 北京百度网讯科技有限公司 基于人工智能的控制决策模块的训练方法、设备及可读介质
CN109597425B (zh) * 2018-10-18 2021-10-26 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN113015981A (zh) * 2018-11-16 2021-06-22 华为技术有限公司 利用第一原则和约束进行有效、连续和安全学习的系统和方法
CN109655066B (zh) * 2019-01-25 2022-05-17 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109975800B (zh) * 2019-04-01 2020-12-29 中国电子科技集团公司信息科学研究院 组网雷达资源管控方法及装置、计算机可读存储介质
CN109870162B (zh) * 2019-04-04 2020-10-30 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110058608B (zh) * 2019-04-08 2022-06-10 合肥工业大学 多无人机协同对抗的控制方法、系统及存储介质
CN110007688B (zh) * 2019-04-25 2021-06-01 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110196605B (zh) * 2019-04-26 2022-03-22 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN109991987B (zh) * 2019-04-29 2023-08-04 北京智行者科技股份有限公司 自动驾驶决策方法及装置
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110502033B (zh) * 2019-09-04 2022-08-09 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法
CN110806756B (zh) * 2019-09-10 2022-08-02 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110554707B (zh) * 2019-10-17 2022-09-30 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN112712385B (zh) * 2019-10-25 2024-01-12 北京达佳互联信息技术有限公司 广告推荐方法、装置、电子设备及存储介质
CN110991545B (zh) * 2019-12-10 2021-02-02 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置
CN111006693B (zh) * 2019-12-12 2021-12-21 中国人民解放军陆军工程大学 智能飞行器航迹规划系统及其方法
CN111240353B (zh) * 2020-01-07 2021-06-15 南京航空航天大学 基于遗传模糊树的无人机协同空战决策方法
CN111260031B (zh) * 2020-01-14 2022-03-01 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112287451B (zh) * 2020-09-04 2022-09-09 清华大学 空战飞机设计参数及智能体综合迭代系统
CN112124537B (zh) * 2020-09-23 2021-07-13 哈尔滨工程大学 一种海底生物自主吸取捕捞的水下机器人智能控制方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112486200B (zh) * 2020-10-15 2022-07-26 合肥工业大学 多无人机协同对抗在线重决策方法
CN112668089B (zh) * 2020-11-30 2022-07-15 成都飞机工业(集团)有限责任公司 评估战斗机机动动作下各系统稳态与过渡态性能的方法
CN112947111A (zh) * 2020-12-29 2021-06-11 中国航空工业集团公司沈阳飞机设计研究所 一种面向机器学习的中远距空中动作参数确定方法
CN113128699B (zh) * 2021-03-12 2022-11-15 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113126651B (zh) * 2021-03-12 2022-07-19 合肥工业大学 多无人机协同对抗的智能决策装置和系统
CN112947581B (zh) * 2021-03-25 2022-07-05 西北工业大学 基于多智能体强化学习的多无人机协同空战机动决策方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113110547B (zh) * 2021-04-21 2022-06-07 吉林大学 一种微型航空飞行器的飞行控制方法、装置及设备
CN113467481B (zh) * 2021-08-11 2022-10-25 哈尔滨工程大学 一种基于改进Sarsa算法的路径规划方法
CN113625739A (zh) * 2021-08-25 2021-11-09 中国航空工业集团公司沈阳飞机设计研究所 一种基于试探机动选择算法的专家系统优化方法
CN114330115B (zh) * 2021-10-27 2023-06-09 中国空气动力研究与发展中心计算空气动力研究所 一种基于粒子群搜索的神经网络空战机动决策方法
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114239392B (zh) * 2021-12-09 2023-03-24 南通大学 无人机决策模型训练方法、使用方法、设备及介质
CN113962032B (zh) * 2021-12-21 2022-04-08 中国科学院自动化研究所 空战机动决策方法及装置
CN116339130B (zh) * 2023-05-25 2023-09-15 中国人民解放军国防科技大学 基于模糊规则的飞行任务数据获取方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929281A (zh) * 2012-11-05 2013-02-13 西南科技大学 一种不完全感知环境下的机器人kNN路径规划方法
CN104932267A (zh) * 2015-06-04 2015-09-23 曲阜师范大学 一种采用资格迹的神经网络学习控制方法
WO2017004626A1 (en) * 2015-07-01 2017-01-05 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for providing reinforcement learning in a deep learning system
US9622133B1 (en) * 2015-10-23 2017-04-11 The Florida International University Board Of Trustees Interference and mobility management in UAV-assisted wireless networks
CN106020215A (zh) * 2016-05-09 2016-10-12 北京航空航天大学 一种基于单步预测矩阵博弈的近距空战自主决策方法
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107390706A (zh) * 2017-07-26 2017-11-24 北京航空航天大学 一种基于预演机动规则系统的无人机近距格斗决策方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A deep reinforcement learning based intelligent decision method for UCAV air combat;P. Liu and Y. Ma;《Proc. Asian Simul. Conf》;20171231;全文 *
Multi-target threat assessment in air combat based on entropy and VIKOR;Kun Zhang,ect.;《2017 Ninth International Conference on Advanced Computational Intelligence (ICACI)》;20170713;全文 *
Q-learning based air combat target assignment algorithm;Peng-cheng Luo,ect.;《2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC)》;20170209;全文 *
基于博弈论及Memetic算法求解的空战机动决策框架;顾佼佼等;《电光与控制》;20151231;第22卷(第1期);全文 *
基于强化学习的无人机空战机动决策;魏航;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20160115;全文 *
基于深度置信网络的近距空战态势评估;张彬超等;《北京航空航天大学学报》;20170828;第43卷(第7期);全文 *
基于统计学原理的无人作战飞机鲁棒机动决策;国海峰等;《兵工学报》;20170310;第38卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108319286A (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
CN108319286B (zh) 一种基于强化学习的无人机空战机动决策方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
Yang et al. Maneuver decision of UAV in short-range air combat based on deep reinforcement learning
CN112198870B (zh) 基于ddqn的无人机自主引导机动决策方法
CN112947581A (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
CN111880567A (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN113671825B (zh) 一种基于强化学习的机动智能决策规避导弹方法
CN114253296A (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN114237267A (zh) 基于强化学习的飞行机动决策的辅助方法
Zhao et al. Four-dimensional trajectory generation for UAVs based on multi-agent Q learning
Wu et al. Heterogeneous Mission Planning for Multiple UAV Formations via Metaheuristic Algorithms
Lei et al. Moving time UCAV maneuver decision based on the dynamic relational weight algorithm and trajectory prediction
Guo et al. Maneuver decision of UAV in air combat based on deterministic policy gradient
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN113885549B (zh) 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
Mobarez et al. Formation Flight of Fixed Wing UAV Based on Adaptive Neuro Fuzzy Inference System
CN113848982A (zh) 一种四旋翼无人机栖停机动轨迹规划、跟踪控制方法
CN114879490A (zh) 一种无人机栖落机动的迭代优化与控制方法
CN116796505B (zh) 一种基于示例策略约束的空战机动策略生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200922

Termination date: 20210312

CF01 Termination of patent right due to non-payment of annual fee