CN108319286B

CN108319286B - 一种基于强化学习的无人机空战机动决策方法

Info

Publication number: CN108319286B
Application number: CN201810197989.8A
Authority: CN
Inventors: 杨啟明; 张建东; 吴勇; 史国庆; 朱岩; 徐建城; 莫文莉
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2020-09-22
Anticipated expiration: 2038-03-12
Also published as: CN108319286A

Abstract

本发明提供了一种基于强化学习的无人机空战机动决策方法，首先创建飞机平台的运动模型；然后分析影响空战态势的各主要因素，在运动模型和空战态势因素分析的基础上，设计空战机动决策的动态模糊Q学习模型，确定强化学习的各要素和算法流程；对空战机动决策的状态空间进行模糊化作为强化学习的状态输入；选取典型空战动作作为强化学习基本行动，通过各模糊规则的触发强度加权求和实现连续行动空间的覆盖；在构建的空战优势函数为基础通过设置权重和叠加奖惩值的方法设置了强化学习的回报值。本发明可有效提高无人机进行空战机动自主决策的能力，具有较高的鲁棒性和自主寻优性，在不断的仿真和学习中无人机所做的决策水平不断提高。

Description

一种基于强化学习的无人机空战机动决策方法

技术领域

本发明属于人工智能的技术领域，具体涉及一种用于无人驾驶飞机的空战机动决策的实现方法。

背景技术

目前，无人机已经能够完成侦察、监视和对地攻击等任务，在现代战争中发挥着越来越难以替代的作用。但是由于空战对操控的实时性要求更高，目前对无人机采用的地面站遥控的操作办法很难完成对无人机准确、及时的操控，以期在空战中取得优势。因此，提升无人机的智能化水平，让无人机能够根据态势环境而自动产生控制指令完成空战中的机动动作是当前主要的研究方向。

让无人机完成空战机动自主决策，其实质是完成从空战态势到机动动作的映射，在不同态势下执行相应的机动动作。由于空战的态势较之于其他任务更加复杂，靠人工预编程的方法难以全面地覆盖空战任务的态势空间，更难以计算产生最优的机动动作决策。

强化学习是一种采用“试错”的方法与环境交互的学习方法，可以通过马尔科夫决策过程(MDP)对强化学习过程进行表征，通过计算当前状态下执行动作后的累计回报期望值的大小来判断动作选择的合理性。因此，通过强化学习产生的状态-动作映射考虑了动作的远期影响，能够获得很好的远期收益，而且Agent与环境交互的学习过程不需要训练样本，仅仅需要环境的回报值对执行的动作进行评价，因此通过建立无人机空战机动的强化学习模型，让代表无人机的Agent不断在仿真环境中探索和学习，反复迭代，就能产生一系列最优化的空战态势-机动动作的规则库，为无人机在空战中产生机动决策序列。

将具体实际问题完成在强化学习框架下的实例化需要完成两方面的工作，首先，需要解决实际问题中大规模连续状态空间的的划分和描述问题，合理的状态空间划分和描述能降低问题的复杂度，提升强化学习的效率和稳定性，其次，需要描述强化学习的外部环境，包括Agent在与外部环境交互过程中状态转移的模型构建和环境给予 Agent的回报函数的定义。

发明内容

为了克服现有技术的不足，本发明提供一种基于强化学习的无人机空战机动自主决策的产生方法，设计出符合空战控制问题约束的无人机空战机动强化学习算法结构，通过在构建的模拟空战环境中试错学习获得一系列合理的空战机动规则，提高无人机自主完成空战的能力。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤一，构建与目标一对一空战的无人机运动模型

假设速度矢量与机体轴向一致，式中x、y、z表示飞机在惯性坐标系中的位置，v为飞机速度，

表示v在三个坐标轴方向的分量，θ为航迹角，α为航向角，g为重力加速度，无人机的控制量为[η_x,η_z,φ]，其中η_x为沿着速度方向的过载，η_z为沿着机顶方向过载，φ为绕速度矢量的滚转角；

建立角度优势函数

其中

和

分别表示无人机和目标的方位角，即无人机与目标的速度向量分别与距离向量R的夹角；

建立距离优势函数

其中，R＝||R||，即距离向量的模， R_w表示无人机的武器射程，σ为标准偏差；

建立速度优势函数

其中，武器相对目标的最佳攻击速度

v_max表示无人机的速度上限，v_T表示目标速度；

建立高度优势函数

其中，h_op表示无人机对目标的最佳攻击高度差，Δz为无人机与目标的高度差，σ_h为最佳攻击高度标准偏差；

得到综合空战优势函数

其中

ω_R、ω_v、ω_h分别是角度、距离、速度、高度优势函数的权重，各权重之和为1；

步骤二，构建空战机动决策的动态模糊Q学习模型；

1)确定空战机动决策强化学习的状态空间，包括无人机和目标的方位角

和

无人机与目标的距离R、无人机与目标的速度v_U和v_R以及无人机和目标之间的高度差△z；以上述

R、v_U、v_R、△z六个量作为强化学习的输入状态，记为s_i，采用高斯函数作为各个输入状态的模糊隶属函数，将每一个状态的取值空间划分为多个高斯函数的叠加组合，如果状态s_i具有n个隶属函数，则输入状态属于其中第j个隶属函数的隶属度

i＝1,2,…,6，j＝1,2,…,n，其中c_ij和σ_ij是状态s_i第j个高斯隶属函数的中心和宽度；

2)选择典型值构建空战中无人机的基本动作，所述的基本动作包括匀速直线运动、最大加速度飞行、最大减速飞行、最大过载左转、最大过载右转、最大过载爬升和最大过载俯冲，对应的无人机控制量[η_x,η_z,φ]分别为[0,1,0]、

和

分别将七个基本动作的控制量输入记为a_k，k＝1,2,…, 7；

3)以各个状态s_i分属不同的隶属函数的组合为条件，以执行的7个基本动作并配属相应的动作权值为结果构建规则；通过Q学习算法，以空战优势函数的大小作为回报值进行强化学习，调整每一条规则中所执行各个动作的权值，使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势；

在一条规则中，设定一个状态隶属于其中一个隶属函数，则定义该条规则中各状态隶属于其设定隶属函数的隶属度乘积为该条规则的触发强度，规则l的触发强度

将触发值归一化，设有m条规则，归一化后规则 l的触发强度

表示对所有规则的触发强度求和，Φ_l表示规则l的触发强度Φ_l；

定义规则l中基本动作的控制量输入a_k的权值为

根据ε-greedy算法针对7个

选取一个控制量作为规则l的行动值a_l，则在t时刻全局行动的输出表征为各条规则的行动值a_l与其触发强度ρ_l的乘积之和，即

其中

表征t时刻的状态输入；

定义Q值为当前状态S_t下执行行动A_t后，所有后续获得的回报值的累加的期望值；采用线性近似的方法对Q值进行估计，

表示规则l 中所选取行动

所对应的权值；对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和，即

其中max_a∈Aq_t(S_l,a) 表示规则l中各动作权值中的最大值，

表示规则l的触发强度；

以空战优势函数为基础强化学习回报值；根据设定的门限值a和b，0<a<b<1，当优势函数值f_t>b时，无人机进入优势地位，强化学习回报值r_t＝f_t+β，其中β为设定的奖励值；当优势函数值a<f_t<b时，无人机处于均势位置，强化学习的回报值 r_t＝f_t；当优势函数值f_t<a时，无人机处于劣势，强化学习的回报值r_t＝f_t+ζ，其中ζ为设定的惩罚值；

采用资格迹记录过去的学习过程中各规则中各动作的选择情况；定义规则l在时间t时动作a_k的资格迹

其中γ是强化学习中对未来回报的折扣率，0<γ≤1，λ是资格迹随时间衰减的遗忘率；在1条规则中，所有 7个基本动作的资格迹都是先对上一时刻的资格迹进行衰减计算，然后对所选择那个动作的资格迹加上本条规则的触发强度；

定义TD误差δ_t+1＝r_t+1+γV_t(S_t+1)-Q_t(S_t,A_t)，即根据t+1时刻的回报值和最优动作值函数的估计之和，减去上一时刻的Q值，以此来反映动作A_t的优劣；更新各规则中各动作的权值q_t+1(S_l,a_k)＝q_t(S_l,a_k)+ξδ_t+1e_t(S_l,a_k)，l＝1,2,…, m，k＝1,2,…, 7，其中ξ表示强化学习的学习率；

当前状态下所有规则中触发强度最大的值Φ_l小于设定的门限值K时，认为此时所有现存的规则不能有效反映当前状态，增加一条规则；

在新规则产生时，对每一个输入状态进行判断，看当前输入状态s_i与其最邻近的隶属函数的中心值c_ij距离的大小，如果距离值小于设定门限，则在该状态维度不产生新的隶属函数；如果距离值大于门限，则产生一个隶属函数，该隶属函数的的中心值即为输入状态s_i，隶属函数的宽度

d为调节系数；

4)基于动态模糊Q学习的空战机动决策强化学习的算法流程；设当前时刻为t+1且无人机已经执行了动作A_t并已获得强化学习回报r_t+1，则算法运行步骤如下：

①根据无人机和目标当前的运动状态计算出态势中的各个输入量s_i组成状态S_t+1，再计算当前状态S_t+1的各规则触发强度，进而计算V_t(S_t+1)；

②计算TD误差δ_t+1；

③调整各规则内动作的权值q_t+1；

④进行规则完整性检查，如果不满足规则完整性，则生成一条新规则；

⑤根据ε-greedy算法，基于各规则中更新后的权值q_t+1选择各个规则的动作，再产生t+1时刻的动作输出A_t+1(S_t+1)；

⑥计算出当前时刻Q函数的估计值Q_t+1(S_t+1,A_t+1)，用于下一步TD误差的计算；

⑦更新各规则中动作的资格迹，用于下一步的参数更新；

⑧无人机执行A_t+1(S_t+1)，空战状态转移至S_t+2，获得回报r_t+2，算法转入步骤①再次循环；

步骤三，将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练，多次训练后将模型生成的模糊规则库作为无人机空战机动的决策依据，依据规则判断在不同的态势下应该执行哪类机动，完成自主决策的过程。

当距离R>3000m时，

ω_R＝0.3、ω_v＝0.25、ω_h＝0.15，其余情况下

ω_R＝0.3、ω_v＝0.15、ω_h＝0.15。

所述的门限值a取0.35，b取0.8，β取5，ζ取-6；所述的折扣率γ取0.9，遗忘率λ取0.95，学习率ξ取0.05，门限值κ取0.25，调节系数d取0.75。

本发明的有益效果是：基于强化学习的方法，建立了无人机空战机动决策规则的产生方法，采用模糊的方法对状态空间进行了动态划分，根据规则产生的机动序列具有鲁棒性和远视性，避免了人为编写无人机空战规则的粗疏性和繁琐易错，动态学习的过程和训练方法能使得产生的规则不断精细准确，从而能够有效提升无人机的自主空战能力。

附图说明

图1是飞机运动模型参数说明图。

图2是方位角与距离定义图。

图3是目标匀速直线飞行条件下无人机机动决策的结果图。

图4是本发明的流程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明从状态空间描述和环境建模两方面完成整个强化学习机动决策算法的创建，主要工作包括以下内容：

1)状态空间的划分和描述，采用模糊的方法将空战态势中的各状态模糊化，作为强化学习的状态输入。

2)空战过程强化学习环境的构建，构建无人机的运动控制模型，明确强化学习的动作空间和状态转移函数，同时基于空战态势的各个要素构建空战优势函数，作为强化学习中环境的回报值返回给无人机，以此引导无人机向取得空战优势的方向学习。

设无人机与目标进行一对一空战，如图4所示，本发明的基于强化学习的空战机动决策方法，用于无人机，具体实现步骤如下：

步骤一：构建一对一空战的态势模型，明确影响空战态势的参数和无人机的控制决策量。

a.建立飞机的运动方程。本发明阐述机动决策这类较为顶层的控制问题，因此采用三自由度的质点模型，不考虑具体的刚体姿态和飞控算法。

构建飞机的运动模型为

模型参数定义如图1所示，假设速度矢量与机体轴向一致，式中x、y、z表示飞机在惯性坐标系中的位置；v为飞机速度，

表示v在三个坐标轴方向的分量；航迹角θ表示速度与x-O-y平面的夹角；航向角α表示速度在x-O-y平面上的投影v′与 y轴的夹角；g为重力加速度；飞机的控制量设为[η_x,η_z,φ]，其中η_x为沿着速度方向的过载，代表飞机的推力，η_z为沿着机顶方向过载，即法向过载，φ为绕速度矢量的滚转角，用以表征平台滚转的控制量。

b.建立一对一空战的优势函数。优势函数从角度、距离、速度、高度四个方面综合评价空战中我方战机相对于目标的态势优劣。

①角度优势

空战中，尾追态势是优势，背向或相向飞行认为处于均势，被尾追时处于劣势，本发明采用角度函数表述角度优势，角度优势函数

如式(2)所示。

其中

和

分别表示无人机和目标的方位角，即无人机与目标的速度向量分别与距离向量R的夹角，两个角度与距离的定义如图2所示。

R＝[x_U-x_T,y_U-y_T,z_U-z_T] (3)

v＝[vcosθsinα,vcosθcosα,vsinθ]^T (4)

由公式(2)至(5)可以计算出角度优势函数值，根据图2可知，当

和

趋于π时，角度优势函数最大，此时无人机处于对目标的尾追攻击态势，处于优势，反之，当

和

趋于0时，角度优势函数最小，此时无人机处于被目标尾追攻击态势，处于劣势。

②距离优势

距离优势函数与无人机的武器射程有关，为了使强化学习在距离维度上有一个学习的方向性的引导，距离优势函数定义为

式中：R＝||R||，即距离向量的模，R_w表示无人机的武器射程，σ为标准偏差。

③速度优势

空战中，武器设计有相对与目标的最佳攻击速度，设为

式中v_max表示无人机的速度上限，v_T表示目标速度。基于最佳攻击速度的定义，定义速度优势函数f_v(v)为

④高度优势

空战中，处于较高的相对高度具有势能优势，考虑武器性能因素，在攻击时存在最佳的攻击的高度差h_op。高度优势函数f_h(△z)定义为

其中，h_op表示无人机对目标的最佳攻击高度差，△z＝z_U-z_T为无人机与目标的高度差，σ_h为最佳攻击高度标准偏差。

以上四个优势函数的取值范围均为[0,1]，当4个优势函数均趋近于1时，无人机处于空战的优势位置，当优势函数均趋近于0时，无人机处于被目标攻击的不利态势。在不同态势下，各个因素对空战态势的影响不同，因此，综合空战优势函数设为各因素优势函数的加权和。

其中

ω_R、ω_v、ω_h分别是角度、距离、速度、高度优势函数的权重。各个权重的和为1，但在不同态势下，各权重大小分配不同，在距离较远的情况下，距离和速度的权重较大，在进入攻击距离后角度和高度的权重较大。

步骤二：构建空战机动决策的动态模糊Q学习模型，确定强化学习的各要素和算法流程。

a.确定空战机动决策强化学习的状态空间，基于模糊理论将状态输入模糊化。

空战机动决策强化学习的状态空间应该包括所有影响空战优势函数计算的双方态势因素，包括：

①无人机、目标的方位角

和

在状态空间中以其乘积的形式

输入，则

②无人机与目标的距离R，R∈[R_min,R_max]，其中R_min和R_max分别表示空战态势中的最小和最大距离。

③无人机与目标的速度v_U和v_R，v∈[v_min,v_max]，无人机和目标均有运动速度的上限和下限。

④无人机和目标之间的高度差△z。

以上述

R、v_U、v_R、△z六个量作为强化学习的输入状态，记为s_i，描述当前时刻的空战态势。

为了强化学习的计算，以模糊隶属函数将各个状态输入的取值空间模糊化。本发明采用高斯函数作为各个输入的模糊隶属函数，将每一个状态的取值空间划分为多个高斯函数的叠加组合。如果状态s_i具有n个隶属函数，则输入状态属于其中第j个隶属函数的隶属度可以计算为

其中c_ij和σ_ij是状态s_i第j个高斯隶属函数的中心和宽度。

通过模糊化，将各个具有连续取值范围的状态空间划分成了离散的隶属函数，为动态模糊Q学习中规则的建立构建了条件。

b.确定空战机动决策强化学习的行动空间，并从行动空间中选择典型值构建空战中无人机的基本动作。

根据(1)式所建立的飞机运动模型，飞机的控制量设为[η_x,η_z,φ]，在每一个决策时刻，输入不同的控制量，无人机根据运动模型转移至下一个状态，从而改变空战中的态势。本发明首先按照7种典型的机动动作选取7组控制量，然后在模糊强化学习中以各个规则的触发强度对各个规则学习的控制量进行加权，进而覆盖整个行动空间。 7种基本动作为：

①匀速直线运动，[η_x,η_z,φ]＝[0,1,0]。

②最大加速度飞行，

③最大减速飞行，

④最大过载左转，

⑤最大过载右转，

⑥最大过载爬升，

⑦最大过载俯冲，

分别将这7种动作的控制量输入记为a_k，k＝1,2,…, 7。

c.基于模糊逻辑和Q学习算法构建空战机动决策的动态模糊Q学习模型。

传统的Q学习算法是强化学习中应用最为广泛的方法之一，但是只能处理离散状态空间和离散行动空间的问题，而模糊逻辑能够在泛化状态空间的同时产生连续的行动空间，因此本发明将Q学习算法与模糊逻辑相结合，构建出空战机动决策的强化学习算法模型。

由于模糊逻辑是条件-结果的规则型结构，因此空战机动决策的思路设定为：以各个状态s_i分属不同的隶属函数的组合为条件，以执行的7个基本动作并配属相应的动作权值为结果构建规则。通过Q学习算法，以空战优势函数的大小作为回报值进行强化学习，不断调整每一条规则中所执行各个动作的权值，使得所选择的动作能在规则条件所表述的状态下让无人机取得空战优势。与此同时，通过设定标准阈值，让规则能够在学习过程中动态的细化和调整，不断产生新的规则，在保证机动决策的鲁棒性的同时让决策更加准确。

在算法的构建过程中，需要在上述内容的基础上计算以下这些值：

①规则的触发强度。在一条规则中，设定一个状态隶属于其中一个隶属函数，则该条规则中各状态隶属于其设定隶属函数的隶属度乘积被定义为该条规则的触发强度，规则l的触发强度为

为了计算的收敛，将触发值归一化，设有m条规则，归一化后规则l的触发强度为

②行动值的定义与更新。定义规则l中各行动值a_k，k＝1,2,…, 7的权值为

根据ε-greedy算法针对7个

选取规则l的行动值为a_l，则在t时刻全局行动的输出表征为各条规则的行动值a_l与其触发强度ρ_l的乘积之和，即

其中

表征t时刻的状态输入。

③Q值的定义与计算。在传统强化学习中，Q值定义为在当前状态S_t下执行行动A_t后，所有后续获得的回报值的累加的期望值。本方案采用线性近似的方法对Q值进行估计，Q函数为

式中，

表示规则l中所选取行动

所对应的权值。对于最优行动的Q值的估计定义为各规则中动作权值的最大值与规则触发值的加权和，即

④强化学习回报值的定义。本发明以空战优势函数(10)为基础进行强化学习回报值的定义。

空战优势函数能从数据上反映出各个态势情况下无人机相对于目标的优势值。但是优势函数的取值范围为[0,1]，不能较好地引导强化学习的学习方向，因此要在优势函数的基础上增加奖惩项，以加速引导强化学习向更好的方向发展。

设定门限值a和b，且0<a<b<1。当优势函数值f_t>b时，无人机进入优势地位，强化学习回报值r_t＝f_t+β，其中β为一个较大的奖励值；当优势函数值a<f_t<b时，无人机处于均势位置，强化学习的回报值r_t＝f_t；当优势函数值f_t<a时，无人机处于劣势，强化学习的回报值r_t＝f_t+ζ，其中ζ是一个较小的负值，用以完成惩罚。综合考虑，强化学习的回报值可计算为

⑤资格迹的定义与计算。为了加速强化学习的速度，本发明采用资格迹来记录过去的学习过程中各规则中各动作的选择情况。定义e_t(S_l,a_k)为规则l在时间t时选择动作a_k的资格迹，其计算公式为

其中γ是强化学习中对未来回报的折扣率，0<γ≤1，λ是资格迹随时间衰减的遗忘率， 0<λ<1。在1条规则中，所有7个动作的资格迹都是先对上一时刻的资格迹进行衰减计算，然后对所选择那个动作的资格迹加上本条规则的触发强度。

⑥TD误差的计算和动作权值的更新。本发明中，TD误差定义为

δ_t+1＝r_t+1+γV_t(S_t+1)-Q_t(S_t,A_t) (19)

TD误差是根据t+1时刻的回报值和最优动作值函数的估计之和，减去上一时刻的Q值，以此来反映动作A_t的优劣。根据TD误差，各规则中各动作的权值可以通过(20) 式更新，即

其中ξ表示强化学习的学习率，一般为一个小于1的正数。

⑦规则的动态生成标准。本发明采用高斯函数对六个输入状态空间进行了模糊化，但人为事先对状态空间的划分不能最大限度地反映各个状态输入在其空间中的分布情况，难免会造成划分粗疏的情况，因此采用动态规则生成的方法对状态空间进行进一步地精细化分。

设定一个门限值κ，在当前状态下当所有规则中触发强度最大的值Φ_l小于κ时，认为此时所有现存的规则不能有效反映当前状态，应该增加一条规则。

在新规则产生时，对每一个输入状态进行判断，看当前输入状态s_i与其最邻近的隶属函数的中心值c_ij距离的大小，如果距离值小于一定门限，则在该状态维度不产生新的隶属函数；如果距离值大于门限，则产生一个隶属函数，该隶属函数的的中心值即为输入状态s_i，隶属函数的宽度按(21)式计算，即

其中，d为调节系数，宽度的计算就是取新隶属函数中心与邻居隶属函数中心的距离的最大值再除以调节系数。在添加新的隶属函数后，其两个邻居隶属函数的宽度也要按(21)式调整。

d.基于动态模糊Q学习的空战机动决策强化学习的算法流程。设当前时刻为t+1且无人机已经执行了动作A_t并已获得强化学习回报r_t+1，则算法运行步骤如下：

①根据无人机和目标当前的运动状态计算出态势中的各个输入量s_i组成状态S_t+1，再根据(13)式计算当前状态S_t+1的各规则触发强度，进而根据(16)式计算V_t(S_t+1)；

②根据(19)式计算TD误差δ_t+1；

③根据(20)式调整各规则内动作的权值为q_t+1；

④进行规则完整性检查，如果不满足规则完整性，则按照c.⑦所述内容动态生成一条新规则。

⑤根据ε-greedy算法，基于各规则中更新后的权值q_t+1选择各个规则的动作，再根据(14)式产生t+1时刻的动作输出A_t+1(S_t+1)；

⑥根据(15)式计算出当前时刻Q函数的估计值Q_t+1(S_t+1,A_t+1)，用于下一步TD误差的计算。

⑦根据(18)式更新各规则中动作的资格迹，用于下一步的参数更新。

⑧无人机执行A_t+1(S_t+1)，空战状态转移至S_t+2，获得回报r_t+2，算法转入步骤①再次循环。

步骤三：将构建的空战机动决策动态模糊Q学习模型在不同的空战场景下进行学习训练，多次训练后，模型生成的模糊规则库即可作为无人机空战机动的决策依据，依据规则判断在不同的态势下应该执行哪类机动，完成自主决策的过程。

在训练过程中，无人机和目标飞机的运动模型均采用(1)式所述模型。无人机的行动决策按照所建立的强化学习算法输出控制量，目标飞机的飞行轨迹在先期训练过程中可以采取简单的基本飞行动作，如匀速直线运动、匀速转弯运动等，这样能较快地产生有助于强化学习算法在后期训练时快速收敛的规则，待无人机的对目标基本动作的强化学习成熟后，可将无人机的强化学习机动决策方法和已经产生的规则移植到目标飞机中，再进行对抗，这样就可以发挥强化学习中探索和利用相结合的特点，不断探索出新的策略，使得机动决策的输出更加合理和完善。

以无人机和目标飞机相向飞行，目标匀速直线运动飞行的空战场景为例，按照发明内容所述三个步骤对无人机空战机动决策进行强化学习建模和训练。其中各物理量的单位均为公制。

a.建立飞机的运动方程。无人机和目标的运动模型均采用(1)式所述的质点模型。

①角度优势

如式(2)所示。

②距离优势

距离优势函数与无人机的武器射程有关，距离优势函数定义如(6)式所示。

R_w表示无人机的武器射程，取1000，σ为标准偏差，取500。

③速度优势

最佳攻击速度按(7)式子计算，其中最大速度v_max取406，对最小速度v_min在此设定为90，速度优势函数f_v(v)按(8)式计算。

④高度优势

高度优势函数f_h(△z)按(9)式计算。其中最佳攻击高度差h_op取0，最佳攻击高度标准偏差σ_h取1000。

综合空战优势函数按(10)式计算，对于

ω_R、ω_v、ω_h，当距离R>3000时，

ω_R＝0.3、ω_v＝0.25、ω_h＝0.15，其余情况下

ω_R＝0.3、ω_v＝0.15、ω_h＝0.15。

以

R、v_U、v_R、△z六个量作为强化学习的输入状态，记为s_i(i＝1,2,…,6)，描述当前时刻的空战态势，其中R_max取10000，R_min取100。各个状态均采用高斯函数作为输入的模糊隶属函数，将每一个状态的取值空间划分为多个高斯函数的叠加组合。隶属度计算按(11)式子完成。

所构建的7种基本动作为：

①匀速直线运动，[η_x,η_z,φ]＝[0,1,0]；②最大加速度飞行，

③最大减速飞行，

④最大过载左转，

⑤最大过载右转，

⑥最大过载爬升，

⑦最大过载俯冲，

分别将这7种动作的控制量输入记为a_k，k＝1,2,…, 7。其中

取1.5，

取-1，

取9。

①规则的触发强度按(12)、(13)式计算；②行动值的定义与更新按(14)式进行；③Q值的定义与计算。Q函数按(15)式计算，最优行动的Q值估计按(16)式计算。④强化学习回报值的按(17)式计算，其中a取0.35，b取0.8，β取5，ζ取 -6。⑤资格迹按(18)式计算，γ其中强化学习中对未来回报的折扣率γ取0.9，λ资格迹随时间衰减的遗忘率λ取0.95。⑥TD误差的计算按(19)式，动作权值按(20) 更新，其中强化学习的学习率ξ取0.05。⑦规则的动态生成过程中，门限值κ取0.25， (21)式中调节系数d取0.75。

①根据无人机和目标当前的运动状态计算出态势中的各个输入量s_i(i＝1,2,…,6) 组成状态S_t+1，再根据(13)式计算当前状态S_t+1的各规则触发强度，进而根据(16) 式计算V_t(S_t+1)；

②根据(19)式计算TD误差δ_t+1；

③根据(20)式调整各规则内动作的权值为q_t+1；

步骤三：将构建的空战机动决策动态模糊Q学习模型在空战场景下进行学习训练。本例中设定目标进行匀速直线运动，无人机针对目标进行试错学习。

无人机的初始坐标点为(0,0,2700)，速度为250m/s，航迹俯仰角为0，航向角为45°。目标初始位置为(3000，3000，3000)，速度为204m/s，航迹俯仰角为0，航向角为-135°。设决策周期T＝1s，每轮学习进行30个决策周期。目标执行匀速直线飞行，则在每一时刻的行动均为[0,1,0]。目标和无人机的运动方程均为(1)式。

考虑仿真边界条件限制，当无人机的高度超出限制值之后，或者两机距离小于最小距离限制后，强化学习回报值均设为-10，且退出此轮仿真，重新从初始位置开始新一轮仿真。

按照上述场景和参数值，根据步骤二.d中给出的动态模糊Q学习算法步骤从初始状态向后运行30个决策步长，即一轮学习。执行8000轮强化学习后的效果如图3所示。

图中实线为无人机轨迹，虚线为目标轨迹，可以看出，无人机在初始时刻开始爬升，消除了高度劣势，进而右转爬升再左转，进而形成了对目标尾追的优势态势，证明本发明所提出的基于强化学习的空战机动决策方法，通过大量训练能够产生合理的机动决策序列，能够让无人机完成自主决策进而达到空战中的优势。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于强化学习的无人机空战机动决策方法，其特征在于包括下述步骤：

步骤一，构建与目标一对一空战的无人机运动模型

建立角度优势函数

其中

和

建立距离优势函数

其中，R＝||R||，即距离向量的模，R_w表示无人机的武器射程，σ为标准偏差；

建立速度优势函数

其中，武器相对目标的最佳攻击速度

v_max表示无人机的速度上限，v_T表示目标速度；

建立高度优势函数

得到综合空战优势函数

其中

步骤二，构建空战机动决策的动态模糊Q学习模型；

和

和

分别将七个基本动作的控制量输入记为a_k，k＝1,2,…,7；

将触发值归一化，设有m条规则，归一化后规则l的触发强度

定义规则l中基本动作的控制量输入a_k的权值为

根据ε-greedy算法针对7个

其中

表征t时刻的状态输入；

表示规则l中所选取行动

其中max_a∈Aq_t(S_l,a)表示规则l中各动作权值中的最大值，

表示规则l的触发强度；

以空战优势函数为基础强化学习回报值；根据设定的门限值a和b，0<a<b<1，当优势函数值f_t>b时，无人机进入优势地位，强化学习回报值r_t＝f_t+β，其中β为设定的奖励值；当优势函数值a<f_t<b时，无人机处于均势位置，强化学习的回报值r_t＝f_t；当优势函数值f_t<a时，无人机处于劣势，强化学习的回报值r_t＝f_t+ζ，其中ζ为设定的惩罚值；

其中γ是强化学习中对未来回报的折扣率，0<γ≤1，λ是资格迹随时间衰减的遗忘率；在1条规则中，所有7个基本动作的资格迹都是先对上一时刻的资格迹进行衰减计算，然后对所选择那个动作的资格迹加上本条规则的触发强度；

定义TD误差δ_t+1＝r_t+1+γV_t(S_t+1)-Q_t(S_t,A_t)，即根据t+1时刻的回报值和最优动作值函数的估计之和，减去上一时刻的Q值，以此来反映动作A_t的优劣；更新各规则中各动作的权值q_t+1(S_l,a_k)＝q_t(S_l,a_k)+ξδ_t+1e_t(S_l,a_k)，l＝1,2,…,m，k＝1,2,…,7，其中ξ表示强化学习的学习率；

d为调节系数；

②计算TD误差δ_t+1；

③调整各规则内动作的权值q_t+1；

⑦更新各规则中动作的资格迹，用于下一步的参数更新；

2.根据权利要求1所述的基于强化学习的无人机空战机动决策方法，其特征在于：当距离R>3000m时，

ω_R＝0.3、ω_v＝0.25、ω_h＝0.15，其余情况下

ω_R＝0.3、ω_v＝0.15、ω_h＝0.15。

3.根据权利要求1所述的基于强化学习的无人机空战机动决策方法，其特征在于：所述的门限值a取0.35，b取0.8，β取5，ζ取-6；所述的折扣率γ取0.9，遗忘率λ取0.95，学习率ξ取0.05，门限值κ取0.25，调节系数d取0.75。