CN113625740A

CN113625740A - 一种基于迁移学习鸽群优化的无人机空战博弈方法

Info

Publication number: CN113625740A
Application number: CN202110994641.3A
Authority: CN
Inventors: 段海滨; 阮婉莹; 邓亦敏; 魏晨; 周锐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-09
Anticipated expiration: 2041-08-27
Also published as: CN113625740B

Abstract

本发明公开一种基于迁移学习鸽群优化的无人机空战博弈方法，步骤一：初始化空战博弈环境设置；步骤二：设计可扩展的强操纵性博弈机动库；步骤三：设计空战态势评估函数，计算博弈得分矩阵；步骤四：构造空战博弈适应度函数；步骤五：基于迁移学习鸽群优化的博弈机动策略选择；步骤六：更新六自由度飞机状态。本发明优点：1)控制对象为真实的六自由度非线性飞机模型，更具实际应用价值；2)引入机动决策向量，构造适应度函数，将博弈得分矩阵的纳什均衡转化为线性规划问题求解，有效提高了空战决策效率；3)将迁移学习机制引入鸽群优化极大提高了算法搜索效率。

Description

一种基于迁移学习鸽群优化的无人机空战博弈方法

技术领域

本发明是一种基于迁移学习鸽群优化的无人机空战博弈方法，属于空战自主决策领域。

背景技术

自主空战是未来战争的重要方式之一，无人作战飞机(Unmanned Combat AerialVehicle,UCAV)是自主空战中的主要力量，空战能力的强弱很大程度上决定了战争的主导权。自主空战过程可以分为三部分：态势感知、自主决策、指令执行。其中，自主决策是空战过程的核心。根据方法核心的不同，可将自主决策方法划分为三类：数学求解、机器博弈、数据驱动。数学求解法将空战博弈转化为优化问题，可分为单目标和多目标优化，设计目标函数，求得最优解；机器博弈法将空战双方的机动动作指令离散化，进而对全空间或有限空间的机动动作计算态势函数，构成博弈支付矩阵，利用搜索算法选择最佳机动动作；数据驱动法基于神经网络、模糊算法、强化学习等展开，该类算法一种是对相关数据进行训练，输入为战场态势数据，输出为选择的机动动作，另一种是采用预测手段对战场态势、敌我双方动作进行预测，继而选择合适的机动决策方案。机器博弈法是目前应用于实际空战中最为可行的方法。

基于机器博弈的空战自主决策方法本质是模拟人类飞行员的自主决策过程，更符合空战逻辑，最为实用，但是，现有的机器博弈方法仍存在计算量大等问题。

本发明旨在设计博弈混合策略的纳什均衡，引入机动决策向量将博弈纳什均衡转化为线性规划问题，有效提高机器博弈的执行效率，利用迁移学习鸽群优化算法求解最优博弈策略，可以准确高效地实现机动动作的自主决策，较经典的最大最小决策算法相比，基于迁移学习鸽群优化决策算法空战获胜率更高。

鸽群优化算法是一种生物启发式智能优化算法，其将鸽子归巢行为总结为两个阶段：地图-指南针引导阶段和地标引导阶段，抽象为数学公式，用来解决目标优化问题。但该算法收敛速度较慢，容易陷入局部最优解，且该类智能优化算法都需要初始化种群，目前的研究都是在可行域中随机分配，这可能会耗费更多的时间搜索到全局最优值。本发明将迁移学习引入鸽群优化，迁移学习是机器学习中的一个概念，其利用历史经验信息来指引解决当前问题。利用迁移学习方式初始化种群，可以加快算法收敛速度，采用合理的样本库可以极大提高算法搜索效率，快速准确找到最优值；此外，将原鸽群优化算法两个阶段合二为一，极大简化了算法计算复杂度。

综上所述，本发明提出一种基于迁移学习鸽群优化的无人机空战博弈方法，改变传统空战中应用的机器博弈决策方式，提高空战作战效能。

发明内容

本发明目的是提供一种基于迁移学习鸽群优化的无人机空战博弈方法，旨在解决无人作战飞机空战过程中机动动作选择的问题，以提升作战效能与自主决策水平。

本发明是一种基于迁移学习鸽群优化的无人机空战博弈方法，具体实现步骤如下：

步骤一：初始化空战博弈环境设置，具体包括：搭建红蓝对抗双方六自由度空战运动模型及控制律结构；初始化红蓝战机本体参数及机载武器参数；初始化红蓝战机初始态势；初始化空战博弈系统仿真参数。

S11、搭建红蓝对抗双方六自由度非线性战机模型

本发明采用真实飞机的六自由度非线性运动模型，而非通常采用的抽象质点模型。六自由度飞机的运动方程包括动力学方程和运动学方程，具体可分为飞机质心的位移运动和绕质心的转动运动。飞机的控制量U包括：油门杆δ_T、升降舵偏转角δ_e、副翼偏转角δ_a、方向舵偏转角δ_r，记为：U^T＝[δ_T,δ_e,δ_a,δ_r]^T。飞机的被控量包含12个状态量，分别为：三个位置量x_g,y_g,h、滚转角φ、俯仰角θ、偏航角ψ、气流速度V、迎角α、侧滑角β、滚转角速度p、俯仰角速度q、偏航角速度r，记为：X^T＝[x_g,y_g,h,φ,θ,ψ,V,α,β,p,q,r]^T。下面不加推导地给出六自由度飞机运动方程：

(1)位移运动方程

运动学方程：

动力学方程：

(2)转动运动方程

运动学方程：

动力学方程：

其中，

为对应变量x的微分；x_g,y_g,h分别为飞机的三维位置坐标(x_g北向为正，y_g东向为正，h向上为正)；u,v,w分别为机体坐标系下x,y,z三轴方向的速度；V为飞行速度，α为迎角，β为侧滑角；φ为滚转角、θ为俯仰角、ψ为偏航角；p为滚转角速度，q为俯仰角速度，r为偏航角速度；I_x,I_y,I_z分别为飞机绕机体轴x,y,z轴的转动惯量，I_xz为惯性积；

M,N分别为机体轴x,y,z轴方向的力矩。

在上述飞机模型的基础上，加入飞机的结构参数和空气动力参数，即可以模拟真实飞机的相关功能。

S12、设计六自由度无人战机多通道自驾仪

第一，配平。在给定的高度、速度下，利用单纯形法对飞机配平，设置迎角、油门杆推力、升降舵偏角、副翼偏角、方向舵偏角，使得飞机所受合外力、合外力矩为零，以保持平飞状态。

第二，纵向通道控制律设计。纵向通道的设计主要包括俯仰角、高度和速度的控制。通过引入俯仰角速率反馈来改善纵向通道的短周期阻尼，在阻尼回路上，再设计迎角姿态控制回路，通过反馈迎角信息实现控制系统纵向回路的增稳控制。

第三，横侧向通道控制律设计。横侧向运动指滚转和偏航运动，主要通过副翼通道和方向舵通道来实现。在副翼通道中引入滚转角反馈和滚转角速度反馈，在方向舵通道中引入偏航角速度和侧向过载反馈，同时考虑方向舵与升降舵的交联和副翼舵机控制量的交联。其中，偏航角速度反馈主要用于增加荷兰滚转模态阻尼，侧向过载反馈有利于提到荷兰滚频率，这样就可以减少滚转机动和侧向扰动时的侧向过载和侧滑角。引入滚转角速率和迎角的交联乘积本质上向航向阻尼器引入绕机体轴的偏航角速率转换成绕稳定轴系的偏航角速率，使得飞机绕速度轴进行滚转，有利于提高荷兰滚模态的阻尼，抑制滚转操纵的偏航角速度反馈引起的不利偏航力矩，达到增稳的目的。

通过纵向通道和横侧向通道的控制律设计，可以得到基于迎角指令α_c和滚转角指令φ_c的自动驾驶仪设计。

S13、初始化空战环境参数

空战开始之前，对红蓝双方的状态信息及空战仿真参数进行初始化。设置红蓝战机本体参数及机载武器参数包括：翼展、机身长度、最大飞行速度、最大/最小高度限制、机载雷达、航炮等；初始化红蓝战机初始态势包括：位置、速度、姿态角；初始化空战博弈仿真参数包括：总博弈时长、单位机动时长、采样周期。

步骤二：设计可扩展的强操纵性博弈机动库

六自由度非线性飞机模型的控制指令为迎角和滚转角指令，需要通过战术规划层的计算，将决策层产生的待选机动指令转换成六自由度飞机的控制层指令形式，作为输入信息输入到飞机的自动驾驶仪回路。飞机质心运动学方程组可以描述飞行轨迹，因此可以利用其简化决策模型。

过载是指作用在飞机上的气动力和发动机推力的合力与飞机重量之比。利用过载表示的飞机质心运动学方程组如下：

其中，v为飞行速度；n_x为切向过载；n_f为法向过载；μ为航迹倾角；

为航向角；γ为速度滚转角；x_g,y_g,h分别为飞机的三维位置坐标(x_g北向为正，y_g东向为正，h向上为正)；g为重力加速度。

由上述方程可以看出，切向过载n_x、法向过载n_f、速度滚转角γ可作为机动指令生成器的输入，飞行速度、航迹倾角、航向角作为输出，可以实现对飞机运动轨迹的控制。切向过载主要用于调整飞机的速度，法向过载与滚转角主要调整飞机的俯仰角和偏航角。实现某一机动动作的具体思路为：首先确定完成此机动动作时控制量的要求值，然后根据限制条件得出控制量的可用值，再将可用值代入运动方程组积分得到不同时刻的运动参数。

根据典型战术动作库的设计思路，要实现一些典型战术机动动作，如平飞、转弯、爬升、俯冲等，可将机动指令转换成控制层指令，即法向过载n_fc、速度滚转角γ_c，构成机动动作库，通过不同的法向过载与速度滚转角的组合即可实现相应的机动动作。对六自由度飞机非线性模型而言，通过上述控制律的设计已经得到基于迎角α_c和滚转角指令φ_c的自动驾驶仪，根据机动动作库已经生成的法向过载n_fc和速度滚转角γ_c的控制指令，保持六自由度飞机的油门杆位置不变，将γ_c作为φ_c输入到滚转角自动驾驶仪回路，再将法向过载指令转换成迎角指令输入到飞机的迎角自动驾驶仪回路，即实现了六自由度飞机的机动动作控制。

机动动作库可以表示为：

n_f＝[n_f1,n_f2,...,n_fu]_u (6)

γ＝[γ₁,γ₂,...,γ_w]_w (7)

其中，n_f，γ分别表示法向过载和速度滚转角取值向量，u,w分别对应它们的维数，它们取不同的值，即可组合出不同的机动动作。L为博弈机动库，由n_f，γ对应取值组合而成，可生成u×w个机动动作。

该动作库在设计上的灵活性在于可扩展性，在满足飞机性能限制的条件下，用户可根据需要自行设定动作库中法向过载和速度滚转角的取值，其取值间隔合适，即可获得强操纵性。

红蓝双方机动动作库中所有动作组合，可构成如下博弈机动矩阵：

其中,L_rmL_bn表示红方选取机动库中第m个机动动作，蓝方选取机动库中第n个机动动作。

步骤三：设计空战态势评估函数，计算博弈得分矩阵

空战态势是红蓝双方态势的综合表现，主要体现在双方的相对位置关系、速度关系上，由此可以定义空战态势评估函数的两个组成部分：角度威胁指数和距离威胁指数，双方态势示意图如图1所示。具体定义如下：

角度威胁指数：

其中，S_A为角度威胁指数；A_R为红方飞机速度方向与红蓝双方飞机连线方向的夹角；A_B为蓝方飞机速度方向与红蓝双方飞机连线方向的夹角。

距离威胁指数：

S_R＝e^-(R-r)/k (11)

其中，S_R为距离威胁指数；R为双机距离；r为红蓝双方机炮的平均攻击范围，r＝(r_r+r_b)/2；k为灵敏度。

态势评估函数为上述两个因素指数的乘积，记为：

S＝S_AS_R (12)

其中，S为态势评估函数，S_A为角度威胁指数；S_R为距离威胁指数。

上述评估函数S的值越大，代表红方越占优，相反，S越小，代表蓝方越占优。博弈支付矩阵，即针对每一步红蓝双方的状态，对应机动动作库，分别计算双方每种动作下的态势评估函数，即构成博弈得分矩阵。步骤二中以法向过载、速度滚转角为控制变量设计了红蓝双方机动动作库，根据上述态势评估函数，可以分别计算双方采用每种动作组合的得分结果，得到博弈得分矩阵如下：

其中，SS为博弈得分矩阵；s_mn表示式(9)所示博弈矩阵中第m行n列的机动动作对应的态势评估函数值。记红方为我方，我方期望态势评估函数值越大越有利。

步骤四：构造空战博弈适应度函数

设我方(即红方)无人机以概率pro_i选择机动动作库中第i个动作，则对于动作库中n个机动动作会生成一个机动决策向量PRO＝[pro₁,pro₂,...pro_n]^T，将博弈得分矩阵的纳什均衡转化为线性规划问题求解，则构造适应度函数如下：

f_best＝max(fitness) (15)

其中，SS_ij表示式(13)所示博弈得分矩阵的第i行，第j列对应的数值；pro_j表示PRO中的第j个分量，满足约束条件：pro_j≥0，

式(15)表明要求解的是最大化问题。

对于我方(即红方)来说，适应度函数值越大对我方越有利，故选择其对应的机动决策向量，其中，概率最大的分量对应的机动动作即为我方的选择。

步骤五：基于迁移学习鸽群优化的博弈机动策略选择

S51、设计改进鸽群优化算法

原始鸽群优化算法分为两步进行计算，分别是地图指南针算子阶段和地标算子阶段，过程较繁琐，且会有设计的改进算法利用协调因子将两个阶段连接起来，同时遵循鸽子归巢的行为特点，即起初主要依靠地图指南针引导，随着距离目的地越来越近，地标的引导作用越强。同时鸽子数量按照每轮减去一定数量衰减，但为了保证种群多样性，设定了最小鸽子数量的阈值，当小于阈值时，鸽子数量不再衰减。具体更新方式如下所示：

其中，V_i(t)表示第i只鸽子在第t次迭代时的速度；X_i(t)表示第i只鸽子在第t次迭代时的位置；R为地图指南针因子；ω为协调因子；t为当前迭代次数；T为总的迭代次数；Xgbest表示全局最优位置；X_center表示地标中心位置，

N为当前鸽子总数，fitness(X_i(t))为对应的适应度函数值，对于最大化问题，fitness(X_i(t))＝f(X_i(t))，对于最小化问题，fitness(X_i(t))＝1/(f(X_i(t))+ε)；N_removed为每次迭代鸽子减少的数量；N_min为最小鸽子数阈值；rand为0～1之间的随机数。下面以最大值优化问题为例进行介绍。

S52、基于最优相近性的多维度迁移学习机制

在空战博弈过程中，将双方每一步的博弈得分矩阵以及对应的机动决策向量分组存储。对博弈得分矩阵采用最大最小算法选出粗略最优值，将当前矩阵与历史矩阵的最优值比较，选出最相近的机动决策向量作为迁移源，用于鸽群优化的种群初始化。

对博弈得分矩阵采用最大最小算法选出粗略最优值，首先对式(13)的博弈得分矩阵SS的每一行对应的最小值提取出来，组成一个列向量SS1，再从SS1中取最大值，记为SS2，表示机动库中第SS2个机动动作为选出来的粗略最优值。

SS2＝max(SS1) (18)

将每次鸽群优化得到的最优解存储到样本库中，记第p轮博弈选出的机动动作编号为Q_p，机动决策向量为PRO_p，将每一轮的Q_p和PRO_p作为学习范例存入迁移学习的样本库，当样本库中动作编号重复时，则以新替旧，将最新的机动动作编号和对应的机动决策向量覆盖原样本存入样本库。迁移学习样本库存储格式如式(19)所示，下式表示样本库容量最大的情况，实际根据运行情况自动生成，样本库中每一列存储的是动作编号及其对应的机动决策向量。

对于当前博弈轮q，按照式(17)(18)选出的粗略最优机动动作编号记为SS2_q，则按照式(20)得到的机动决策向量PRO_q作为迁移源，用于鸽群初始化。

PRO_q＝{PRO_t||Q_t-SS2_q|＝min(|Q_i-SS2_q|)，i＝1,2,...} (20)

S53、基于迁移学习鸽群优化的博弈机动策略选择

迁移学习鸽群优化算法改变了传统鸽群优化算法的初始种群方式，利用迁移学习的思想，根据获得的历史信息作为鸽群初始化的依据，这样能极大提高算法搜索效率，避免陷入局部最优，尽快找到最优解。

对于上述问题，鸽群的位置向量为步骤四中所述的机动决策向量，通过鸽群优化选出的最优解即为最终获得的机动决策向量，表示选择机动库中各个动作的概率值，其中概率值最大的动作编号对应最终选择的机动动作，将此动作编号和机动决策向量作为样本存入迁移学习的样本库中，若样本库中有相同动作编号，则以新的动作编号和机动决策向量代替旧的，至此，迁移学习样本库更新完成。

在执行鸽群优化算法S51前，先根据S52中确定的迁移源进行鸽群初始化。确定迁移源机动决策向量中最大概率值对应的机动动作编号，以此为基础，初始化鸽群的位置向量，在所有维度产生的随机数中，均将此动作编号对应的维度设定为最大值，其余维度随机设定，保证各维度之和为1。至此，基于迁移学习的鸽群初始化完成，接下来执行鸽群优化算法，算法结束选出的全局最优位置即为最终确定的机动决策向量，机动决策向量中最大值对应的机动动作即为最终确定的博弈机动策略。

步骤六：更新六自由度飞机状态

将步骤五中确定的最优机动动作与步骤二中设计的机动库对应，即可获得控制指令，结合步骤S11中六自由度非线性飞机模型，将控制指令转换为其自动驾驶仪需要的迎角及滚转角指令，即可实现飞机的运动控制。

本发明提出一种基于迁移学习鸽群优化的无人机空战博弈方法，其主要优点包括以下三点：1)控制对象为真实得的六自由度非线性飞机模型，相比惯用的三自由度飞机质点模型更具实际应用价值；2)引入机动决策向量，构造适应度函数，将博弈得分矩阵的纳什均衡转化为线性规划问题求解，有效提高了空战决策效率；3)将迁移学习引入鸽群优化极大提高了算法搜索效率，能够高效准确地选出最优机动动作。其中基于最优相近性的多维度迁移学习机制设计新颖，借助空战中机动博弈的最大最小算法得到粗略最优值，将此粗略值与迁移学习样本库中的样本比对，选出最接近的机动决策向量作为迁移源。此外，迁移学习样本库的更新机制以及利用迁移源指导鸽群初始化的方法均具有创新性。

附图说明

图1红蓝双方态势示意图

图2基于迁移学习鸽群优化的无人机空战博弈方法流程图

图3a、b红蓝双方博弈过程飞行曲线，其中图3a为欧拉角变化曲线，图3b为速度、迎角、侧滑角变化曲线

图4a、b红蓝双方空战博弈结果图，其中图4a蓝方采用随机法决策，图4b蓝方采用最大最小算法决策

具体实施方式

下面通过具体的实例来验证本发明所提基于迁移学习鸽群优化空战博弈方法的有效性。在本实例中，选用两架F16飞机模型作为空战博弈的红蓝双方。本实例的仿真环境配置为intel i9-9900K处理器，3.60Ghz主频，32G内存，软件为MATLAB 2018a版本。

一种基于迁移学习鸽群优化的无人机空战博弈方法，其过程框图如图2所示，结果图如图3a、b和图4a、b所示。该实例的具体实践步骤如下：

步骤一：初始化红蓝双方设置及空战博弈参数

红方战机初始位置[0,0,3300](m)，飞行速度152m/s，初始航向角15°；蓝方战机初始位置[25,1,3.3](km)，飞行速度152m/s，初始航向角180°。红蓝双方翼展10m，机身长度15m，雷达截面积4.9m²，最大飞行速度500m/s，最大高度限制20km，最小高度限制500m。红方机炮射程800m，弹丸重量106g，弹丸口径20mm，最大发现目标距离100km，搜索方位角120°，目标发现概率0.85；蓝方机炮射程800m，弹丸重量137g，弹丸口径20mm，最大发现目标距离74km，搜索方位角120°，目标发现概率0.85。仿真时长300s，单位机动时长2s，飞机采样周期10ms。

步骤二：设计可扩展的强操纵性博弈机动库

红蓝双方法向过载机动库[0.8,1,1.2,1.4]，滚转角机动库[-45°，0，45°]，组合机动库

红蓝双方组合机动动作均为12种，则可得m*n＝12*12维的博弈矩阵L_rb。

步骤三：设计空战态势评估函数，计算博弈得分矩阵

设置k＝1000，根据步骤三中的公式计算双方每种动作下对应的评估函数值，得到m*n＝12*12维的博弈得分矩阵。

步骤四：构造空战博弈适应度函数，设计迁移学习鸽群优化算法

按照步骤四所述的方法构造空战博弈适应度函数，设置总鸽子数量N＝20，搜索空间维数等于动作库中机动动作的种数，地图指南针因子R＝0.2，协调因子ω＝2，每次迭代鸽子减少的数量N_removed＝2，最小鸽子数阈值N_min＝8，迭代次数T＝100。

步骤五：基于迁移学习鸽群优化的机动策略选择

按照步骤五所述方法构造迁移学习样本库，根据最优相近性选出迁移源，用于鸽群的初始化，进而利用基于迁移学习鸽群优化算法进行最终机动动作的选择。

步骤六：更新六自由度飞机状态

将步骤五中选择的机动指令转换为迎角、滚转角指令，输入飞机模型，实现机动控制。

Claims

1.一种基于迁移学习鸽群优化的无人机空战博弈方法，其特征在于：该方法包括如下步骤：

步骤一：初始化空战博弈环境设置，具体包括：搭建红蓝对抗双方六自由度空战运动模型及控制律结构；初始化红蓝战机本体参数及机载武器参数；初始化红蓝战机初始态势；初始化空战博弈系统仿真参数；其中，所述的运动模型采用真实飞机的六自由度非线性运动模型；

步骤二：设计可扩展的强操纵性博弈机动库

六自由度非线性飞机模型的控制指令为迎角和滚转角指令，通过战术规划层的计算，将决策层产生的待选机动指令转换成六自由度飞机的控制层指令形式，作为输入信息输入到飞机的自动驾驶仪回路，利用飞机质心运动学方程组简化决策模型；

切向过载、法向过载、速度滚转角作为机动指令生成器的输入，飞行速度、航迹倾角、航向角作为输出，实现对飞机运动轨迹的控制；具体的，实现某一机动动作的具体思路为：首先确定完成此机动动作时控制量的要求值，然后根据限制条件得出控制量的可用值，再将可用值代入运动方程组积分得到不同时刻的运动参数；

实现些典型战术机动动作，是将机动指令转换成控制层指令，即法向过载、速度滚转角，构成机动动作库，通过不同的法向过载与速度滚转角的组合即可实现相应的机动动作，对六自由度飞机非线性模型而言，通过基于迎角和滚转角指令的自动驾驶仪，根据机动动作库已经生成的法向过载和速度滚转角的控制指令，保持六自由度飞机的油门杆位置不变，将速度滚转角作为滚转角指令输入到滚转角自动驾驶仪回路，再将法向过载指令转换成迎角指令输入到飞机的迎角自动驾驶仪回路，即实现了六自由度飞机的机动动作控制；

机动动作库可以表示为：

n_f＝[n_f1,n_f2,...,n_fu]_u (6)

γ＝[γ₁,γ₂,...,γ_w]_w (7)

其中，n_f，γ分别表示法向过载和速度滚转角取值向量，u,w分别对应它们的维数，它们取不同的值，即可组合出不同的机动动作；L为博弈机动库，由n_f，γ对应取值组合而成，可生成u×w个机动动作；

其中,L_rmL_bn表示红方选取机动库中第m个机动动作，蓝方选取机动库中第n个机动动作；

步骤三：设计空战态势评估函数，计算博弈得分矩阵

定义空战态势评估函数的两个组成部分：角度威胁指数和距离威胁指数，具体定义如下：

角度威胁指数：

其中，S_A为角度威胁指数；A_R为红方飞机速度方向与红蓝双方飞机连线方向的夹角；A_B为蓝方飞机速度方向与红蓝双方飞机连线方向的夹角；

距离威胁指数：

S_R＝e^-(R-r)/k (11)

其中，S_R为距离威胁指数；R为双机距离；r为红蓝双方机炮的平均攻击范围，r＝(r_r+r_b)/2；k为灵敏度；

态势评估函数为上述两个因素指数的乘积，记为：

S＝S_AS_R (12)

其中，S为态势评估函数，S_A为角度威胁指数；S_R为距离威胁指数；

上述评估函数S的值越大，代表红方越占优，相反，S越小，代表蓝方越占优；博弈支付矩阵，即针对每一步红蓝双方的状态，对应机动动作库，分别计算双方每种动作下的态势评估函数，即构成博弈得分矩阵；

根据上述态势评估函数，可以分别计算双方采用每种动作组合的得分结果，得到博弈得分矩阵如下：

其中，SS为博弈得分矩阵；s_mn表示博弈矩阵中第m行n列的机动动作对应的态势评估函数值；期望态势评估函数值越大对该方越有利；

步骤四：构造空战博弈适应度函数

设红方无人机以概率pro_i选择机动动作库中第i个动作，则对于动作库中n个机动动作会生成一个机动决策向量PRO＝[pro₁,pro₂,...pro_n]^T，将博弈得分矩阵的纳什均衡转化为线性规划问题求解，则构造适应度函数如下：

f_best＝max(fitness) (15)

其中，SS_ij表示博弈得分矩阵的第i行，第j列对应的数值；pro_j表示PRO中的第j个分量，满足约束条件：pro_j≥0，

步骤五：基于迁移学习鸽群优化的博弈机动策略选择

步骤六：更新六自由度飞机状态

将步骤五中确定的最优机动动作与步骤二中设计的机动库对应，即可获得控制指令，结合步骤一中六自由度非线性飞机模型，将控制指令转换为其自动驾驶仪需要的迎角及滚转角指令，即可实现飞机的运动控制。

2.根据权利要求1所述的一种基于迁移学习鸽群优化的无人机空战博弈方法，其特征在于：所述步骤五的具体过程如下：

S51、设计改进鸽群优化算法

原始鸽群优化算法分为两步进行计算，分别是地图指南针算子阶段和地标算子阶段，本发明的改进算法利用协调因子将两个阶段连接起来，同时遵循鸽子归巢的行为特点，即起初主要依靠地图指南针引导，随着距离目的地越来越近，地标的引导作用越强，同时鸽子数量按照每轮减去一定数量衰减，但为了保证种群多样性，设定了最小鸽子数量的阈值，当小于阈值时，鸽子数量不再衰减；具体更新方式如下所示：

N为当前鸽子总数，fitness(X_i(t))为对应的适应度函数值；对于最大化问题，fitness(X_i(t))＝f(X_i(t))，对于最小化问题，fitness(X_i(t))＝1/(f(X_i(t))+ε)；N_removed为每次迭代鸽子减少的数量；N_min为最小鸽子数阈值；rand为0～1之间的随机数；

S52、基于最优相近性的多维度迁移学习机制

对博弈得分矩阵采用最大最小算法选出粗略最优值，首先对博弈得分矩阵SS的每一行对应的最小值提取出来，组成一个列向量SS1，再从SS1中取最大值，记为SS2，表示机动库中第SS2个机动动作为选出来的粗略最优值；

SS2＝max(SS1) (18)

将每次鸽群优化得到的最优解存储到样本库中，记第p轮博弈选出的机动动作编号为Q_p，机动决策向量为PRO_p，将每一轮的Q_p和PRO_p作为学习范例存入迁移学习的样本库，当样本库中动作编号重复时，则以新替旧，将最新的机动动作编号和对应的机动决策向量覆盖原样本存入样本库；迁移学习样本库存储格式如下式所示，下式表示样本库容量最大的情况，实际根据运行情况自动生成，样本库中每一列存储的是动作编号及其对应的机动决策向量：

对于当前博弈轮q，按照式(17)(18)选出的粗略最优机动动作编号记为SS2_q，则按照式(20)得到的机动决策向量PRO_q作为迁移源，用于鸽群初始化：

PRO_q＝{PRO_t||Q_t-SS2_q|＝min(|Q_i-SS2_q|)，i＝1,2,...} (20)

S53、基于迁移学习鸽群优化的博弈机动策略选择

鸽群的位置向量为步骤四中所述的机动决策向量，通过鸽群优化选出的最优解即为最终获得的机动决策向量，表示选择机动库中各个动作的概率值，其中概率值最大的动作编号对应最终选择的机动动作，将此动作编号和机动决策向量作为样本存入迁移学习的样本库中，若样本库中有相同动作编号，则以新的动作编号和机动决策向量代替旧的，至此，迁移学习样本库更新完成。

3.根据权利要求2所述的所述的一种基于迁移学习鸽群优化的无人机空战博弈方法，其特征在于：在执行鸽群优化算法步骤S51前，先根据S52中确定的迁移源进行鸽群初始化；确定迁移源机动决策向量中最大概率值对应的机动动作编号，以此为基础，初始化鸽群的位置向量，在所有维度产生的随机数中，均将此动作编号对应的维度设定为最大值，其余维度随机设定，保证各维度之和为1；至此，基于迁移学习的鸽群初始化完成，接下来执行鸽群优化算法，算法结束选出的全局最优位置即为最终确定的机动决策向量，机动决策向量中最大值对应的机动动作即为最终确定的博弈机动策略。