CN114063644B

CN114063644B - 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法

Info

Publication number: CN114063644B
Application number: CN202111319306.XA
Authority: CN
Inventors: 段海滨; 雷阳琦; 邓亦敏; 魏晨; 周锐; 吴江
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2023-06-02
Anticipated expiration: 2041-11-09
Also published as: CN114063644A

Abstract

本发明公开一种基于鸽群反向对抗学习的无人作战飞机空战自主决策方法，步骤一：搭建六自由度非线性无人作战飞机模型以及设计飞机模型控制律；步骤二：设计基于基本战术机动的机动动作；步骤三：设计无人作战飞机空战态势评估函；步骤四：预测目标机态势信息；步骤五：设计基于混合策略的空战博弈适应度函数；步骤六：设计鸽群智能反向对抗学习算法；步骤七：鸽群智能反向对抗学习算法寻找最优机动动作；步骤八：更新飞机运动状态绘制红蓝双方空战博弈轨迹图。本发明优点1)更具实际空战应用价值；2)符合空战实际的复杂战术机动动作；3)改变了鸽子位置及速度更新方式，避免了算法陷入局部最优解，提高了其全局搜索能力。

Description

基于鸽群反向对抗学习的无人作战飞机空战自主决策方法

技术领域

本发明是一种基于鸽群反向对抗学习的无人作战飞机空战自主决策方法，属于无人作战飞机自主空战领域。

背景技术

近年来，无人作战飞机因其在空战领域应用的低成本以及高性能的特点而受到国内外众多学者的广泛关注。自主决策是无人作战飞机空战核心过程，其研究方法主要包括矩阵博弈，动态规划，专家系统，强化学习以及群智能算法等。矩阵博弈法通常以7种基本机动动作为博弈策略集，通过极大极小值搜索算法最小化博弈对手的最大博弈得分函数，生成己方最优机动动作。动态规划决策方法采用近似动态规划策略，生成二维平面等速追逃机动指令，通过态势评估函数搜索最优机动动作指令。专家系统法依靠飞行员经验建立专家知识库，借助专家系统基于空中对抗态势生成响应机动决策。强化学习方法通过大规模的数据训练，采用自博弈对抗学习生成相应态势下的战术机动。群智能算法将自主决策问题转化为优化问题，构造代价函数，通过寻优生成最优机动决策。与其余空战自主决策方法相比，群智能优化算法具有决策连续，便于操作，符合空战逻辑等优点。应用于空战领域的群智能优化算法包括有遗传算法，粒子群优化算法以及其改进算法。

鸽群智能优化算法是一种新型群智能优化算法，其模仿鸽子归巢过程不同阶段的行为，抽象为数学公式，即地图-指南针算子与地标算子。鸽群优化算法由于其快速收敛性与有效性被广泛应用于图像处理，航路规划，编队控制，数据分类等各个方面。然而，与其余群智能优化算法类似，鸽群优化算法在多维优化问题中容易陷入局部最优解。反向对抗学习方法包含对抗学习与反向学习机制。在对抗学习过程中，两只鸽子根据各自适应度值进行对抗博弈并分出胜负，失败方通过向获胜方学习避免陷入局部最优解。此外，反向学习机制根据鸽子位置的取值范围生成反向解，增强了算法的搜索能力。

综上所述，本发明提出了一种基于鸽群智能反向对抗学习的无人作战飞机空战自主决策方法，符合实际空战情形，具有连续自主决策能力。其可根据空战态势快速响应，提高了空战自主作战性能。

发明内容

本发明目的是提供一种基于鸽群智能反向对抗学习的无人作战飞机空战自主决策方法，其目的是提供一种高效可行的无人作战飞机自主空战决策方法，旨在解决连续自主决策时无人作战飞机机动动作选择的问题，以提升无人作战飞机在多种空战态势下的作战效能以及同等态势下的对抗获胜概率。

本发明是一种基于鸽群智能反向对抗学习的无人作战飞机空战自主决策方法，具体实现步骤如下：

步骤一：搭建六自由度非线性无人作战飞机模型以及设计飞机模型控制律六自由度无人作战飞机模型可由空气动力学和运动学简化为12个状态量微分方程，其描述如下：

其中(x_g,y_g,h)为无人作战飞机空间位置向量，(u,v,w)为无人作战飞机在机体坐标轴系的分量，V表式飞机空速，α为迎角，β为侧滑角，φ为滚转角，θ为俯仰角，ψ为偏航角。p、q、r分别为滚转角速度、俯仰角速度以及偏航角速度。I_x、I_y、I_z分别为绕x、y、z轴的转动惯量，I_xz为惯量积，L、M、N分别为滚转力、俯仰力矩和偏航力矩。

为实现无人作战飞机的控制，在上述飞机模型的基础上设计飞机控制律如下：

(1)无人作战飞机配平。设置配平飞行参数，求解使飞机所受合外力、合外力矩为零的控制量，使飞机保持平飞状态。

(2)纵向通道控制律设计。无人作战飞机纵向通道的设计包括对俯仰角、高度和速度的控制。在给定单位迎角输入的情况下，由飞机的迎角、俯仰角、速度以及俯仰角速度响应曲线设计自动驾驶仪，实现对迎角指令的跟踪控制。

(3)横向通道控制律设计。无人作战飞机横向通道的设计通过给定单位滚转角阶跃输入信号，根据飞机的滚转角速度、偏航角速度、滚转角、偏航角、侧滑角以及侧向过载响应曲线设计自动驾驶仪，实现滚转角指令的跟踪控制。

在自主决策过程中，将最优机动动作的切向过载指令n_fcom与滚转角指令φ_com作为输入，通过纵向与横向通道转化为升降舵指令、副翼指令与方向舵指令，从而实现对无人作战飞机模型的控制。

步骤二：设计基于基本战术机动的机动动作

S21、基本空战态势

将参与博弈双方无人作战飞机分别视为攻击机与目标机，根据双方速度矢量、相对距离等定义空战态势评估参数如图1所示。其中攻击机偏离角λ_A定义为其速度矢量方向与双方飞机连线的夹角，同理可定义目标机偏离角λ_T。R为攻击机与目标机之间的相对位置矢量，V_A为攻击机速度矢量，V_T为目标机速度矢量。

S22、基于复杂动作序列的无人作战飞机机动动作

与基本机动动作相比(如：左滚转、右滚转、加速、爬升以及俯冲)，基于复杂动作序列设计的机动动作更加符合实际空战情形。高速摇摇是一种典型的攻击性机动动作，其战术意义为通过动能换取攻击机方所处高度的增加，获取高度优势后向目标机发动攻击。飞行高度增量可表示为：

其中C为定量参数表示动作的剧烈程度，

为攻击机动能所折合高度。当攻击机飞行增加至预期高度后，迅速滚转，使目标机落入其机动平面内，并且发起追踪。追踪目标阶段，攻击机切向过载沿机体坐标系y轴与z轴分量为：

θ_AT和ψ_AT分别为攻击机与目标机间方位夹角沿机体坐标系y轴和z轴方向分量。θ_pitch为攻击机航迹俯仰角，θ_yaw为攻击机航迹偏航角。因此，追踪目标阶段滚转角指令γ与切向过载n_f表达式如下：

n_f＝n_y sinγ+n_z cosγ (7)

S23、针对特定对抗态势选择无人作战飞机机动动作

通常情况下，无人作战飞机对抗态势可分为进攻态势、防御态势以及中立态势。根据现有的不同态势下有人作战飞机空战博弈战术，建立专家知识规则库，规则前件为不同空战态势，后件为选择执行的机动动作。从而离散列举出不同态势下应该采取的机动动作。描述空战态势的特征参数包括：单机偏离角、俯仰角、飞行高度、飞行速度以及攻击机与目标机的相对距离、高度差等。可选择的机动动作包括拉起、转弯、爬升、俯冲等基本战术动作以及高速摇摇、低速摇摇、滚筒机动等复杂机动动作。

步骤三：设计无人作战飞机空战态势评估函数

基于空战过程无人作战飞机双方态势表现，设计空战态势评估函数，其包括方向得分函数、距离得分函数以及能量得分函数。各函数定义如下：

方向得分函数：

距离得分函数：

其中，R₀武器的有效射程，d为无人作战飞机双方距离。

能量得分函数：

攻击机能量与目标机能量比值如下：

根据能量比值k可计算能量得分函数如下：

综上所述无人作战飞机态势评估函数描述为：

S＝S_A+S_R+S_e (12)

步骤四：预测目标机态势信息

当目标机态势信息不可观测时，攻击机需对目标机位置、速度以及姿态角等信息做出预测。在预测过程中，目标机采取符合实际空战态势的机动动作，并且在预测阶段保持同样的机动动作。将目标机模型简化为三自由度质点模型，利用多项式拟合的方法求出下一决策时刻t+δt目标机预测位置矢量[X_p(t+δt),Y_p(t+δt),h_p(t+δt)]，以及预测速度矢量V_p(t+δt)，θ_p(t+δt)和ψ_p(t+δt)为航迹角预测值。位置矢量更新表达式如下：

其中C_3×3矩阵为多项式拟合法参数矩阵，以

为例，计算方法如下：

同理通过计算可得参数

以及

从而可确定目标机预测位置，预测速度矢量，预测航迹角信息如下：

步骤五：设计基于混合策略的空战博弈适应度函数

S51、中立态势下纯追踪机动动作设计

步骤二中已经给出在特定进攻与防御态势下无人作战飞机采取的机动动作，为构造完备的战术决策系统，需设计一系列基于纯追踪动作的机动动作库，即中立态势下可用机动动作。追踪过程通过滚转角指令γ_c使目标机保持处在攻击机飞行平面内。攻击机和目标机的位置矢量分别为[X_A,Y_A,h_A]和[X_T,Y_T,h_T]，由攻击机指向目标机的相对位置矢量为：

AT_i＝[X_T-X_A,Y_T-Y_A,h_T-h_A] (16)

其在航迹坐标系下的投影为：

AT_k＝T_ikAT_i＝[x_k,y_k,z_k] (17)

T_ik为坐标系转化矩阵。滚转角指令γ_c可计算如下：

考虑到侧向加速度的存在，滚转角指令需要进行修正，修正方法如下，首先计算法向过载：

指令修正值为：

最终，滚转角指令为：

γ′_c＝γ_c-σ (21)

以纯追踪机动动作为基础，结合无人作战飞机当前态势可用过载与过载改变速率，共设计21种中立态势下可用机动动作。

S52、基于混合策略的空战博弈适应度函数设计

为满足动态环境下无人作战飞机博弈需求，采用混合博弈策略选择最优机动动作，且概率集合满足归一化设计||P||₁＝1。结合步骤三空战态势评估函数，取空战博弈适应度函数J为:

J＝P·S＝p₁s₁+p₂s₂+…+p₂₁s₂₁ (22)

其中p₁,p₂,…,p₂₁为选择每种机动动作的概率，s₁,s₂,…,s₂₁为采用每种机动动作所得态势评估函数值。

步骤六：设计鸽群智能反向对抗学习算法

与传统鸽群智能优化算法相比，对抗学习算法改变了鸽子速度、位置的更新方法，引入了反向学习机制以及对抗学习机制。算法有效改善了原鸽群算法的全局搜索能力，避免陷入局部最优解。

地图与指南针算子阶段，在原有鸽群算法的基础上引入对抗学习机制，假设存在N只鸽子，将它们随机分为

组。同组的两只鸽子根据其适应度值的大小进行对抗，具有较高适应度值的鸽子称为获胜者，而具有较低适应度值的鸽子称为失败者。第i只鸽子的位置表示为X_i＝[x_i1,x_i2,…,x_iD]，速度表示为V_i＝[v_i1,v_i2,…,v_iD]，其中D为搜索空间维度。获胜鸽子速度、位置更新表达式如下：

X_i(t)＝X_i(t-1)+V_i(t) (24)

其中X_gbest为鸽群的全局最优解，rand为随机数，R_v为地图-指南针因子。失败鸽子位置、速度更新不仅仅依赖于全局最优解，而且依赖于获胜鸽子的位置、速度信息。其更新表达式如下：

V_l,k(t)＝V_l,k(t-1)·e^-Rt+r₁(X_gbest-X_l,k(t-1))+r₂(X_w,k(t-1)-X_l,k(t-1)) (25)

X_l,k(t)＝X_l,k(t-1)+V_l,k(t) (26)

其中V_l,k和X_l,k为第k组对抗失败鸽子的速度与位置，X_w,k为获胜鸽子的位置，r₁和r₂为随机数。

地标导引算子阶段，每次迭代过程中鸽子数量减少一半，根据适应度值大小进行排序，排序位于后半程的鸽子放弃进入下一轮迭代。每次迭代过程中被选中的鸽子采用如下方式进行位置、速度更新：

X_i(t)＝X_i(t-1)+rand·(X_center(t-1)-X_i(t-1)) (29)

为避免陷入局部最优解，增强算法的全局搜索能力，在更新过程中引入反向学习算子。假设鸽子位置的取值范围为[a,b]，当前鸽子的局部最优位置解为x，由反向学习算子计算其反向解为：

x^*＝a+b-x (30)

拓展至空间维度，其表达式为：

在迭代过程中，设置停滞参数stagNum描述鸽子个体最优值出现的次数。如果stagNum值超过一定范围，说明鸽子可能陷入局部最优值，引入反向学习机制帮助其跳出最优值。

步骤七：鸽群智能反向对抗学习算法寻找最优机动动作

使用步骤六提出的鸽群智能反向对抗反向学习算法优化步骤五设计的空战博弈适应度函数J，得到最大概率所对应机动动作编号即为最优机动动作。

步骤八：更新飞机运动状态绘制红蓝双方空战博弈轨迹图

根据步骤二或步骤七选择的机动动作控制指令，结合步骤一设计的六自由度飞机模型，实现对飞机运动控制，得到飞机该时刻的位置、速度、姿态角等信息。根据每一时刻无人作战飞机位置、速度和姿态角信息绘制博弈轨迹图。

本发明提出一种基于鸽群智能反向对抗学习的无人作战飞机空战博弈方法，其主要优势包括以下三点：1)控制对象为六自由度非线性飞机模型，与三自由度质点飞机模型相比更具实际空战应用价值；2)基于空战几何关系与基本空战态势设计一系列符合空战实际的复杂战术机动动作，包括高速摇摇和纯追踪机动等。3)将反向学习机制与对抗学习机制引入智能鸽群算法，改变了鸽子位置及速度更新方式。避免了算法陷入局部最优解，提高了其全局搜索能力。

附图说明

图1无人作战飞机基本空战态势示意图

图2基于鸽群智能反向对抗学习的无人作战飞机空战自主决策方法流程图

图3高速摇摇机动动作仿真图

图4红蓝双方空战博弈轨迹图

图中标号及符号说明如下：

λ_A——我机偏离角

λ_T——敌机偏离角

δH——敌我机高度差

D——双机距离

θ——航迹倾斜角

具体实施方式

下面通过具体的实例来验证本发明所提基于鸽群智能反向对抗学习空战自主决策方法的有效性。在本实例中，选用F16飞机模型作为空战博弈的红蓝双方飞机模型。本实例的仿真环境配置为intel i7-10700处理器，2.90Ghz主频，16G内存，软件为MATLAB 2020a版本。

一种基于鸽群智能反向对抗学习的无人作战飞机空战自主决策方法，其过程框图如图2所示，该实例的具体实践步骤如下：

步骤一：搭建六自由度非线性无人作战飞机模型以及设计飞机模型控制律根据F16飞机参数设置飞机模型参数如下：空速V取值范围：56～408m/s，转动惯量I_x＝12874.8kg·m²，I_y＝75673.6kg·m²，I_z＝85552.1kg·m，惯量积I_xz＝1331.4kg·m²。无人作战飞机配平高度h＝3000m，速度v＝150m/s，迎角α＝3.5973deg。

步骤二：设计基于基本战术机动的机动动作

以高速摇摇为例，其机动动作关键参数设置如下：描述剧烈程度参数C＝0.8，重力加速度g＝9.8m/s，目标追踪阶段k₁＝0.06，k₂＝0.08，高速摇摇机动动作仿真图如图3所示。以进攻和防御态势为例，相应的执行机动动作为：

步骤三：设计无人作战飞机空战态势评估函数

设计无人作战飞机空战态势评估函数，包括方向得分函数，距离得分函数以及角度得分函数，其中设置距离得分函数的武器有效射程R₀＝900m。

步骤四：预测目标机态势信息

在当前决策时刻，结合敌机位置信息结合其前两时刻的位置信息，采用二次多项式拟合的方法预测敌机下一时刻的位置，速度以及姿态角信息。

步骤五：设计基于混合策略的空战博弈适应度函数

以纯追踪机动动作指令为基础，结合无人作战飞机当前态势下可用过载以及过载改变速率，设计共21种机动指令库，示例如下：

其中n_f和γ为当前时刻无人作战飞机的法向过载指令以及滚转指令，过载改变量为：Δn₁＝0.7885。根据步骤三态势评估函数计算每种机动指令下对应的得分函数，分别为s₁,s₂,…,s₂₁。博弈过程中我机采用混合策略(p₁,p₂,…,p₂₁)，设计代价函数J，通过求代价函数最大值对应的概率分布，将自主决策问题转化为优化问题。

步骤六：设计鸽群智能反向对抗学习算法

设定存在N＝60只鸽子，在D＝21维搜索空间寻优，地图-指南针算子迭代次数N_{c max1}＝30，地标算子迭代次数N_{c max2}＝20。每只鸽子的位置表达式为X_i＝[x_i1,x_i2,…,x_iD]，速度表达式为V_i＝[v_i1,v_i2,…,v_iD]，X_i的取值范围是[0,1]，V_i的取值范围是[-0.25,0.25]。地图-指南针因子R＝0.6。

将60只鸽子两两分为一组，共30组，每组鸽子分别计算其适应度值，适应度值大的鸽子按照公式(23)-(24)更新其位置与速度。适应度小的失败鸽子按照式(25)-(26)更新其位置与速度信息。每次迭代完成后，计算鸽子的适应度值并与全局最优值X_gbest所对应适应度值进行比较，若大于全局最优值，则更新X_gbest。当迭代次数超过N_{c max1}时进行地表算子阶段更新。

地标算子阶段，首先对当前所有鸽子进行适应度值排序，根据公式(27)-(28)舍弃适应度值较小的一半数量个体，并根据公式(29)进行鸽子位置的更新。设置描述鸽子个体最优值出现次数参数stayNum，并设置其阈值threshold＝3。当stayNum取值超过threshold时，说明鸽子可能陷入局部最优解，根据公式(30)-(31)进行反向学习，其中a＝0，b＝1。当迭代次数超过N_{c max1}+N_{c max2}时，结束地标算子迭代过程，获得全局最优解X_gbest。

步骤七：鸽群智能反向对抗学习算法寻找最优机动动作

使用步骤六提出的鸽群智能反向对抗学习算法优化步骤五设计的代价函数，选取全局最优解中最大概率值对应的机动动作作为最优机动动作。

步骤八：更新飞机运动状态绘制红蓝双方空战博弈轨迹图

设置红蓝双方博弈初始参数如下：

红方无人作战飞机初始位置为[0,1000,6000]，初始速度为220m/s，初始偏航角为0°。蓝方无人作战飞机初始位置为[0,0,6000]，初始速度为220m/s，初始偏航角为90°。仿真时间为60s，仿真采样时间为0.01s。图4为该初始条件下红蓝双方博弈结果图，证明了基于鸽群反向对抗学习的无人作战飞机空战自主决策方法的有效性。

Claims

1.一种基于鸽群反向对抗学习的无人作战飞机空战自主决策方法，其特征在于：该方法步骤如下：

步骤一：搭建六自由度非线性无人作战飞机模型以及设计飞机模型控制律；

步骤二：设计基于基本战术机动的机动动作，包括：基本空战态势、基于复杂动作序列的无人作战飞机机动动作、针对特定对抗态势选择无人作战飞机机动动作；

步骤三：设计无人作战飞机空战态势评估函，包括方向得分函数、距离得分函数以及能量得分函数；

步骤四：预测目标机态势信息，包括对目标机位置、速度以及姿态角信息做出预测；

步骤五：设计基于混合策略的空战博弈适应度函数，包括中立态势下纯追踪机动动作设计，和基于混合策略的空战博弈适应度函数设计；

步骤六：设计鸽群智能反向对抗学习算法，具体包括引入反向学习机制以及对抗学习机制；

步骤七：鸽群智能反向对抗学习算法寻找最优机动动作

使用步骤六提出的鸽群智能反向对抗反向学习算法优化步骤五设计的空战博弈适应度函数，得到最大概率所对应机动动作编号即为最优机动动作；

步骤八：更新飞机运动状态绘制红蓝双方空战博弈轨迹图

根据步骤二或步骤七选择的机动动作控制指令，结合步骤一设计的六自由度飞机模型，实现对飞机运动控制，得到飞机该时刻的位置、速度、姿态角信息，根据每一时刻无人作战飞机位置、速度和姿态角信息绘制博弈轨迹图；

所述的基于混合策略的空战博弈适应度函数设计，具体过程为：为满足动态环境下无人作战飞机博弈需求，采用混合博弈策略选择最优机动动作，且概率集合满足归一化设计||P||₁＝1；结合步骤三所述的空战态势评估函数，取空战博弈适应度函数J为:

J＝P·S＝p₁s₁+p₂s₂+…+p₂₁s₂₁ (1)

其中p₁,p₂,…,p₂₁为选择每种机动动作的概率，s₁,s₂,…,s₂₁为采用每种机动动作所得态势评估函数值；

设计鸽群智能反向对抗学习算法，具体包括：

组；同组的两只鸽子根据其适应度值的大小进行对抗，具有较高适应度值的鸽子称为获胜者，而具有较低适应度值的鸽子称为失败者；第i只鸽子的位置表示为X_i＝[x_i1,x_i2,…,x_iD]，速度表示为V_i＝[v_i1,v_i2,…,v_iD]，其中D为搜索空间维度；获胜鸽子速度、位置更新表达式如下：

X_i(t)＝X_i(t-1)+V_i(t) (3)

其中X_gbest为鸽群的全局最优解，rand为随机数，R_v为地图-指南针因子；失败鸽子位置、速度更新不仅仅依赖于全局最优解，而且依赖于获胜鸽子的位置、速度信息，其更新表达式如下：

V_l,k(t)＝V_l,k(t-1)·e^-Rt+r₁(X_gbest-X_l,k(t-1))+r₂(X_w,k(t-1)-X_l,k(t-1)) (4)

X_l,k(t)＝X_l,k(t-1)+V_l,k(t) (5)

其中V_l,k和X_l,k为第k组对抗失败鸽子的速度与位置，X_w,k为获胜鸽子的位置，r₁和r₂为随机数；

地标导引算子阶段，每次迭代过程中鸽子数量减少一半，根据适应度值大小进行排序，排序位于后半程的鸽子放弃进入下一轮迭代；每次迭代过程中被选中的鸽子采用如下方式进行位置、速度更新：

X_i(t)＝X_i(t-1)+rand·(X_center(t-1)-X_i(t-1)) (8)

为避免陷入局部最优解，增强算法的全局搜索能力，在更新过程中引入反向学习算子；假设鸽子位置的取值范围为[a,b]，当前鸽子的局部最优位置解为x，由反向学习算子计算其反向解为：

x^*＝a+b-x (9)

拓展至空间维度，其表达式为：

在迭代过程中，设置停滞参数stagNum描述鸽子个体最优值出现的次数；如果stagNum值超过阈值，说明鸽子陷入局部最优值，引入反向学习机制帮助其跳出最优值。