CN113962013B

CN113962013B - 飞行器对抗决策方法及装置

Info

Publication number: CN113962013B
Application number: CN202110838538.XA
Authority: CN
Inventors: 高阳; 陈琳; 王彦雄; 常惠; 何少钦
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-05-28
Anticipated expiration: 2041-07-23
Also published as: CN113962013A

Abstract

本发明提供一种飞行器对抗决策方法及装置，所述方法包括：编码生成初始的分类器种群，分类器种群中的分类器个体的编码包括飞行器的攻击信息；计算分类器个体的适应度值，并基于适应度值对分类器种群进行遗传算法的选择操作，根据交叉概率对分类器种群进行遗传算法的交叉操作，根据变异概率对分类器种群进行遗传算法的变异操作，基于得到的新的分类器种群获取最优分类器个体；判断是否满足预设终止条件，若不满足，则将计算得到的种群多样性及种群进化速度输入至模糊控制器更新变异概率和交叉概率后重复执行遗传迭代流程，直至达到预设终止条件。本发明提供的飞行器对抗决策方法及装置，实现了对飞行器对抗决策方法的优化，同时提高了决策效率。

Description

飞行器对抗决策方法及装置

技术领域

本发明涉及飞行器控制技术领域，尤其涉及一种飞行器对抗决策方法及装置。

背景技术

随着科技和智能化作战的发展，利用计算机算法进行飞行器对抗策略的选取成为一个当下重要的军事研究课题，其中，遗传算法取得了相对较好的寻优效果。

遗传算法是近几十年发展起来的一种崭新的全局优化算法，它借用了生物遗传学的观点，通过自然选择、交叉、变异等作用机制，实现各个个体适应性的提高。

但是，由于算法的交叉和变异概率始终为固定值，使得算法容易陷入局部最优，因此在应用时，仍然存在无法搜索到实际存在的最佳可能；与此同时，由于传统遗传算法的收敛速度较慢，所以存在运算速度缓慢，进化众多的规划要占据较大存储空间和运算时间，实时性差等问题。

发明内容

为解决现有技术中的问题，本发明提供了一种飞行器对抗决策方法及装置。

本发明提供一种飞行器对抗决策方法，包括：初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

遗传迭代流程，包括：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；

模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

根据本发明提供的一种飞行器对抗决策方法，所述方法还包括：基于所述最优分类器个体的所述编码获取最优对抗策略，根据所述最优对抗策略执行动作并与环境交互，得到综合奖励值，基于所述综合奖励值更新所述适应度值。

根据本发明提供的一种飞行器对抗决策方法，所述基于所述综合奖励值更新所述适应度值，具体包括：根据遗传算法的适应函数得到适应度评价结果；比较所述适应度评价结果及所述综合奖励值的大小，取所述适应度评价结果及所述综合奖励值中的较大值作为所述适应度值。

根据本发明提供的一种飞行器对抗决策方法，所述基于得到的新的所述分类器种群获取最优分类器个体，具体包括：当得到的所述新的所述分类器种群中多个所述分类器个体与环境消息匹配时，计算所述多个所述分类器个体的适应度值，并将具有最高适应度值的所述分类器个体作为所述最优分类器个体。

根据本发明提供的一种飞行器对抗决策方法，所述飞行器执行动作时，满足如下运动模型F：

其中，x、y、z表示飞行器在惯性坐标系中的位置，v表示飞行器速度，α表示轨迹倾斜角，β表示轨迹偏转角，θ表示绕速度矢量滚转角，k_x表示切向过载，k_z表示法向过载，分别表示v在三个坐标轴方向的分量，g表示重力加速度。

根据本发明提供的一种飞行器对抗决策方法，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

其中，α₁、α₂、α₃表示权重系数，α₁+α₂+α₃＝1；R_a表示角度奖励值，R_v表示速度奖励值，R_h表示高度奖励值；

其中，P表示偏离角，T表示脱离角，v_r表示我方飞行器的速度，v_b表示敌方飞行器的速度，v_g表示我方飞行器和敌方飞行器的最佳对抗速度，Δh表示我方飞行器相对于敌方飞行器的高度差，Δh'为我方飞行器和敌方飞行器的最佳对抗高度差。

根据本发明提供的一种飞行器对抗决策方法，所述种群进化速度表示为：

其中，N为所述分类器种群中所述分类器个体的数量，f(k,i)表示第k代第i个所述分类器个体的适应度，f(k-1,j)表示第k-1代第j个所述分类器个体的适应度，E_v(k)表示第k代所述分类器种群的进化速度；

所述种群多样性表示为：

其中，x_i,1表示第i个个体对应的第1个变量，x_i,n表示第i个个体对应的第n个变量，表示对应不同变量的种群中心，A(k)表示第k代所述分类器种群的种群多样性。

本发明还提供一种飞行器对抗决策装置，包括：初始化模块，用于：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

遗传迭代模块，用于：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；

模糊控制模块，用于：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述飞行器对抗决策方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述飞行器对抗决策方法的步骤。

本发明提供的飞行器对抗决策方法及装置，通过基于遗传算法构建飞行器对抗策略输出模型，该模型以生物进化为原型，具有良好的收敛性与鲁棒性，基于此可以得到最优的飞行器对抗策略；同时利用模糊控制器对交叉概率和变异概率进行整定，避免模型陷入早熟状态，有利于获得全局最优解并加快搜索速度，有效提高飞行器对抗策略输出模型的输出效率，实现快速准确得到最优飞行器对抗策略的目的。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的飞行器对抗决策方法的流程示意图之一；

图2是本发明提供的飞行器对抗决策方法的流程示意图之二；

图3是本发明提供的飞行器对抗决策方法中我方与敌方的相对位置航向示意图；

图4是本发明提供的飞行器对抗决策方法中飞行器对抗综合优势评价模型示意图；

图5是遗传算法与本发明提供的飞行器对抗决策方法的进化过程曲线对比图；

图6是本发明提供的飞行器对抗决策装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的飞行器对抗决策方法的流程示意图之一，如图1所示，所述方法包括：

S110，初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

S120，遗传迭代流程，包括：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；

S130，模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法，是一个迭代过程，通过适应度函数对每次迭代中留下的候选群体进行评价和选择，然后结合交叉算子与变异算子进化出新一代群体。

初始化流程，采用二进制编码串进行编码，随机产生第0代M个初始分类器形成分类器种群，M为自然数，例如M＝100，每一个分类器表示一个飞行器对抗策略，该飞行器对抗策略上携带有飞行器的攻击信息，比如，1表示攻击，0表示不攻击。在此过程中，还设置迭代次数N，N为自然数，如N＝50，当迭代次数达到预先设定的N值时，停止训练。可以分别设定最大交叉概率、最小交叉概率、最大变异概率以及最小变异概率的值。

遗传迭代流程，解码后根据适应度函数求解适应度值；将当代种群中的个体按照适应度值由大到小选择前a个个体，将他们复制到下一代种群中，即以适应度值作为依据采用优胜劣汰的方式更新种群。计算个体的交叉概率，根据交叉概率进行交叉操作，并更新种群；按照交叉概率由大到小依次选择若干对个体进行交叉，将交叉后的个体代替交叉前的个体，交叉操作采用的是交叉算子，交叉算子将两个被选中的个体的基因串的某一部分进行交叉和互换操作，从而得到两个新的个体。计算个体的变异概率，根据变异概率进行变异操作，并更新种群；按照变异概率由大到小依次选择若干个个体进行变异，将变异后的个体替代变异前的个体，变异操作采用的是变异算子，变异个体上的基因串的某个基因值突变形成新的基因串，继而得到新的个体。

依次经过初始化流程和遗传迭代流程，完成一次完整的遗传操作，即依次序进行了选择操作、交叉操作和变异操作，最终得到最优分类器个体，即最优飞行器对抗策略。

模糊控制流程，判断是否满足预设终止条件，即迭代过程是否达到预设迭代次数N，若满足，则停止迭代过程；若不满足，则计算种群多样性和种群进化速度，并将种群多样性和种群进化速度输入至模糊控制器，得到新的变异概率和交叉概率，基于新的变异概率和交叉概率重复执行遗传迭代流程，直到达到预设迭代次数N，停止迭代过程，训练结束，得到飞行器对抗策略输出模型。

需要说明的是，种群多样性指的是一个给定物种内部个体间的差异，可以看作是种群内部聚类程度的衡量，种群多样性下降时，有利于模型的收敛；种群进化速度指的是一个给定物种各种性状演变的快慢，种群进化速度越快，则模型收敛越快。

利用模糊控制器将待交叉个体的种群多样性及种群进化速度经过模糊化处理，这一过程中整个输入区间被划分成小区间，根据实际情况每个小区间由相应的隶属度函数来覆盖。这样，一个精确量输入进来通过相应的隶属度函数计算成隶属度值，从而完成模糊化，然后通过模糊控制规则库进行模糊裁决，最后经过模糊推理得到交叉概率。模糊化推理将精确量转化为相应的模糊量，按照总结出来的模糊规则进行模糊逻辑推理，通过IF/THEN模糊规则以及模糊化处理后的隶属度函数的值来计算不同规则的权重，进而得到模糊控制器的交叉概率，即交叉概率是由待交叉个体的适应度值及当前种群内适应度值的分布求解得到。其中，种群多样性及种群进化速度分别与适应度值和群内适应度值的分布有关。

利用模糊控制器将待变异个体的种群多样性及种群进化速度经过模糊化处理，这一过程中整个输入区间被划分成小区间，根据实际情况每个小区间由相应的隶属度函数来覆盖。这样，一个精确量输入进来通过相应的隶属度函数计算成隶属度值，从而完成模糊化，然后通过模糊控制规则库进行模糊裁决，最后经过模糊推理得到变异概率。模糊化推理将精确量转化为相应的模糊量，按照总结出来的模糊规则进行模糊逻辑推理，通过IF/THEN模糊规则以及模糊化处理后的隶属度函数的值来计算不同规则的权重，进而得到模糊控制器的变异概率，即变异概率是由待变异个体的适应度值及当前种群内适应度值的分布求解得到。其中，种群多样性及种群进化速度分别与适应度值和群内适应度值的分布有关。

本发明提供的飞行器对抗决策方法，通过基于遗传算法构建飞行器对抗策略输出模型，该模型以生物进化为原型，具有良好的收敛性与鲁棒性，基于此可以得到最优的飞行器对抗策略；同时利用模糊控制器对交叉概率和变异概率进行整定，避免模型陷入早熟状态，有利于获得全局最优解并加快搜索速度，有效提高飞行器对抗策略输出模型的输出效率，实现快速准确得到最优飞行器对抗策略的目的。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述方法还包括：基于所述最优分类器个体的所述编码获取最优对抗策略，根据所述最优对抗策略执行动作并与环境交互，得到综合奖励值，基于所述综合奖励值更新所述适应度值。

本发明提出的改进遗传算法的飞行器对抗决策建模方法，可以通过遗传搜索产生合理的机动决策序列，完成飞行器的机动决策过程。设计模糊控制器整定遗传算法的交叉概率和变异概率，并为了对没有显式目标函数的问题建模，在此基础上基于强化学习思想对算法进行改进，最后采用改进的强化模糊遗传算法进行建模，实现飞行器对抗智能决策。

需要说明的是，基于最优分类器个体的编码获取最优对抗策略，飞行器基于得到的最优对抗策略执行动作并与环境进行交互，当飞行器基于最优对抗策略执行动作完成后，更新飞行器的状态，同时得到综合奖励值，该综合奖励值可以表明飞行器作出的动作对环境的适应性好坏，且适应性越好获得的奖励值越大，适应性越差获得的奖励值越小，在本发明中，适应性好表明我方飞行器在与敌方飞行器对抗过程中处于优势地位，适应性差表明我方飞行器在与敌方飞行器对抗过程中处于劣势地位。基于得到的综合奖励值对飞行器的适应度值进行更新。

利用遗传算法本身具有的适应函数求得函数值，基于该函数值得到最优分类器个体，然后飞行器执行基于该最优分类器个体获取的最优对抗策略，即该最优对抗策略的获取依据是单一的，是一种理论上的最优结果，可能会存在有一定的偏差；而综合奖励值是一种对于飞行器作出具体动作后的客观评价，基于该综合奖励值可以明确得知该对抗策略与环境的适应度大小，是一种实践后的评价。而基于综合奖励值，结合遗传算法的适应函数对最终的适应度值作出准确评价，进行及时更新，可以确保飞行器最优对抗策略的理论最优和实际最优相统一，确保飞行器对抗策略的优化效果。

本发明提供的飞行器对抗决策方法，通过飞行器基于最优对抗策略执行动作并与环境进行交互，进而获得综合奖励值，基于综合奖励值对飞行器的适应度值进行更新，确保飞行器最优对抗策略的理论最优和实际最优相统一，使真正与环境适应度好的飞行器对抗策略可以保留下来进入下一个迭代过程，最终实现对飞行器对抗策略的优化。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述基于所述综合奖励值更新所述适应度值，具体包括：根据遗传算法的适应函数得到适应度评价结果；比较所述适应度评价结果及所述综合奖励值的大小，取所述适应度评价结果及所述综合奖励值中的较大值作为所述适应度值。

需要说明的是，在适应度值的获取过程中，会先后得到两个有关于适应度值的结果，即：根据遗传算法的适应函数可以得到一个关于当前飞行器对抗策略与环境信息的适应度评价结果，该适应度评价结果依赖于遗传算法自有的适应函数直接计算得出；同时当飞行器基于最优对抗策略执行动作完成后，会获得一个综合奖励值，该综合奖励值表明了飞行器作出的动作对环境的适应性好坏，且适应性越好获得的奖励值越大，适应性越差获得的奖励值越小。对适应度评价结果和综合奖励值进行大小比较，取两者之中的较大值作为最终的适应度值。

本发明提供的飞行器对抗决策方法，通过选取适应度评价结果及综合奖励值中的较大值作为适应度值，并基于最终选定的适应度值对分类器个体进行选择过程，基于此有利于得到决策性能更加优化的模型。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述基于得到的新的所述分类器种群获取最优分类器个体，具体包括：当得到的所述新的所述分类器种群中多个所述分类器个体与环境消息匹配时，计算所述多个所述分类器个体的适应度值，并将具有最高适应度值的所述分类器个体作为所述最优分类器个体。

需要说明的是，如前所述，每一个分类器表示一个飞行器对抗策略，该对抗策略是基于环境信息作出的，故当存在有一种环境状态下，可以对应有多个飞行器对抗策略，此时对多个分类器个体的适应度值分别进行计算，比较各个适应度值的大小关系，选取具有最高适应度值的分类器个体作为最优分类器个体，并基于得到的最优分类器个体获取对应的最优飞行器对抗策略。

本发明提供的飞行器对抗决策方法，当在某一环境状态下存在有多个分类器个体与其匹配时，通过计算各个分类器个体的适应度值并选取具有最高适应度值的分类器个体作为最优分类器个体，基于该最优分类器个体得到最优的飞行器对抗策略，实现了对于飞行器对抗策略的再次优化选择，确保飞行器对抗策略的迭代过程始终处于一个最优选择的方向，最终实现对于最优飞行器对抗策略的获取。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述飞行器执行动作时，满足如下运动模型F：

需要说明的是，用于表征飞行器运动状态的运动模型F是一个微分方程组，将上述微分方程组中的多个微分方程分别进行积分，可以得到飞行器的空间速度与空间轨迹，基于得到的空间速度和空间轨迹可以实现对飞行器运动状态的描述。

基于飞行器运动模型F将飞行器的控制量设为[k_x,k_z,θ]，可以建立飞行器的典型机动动作库，具体包括：匀速平飞、加速平飞、减速平飞、爬升、俯冲、匀速左转、匀速右转，并由此可组合出多种机动动作序列，丰富对飞行器运动状态的评价过程。

还可以建立一对一对抗态势图，根据飞行器机动动作库，在对抗双方策略集选定以后，构造出我方飞行器的支付矩阵：

其中，S_i′j′为针对对方执行的第j′种机动策略，攻击机选择第i′种机动策略与之进行对抗时，攻击机的赢得值，该值越大，表示攻击机优势越大，损失越小，对方优势越小，损失越大。

本发明提供的飞行器对抗策略优化方法，通过构建飞行器运动模型F，利用飞行器在空间中所处的位置坐标、速度、轨迹倾斜角以及轨迹偏转角几个方面对飞行器运动状态进行评价，基于此可以实现对飞行器运动状态的完整性描述，准确获取飞行器的运动状态，为后续飞行器对抗策略的得出提供良好的参考依据。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

需要说明的是，假设红机为我方飞行器，蓝机为敌方飞行器，奖励函数设计包括以下步骤：

步骤1：设计角度奖励函数，偏离角P和脱离角T的取值范围都是[0,π]，所以飞行器在对抗过程中综合脱离角和偏离角的角度奖励定义为：

其中，角度奖励R_a＞0说明红机占据优势角度，蓝机处于劣势；R_a＜0说明蓝机占据优势角度，红机处于劣势。

步骤2：设计速度奖励函数，速度奖励与速度差之间呈现线性关系，定义为：

其中，v_r为红机的速度，v_b为蓝机的速度，v_g为最佳对抗速度；

步骤3：设计高度奖励函数，定义高度奖励函数如下：

其中，R_h表示由高度差决定的归一化后的高度奖励，Δh表示红方相对于蓝方的高度差，Δh'为最佳对抗高度差。

步骤4：设计综合奖励函数，将建立的角度奖励函数、高度奖励函数和速度奖励函数综合可得飞行器的综合奖励函数，定义为：

R＝α₁R_a+α₂R_v+α₃R_h

综合奖励函数的线性组合系数满足如下定义：

α₁+α₂+α₃＝1

本发明提供的飞行器对抗策略优化方法，通过基于设计的角度奖励函数、高度奖励函数以及速度奖励函数分别得到角度奖励值、高度奖励值以及速度奖励值，并将上述奖励值的加权和作为飞行器对抗策略优化方法中的综合奖励值，基于此可以通过对各奖励值权重系数的合理改变实现对角度、高度以及速度奖励侧重点的适应性调整，从而可以通过综合奖励值更为准确的反馈飞行器的对抗策略与实际所处环境的适应性优劣，最终实现对飞行器对抗策略的精准优化。

根据本发明提供的一种飞行器对抗决策方法，在本发明中，所述种群进化速度表示为：

所述种群多样性表示为：

需要说明的是，E_v(k)表示第k代所述分类器种群的进化速度，当E_v(k)为正时，表明种群进化，当E_v(k)为负时，表明种群退化；A(k)表示第k代所述分类器种群的种群多样性，A越大，表明种群多样性越大，反之，则表示种群多样性越小。种群多样性下降时，有利于模型的收敛，反之，则不利于模型收敛；种群进化速度越大，表明模型收敛越快，反之，则表明模型收敛越慢。

本发明提供的飞行器对抗策略优化方法，通过引入种群多样性和种群进化速度两个变量，用于对种群的更新过程进行评价，可以及时的把握模型的迭代优化情况，从而方便于对模型迭代过程进行及时有效的修正，确保模型的迭代过程始终处于一个良好的状态。

图2是本发明提供的飞行器对抗决策方法的流程示意图之二，如图2所示，该飞行器对抗决策方法是以遗传算法为基础，并利用模糊控制器，同时结合强化学习思想对其进行改进后得到的，具体方法包括：

S210，编码生成初始种群，每个分类器作为种群中的一个个体，而每一个分类器作为一条规则来实现，规则包括条件和动作2个部分，从遗传算法的角度，一个分类器可以被编码为一个染色体；针对飞行器对抗决策目标分配问题，采用二进制编码，单机编码位数等于敌方数目n；在单机编码时，1表示本机向对应敌方进行攻击，0表示不攻击。设我方数目为m，则总的编码长度为n*m，这n*m位编号的改变就意味着攻击方案的改变，最优机动动作也由改进的遗传算法来进行求解。

对机动动作进行编码，包括7种机动动作，记作a＝[a₁,a₂,…,a₆,a₇]，其中，利用[k_x，k_z，θ]对上述7种机动动作进行表示，θ为绕速度矢量滚转角(范围[-180，180])，k_x为切向过载，k_z为法向过载，a₁匀速直线运动、a₂为最大加速度飞行、a₃为最大减速飞行、a₄为最大过载左转、a₅为最大过载右转、a₆为最大过载爬升、a₇为最大过载俯冲，具体表示如下：

a₁＝[0，1，0]

在飞行器进行决策任务中，激活条件与当前环境消息匹配的分类器，同时向周围环境发送其对应的动作，当环境与多个分类器匹配时，计算适应度值，适应度高的动作消息被执行。

S220，计算个体适应度值以及种群平均适应度；对于个体适应度值的获取需要分别基于遗传算法的适应函数求得适应度评价结果和基于奖励函数获取综合奖励值，最终取适应度评价结果及综合奖励值中的较大值作为个体适应度值。对得到的所有个体适应度值进行平均化处理即可得到种群平均适应度。

S221，基于遗传算法的适应函数获取适应度评价结果；

规定适应度评价结果为非负，且希望可求解其最大值，故对目标函数作如下处理，建立适应函数f(x)与目标函数Y(x)的映射关系：

f(x)＝X_max-Y(x),Y(x)＜X_max

否则，f(x)＝0。其中，X_max为一个输入值或理论上的最大值，此时X_max随着代数会有变化。本发明选取X_max为当前所有代中Y(x)的最大值。则适应函数为：

其中，为编号为i的我方飞行器对编号为j的敌方飞行器的综合空战能力矩阵。m表示我方飞行器的数量，n表示敌方飞行器的数量，x_ij表示第i个个体对应的第j个变量。

基于适应函数获取适应度评价结果。

S222，基于奖励函数获取综合奖励值；

建立奖励函数R：R＝α₁R_a+α₂R_v+α₃R_h，其中，α₁、α₂、α₃表示权重系数，α₁+α₂+α₃＝1；R_a表示角度奖励值，R_v表示速度奖励值，R_h表示高度奖励值；

设计角度奖励函数，偏离角P和脱离角T的取值范围都是[0,π]，所以飞行器在对抗过程中综合脱离角和偏离角的角度奖励定义为：

其中，角度奖励R_a＞0说明我方占据优势角度，对方处于劣势；R_a＜0说明对方占据优势角度，我方处于劣势。

设计速度奖励函数，速度奖励与速度差之间呈现线性关系，定义为：

其中，v_r为我方的速度，v_b为对方的速度，v_g为最佳对抗速度；

设计高度奖励函数，定义高度奖励函数如下：

其中，R_h表示由高度差决定的归一化后的高度奖励，Δh表示我方相对于对方的高度差，Δh'为最佳对抗高度差。

飞行器在动作执行后会从环境得到的奖励，基于奖励函数获取综合奖励值。

S223，比较适应度评价结果和综合奖励值的大小，取适应度评价结果及综合奖励值中的较大值作为个体适应度值，即最终得到如下适应度值计算函数：

其中，对于n个个体，将会得到n个奖励值R₁,R₂...R_n，也会得到n个适应度评价结果f(x₁)，f(x₂)...f(x_n)，本发明的个体是指每次决策动作的解，奖励值是指飞行器每做一次决策所获得的惩罚或者回报，可以得到每条规则的适应度值，即每个分类器的适应度值，F(x_n)是指最终的适应度函数，可以获得较高的适应度值。

S230，选取高适应度的个体作为初始种群；根据轮盘赌的方法对初始种群中的个体进行选取，被选中的个体进入交配池，经过交叉和变异产生新的种群，种群会基于适应度值的改变得到更新，适应度相对较低的分类器将会被淘汰，提高分类器种群的质量，最终在得到的新种群中基于适应度值选取最优个体。

S240，判断终止条件是否满足，如果满足终止条件，则结束训练过程；如果不满足终止条件，则将种群进化速度和种群多样性输入模糊控制器，得到交叉概率和变异概率，并基于得到的交叉概率和变异概率重复执行步骤S220。

需要说明的是，此处终止条件有两个，满足其中之一即停止训练过程，终止条件具体为：种群平均适应度是否达到预设数值；或，迭代优化次数是否达到预设数值。

将种群进化速度和种群多样性输入模糊控制器，得到交叉概率和变异概率的具体过程为：

种群进化速度表示为：

所述种群多样性表示为：

输入参数E_v(k)、A(k)，输出参数P_c和P_m均采用梯形和三角形相结合的隶属度函数，采用IF/THEN的形式描述一条空战机动规则，IF表示空战的每种状态，THEN表示这条规则在该状态下所采取的决策值，每一条规则就是一个分类器，利用IF/THEN规则来进行模糊控制，模糊变量分别取5个，即“Lower”、“Low”、“Medium”、“High”、“Higher”。

本发明提供的飞行器对抗决策方法，通过基于遗传算法构建飞行器对抗策略输出模型，该模型以生物进化为原型，具有良好的收敛性与鲁棒性，基于此可以得到最优的飞行器对抗策略；同时利用模糊控制器对交叉概率和变异概率进行整定，避免模型陷入早熟状态，有利于获得全局最优解并加快搜索速度，有效提高飞行器对抗策略输出模型的输出效率；与此同时，在飞行器每一次动作执行完成后，都基于强化学习思想利用奖励值对该动作作出评价，并将该奖励值作为适应度值的选取对象，基于此确保飞行器对抗策略输出模型具有较好的实时性，也提高了该模型的收敛速度，最终实现了快速准确得到最优飞行器对抗策略的目的。

图3是本发明提供的飞行器对抗决策方法中我方与敌方的相对位置航向示意图，如图3所示，phi是我方与对方的空间夹角，根据双机在k₁时刻的位姿，可以计算出在k₁时刻的相对角度位置，如下公式所示：

其中，i表示第i个个体，是我方进入角，/>是敌方方位角，/>是敌我距离。

在t_k时刻，根据双机的飞行方向以及双机距离，可以将t_k时刻态势划分为四种情况：均势、优势、不利及互劣。

本发明提供的飞行器对抗决策方法，通过基于双方飞行器在k₁时刻的位姿，计算出在k₁时刻的相对角度位置，基于可以实现对双方飞行器在某个时刻的态势评估，实现了对于双方对抗态势的实时把握。

图4是本发明提供的飞行器对抗决策方法中飞行器对抗综合优势评价模型示意图，如图4所示，依次构建角度威胁函数、距离威胁函数、速度威胁函数以及高度威胁函数，对上述威胁函数进行加权求和即得到飞行器空中对抗态势评估函数，具体为：

步骤1：建立角度威胁函数，计算过程如下式所示：

其中，其中是我方航向，q是对方航向，phi是我方与对方的空间夹角。

步骤2：建立距离威胁函数，计算过程如下式所示：

disThreat＝αx₁+(1-α)x₂

d₁＝d-rmt,d₂＝rm-d,l₁＝d-rrt,l₂＝rr-d

其中，d表示距离，rmt是敌方雷达扫描范围，rrt是敌方导弹最大射程，rm是我方雷达扫描范围，rr是我方导弹最大射程，α是归一化系数。

步骤3：建立速度威胁函数，计算过程如下式所示：

其中，v₁是敌方速度，v₂是我方速度。

步骤4：建立高度威胁函数，计算过程如下式所示：

其中，h₁是敌方高度，h₂是我方高度。

步骤5：建立几何态势威胁函数，计算过程如下式所示：

situationIndex＝α₁t₁+α₂t₂+α₃t₃+α₄t₄

其中，α₁,α₂,α₃,α₄分别是角度威胁，距离威胁，速度威胁和高度威胁的系数，满足以下公式：

α₁+α₂+α₃+α₄＝1

步骤6：结合几何态势威胁和对抗效能指数得到总的威胁，计算过程如下式所示：

threatTotal＝βs+(1-β)t

其中，s是几何态势威胁，t是对抗效能指数，β是系数，描述几何态势威胁与对抗效能指数对总威胁的影响不同。

构建飞行器空中对抗能力评估模型，飞行器空中对抗能力评估模型计算公式为：

Y＝[lnA+ln(∑B+1)ln(∑C+1)+1]ε₁ε₂ε₃ε₄

其中，Y为飞行器对抗能力指数；A为机动性参数；B为火力参数；C为探测性参数；ε₁为操纵能力系数；ε₂为生存能力系数；ε₃为航程能力系数，ε₄为电子对抗能力系数。

本发明提供的飞行器对抗决策方法，通过飞行器空中对抗态势评估模型对飞行器进行对抗态势的评价，是针对于飞行器运动行为的评价，同时结合飞行器空中对抗能力评估模型对飞行器进行对抗能力的评价，是针对于飞行器自身能力的评价，结合以上两方面评价可以对飞行器在实际对抗过程中所处的优势/劣势地位作出一个准确的判断，基于此可以为飞行器对抗策略的输出提供一个优化依据，从而最终得到最优的飞行器对抗策略。

图5是遗传算法与本发明提供的飞行器对抗决策方法的进化过程曲线对比图，如图5所示，图中可以看出本发明方法，即改进的遗传算法在26代时，目标函数已经收敛，而标准的遗传算法在进化到第50代时，才完全收敛。故相较于标准遗传算法，改进的遗传算法收敛速度更快，能够满足协同智能对抗问题解算的实时性要求。

图6是本发明提供的飞行器对抗决策装置的结构示意图，如图6所示，所述装置包括：初始化模块610，遗传迭代模块620以及模糊控制模块630，其中：

初始化模块610，用于：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

遗传迭代模块620，用于：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；

模糊控制模块630，用于：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

本发明提供的飞行器对抗决策装置，通过基于遗传算法构建飞行器对抗策略输出模型，该模型以生物进化为原型，具有良好的收敛性与鲁棒性，基于此可以得到最优的飞行器对抗策略；同时利用模糊控制器对交叉概率和变异概率进行整定，避免模型陷入早熟状态，有利于获得全局最优解并加快搜索速度，有效提高飞行器对抗策略输出模型的输出效率，实现快速准确得到最优飞行器对抗策略的目的。

根据本发明提供的一种飞行器对抗决策装置，所述装置还包括奖励模块，用于：基于所述最优分类器个体的所述编码获取最优对抗策略，根据所述最优对抗策略执行动作并与环境交互，得到综合奖励值，基于所述综合奖励值更新所述适应度值。

本发明提供的飞行器对抗决策装置，通过飞行器基于最优对抗策略执行动作并与环境进行交互，进而获得综合奖励值，基于综合奖励值对飞行器的适应度值进行更新，确保飞行器最优对抗策略的理论最优和实际最优相统一，使真正与环境适应度好的飞行器对抗策略可以保留下来进入下一个迭代过程，最终实现对飞行器对抗策略的优化。

根据本发明提供的一种飞行器对抗决策装置，奖励模块在用于基于所述综合奖励值更新所述适应度值时，具体用于：根据遗传算法的适应函数得到适应度评价结果；比较所述适应度评价结果及所述综合奖励值的大小，取所述适应度评价结果及所述综合奖励值中的较大值作为所述适应度值。

本发明提供的飞行器对抗决策装置，通过选取适应度评价结果及综合奖励值中的较大值作为适应度值，并基于最终选定的适应度值对分类器个体进行选择过程，基于此有利于得到决策性能更加优化的模型。

根据本发明提供的一种飞行器对抗决策装置，模糊控制模块620在用于基于得到的新的所述分类器种群获取最优分类器个体时，具体用于：当得到的所述新的所述分类器种群中多个所述分类器个体与环境消息匹配时，计算所述多个所述分类器个体的适应度值，并将具有最高适应度值的所述分类器个体作为所述最优分类器个体。

本发明提供的飞行器对抗决策装置，当在某一环境状态下存在有多个分类器个体与其匹配时，通过计算各个分类器个体的适应度值并选取具有最高适应度值的分类器个体作为最优分类器个体，基于该最优分类器个体得到最优的飞行器对抗策略，实现了对于飞行器对抗策略的再次优化选择，确保飞行器对抗策略的迭代过程始终处于一个最优选择的方向，最终实现对于最优飞行器对抗策略的获取。

根据本发明提供的一种飞行器对抗决策装置，所述飞行器执行动作时，满足如下运动模型F：

本发明提供的飞行器对抗决策装置，通过构建飞行器运动模型F，利用飞行器在空间中所处的位置坐标、速度、轨迹倾斜角以及轨迹偏转角几个方面对飞行器运动状态进行评价，基于此可以实现对飞行器运动状态的完整性描述，准确获取飞行器的运动状态，为后续飞行器对抗策略的得出提供良好的参考依据。

根据本发明提供的一种飞行器对抗决策装置，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

本发明提供的飞行器对抗决策装置，通过基于设计的角度奖励函数、高度奖励函数以及速度奖励函数分别得到角度奖励值、高度奖励值以及速度奖励值，并将上述奖励值的加权和作为飞行器对抗策略优化方法中的综合奖励值，基于此可以通过对各奖励值权重系数的合理改变实现对角度、高度以及速度奖励侧重点的适应性调整，从而可以通过综合奖励值更为准确的反馈飞行器的对抗策略与实际所处环境的适应性优劣，最终实现对飞行器对抗策略的精准优化。

根据本发明提供的一种飞行器对抗决策装置，所述种群进化速度表示为：

所述种群多样性表示为：

本发明提供的飞行器对抗决策装置，通过引入种群多样性和种群进化速度两个变量，用于对种群的更新过程进行评价，可以及时的把握模型的迭代优化情况，从而方便于对模型迭代过程进行及时有效的修正，确保模型的迭代过程始终处于一个良好的状态。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行飞行器对抗决策方法，该方法包括：初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；遗传迭代流程，包括：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的飞行器对抗决策方法，该方法包括：初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；遗传迭代流程，包括：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的飞行器对抗决策方法，该方法包括：初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；遗传迭代流程，包括：计算所述分类器个体的适应度值，并基于所述适应度值对所述分类器种群进行遗传算法的选择操作，根据交叉概率对所述分类器种群进行遗传算法的交叉操作，根据变异概率对所述分类器种群进行遗传算法的变异操作，基于得到的新的所述分类器种群获取最优分类器个体；模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种飞行器对抗决策方法，其特征在于，包括：

初始化流程，包括：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

模糊控制流程，包括：判断是否满足预设终止条件，若不满足，则计算种群多样性及种群进化速度，并将所述种群多样性及所述种群进化速度输入至模糊控制器更新所述变异概率和所述交叉概率后重复执行所述遗传迭代流程，直至达到所述预设终止条件；

所述飞行器执行动作时，满足如下运动模型F：

其中，x、y、z表示飞行器在惯性坐标系中的位置，v表示飞行器速度，α表示轨迹倾斜角，β表示轨迹偏转角，θ表示绕速度矢量滚转角，k_x表示切向过载，k_z表示法向过载，分别表示v在三个坐标轴方向的分量，g表示重力加速度；

所述种群进化速度表示为：

所述种群多样性表示为：

2.根据权利要求1所述的飞行器对抗决策方法，其特征在于，所述方法还包括：基于所述最优分类器个体的所述编码获取最优对抗策略，根据所述最优对抗策略执行动作并与环境交互，得到综合奖励值，基于所述综合奖励值更新所述适应度值。

3.根据权利要求2所述的飞行器对抗决策方法，其特征在于，所述基于所述综合奖励值更新所述适应度值，具体包括：

根据遗传算法的适应函数得到适应度评价结果；

比较所述适应度评价结果及所述综合奖励值的大小，取所述适应度评价结果及所述综合奖励值中的较大值作为所述适应度值。

4.根据权利要求1所述的飞行器对抗决策方法，其特征在于，所述基于得到的新的所述分类器种群获取最优分类器个体，具体包括：当得到的所述新的所述分类器种群中多个所述分类器个体与环境消息匹配时，计算所述多个所述分类器个体的适应度值，并将具有最高适应度值的所述分类器个体作为所述最优分类器个体。

5.根据权利要求2所述的飞行器对抗决策方法，其特征在于，所述综合奖励值表示为：

R＝α₁R_a+α₂R_v+α₃R_h

6.一种飞行器对抗决策装置，用于实现权利要求1至5任一项所述的飞行器对抗决策方法，其特征在于，包括：

初始化模块，用于：编码生成初始的分类器种群；其中，所述分类器种群中的分类器个体的编码包括飞行器的攻击信息；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述飞行器对抗决策方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述飞行器对抗决策方法的步骤。