CN115859778A - 一种基于dcl-gwo算法的空战机动决策方法 - Google Patents

一种基于dcl-gwo算法的空战机动决策方法 Download PDF

Info

Publication number
CN115859778A
CN115859778A CN202211403953.3A CN202211403953A CN115859778A CN 115859778 A CN115859778 A CN 115859778A CN 202211403953 A CN202211403953 A CN 202211403953A CN 115859778 A CN115859778 A CN 115859778A
Authority
CN
China
Prior art keywords
algorithm
missile
decision
function
enemy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211403953.3A
Other languages
English (en)
Inventor
韩博
钱程
程昊宇
黄汉桥
蒋文
张卓然
王渊
李永祥
熊鹏
蒋琪
黄梦轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
93525 Troops Of Chinese Pla
Original Assignee
93525 Troops Of Chinese Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 93525 Troops Of Chinese Pla filed Critical 93525 Troops Of Chinese Pla
Priority to CN202211403953.3A priority Critical patent/CN115859778A/zh
Publication of CN115859778A publication Critical patent/CN115859778A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于DCL‑GWO算法的空战机动决策方法,首先,构建可直接控制UCAV的推力模型,并基于导弹攻击区构建机动决策评价函数引导我机攻击敌机,将空战机动决策问题转化为机动决策评价函数最优化求解问题;其次,根据机动决策评价函数解算需求,提出了分布特征学习框架,其将特征坐标系与初始坐标系结合,同时实现分布估计算法,EDA与灰狼优化算法的统一,并基于DCL‑GWO求解出UCAV最优控制量;最后,在仿真实验环节将所研究的技术进行整合,构建自主决策系统,并结合火控解算分别分析敌机轨迹预测、态势评估对机动决策问题的影响,证明了论文构建的机动决策系统的有效性。

Description

一种基于DCL-GWO算法的空战机动决策方法
技术领域
本发明属于无人作战控制技术,涉及一种基于DCL-GWO算法的空战机动决策方法
背景技术
无人作战飞机(Uncommand Combat Aerial Vehicle,UCAV)在利比亚、叙利亚,以及纳卡战争中优异的作战效果,使其效费比低、可执行高风险作战任务,以及战时可大量部署等优点得到了世界各国广泛认可。现有UCAV在地面站控制下可执行侦察预警、中继通信,以及对地打击等任务,但这种“人在回路”的操作模式无法适应高烈度的空战任务。随着计算机科学、人工智能技术进一步发展,自主空战型UCAV必将成为未来战争中争夺制空权的重要作战力量。空战中UCAV需不断进行态势综合分析,主要包含敌机未来机动、实时态势以及武器对敌威胁程度三部分,以实时调整决策并最终提升决策效率和空战效能。
机动决策是UCAV赢得空战胜利的关键环节,空战是一个高动态的博弈过程,在这个过程中各方根据战场的实时动态信息快速决策,以求抢占最佳攻击占位,先敌开火,一击必中。空战机动决策是整个空战中一锤定音的关键环节。在整个空战决策过程中,机动决策函数对机动动作进行评价,并引导UCAV从不利态转换到有利态势,或保持优态势,最终使对方进入己方导弹攻击区内的能力。因此,构建基于导弹攻击区的空战机动决策评价函数,以及有效的机动动作选择方法是空战机动决策的核心。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于DCL-GWO算法的空战机动决策方法,基于有限机动动作库的决策方法,由于无法遍历其机动动作,导致作战平台的所有性能不能得到充分利用。基于优化算法的决策方法则可以在其机动性能范围内,对决策评价函数进行求解,实现对UCAV控制的精准化,从而更有利于其发挥全部作战潜力,实现对敌空战的胜利。
技术方案
一种基于DCL-GWO算法的空战机动决策方法,其特征在于步骤如下:
步骤1、构建基于导弹攻击区的机动决策函数模型:
Figure BDA0003936076980000021
其中:S表示综合角度优势函数Sa、距离优势函数SR、速度优势函数Sv和高度优势函数Sh的机动决策评价值,ω为各优势因子的权重;
所述角度优势函数:
Figure BDA0003936076980000022
其中:w1、w2分别为方位角和进入角评价权重,且w1+w2=1,方位角优势函数
Figure BDA0003936076980000023
进入角优势函数Sq
Figure BDA0003936076980000024
其中:λmax代表最大离轴发射角,
Figure BDA0003936076980000025
为方位角;
Figure BDA0003936076980000027
其中:q为进入角;
所述速度优势函数Sv
Figure BDA0003936076980000026
其中:vt表示敌机速度;vd表示我机期望速度;vm表示为我机实时速度,也为导弹发射初速度;DMmax、DMTmin分别表示导弹攻击区远界和近界;DMTmax、DMTmin分别表示导弹不可逃逸区远界和近界;
所述距离优势函数SR
Figure BDA0003936076980000031
其中:DMmin、DMmin分别为导弹攻击区远界和近界;DMTmax、DMTmin分别为导弹不可逃逸区的远界和近界;
所述高度优势函数Sh
Figure BDA0003936076980000032
其中:hmax表示我方UCAV的最高作战高度;hd为最佳作战高度;ht为敌机实时飞行高度;hm为导弹发射高度
步骤2:采用DCL-GWO算法对机动决策函数模型求解,得到当前种群的第i个优质解
Figure BDA0003936076980000033
其中优质解为集合
Figure BDA0003936076980000034
得到当前种群的第g次迭代,第i个优质解种群的适应度值
Figure BDA0003936076980000035
有益效果
本发明提出的一种基于DCL-GWO算法的空战机动决策方法,首先,构建可直接控制UCAV的推力模型,并基于导弹攻击区构建机动决策评价函数引导我机攻击敌机,将空战机动决策问题转化为机动决策评价函数最优化求解问题;其次,根据机动决策评价函数解算需求,提出了分布特征学习框架(Distribution Characteristic Learning Framework,DCL),其将特征坐标系与初始坐标系结合,同时实现分布估计算法(Estimation ofDistribution Algorithm,EDA)与灰狼优化算法(Grey Wolf Optimizer,GWO)的统一,并基于DCL-GWO求解出UCAV最优控制量;最后,在仿真实验环节将所研究的技术进行整合,构建自主决策系统,并结合火控解算分别分析敌机轨迹预测、态势评估对机动决策问题的影响,证明了论文构建的机动决策系统的有效性。
附图说明
图1:基于优化的机动决策框架
图2:UCAV推力模型
图3:方位角评价函数
图4:进入角评价函数
图5 角度评价函数三维曲线图
图6 UCAV期望速度三维曲线
图7 速度评价函数三维曲线
图8 期望作战高度曲线
图9 高度评价函数三维曲线
图10 距离评价函数三维曲线
图11 EDA算法流程
图12 特征坐标系
图13 6种算法均值排序图
图14 Nemenyi检验结果
图15 6种算法在8个具有代表性函数上的收敛曲线
图16 算法计算耗时排序雷达图
图17 基于不同决策方法的空战对抗轨迹
图18 我方UCAV优势因子
图19 我方机动决策优势值
图20 我方攻击区
图21 敌方攻击区
图22 我方UCAV控制量
图23 基于不同决策方法的空战对抗轨迹
图24 我方攻击区
图25 敌方攻击区
具体实施方式
现结合实施例、附图对本发明作进一步描述:
针对上述空战决策的两个关键问题,本发明以空空导弹为机载武器,构建空战机动决策函数,并依靠DCL-GWO优化算法在UCAV允许控制量内求解最大决策优势值。在机动决策环节前,对信息的融合和分析是先决条件,并直接影响整个空战的决策质量,因此,在本章空战决策仿真验证中,结合了敌机轨迹预测、态势评估和导弹攻击区实时解算功能,结果证明,本章所提的决策方法有效,同时前几章所研究的关键技术对空战决策具有关键的支撑作用。
1、机动决策框架,见图1
根据UCAV空战过程,首先构建UCAV机动决策评价函数,并基于DCL-GWO优化算法求解最优机动,直至UCAV满足攻击区条件。
2、约束条件下的UCAV质点模型:
本发明采用以油门δ、攻角α和滚转角μ为控制量的UCAV三自由度模型,其模型如图2:
UCAV模型的数学公式定义如下:
Figure BDA0003936076980000051
式中:(x,y,h)表示UCAV的空间坐标位置;v表示UCAV速度;nx、nz分别表示水平和纵向过载;γ、ψ、μ分别表示俯仰角、偏航角、滚转角;g表示重力加速度;(x,y,h,v,γ,ψ)为状态量;m为飞机质量,T为发动机推力,D为空气阻力,L为升力;
在飞行过程中,由于油料的消耗,自身重量会减轻,速度由消耗系数c决定,其公式如下:
Figure BDA0003936076980000052
推力、阻力和升力受飞机外形、飞行状态和环境因素影响,其计算公式如下:
Figure BDA0003936076980000053
Figure BDA0003936076980000054
Figure BDA0003936076980000055
式中,S为UCAV气动截面积,CL和CD分别为升力和阻力的系数,Tmax为UCAV发动机最大推力;
3、基于导弹攻击区的机动决策函数建模
空战的主体以载机和导弹两部分构成,是敌我双方进行高动态的博弈过程。导弹将第三代战机建立的空中能量优势的作战理论彻底颠覆,大离轴角的发射优势,使飞机不必长时间保持稳定的跟踪盘旋,只需要将机头指向离轴发射角范围内就可以对敌方形成有效的威胁。而未来UCAV投入空战,由于不受人生理因素的限制,将大幅增加载机的机动性。其中,因为在作战过程中,人类飞行员基于先验经验,应对敌方的机动总是基于一定的预测判断。因此,本发明结合敌我机动性和武器构建空战态势函数。
3.1角度优势因子建模:
(1)方位角优势因子的建立
空空导弹具有大离轴发射角λ是其重要特征之一。当导弹发射时离轴角越小,导弹做的机动越小,能量消耗越小,因而导弹攻击区最远,杀伤概率最高。由于导弹具有强大机动的能力,在最大离轴角范围内,对敌机都具有极高的威胁程度。基于导弹发射离轴角与方位角
Figure BDA0003936076980000061
相等,构建方位角优势函数
Figure BDA0003936076980000062
Figure BDA0003936076980000063
式中,λmax代表最大离轴发射角。方位角优势值变化曲线如图3;
(2)进入角优势函数的建立
进入角q反映了敌机相对我机的机头指向,当敌方进入角为π-λmax时,我导弹攻击区距离最大,且敌方不构成对我发射条件。因此,当方位角
Figure BDA0003936076980000064
为0时,进入角优势函数Sq
Figure BDA0003936076980000065
进入角优势值变化曲线如图4。
在导弹攻击区计算时方位角
Figure BDA0003936076980000066
和进入角q都具有非常大的影响,需考虑两者的综合影响,因此定义其角度优势函数如下:
Figure BDA0003936076980000067
式中,w1、w2分别为方位角和进入角评价权重,且w1+w2=1,本文取w1=w2=0.5。从角度优势值仿真图5中可以得出,当方位角
Figure BDA0003936076980000071
角度优势值最高,此时发射导弹消耗的机动性最低,导弹攻击区范围最广;当方位角q=100°时,角度优势值最高,然后向两侧递减,这是由于方位角q=180°时,导弹攻击区范围最广,但我UCAV同时受到敌方的威胁;方位角q=0°时,导弹攻击取范围最小,但我UCAV不满足敌方导弹攻击条件,符合真实作战情况,证明角度优势评价函数定义准确。
3.2速度优势因子建模:
速度是空战中战机进行灵活机动的基础,但在不同情况下,速度v并不是越大越好。以红外空空导弹为武器的空战,在大离轴角发射条件下,飞机不需要一直保持高动能进行机动。在导弹攻击区外时,战机以较高速度接敌,以求到达导弹攻击区。在接近攻击区时,战机需要保持对敌机一定的速度优势进行机动。在导弹不可逃逸区内需要保持与敌机相对稳定的速度,实现稳定跟踪。因此构建以下速度优势函数。
Figure BDA0003936076980000072
式中,vt表示敌机速度;vd表示我机期望速度;vm表示为我机实时速度,也为导弹发射初速度;DM max、DMT min分别表示导弹攻击区远界和近界;DMT max、DMT min分别表示导弹不可逃逸区远界和近界。
图6表示为期望速度的三维变化图,从中可以得出,我方UCAV的期望速度总体上随敌我相对距离的减小趋近于敌方UCAV的速度,实现对目标的稳定跟踪,符合真实作战情况。图7为速度优势值变化图,从中可以得出,当我方UCAV越接近期望速度,则速度优势值越高。证明速度优势评价函数定义准确。
3.3高度优势因子建模:
在空战中,当敌机处于导弹攻击区外,较高的飞行高度可减少载机的飞行阻力,并增大导弹攻击区,使敌方更快进入我方导弹攻击区,同时也使我方载机具有一定的能量优势,保持机动性。在导弹攻击区内,载机保持与敌机同一高度,可减少导弹在铅锤面上进行机动,增大导弹的杀伤概率。因此导弹发射的最佳高度主要受到敌我相对距离影响,因此构建高度优势函数如下:
Figure BDA0003936076980000081
Figure BDA0003936076980000082
式中,hmax表示我方UCAV的最高作战高度;hd为最佳作战高度;ht为敌机实时飞行高度;hm为导弹发射高度
图8表示为期望高度的三维变化图,从中可以得出,我方UCAV飞行期望高度随着敌我相对距离的减小,趋近于敌机高度,达到导弹最佳发射高度,符合真实作战情况。图9为高度优势值变化图,当我方UCAV越接近期望高度,则高度优势值越高,证明,速度优势评价函数定义准确。
3.4距离优势因子建模:
相对距离是决定我方UCAV能否攻击到敌机的重要指标。空空导弹的攻击距离范围内敌我雷达都能发现双方,因此,距离优势函数主要由导弹攻击区影响。当距离d大于导弹攻击区时,我方UCAV无法威胁到敌机,此时优势函数Sd为0;当敌机处于不可逃逸区内,此时,此时优势函数Sd为1,无论敌方做何种逃逸机动,都无法逃脱第四代红外空空导导弹的攻击,因此构建距离优势函数如下:
Figure BDA0003936076980000083
式中,DM min、DM min分别为导弹攻击区远界和近界;DMT max、DMT min分别为导弹不可逃逸区的远界和近界;
图10表示为距离优势值二维曲线,仿真定义从中可以得出DM max=8000,DMT max=5000,DMT min=2000,DM min=400。当敌我相对距离与导弹攻击区的差距越小,距离优势值越高;位于导弹不可逃逸区内时Sd=1,符合真实作战情况,证明距离优势评价函数定义准确。
3.5机动决策综合评价函数:
客观、全面地评估机动动作优劣是UCAV进行自主空战的关键技术。UCAV与敌机进行空战过程中,包含了速度、高度、与敌机的相对距离和角度的动态变化,因此,通过这四个影响因子进行综合判断,可选取UCAV空战中最优的机动动作,使我方UCAV不断朝着最优态势方向发展。速度和高度属于能量优势,可衡量载机和导弹的机动性,当能量优势比较高时,导弹的攻击区也相对远。距离和角度是判断敌方是否进入我导弹攻击区的直接影响因子,因此构建UCAV机动决策综合评价函数如下:
Figure BDA0003936076980000091
式中,S表示综合角度优势Sa、距离优势Sd、速度优势Sv和高度优势Sh的机动决策评价值。ω为各优势因子的权重。
4、DCL-GWO算法
由于空战是一个高动态的对抗过程,因此对算法实时性具有很高的要求,要求算法在求解到相对优解的同时,实时性要满足0.2s以内。算法融合是当前进化算法的研究热点。通过将不同搜索机制的算法融合来发挥各自的优点,是提升算法性能的有效手段。EDA(Estimation of Distribution Algorithm,分布式估计算法)作为基于模型的进化算法,可以根据优势种群的分布特性来寻找目标函数的下降方向。但EDA过分依赖种群的分布信息,缺乏其他的搜索机制来增强种群多样性。而灰狼算法(Grey Wolf Optimizer,GWO)利用局部个体间的信息交流实现相互进化,但没有明确优势进化方向,导致算法收敛较慢。这两种不同类型的搜索机制可以相互融合,发挥不同算法的优点。由此,本发明发挥不同类型算法的优势,设计了一种基于分布特性学习的算法融合框架(Distribution CharacteristicLearning Framework,DCL)。该框架利用种群的分布信息来调整融合算法的搜索方向,实现EDA与GWO的有机结合得到DCL-GWO,共同提升融合算法的性能。同时,将得到的融合算法对UCAV空战机动决策问题进行求解。
4.1EDA算法:
分布式估计算法是GA[163](Genetic Algorithm,遗传算法)和统计学习的结合,采用概率模型来表示个体之间的关系。EDA放弃了传统的GA进化算子,通过对已获取的优质解建立概率模型,在搜索空间中获取全局统计信息,并根据概率模型进行采样生成新的子代种群,以此迭代,种群不断进化并最终得到最优解。这也是EDA与大多数其他元启发算法区别的重要步骤。
本发明采用基于高斯模型的EDA,针对D维问题选择优秀个体
Figure BDA0003936076980000101
构建高斯分布概率模型N(μj∈Dj∈D)。根据高斯分布的特性,σj∈D决定了采样的多样性,但由于协方差矩阵C(g)能体现出种群多样性和变量之间的相关性,因此本章利用C(g)构建概率分布模型:
Figure BDA0003936076980000102
Figure BDA0003936076980000103
式中,S为优质解,g为迭代次数,|·|为优质解的个数,子代采样服从高斯分布。
x(g+1)=μ(g)+y,y~N(0,C(g))
在算法的迭代过程中,由于每次都是选择优质解构建概率分布模型,但当选择的优质解处于局部最优解位置时,这种概率分布模型会导致子代“早熟”。因此,EDA算法的局部探索能力突出,而全局开发能力有限。
4.2GWO算法:
GWO算法受灰狼种群内部的社会等级制度启发。头狼α拥有为狼群做决策的特权,包括捕猎、防御以及休息。排名第二的狼名为β,是头狼α的继承者。排名第三的狼被命名为δ,服从上级头狼α和狼β的命令。剩余狼群为最低等级,必须服从头狼α、狼β和狼δ的命令。在GWO中,种群中最优解表示为xα,次优解和第三优解分别表示为xβ和xδ,剩余个体表示为x。GWO的优化机制受灰狼捕食行为启发,可划分为以下三个步骤:
(1)跟踪、追逐和靠近猎物;
(2)包围猎物并骚扰猎物使其停止行动;
(3)攻击猎物。
GWO中,狼群捕猎行为表示为
Dp=|c·xp-x|
x=xp-A·Dp
式中,xp和x分别表示猎物和灰狼的位置。A和c为参数向量,向量的每一维度值由下式计算
Aj=2a·r1-a,r1~U(0,1)
cj=2r2,r2~U(0,1)
式中,r1和r2为服从0-1均匀分布的随机变量。参数a随着算法的迭代由2递减至0。
a=2-2·FEs/FEsmax
在GWO中,xα、xβ和xδ为当前种群的三个最优解,且被认为是猎物的xp的三个潜在位置。灰狼个体x受三只头狼xα、xβ和xδ的指导进行更新,如下式所示:
Figure BDA0003936076980000111
Figure BDA0003936076980000112
x=(x′+x″+x″′)/3
在GWO中,参数a可以影响解种群的搜索范围。如式(5.21)所示,a取值区间为[0,2]。在算法迭代前期,a取值大于1,使得种群个体远离最优解并对解空间进行更多的探索;在算法迭代后期,a小于1时,种群个体逐渐靠近最优解并围绕最优解进行局部的开发。尺度向量c的随机性对搜索距离Dp有影响,有助于避免种群陷入局部最优。得到了新种群后,算法根据个体适应度值更新xα、xβ和xδ。当满足终止条件时,xα即为最优解。
4.3DCL算法融合框架
对于当前的进化算法来说,它们的性能在很大程度上依赖于它们执行搜索的坐标系。一般初始坐标系是当前算法中最常用的坐标系,在整个搜索过程中是固定不变的。在这种条件下,算法难以对目标函数空间特性进行有效拟合来寻找到优势搜索方向,导致算法在初始坐标系中性能变差。为了解决算法在调整搜索方向上的不足,一些研究将ES(Evolution Strategy,进化策略)与DE(Differential Evolution,差分进化算法)方法进行结合,通过构造特征坐标系实现搜索坐标系的改变,算法的性能有了显著提升。用特征坐标系的优势可由下图来解释,种群的分布信息能在一定程度上反映目标函数值的变化特性,从函数等值线变化趋势来看,特征坐标系比原坐标系更接近变化的梯度方向。因此,算法通过在特征坐标系中搜索,可以在一定程度上提取函数的变化特征并提高收敛能力。
图12中,x1ox2为原始坐标系,x′1ox′2为特征坐标系。比较这两个坐标系,x′1ox′2是根据种群分布确定的,比x1ox2更加适合最优值求解。
受此启发,本发明提出的DCL框架将特征坐标系与初始坐标系结合,设计一种可自适应切换搜索坐标系的机制。同时,DCL框架实现了EDA算法与其他优化算法的统一结合,以此来增强算法的优化性能。
1)“Rank-NP”分布模型更新策略
CMA-ES采用“Rank-1”更新策略和“Rank-μ”更新策略计算协方差矩阵。在本章提出的DCL框架中,协方差矩阵的更新只采用“Rank-μ”更新策略,原因有以下两点:1)当种群NP值较大时,“Rank-μ”更新策略对协方差矩阵起主要作用。而其他进化算法通常需要比CMA-ES更大的种群规模。2)“Rank-1”更新策略利用连续代的均值相关性构造进化路径来更新协方差矩阵,这会增加算法的计算复杂度。消除“Rank-1”后DCL框架结构会更加简单。“Rank-μ”更新策略选择了前μ个最优解计算分布模型,而在DCL框架中,整个种群NP都参与分布模型的计算,因此本章将分布模型的更新策略命名为“Rank-NP”更新策略。
分布模型的均值向量计算方式与CMA-ES相似,采用了加权最大似然估计方法。
Figure BDA0003936076980000121
式中,g表示算法当前迭代次数。
Figure BDA0003936076980000122
表示当前种群的第i个优质解,且有
Figure BDA0003936076980000123
为了使搜索方向偏向优势区域,权重系数的值取决于个体的质量,即ω1≥ω2≥…≥ωNP>0。
Figure BDA0003936076980000124
在计算协方差矩阵时,先根据当前种群信息计算CNP,即
Figure BDA0003936076980000125
然后结合历史分布模型得到新的协方差矩阵C(g+1)为:
Figure BDA0003936076980000131
式中,cNP≈min(1,NPeff/D2),D表示问题维度。
Figure BDA0003936076980000132
表示混合选择系数。由式(5.28)可得,协方差矩阵的更新利用了连续代的分布信息,这也意味着搜索范围是累计计算得到的。式(5.28)与CMA-ES的“Rank-μ”更新策略的另一个不同在于没有自适应步长调整。DCL框架主要利用的是搜索方向的调整,省略步长因子σ的计算有助于提高算法的效率。
由此可见,采用DCL-GWO算法对机动决策函数模型求解,得到当前种群的第i个优质解
Figure BDA0003936076980000133
其中优质解为集合
Figure BDA0003936076980000134
得到当前种群的第g次迭代,第i个优质解种群的适应度值
Figure BDA0003936076980000135
2)基于生灭过程的种群更新策略:
很多优化算法通过贪婪策略保留下历史种群中的前NP最优个体组成新种群。这种方法在在一定程度上能够保证算法的收敛性,但在算法后期对种群的更新能力弱,使算法容易陷入局部最优。为了保持种群的多样性,DCL框架提出了一种种群生灭更新策略,构建种群信息记忆池pop_pool。在采样结束后,将新的种群与历史种群存储到pop_pool,连续存储4代的种群分布信息,即
Figure BDA0003936076980000136
并从pop_pool中选出前NP最优个体作为下次采样的父代种群。如果父代种群中个体的存活代数超过4次,该个体死亡并从种群中剔除,空位由其他解按目标函数值排序递补。当一个优质个体产生后,生灭策略可以利用该个体进行局部探索,在完成4次局部探索后,算法抛弃这个优质个体来防止陷入局部最优,并在其他优质个体周围进行局部探索。这在一定程度上平衡了算法探索与开发能力。
3)基于混合分布模型的种群采样策略
DCL框架在特征坐标系下对子代进行采样,因此,混合分布模型首先需要将种群和均值映射到特征坐标系中进行求解,如下式所示:
Figure BDA0003936076980000141
式中,<E>表示该向量已映射到特征坐标系中。B是特征向量矩阵,由协方差矩阵C分解求得,如下式:
C(g)=(B(g)·D(g))·(B(g)·D(g))T
算法求解问题中,历史优质种群的分布能较全面的体现解空间的收敛性、全局性和种群多样性,因此,在进行子代采样时应充分考虑所有参与模型构建的个体影响,并动态平衡全局搜索和收敛效率,如下式:
Figure BDA0003936076980000142
Figure BDA0003936076980000143
式中,FEs为迭代次数,FEsmax为最大迭代次数,R为服从(0,1)之间的均匀分布。子代采样如下式所示:
Figure BDA0003936076980000144
式中,D为特征值平方根向量,由协方差矩阵C分解求解,
Figure BDA0003936076980000145
种群个体在进行适应度值计算时,需要将个体从特征坐标系下转换到一般坐标系下进行,如下式所示:
Figure BDA0003936076980000146
采样均值包含了4代历史最优解的个体和整体的分布信息,并随着迭代次数的不断增多,采样均值重点将从体现全局的个体信息向体现局部的分布均值点倾斜,从而兼顾全局与局部的关系,平衡算法的种群多样性与收敛性之间的矛盾,增强DCL算法的全局开发性。而且,由于差分向量具有探索性,能有效的防止采样均值点陷入局部最优,提高DCL算法的局部探索性。
4)自适应算法选择概率调整策略
如何平衡不同算法的探索与开发能力来发挥各自的优势是算法融合面临的难题之一。DCL提供了一种根据两种算法各自产生优质子代的占比自适应调整算法选择概率的机制。假设当前每个个体选择EDA进行采样的概率为PA1,选择其他算法的概率为PA2,由PA1+PA2=1,种群更新结束后,采用EDA更新得到的子代数量为NPA1,优于其父代的个体数量为SNPA1,子代占优比SRA1的计算方式为:
SRA1=SNPA1/NPA1
同理,参与融合的算法子代占优比SRA2为:
SRA2=SNPA2/NPA2
如果SRA1大于SRA2,表明EDA采样效果更好,在下一次迭代中应该适当增大PA1的值,两种算法的选择概率调整为:
Figure BDA0003936076980000151
同理,如果SRA1小于SRA2,表明融合算法采样效果更好,在下一次迭代中应该适当增大PA2的值,两种算法的选择概率调整为:
Figure BDA0003936076980000152
这种概率调整采用了惯性调整方法。初始时刻,PA1=PA2=0.5。当PA1值比较大时,增量1-PA1相对较小,PA1保持当前数值的惯性较大;当PA1值比较小时,增量1-PA1相对较大,PA1保持当前数值的惯性较小,调整到幅度更大。同理,PA2数值的调整也是如此。
4.4DCL-GWO算法:
以下是DCL-GWO算法的伪代码,种群个体在每次迭代后,都会进行边界控制策略。
Figure BDA0003936076980000153
Figure BDA0003936076980000161
4.5优化性能验证:
1)实验参数设置:每个测试函数的最大评估数(FEmax)设置为D×10000,D是测试函数的维度,本章中D=30,所有函数的每个维度的搜索范围均是[-100,100],为降低算法所得结果的随机性,每个算法均独立运行求解51次对测试函数进行求解。由于不同函数的全局最优解不同,为方便对实验结果进行分析,使用f(XBest)-f(X*)记录算法获得的结果。其中,XBest是算法在实验中输出的解,X*是测试函数的全局最优解。
为充分验证DCLGWO的有效性与优越性,本文选择GWO[166]以及性能优越的新算法WOA[167],VCS[168],CoBiDE[169],HFPSO[170]进行对比分析,6个算法的搜索个体数(SN)和最大评估次数为SN=500和FEmax=300000,算法的其他参数与原文献保持一致,如表1所示
Figure BDA0003936076980000162
Figure BDA0003936076980000171
2)实验结果及分析
仿真得到的统计结果如表2所示,对最好的解加粗显示。根据表2可得,DCLGWO求解单峰函数F1-F3可以稳定得到全局最优解,明显优于另外5种对比算法,证明DCLGWO具有较强的局部搜索能力;求解多峰函数F4-F16时,DCLGWO除在求解F5和F14时的收敛精度分别劣于HFPSO和CoBiDE外,在其余函数上均优于另外5种对比算法,并且在F7上收敛至全局最优解,证明DCLGWO具有较强的全局搜索能力;DCLGWO在求解混合函数F17-F22时寻优效果均优于另外5种对比算法,证明DCLGWO具有较强的平衡全局搜索和局部搜索能力;最后,根据求解组合函数F23-F30的结果,VCS在F14在F23,F24,F25,F27,F28上的求解精度优于DCLGWO,但DCLGWO在混合测试函数F26,F29,F30的求解精度均优于另外5种对比算法,证明DCLGWO具有一定的局部最优规避能力,但略劣于VCS。因此,本章提出的DCLGWO在求解30个CEC 2014测试函数时,在其中23个函数上的收敛精度优于所有对比算法,证明DCLGWO相比GWO收敛精度提升明显,具有较好的寻优能力。
2 CEC2014实验统计结果
Figure BDA0003936076980000172
Figure BDA0003936076980000181
为了更直观地展示6种算法在各个测试函数上的寻优能力,基于6种算法独立运行51次求解函数所得结果均值排序绘制雷达排序图如图13所示,图13中折线所围面积越小,算法寻优性能越好。
为分析算法求解30个测试函数的总体差异,采用非参数Friedman检验对表2中所得均值进行分析。在显著性水平α=0.05的条件下,Friedman检验获得的算法平均排序结果如表4所示,平均排序越小表示算法的寻优能力越好。根据表3可得,DCLGWO排名最高,其他算法性能由高到低依次为:HFPSO,VCS,CoBiDE,GWO和WOA。此外,Friedman检验得到的具有5自由度的chi-square=80.04,p值为3.78E-11小于显著性水平α,表明6种算法之间存在显著性差异。
3 Friedman检验结果
Figure BDA0003936076980000182
为了进一步分析显著性差异的大小,采用Iman-Davenport检验,进一步对结果进行检验,Iman-Davenport检验是基于具有(K-1)和(K-1)(N-1)自由度的F分布的统计值。
Figure BDA0003936076980000191
式中:K是算法数量,N为CEC2014中测试函数的数量。因此,本例中Iman-Davenport检验中F分布的自由度分别为5和145。用Nemenyi检验。对Iman-Davenport检验的结果进行统计学分析,该方法采用临界差异值(CDV)量化基于Friedman检验获得的算法平均排序的差异。CDV计算公式如下:
Figure BDA0003936076980000192
式中临界值qa可从F分布的统计表中查阅得到为2.5454。因此,在显著性水平α=0.05的条件下,CDV=1.2295。6种算法的差异性如图2.4所示,可以使用CDV连接表明算法性能不具有明显差异,由图14可得,DCLGWO由于另外5种对比算法,且具有显著性差异;HFPSO,VCS以及CoBiDE具有相似性能,无显著性差异;VCS,CoBiDE以及GWO具有相似性能,无显著性差异;GWO和WOA具有相似的寻优性能,无显著性差异。
为了进一步阐述DCLGWO的性能,6种算法基于51次独立运行的平均值收敛曲线如图15所示,根据收敛曲线的斜率比较收敛速度。为了避免文章冗长,本章仅列出6种算法求解8个具有代表性的测试函数时的收敛曲线,即单峰函数F1和F2,多峰函数F7和F13,混合函数F19和F21,复合函数F29以及F30,在这些函数上DCLGWO获得了较好的结果。由图15可得,本章提出的DCLGWO在选择的8个具有代表性的函数上均具有更快的收敛速度和更好的收敛精度。此外,另外5种算法在这8个函数上均明显陷入局部最优,出现早熟收敛,相比之下,DCLGWO具有较强的局部最优规避能力和更快的收敛速度。
算法计算效率是新算法性能的另一个重要评价指标,可以通过计算耗时来表示。表4中列出了6种算法独立运行51次求解CEC 2014各个测试函数的平均计算耗时。
4平均计算耗时
Figure BDA0003936076980000193
Figure BDA0003936076980000201
为了更直观地对比6种算法的计算耗时,基于平均计算耗时排序结果绘制雷达图展示对比结果,如图16所示,图中折线所围面积越小,算法综合求解速度越快。
DCLGWO的计算耗时低于VCS和HFPSO,但高于WOA,GWO和CoBiDE。虽然WOA,GWO和CoBiDE的计算速度相对较快,但其收敛精度却明显劣于另外3种算法。
5仿真实验:
为了验证本章提出的空战决策方法,以及二、三、四章提出空战关键技术对空战决策的影响,本节仿真验证分为三部分:(1)不同决策方法的空战对抗仿真实验;(2)态势评估对空战决策的影响;(3)敌机轨迹预测对空战决策的影响。
UCAV平台模型采用4.2中的“Storm Shadow”的相关模型,其控制量调整幅度为
Figure BDA0003936076980000202
敌我双方采用统一平台和某型空空导弹武器模型。在空战过程中,敌我双方根据§4.4构建的不可逃逸区拟合模型,实时输出导弹攻击区范围。当敌我相对位置关系不符合导弹发射条件,导弹攻击区则为0。仿真决策间隔为1s。本节所有对抗仿真均进行30次Monte Carlo实验。
空战机动范围为15km×15km×20km,超出此范围则仿真结果无效。假设敌机都处于对方的雷达范围内,可实时获取敌方位置状态信息,不考虑其他影响因素。
仿真结束条件:对方飞机处于己方的导弹不可逃逸区内,且稳定跟踪3秒。
5.1不同决策方法的空战对抗仿真实验
目前在空战决策领域主要有两种成熟方法:(1)基于机动动作库的最优机动决策方法。(2)基于优化算法的最优机动决策方法。为了直观反映两种决策方法的效果,仿真实验采取控制变量法。实验中我方UCAV采用本章基于DCL-GWO算法的空战决策方法,敌方UCAV采用基于机动动作库的决策方法。除此外,双方在对抗过程中,都结合了敌机轨迹预测、态势分类,以及攻击区输出模块。
为了更加全面的反映出两种决策方法的优劣,敌方机动动作库在文献[173]的基础上,对每个控制量变化率
Figure BDA0003936076980000211
平均取为11个节点,因此可构建出具备1331个机动动作库,提高了仿真的精细度。
我方DCL-GWO优化算法的初始值设置为NP=25。
实验一:初始时刻敌我处于迎头接敌
根据场景设置,双方初始状态信息如下所示:
表5.5敌我对抗初始态势
Figure BDA0003936076980000212
从仿真结果图17中可以看出,空战开始时敌我双方处于均势,都构成对对方威胁。空战开始后敌我双方开始向下俯冲,在到达各自最低点后,开始向上俯冲并近距缠斗,都努力实现对敌方进行尾后攻击,最大限度获取有利态势,最终我方飞机先锁定敌机,并达到导弹发射条件。在65s时获得胜利,此时敌相对于我距离为1215.1398m。两种决策方法的每步决策时间分别为,机动动作库0.013s,智能优化算法0.11s,这是由于动作库规模有限,因此实时性高,智能优化算法虽然实时性比机动动作库方法慢,但满足0.2s的空战要求,从胜负结果来看,基于DCL-GWO算法的机动决策优于基于机动动作库。
图18为分别为我方优势因子值。从图18中可知:(1)我方UCAV在空战开始后,快速俯冲,在降低了重力势能的同时,由于速度大幅增大,因此能量优势因子值快速增长,并在整个空战中保持了相对稳定的状态,具备一定的机动性;(2)由于第四代空空导弹具有大离轴发射角,且一旦锁定跟踪后,难以摆脱,因此角度优势非常重要,由于我方UCAV在整个空战中总体上不断提高角度因子值,最终使敌我水平离轴角为19.9642°,处于我方导弹最大离轴发射角±80°范围内,符合发射条件;从图19可知,我方UCAV机动决策优势值趋势总体向上,在满足导弹发射条件时达到最大,有效引导了UCAV改变不利态势或保持有利态势。从图2可知,敌我双方空战开始后相向俯冲,且不断接近对方导弹攻击区,因此双方的距离因子不断提高。但当双方从30s开始近距缠斗时,由于敌我双方态势变化剧烈,敌我方位角或其他约束无法满足导弹使用条件,因此30s-61s内不存在导弹发射区,此时距离因子持续处于较低的状态,在62s时满足导弹使用条件,使敌机处于我不可逃逸区内,此时我方距离优势因子值为1。从图21可知,敌方UCAV始终没有构成有效攻击条件。其中我方UCAV俯冲速度更快,并首先获取对敌机的态势优势。
从图22中可以看出,基于优化算法的决策方法在控制量的选取上趋势相对平滑,没有出现大幅度的震荡,具有一定的适用性,同时由于直接优化控制量,因此具有较高的工程使用价值。
实验二:初始时刻我机被尾追
根据场景设置,双方初始状态信息如下所示:
表6敌我对抗初始态势
Figure BDA0003936076980000221
从图23中可以看出,空战开始时我机处于被敌机尾追的态势,但空战开始后,我机在继续运动一段时间后,立马调整角度,并俯冲到敌机下方,在从下方向上攻击敌机,形成尾追态势,最终66s处获得空战胜利。图24显示我方在33s时使敌机进行我不可逃逸区范围内,但只持续了1s,没有实现稳定跟踪,最终在63s时满足了导弹发射条件,其攻击区区间为[487.67,2213.45]。图25显示敌机在33s-34s时,使我机进行了己方的导弹攻击区内,但只持续了2s,没有满足导弹发射条件,并且在整个空战中,双方UCAV保持了稳定的相对距离。基于机动动作库和基于智能优化算法的每步计算时间分别为0.009s和0.012s。
从试验一和试验二的结果中可以得出,无论我方UCAV初始态势是否居于优势,最终都获得了空战胜利,且实时性都满足空战要求。证明基于DCL-GWO算法的机动决策方法优于基于机动动作库的方法,这是由于基于机动动作库的决策方法对UCAV机动选择具有局限性,无法发挥全部作战效能,基于智能优化算法的机动决策可在飞行约束内实现最优机动,提高了机动决策的质量。

Claims (1)

1.一种基于DCL-GWO算法的空战机动决策方法,其特征在于步骤如下:
步骤1、构建基于导弹攻击区的机动决策函数模型:
Figure FDA0003936076970000011
其中:S表示综合角度优势函数Sa、距离优势函数SR、速度优势函数Sv和高度优势函数Sh的机动决策评价值,ω为各优势因子的权重;
所述角度优势函数:
Figure FDA0003936076970000012
其中:w1、w2分别为方位角和进入角评价权重,且w1+w2=1,方位角优势函数
Figure FDA0003936076970000013
进入角优势函数Sq
Figure FDA0003936076970000014
其中:λmax代表最大离轴发射角,
Figure FDA0003936076970000015
为方位角;
Figure FDA0003936076970000016
其中:q为进入角;
所述速度优势函数Sv
Figure FDA0003936076970000017
其中:vt表示敌机速度;vd表示我机期望速度;vm表示为我机实时速度,也为导弹发射初速度;DMmax、DMTmin分别表示导弹攻击区远界和近界;DMTmax、DMTmin分别表示导弹不可逃逸区远界和近界;
所述距离优势函数SR
Figure FDA0003936076970000021
其中:DMmin、DMmin分别为导弹攻击区远界和近界;DMTmax、DMTmin分别为导弹不可逃逸区的远界和近界;
所述高度优势函数Sh
Figure FDA0003936076970000022
其中:hmax表示我方UCAV的最高作战高度;hd为最佳作战高度;ht为敌机实时飞行高度;hm为导弹发射高度
步骤2:采用DCL-GWO算法对机动决策函数模型求解,得到当前种群的第i个优质解
Figure FDA0003936076970000023
其中优质解为集合
Figure FDA0003936076970000024
得到当前种群的第g次迭代,第i个优质解种群的适应度值
Figure FDA0003936076970000025
CN202211403953.3A 2022-11-10 2022-11-10 一种基于dcl-gwo算法的空战机动决策方法 Pending CN115859778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211403953.3A CN115859778A (zh) 2022-11-10 2022-11-10 一种基于dcl-gwo算法的空战机动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211403953.3A CN115859778A (zh) 2022-11-10 2022-11-10 一种基于dcl-gwo算法的空战机动决策方法

Publications (1)

Publication Number Publication Date
CN115859778A true CN115859778A (zh) 2023-03-28

Family

ID=85662968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211403953.3A Pending CN115859778A (zh) 2022-11-10 2022-11-10 一种基于dcl-gwo算法的空战机动决策方法

Country Status (1)

Country Link
CN (1) CN115859778A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596287A (zh) * 2023-07-18 2023-08-15 中国电子科技集团公司第二十九研究所 一种任务驱动决策方法及系统
CN118193900A (zh) * 2024-05-20 2024-06-14 西北工业大学深圳研究院 一种基于熵权Critic-变权法的空战态势评估方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596287A (zh) * 2023-07-18 2023-08-15 中国电子科技集团公司第二十九研究所 一种任务驱动决策方法及系统
CN116596287B (zh) * 2023-07-18 2023-10-03 中国电子科技集团公司第二十九研究所 一种任务驱动决策方法及系统
CN118193900A (zh) * 2024-05-20 2024-06-14 西北工业大学深圳研究院 一种基于熵权Critic-变权法的空战态势评估方法

Similar Documents

Publication Publication Date Title
CN112861442B (zh) 基于深度强化学习的多机协同空战规划方法及系统
Jiandong et al. UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
CN115859778A (zh) 一种基于dcl-gwo算法的空战机动决策方法
CN112783209B (zh) 一种基于鸽群智能竞争学习的无人机集群对抗控制方法
CN110083971B (zh) 一种基于作战推演的自爆式无人机集群作战兵力分配方法
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN113791634A (zh) 一种基于多智能体强化学习的多机空战决策方法
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
Li et al. Collaborative decision-making method for multi-UAV based on multiagent reinforcement learning
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113741500A (zh) 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法
CN113608546B (zh) 量子海狮机制的无人机群任务分配方法
CN113625740B (zh) 一种基于迁移学习鸽群优化的无人机空战博弈方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN111797966B (zh) 一种基于改进羊群算法的多机协同全局目标分配方法
CN114638339A (zh) 基于深度强化学习的智能体任务分配方法
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
Qiu et al. One-to-one air-combat maneuver strategy based on improved TD3 algorithm
Wu et al. Visual range maneuver decision of unmanned combat aerial vehicle based on fuzzy reasoning
CN115309179A (zh) 基于alce-ssa优化的三维无人机低空突防方法
CN114063644A (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination