CN112215283A - 基于有人/无人机系统的近距空战智能决策方法 - Google Patents

基于有人/无人机系统的近距空战智能决策方法 Download PDF

Info

Publication number
CN112215283A
CN112215283A CN202011086570.9A CN202011086570A CN112215283A CN 112215283 A CN112215283 A CN 112215283A CN 202011086570 A CN202011086570 A CN 202011086570A CN 112215283 A CN112215283 A CN 112215283A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
manned
air combat
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011086570.9A
Other languages
English (en)
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval Aeronautical University
Original Assignee
Naval Aeronautical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval Aeronautical University filed Critical Naval Aeronautical University
Priority to CN202011086570.9A priority Critical patent/CN112215283A/zh
Publication of CN112215283A publication Critical patent/CN112215283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/60Intended control result
    • G05D1/656Interaction with payloads or external entities
    • G05D1/689Pointing payloads towards fixed or moving targets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2101/00Details of software or hardware architectures used for the control of position
    • G05D2101/10Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques
    • G05D2101/15Details of software or hardware architectures used for the control of position using artificial intelligence [AI] techniques using machine learning, e.g. neural networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2105/00Specific applications of the controlled vehicles
    • G05D2105/35Specific applications of the controlled vehicles for combat
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2107/00Specific environments of the controlled vehicles
    • G05D2107/30Off-road
    • G05D2107/34Battlefields
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D2109/00Types of controlled vehicles
    • G05D2109/20Aircraft, e.g. drones
    • G05D2109/22Aircraft, e.g. drones with fixed wings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Algebra (AREA)

Abstract

本发明提供一种基于有人/无人机系统的近距空战智能决策方法。首先确定系统的组成,然后建立无人机的航迹控制模型和有人/无人机系统近距空战智能决策模型,并引入有人机的典型空战意图,具体通过不同的奖励函数模型进行描述;之后利用强化学习算法对有人/无人机系统近距空战智能决策模型进行训练,得到满足预设成功率要求的各空战意图下的神经网络;最后,有人机以命令的形式将空战意图下达给无人机,无人机进行智能决策,并生成空战航迹。本发明将强化学习理论与有人/无人智能空战决策模型相结合,创新地引入有人机的典型空战意图,通过嵌入智能决策系统,可有效发挥有人机在异构系统中的指挥引导作用,实现有人机与无人机的优势互补。

Description

基于有人/无人机系统的近距空战智能决策方法
技术领域
本发明属于有人/无人机协同技术领域,具体涉及一种基于有人/无人机系统的近距空战智能决策方法。
背景技术
无人机作为新兴的空中作战力量,在现代局部战争中发挥着越来越多的作用,与有人机相比,无人机具有零伤亡、持续作战能力强、全寿命周期成本低,以及在尺寸和机动性等方面的特有优势。通过无人机与有人作战平台的协同作战运用,在一定程度上可以弥补当前无人机自主水平不够的不足,使无人机与有人作战平台优势互补,增强体系立体态势感知能力、提高战场生存力和任务成功率,进而提升体系作战的能力,该作战方式是潜在的第六代穿透型战机的发展方向之一。
在近距对空作战中,敌我机群的机动变化更为剧烈,战场态势更迭更为迅速,对决策的实时性和智能程度要求更高。目前机动决策的方法可大致分为两大类:一类是以微分对策和专家系统为代表的传统方法;另一类是以强化学习、遗传算法、影响图法、蚁群算法、人工免疫系统等为代表的智能方法。近年来,随着人工智能技术的普及,特别是深度强化学习理论的迅速发展,其凭借着不需要先验知识输入,仅依靠与环境交互“试错”实现自我学习的特点而具备了与近距空战决策进行结合的可能,同时该技术的运用可以极大地缓解有人机飞行员决策的压力,为其争取更多的时间去指挥调度整个有人/无人系统,从而最大限度地发挥系统的作战效力。
发明内容
为体现有人机在全局指挥调度方面的特点,同时充分发挥无人机在空战中持续作战能力强、全寿命周期成本低的优势,本发明以有人/无人机系统为研究对象,提出一种基于有人/无人机系统的近距空战智能决策方法。
具体地,本发明的技术方案是:
一种基于有人/无人机系统的近距空战智能决策方法,包括以下步骤:
S1.确定有人/无人机系统的组成,其中有人机用于全局指挥调度,无人机用于实施空战;
S2.根据近距空战更加重视作战双方相对位置和相对速度的特点,确定系统内无人机的航迹控制模型;
S3.根据马尔科夫决策过程理论,建立有人/无人机系统近距空战智能决策模型,其中奖励函数根据有人机不同空战意图确定;
S4.利用强化学习算法对有人/无人机系统近距空战智能决策模型进行训练,得到满足预设成功率要求的各空战意图下的神经网络;
S5.有人机根据战场态势判断无人机应采取的空战意图,并以命令的形式下达给无人机;
S6.无人机加载空战意图所对应的神经网络,进行智能决策,并结合无人机的航迹控制模型,生成空战航迹。
进一步的,本发明的S1通过以下步骤方法实现:
由n架有人机和k架无人机构成有人/无人机系统,其中n≥1,k≥1,系统中,无人机表示为集合U,U={i∈N+|ui,i≤k},其中N+表示正整数,ui表示无人机个体,所配备的武器为近距离航炮;有人机记为M,M={j∈N+|cj,j≤n},其中cj表示有人机个体。
进一步的,本发明的S2通过以下步骤方法实现:
在研究无人机空战航迹时,重点是研究空战双方实时的位置信息和速度信息,因此可将无人机视为质点,研究其三自由度质点模型:
Figure BDA0002720543810000021
其中,(x,y,h)表示无人机在惯性坐标系下的三维坐标;(γ,χ,μ,α)表示无人机的航迹倾角、航向角、航迹滚转角和迎角;v指无人机飞行速度;m为无人机质量,g为重力加速度;T为发动机推力;D为空气阻力,L为升力,二者的计算公式为:
Figure BDA0002720543810000031
其中,Su为无人机参考横截面积;CL和CD分别为升力和阻力系数;ρ为空气密度,当无人机在对流层高度飞行时,其随海拔高度h的变化为:
ρ=1.225*[(288.15-0.0065*h)/288.15]4.25588
无人机的发动机推力T的表达式如下:
T=δTmax
其中,Tmax为发动机最大推力,δ为油门,取值为[0,1];设定u0=(δ,α,μ)为无人机航迹控制的输入,s=(x,y,h,v,χ,γ)为无人机航迹控制的状态量。
进一步的,本发明的S3通过以下步骤方法实现:
智能体与环境的交互都可以用马尔科夫决策过程来表示,其主要包含状态空间、动作空间、奖励函数、折扣系数以及状态转移概率等5个要素,而对于无模型强化学习,只需要讨论5个要素中的前4个要素;
其中近距空战智能决策模型的状态空间要素xo具体为:
xo=(d0,qr,qb0,Δh,ΔV,v,h,F1,F2)
其中,其中d0、qr、qb、和β0的表达式为:
Figure BDA0002720543810000032
其中,下标r和b用以区分我方无人机与敌方无人机的状态量;d0表示敌我双方相对距离;q表示速度矢量与质心连线的夹角;β0、Δh、ΔV分别表示敌我双方速度矢量的夹角、高度差和速度差;F1和F2分别是达成目标和超出限幅的预警标识;
近距空战智能决策模型的动作空间要素a=(a1,a2,a3),与无人机航迹控制量u0=(δ,α,μ)之间的联系为:
Figure BDA0002720543810000041
其中,Sigmoid和Tanh为神经网络的激活函数,输出范围分别为[0,1]和[-1,1],αv和αμ分别为α和μ的值域;
近距空战智能决策模型的奖励函数要素具体为:
当有人机的意图为攻击意图时,此时意图目标达成的条件为:qr∈qattack且d0<demit,其中qattack和demit表示允许攻击敌方的视线角区间和发射距离;当敌方构成相同的发射条件或d0>descape时,认为我方失败,其中descape为逃脱距离;另外,当无人机的状态量超出限幅时,亦认定失败,具体的优势函数设定如下:
Figure BDA0002720543810000042
其中,ra,d、rv、rh和rresult分别表示角度距离优势函数、速度优势函数、高度优势函数和结果优势函数;V0、Δh0为最优空战速度和高度差;sr为我方无人机状态量值域;当达到意图目标状态或失败状态3s及以上时,rresult置为非零值,不足3s时通过预警标识进行标记和引导;
当有人机的意图为逃离意图时,此时意图目标达成的条件是:d0>descape且qb∈q0,具体的优势函数如下:
Figure BDA0002720543810000051
其中,qb∈q0表示我方攻击时应保证敌方的视线角在q0的区间内,通常q0表示一个钝角区间,q0_min为q0的最小值;
将各意图中的ra,d、rv、rh、rresult和预警标识F1,F2进行加权,得到两意图下的奖励函数R:
Figure BDA0002720543810000052
其中,ωa,dvhresult,
Figure BDA0002720543810000053
为各优势函数对应的权重,由经验值获取;
近距空战智能决策模型的折扣系数要素γd的设定通常为经验常值,如γd=0.9。
进一步的,本发明的S4通过以下步骤方法实现:
根据强化学习中智能体利用环境反馈调整自身策略以实现最佳决策的特性,对近距空战智能决策模型进行训练,当达到每训练100回合有90回合达到空战意图目标时,停止训练,并保存此时的神经网络。
进一步的,本发明的S5通过以下步骤方法实现:
当有人/无人机系统以完成空战突袭任务为目标或敌方机体性能指标低于我方时,有人机向无人机下达强攻意图指令;当有人/无人机系统旨在完成空战中诱敌任务或敌方空战优势较大、我方机体出现故障时,有人机向无人机下达逃离意图指令。
进一步的,本发明的S6通过以下步骤方法实现:
无人机加载空战意图所对应的神经网络,并根据实时更新的状态空间xo进行智能决策,得出u0并将其输入到无人机航迹控制模型之中,结合决策时间间隔Δt,利用龙格库塔法得到无人机在任意时刻的s,即实时生成了满足有人机空战意图的航迹。
本发明将强化学习理论与有人/无人智能空战决策模型相结合,创新地引入有人机的典型空战意图,即攻击意图和逃离意图,并分别建立了不同的奖励函数模型,通过嵌入智能决策系统,可有效发挥有人机在异构系统中的指挥引导作用,实现有人机与无人机的优势互补。
附图说明
图1是有人/无人机系统空战示意图;
图2是DDPG算法原理图;
图3是本发明流程图。
具体实施方式
本发明中有人/无人机空战示意图如图1所示。图1中,我方有1架有人机c1带领1架无人机u1进行空战,即n=1,k=1,敌方配置1架无人机;其中,下标r和b用以区分我方无人机与敌方无人机的状态量;d0表示敌我双方相对距离;v指无人机飞行速度;q表示速度矢量与质心连线的夹角;Δx、Δy表示敌方与我方无人机在惯性坐标系下的x、y轴上的位置差;h为无人机飞行高度。
具体地,一种基于有人/无人机系统的近距空战智能决策方法,包括以下步骤:
S1.确定有人/无人机系统的组成,其中有人机用于全局指挥调度,无人机用于实施空战。
由1架有人机和1架无人机构成有人/无人机系统,系统中,无人机用u1表示,所配备的武器为近距离航炮;有人机用c1表示。
S2.根据近距空战更加重视作战双方相对位置和相对速度的特点,确定系统内无人机的航迹控制模型。
在研究无人机空战航迹时,重点是研究空战双方实时的位置信息和速度信息,因此可将无人机视为质点,研究其三自由度质点模型:
Figure BDA0002720543810000071
其中,(x,y,h)表示无人机在惯性坐标系下的三维坐标;(γ,χ,μ,α)表示无人机的航迹倾角、航向角、航迹滚转角和迎角;v指无人机飞行速度;m为无人机质量,g为重力加速度;T为发动机推力;D为空气阻力,L为升力,二者的计算公式为:
Figure BDA0002720543810000072
其中,Su为无人机参考横截面积;CL和CD分别为升力和阻力系数;ρ为空气密度,当无人机在对流层高度飞行时,其随海拔高度h的变化为:
ρ=1.225*[(288.15-0.0065*h)/288.15]4.25588
无人机的发动机推力T的表达式如下:
T=δTmax
其中,Tmax为发动机最大推力,δ为油门,取值为[0,1];设定u0=(δ,α,μ)为无人机航迹控制的输入,s=(x,y,h,v,χ,γ)为无人机航迹控制的状态量。
S3.根据马尔科夫决策过程理论,建立有人/无人机系统近距空战智能决策模型,其中奖励函数根据有人机不同空战意图确定。
智能体与环境的交互都可以用马尔科夫决策过程来表示,其主要包含状态空间、动作空间、奖励函数、折扣系数以及状态转移概率等5个要素,而对于无模型强化学习,只需要讨论5个要素中的前4个要素,本发明中有人/无人机系统近距空战智能决策模型即基于无模型强化学习建立。
其中近距空战智能决策模型的状态空间要素xo具体为:
xo=(d0,qr,qb0,Δh,ΔV,v,h,F1,F2)
其中,其中d0、qr、qb、和β0的表达式为:
Figure BDA0002720543810000081
其中,下标r和b用以区分我方无人机与敌方无人机的状态量;d0表示敌我双方相对距离;q表示速度矢量与质心连线的夹角;β0、Δh、ΔV分别表示敌我双方速度矢量的夹角、高度差和速度差;F1和F2分别是达成目标和超出限幅的预警标识;
近距空战智能决策模型的动作空间要素a=(a1,a2,a3),与无人机航迹控制量u0=(δ,α,μ)之间的联系为:
Figure BDA0002720543810000082
其中,Sigmoid和Tanh为神经网络的激活函数,输出范围分别为[0,1]和[-1,1],αv和αμ分别为α和μ的值域;
近距空战智能决策模型的奖励函数要素具体为:
当有人机的意图为攻击意图时,此时意图目标达成的条件为:qr∈qattack且d0<demit,其中qattack和demit表示允许攻击敌方的视线角区间和发射距离;当敌方构成相同的发射条件或d0>descape时,认为我方失败,其中descape为逃脱距离;另外,当无人机的状态量超出限幅时,亦认定失败,具体的优势函数设定如下:
Figure BDA0002720543810000091
其中,ra,d、rv、rh和rresult分别表示角度距离优势函数、速度优势函数、高度优势函数和结果优势函数;V0、Δh0为最优空战速度和高度差;sr为我方无人机状态量值域;当达到意图目标状态或失败状态3s及以上时,rresult置为非零值,不足3s时通过预警标识进行标记和引导;
当有人机的意图为逃离意图时,此时意图目标达成的条件是:d0>descape且qb∈q0,具体的优势函数如下:
Figure BDA0002720543810000092
其中,qb∈q0表示我方攻击时应保证敌方的视线角在q0的区间内,通常q0表示一个钝角区间,q0_min为q0的最小值;
将各意图中的ra,d、rv、rh、rresult和预警标识F1,F2进行加权,得到两意图下的奖励函数R:
Figure BDA0002720543810000101
其中,ωa,dvhresult,
Figure BDA0002720543810000102
为各优势函数对应的权重,由经验值获取;
近距空战智能决策模型的折扣系数要素γd的设定通常为经验常值,如γd=0.9。
S4.利用深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)对有人/无人机系统近距空战智能决策模型进行训练,得到满足预设成功率要求的各空战意图下的神经网络。
DDPG算法融合了确定性策略梯度、演员—评论家(actor-critic)结构以及深度Q网络的思想,是目前最为最流行的深度强化学习算法之一;借鉴深度Q网络思想,DDPG算法也运用了经验回放和估计/目标网络,其原理图如图2所示,图中数字标号为算法运行的先后顺序,其中Q(s,a|θQ)和μ(s|θμ)分别表示critic和actor的估计网络,θQ和θμ分别表示其参数;与之对应的,Q'(s,aθQ′)和μ'(s|θμ′)分别表示critic和actor的目标网络,对应参数为θQ′和θμ';对于critic网络部分,其输入为动作a和当前状态s,输出为Q(s,a);该网络的参数更新方式是向着最小化估计的Q值和目标的Q值的差的方向进行优化,其中估计的Q值可以通过状态估计网络得到,目标的Q值λi通过状态目标网络输出的Q'值和即时奖励函数Ri相加获得,具体如下式:
Figure BDA0002720543810000103
Figure BDA0002720543810000104
其中,下标i表示N个采样数据中第i个数据的标号,即0<i≤N;γd为近距空战智能决策模型的折扣系数要素;ΔQ表示估计的Q值和目标的Q值的差的最小值方向;
对于actor网络,其输入为当前状态s,输出为动作a,而策略网络的参数是朝着值函数网络输出增大的方向进行更新,可表示为下式:
Figure BDA0002720543810000111
每循环一步,对目标网络的参数进行软更新,如下式:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ为更新比例参数;
利用DDPG算法对近距空战智能决策模型进行训练,具体利用Python3.0语言进行编程,以深度学习框架TensorFlow为基础,actor和critic神经网络均采用简单的全连接网络架构,共设置2层神经网络,并分别选取600和300个神经元;每个意图训练的上限定为15000个回合,大约106步,当达到每训练100回合有90回合达到空战意图目标时,可随时停止训练,并保存此时的神经网络。
S5.有人机根据战场态势判断无人机应采取的空战意图,并以命令的形式下达给无人机。
当有人/无人机系统以完成空战突袭任务为目标或敌方机体性能指标低于我方时,有人机向无人机下达强攻意图指令;当有人/无人机系统旨在完成空战中诱敌任务或敌方空战优势较大、我方机体出现故障时,有人机向无人机下达逃离意图指令。
S6.无人机加载空战意图所对应的神经网络,进行智能决策,并结合无人机的航迹控制模型,生成空战航迹。
无人机加载空战意图所对应的神经网络,并根据实时更新的状态空间xo进行智能决策,得出u0并将其输入到无人机航迹控制模型之中,结合决策时间间隔Δt,利用龙格库塔法得到无人机在任意时刻的s,即实时生成了满足有人机空战意图的航迹。

Claims (9)

1.一种基于有人/无人机系统的近距空战智能决策方法,其特征在于,包括以下步骤:
S1.确定有人/无人机系统的组成,其中有人机用于全局指挥调度,无人机用于实施空战;
S2.确定系统内无人机的航迹控制模型;
S3.根据马尔科夫决策过程理论,建立有人/无人机系统近距空战智能决策模型,其中奖励函数根据有人机不同空战意图确定;
S4.利用强化学习算法对有人/无人机系统近距空战智能决策模型进行训练,得到满足预设成功率要求的各空战意图下的神经网络;
S5.有人机根据战场态势判断无人机应采取的空战意图,并以命令的形式下达给无人机;
S6.无人机加载空战意图所对应的神经网络,进行智能决策,并结合无人机的航迹控制模型,生成空战航迹。
2.根据权利要求1所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,所述步骤S1中的有人/无人机系统具体由n架有人机和k架无人机组成,其中n≥1,k≥1;所述系统中,无人机表示为集合U,U={i∈N+|ui,i≤k},其中ui表示无人机个体,所配备的武器为近距离航炮;有人机记为M,M={j∈N+|cj,j≤n},其中cj表示有人机个体。
3.根据权利要求2所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S2中无人机的航迹控制模型具体为:
Figure FDA0002720543800000011
其中,(x,y,h)表示无人机在惯性坐标系下的三维坐标;(γ,χ,μ,α)表示无人机的航迹倾角、航向角、航迹滚转角和迎角;v指无人机飞行速度;m为无人机质量;T为发动机推力;D为空气阻力,L为升力;
无人机的发动机推力T的表达式如下:
T=δTmax
其中,Tmax为发动机最大推力,δ为油门,取值为[0,1];设定u0=(δ,α,μ)为无人机航迹控制的输入,s=(x,y,h,v,χ,γ)为无人机航迹控制的状态量。
4.根据权利要求3所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S3中近距空战智能决策模型的状态空间要素xo具体为:
xo=(d0,qr,qb0,Δh,ΔV,v,h,F1,F2)
其中,其中d0、qr、qb、和β0的表达式为:
Figure FDA0002720543800000021
其中,下标r和b用以区分我方无人机与敌方无人机的状态量;d0表示敌我双方相对距离;q表示速度矢量与质心连线的夹角;β0、Δh、ΔV分别表示敌我双方速度矢量的夹角、高度差和速度差;F1和F2分别是达成目标和超出限幅的预警标识。
5.根据权利要求3所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S3中近距空战智能决策模型的动作空间要素a=(a1,a2,a3),与无人机航迹控制量u0=(δ,α,μ)之间的联系为:
Figure FDA0002720543800000022
其中,Sigmoid和Tanh为神经网络的激活函数,输出范围分别为[0,1]和[-1,1],αv和αμ分别为α和μ的值域。
6.根据权利要求3所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S3中近距空战智能决策模型的奖励函数要素具体为:
当有人机的意图为攻击意图时,此时意图目标达成的条件为:qr∈qattack且d0<demit,其中qattack和demit表示允许攻击敌方的视线角区间和发射距离;当敌方构成相同的发射条件或d0>descape时,认为我方失败,其中descape为逃脱距离;另外,当无人机的状态量超出限幅时,亦认定失败,具体的优势函数设定如下:
Figure FDA0002720543800000031
其中,ra,d、rv、rh和rresult分别表示角度距离优势函数、速度优势函数、高度优势函数和结果优势函数;V0、Δh0为最优空战速度和高度差;sr为我方无人机状态量值域;当达到意图目标状态或失败状态3s及以上时,rresult置为非零值,不足3s时通过预警标识进行标记和引导;
当有人机的意图为逃离意图时,此时意图目标达成的条件是:d0>descape且qb∈q0,具体的优势函数如下:
Figure FDA0002720543800000041
其中,qb∈q0表示我方攻击时应保证敌方的视线角在q0的区间内,通常q0表示一个钝角区间,q0_min为q0的最小值;
将各意图中的ra,d、rv、rh、rresult和预警标识F1,F2进行加权,得到两意图下的奖励函数R:
R=ωa,dra,dvrvhrhresultrresultf1F1f2F2
其中,ωa,dvhresultf1f2为各优势函数对应的权重。
7.根据权利要求4所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S4具体为:
根据强化学习中智能体利用环境反馈调整自身策略以实现最佳决策的特性,对近距空战智能决策模型进行训练,当达到每训练100回合有90回合达到空战意图目标时,停止训练,并保存此时的神经网络。
8.根据权利要求7所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,步骤S5具体为:
当有人/无人机系统以完成空战突袭任务为目标或敌方机体性能指标低于我方时,有人机向无人机下达强攻意图指令;当有人/无人机系统旨在完成空战中诱敌任务或敌方空战优势较大、我方机体出现故障时,有人机向无人机下达逃离意图指令。
9.根据权利要求8所述的基于有人/无人机系统的近距空战智能决策方法,其特征在于,在步骤S6中:
无人机加载空战意图所对应的神经网络,并根据实时更新的状态空间xo进行智能决策,得出u0并将其输入到无人机航迹控制模型之中,结合决策时间间隔Δt,利用龙格库塔法得到无人机在任意时刻的s。
CN202011086570.9A 2020-10-12 2020-10-12 基于有人/无人机系统的近距空战智能决策方法 Pending CN112215283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011086570.9A CN112215283A (zh) 2020-10-12 2020-10-12 基于有人/无人机系统的近距空战智能决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011086570.9A CN112215283A (zh) 2020-10-12 2020-10-12 基于有人/无人机系统的近距空战智能决策方法

Publications (1)

Publication Number Publication Date
CN112215283A true CN112215283A (zh) 2021-01-12

Family

ID=74054565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011086570.9A Pending CN112215283A (zh) 2020-10-12 2020-10-12 基于有人/无人机系统的近距空战智能决策方法

Country Status (1)

Country Link
CN (1) CN112215283A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947579A (zh) * 2021-03-19 2021-06-11 哈尔滨工业大学(深圳) 一种基于机群特征关系的有人机无人机任务分配方法
CN112990452A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗知识驱动型决策方法、装置及电子设备
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN113128699A (zh) * 2021-03-12 2021-07-16 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113268081A (zh) * 2021-05-31 2021-08-17 中国人民解放军32802部队 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN114237267A (zh) * 2021-11-02 2022-03-25 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN116679742A (zh) * 2023-04-11 2023-09-01 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116880186A (zh) * 2023-07-13 2023-10-13 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116893690A (zh) * 2023-07-25 2023-10-17 西安爱生技术集团有限公司 一种基于强化学习的无人机躲避攻击输入数据计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107976899A (zh) * 2017-11-15 2018-05-01 中国人民解放军海军航空工程学院 一种基于有人/无人机协同作战系统的精确目标定位及打击方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN110007688A (zh) * 2019-04-25 2019-07-12 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111006693A (zh) * 2019-12-12 2020-04-14 中国人民解放军陆军工程大学 智能飞行器航迹规划系统及其方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107976899A (zh) * 2017-11-15 2018-05-01 中国人民解放军海军航空工程学院 一种基于有人/无人机协同作战系统的精确目标定位及打击方法
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN110007688A (zh) * 2019-04-25 2019-07-12 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法
CN111006693A (zh) * 2019-12-12 2020-04-14 中国人民解放军陆军工程大学 智能飞行器航迹规划系统及其方法
CN111666631A (zh) * 2020-06-03 2020-09-15 南京航空航天大学 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUE LI ET AL.: "Deep Reinforcement Learning With Application to Air Confrontation Intelligent Decision-Making of Manned/Unmanned Aerial Vehicle Cooperative System", 《IEEE》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128699A (zh) * 2021-03-12 2021-07-16 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128698A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN113128021A (zh) * 2021-03-12 2021-07-16 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113128699B (zh) * 2021-03-12 2022-11-15 合肥工业大学 快速收敛的多无人机协同对抗强化学习方法
CN113128021B (zh) * 2021-03-12 2022-10-25 合肥工业大学 多无人平台协同对抗的实时重决策方法和系统
CN113128698B (zh) * 2021-03-12 2022-09-20 合肥工业大学 多无人机协同对抗决策的强化学习方法
CN112947579A (zh) * 2021-03-19 2021-06-11 哈尔滨工业大学(深圳) 一种基于机群特征关系的有人机无人机任务分配方法
CN113093803A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于e-sac算法的无人机空战运动控制方法
CN112990452A (zh) * 2021-05-06 2021-06-18 中国科学院自动化研究所 人机对抗知识驱动型决策方法、装置及电子设备
CN113406957B (zh) * 2021-05-19 2022-07-08 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113268081A (zh) * 2021-05-31 2021-08-17 中国人民解放军32802部队 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN113268081B (zh) * 2021-05-31 2021-11-09 中国人民解放军32802部队 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN114237267A (zh) * 2021-11-02 2022-03-25 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114237267B (zh) * 2021-11-02 2023-11-24 中国人民解放军海军航空大学航空作战勤务学院 基于强化学习的飞行机动决策的辅助方法
CN114371729A (zh) * 2021-12-22 2022-04-19 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN116679742A (zh) * 2023-04-11 2023-09-01 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116679742B (zh) * 2023-04-11 2024-04-02 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116880186A (zh) * 2023-07-13 2023-10-13 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116880186B (zh) * 2023-07-13 2024-04-16 四川大学 一种数据驱动的自适应动态规划空战决策方法
CN116893690A (zh) * 2023-07-25 2023-10-17 西安爱生技术集团有限公司 一种基于强化学习的无人机躲避攻击输入数据计算方法

Similar Documents

Publication Publication Date Title
CN112215283A (zh) 基于有人/无人机系统的近距空战智能决策方法
CN111240353B (zh) 基于遗传模糊树的无人机协同空战决策方法
Li et al. Deep reinforcement learning with application to air confrontation intelligent decision-making of manned/unmanned aerial vehicle cooperative system
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN111077909B (zh) 一种基于视觉信息的新型无人机自组群自洽优化控制方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN115993835A (zh) 基于目标机动意图预测的近距空战机动决策方法及系统
CN115688268A (zh) 一种飞行器近距空战态势评估自适应权重设计方法
CN114492805A (zh) 一种基于模糊推理的空战机动决策设计方法
CN113268081A (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN114756959A (zh) 一种飞行器近距空战机动智能决策机模型设计方法
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN116861645A (zh) 基于非线性预测控制的飞行器超视距空战机动决策方法
CN114444201A (zh) 基于贝叶斯网络的对地攻击无人机自主能力评估方法
Chen et al. Design and verification of UAV maneuver decision simulation system based on deep q-learning network
CN113625569A (zh) 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN117313561B (zh) 无人机智能决策模型训练方法及无人机智能决策方法
CN111773722B (zh) 一种模拟环境中的战斗机规避机动策略集生成方法
CN115268496B (zh) 一种无人机空中对抗机动控制器及其设计方法
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
Han et al. Ground threat prediction-based path planning of unmanned autonomous helicopter using hybrid enhanced artificial bee colony algorithm
Xiaoyu et al. Intelligent Air Combat Maneuvering Decision Based on TD3 Algorithm
Xie et al. A deep reinforcement learning algorithm based on short-term advantage for air game decision-making

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210112

WD01 Invention patent application deemed withdrawn after publication