CN115688268A - 一种飞行器近距空战态势评估自适应权重设计方法 - Google Patents
一种飞行器近距空战态势评估自适应权重设计方法 Download PDFInfo
- Publication number
- CN115688268A CN115688268A CN202211259349.8A CN202211259349A CN115688268A CN 115688268 A CN115688268 A CN 115688268A CN 202211259349 A CN202211259349 A CN 202211259349A CN 115688268 A CN115688268 A CN 115688268A
- Authority
- CN
- China
- Prior art keywords
- situation
- air combat
- weight
- reward
- design method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明属于无人飞行器智能空战自主决策领域,公开了一种基于深度强化学习的无人机智能空战自主决策自适应权重调整方法。其技术方案要点是:通过给出飞行器智能空战机动决策模型中的自主决策机设计,然后给出空战态势评估方法,然后根据自适应权重算法重构态势权重,最后得出飞行器近距空战自主决策流程。该方法将基于深度强化学习的智能空战自主决策态势评估分为两部分加以实现,相较于以往固定权重态势评估方法,采用动态权重态势评估方法的飞行器近距空战自主决策模型训练过程更加稳定,最终训练得到的近距空战自主决策模型训练过程更加稳定,同时具有更好的决策能力,有利于工程应用。
Description
技术领域
本发明涉及无人航空飞行器智能空战自主决策技术领域,更具体地说,它涉及一种飞行器近距空战态势评估自适应权重设计方法。
背景技术
随着材料、集成传感技术和通信技术等学科的发展,无人机技术及其作战效能得到了显著的提升。与传统有人飞机相比,无人作战飞行器(Unmanned Combat Air Vehicle,UCAV)具有成本低、可承受过载大、安全风险系数小、续航时间长、特征信号弱等优点,因此UCAV被广泛的应用于战争中并发挥着越来越重要的作用。目前,战场上无人机的机动决策主要依赖于地面控制,而无人机与地面指挥中心的通信易受敌方电磁波和天气的干扰,难以适应复杂多变的战场环境。因此,想要充分发挥无人机的战场优势,实现高强度的空战对抗,无人机必须脱离地面控制,实现自主决策。
现有的无人机空战自主决策方法大致可以分为基于博弈理论的方法、基于优化理论的方法和基于人工智能的方法。其中,基于人工智能的方法包括基于规则的专家系统、基于深度学习的行为克隆和基于深度强化学习的自博弈对抗。自从2016年DeepMind研制的围棋博弈系统AlphaGo以4:1的比分击败了当时的世界冠军李世石之后,深度强化学习就被应用在各种控制决策问题中。在深度强化学习中,智能体的学习目标是从环境中获得尽可能多的奖励,因此可以认为奖励函数决定了智能体的收敛方向。在近距空战格斗的态势评估中,需要综合考虑攻击角度优势奖励函数、速度优势奖励函数、高度优势奖励函数和距离优势奖励函数。最终奖励由这四部分奖励组合而成。目前开展的研究中大多采取固定权重的方法计算总奖励,这种态势计算方法会导致空战态势缺乏连续性以及算法收敛性波动较大等问题。
发明内容
针对基于深度强化学习方法的无人机空战自主决策问题,本发明提出了一种飞行器近距空战态势评估自适应权重设计方法。
为了实现上述目的,本发明提供如下技术方案:一种飞行器近距空战态势评估自适应权重设计方法,包括如下步骤:
S1、构建空战环境模型;
S2、构建智能空战自主决策机模型;
S3、构建自主决策机训练模型;
S4、构建空战态势奖励函数模型和设计自适应权重算法。
进一步的,步骤S1的构建空战环境模型的方法:空战对抗双方为两架性能参数完全相同的飞机,其中任一飞机由智能体控制,另一飞机由专家系统进行控制,这两架飞机的动力学和运动学方程分别为
其中,v为UCAV的速度,T为发动机推力,α为迎角,L为升力,D为空气阻力,m为UCAV的质量,g为当地重力加速度,μ为速度滚转角,γ为航迹倾角,ψ为航迹偏角,x、y、z分别为UCAV在地面坐标系三个坐标轴上的坐。
通过上述设置,采用自适应权重方法训练得到的智能体在与不同目标进行近距空战仿真时具有更好的表现。
进一步的,步骤S2中构建智能空战自主决策机模型的方法:采用深度学习中的深度神经网络作为自主决策机模型,自主决策机接收战场态势信息,输出飞机的决策指令。
进一步的,步骤S3中构建自主决策机训练模型的方法:采用双延迟确定性策略梯度算法作为自主决策机训练算法。
进一步的,步骤S4中构建空战态势奖励函数模型的方法:奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。
进一步的,攻击角度态势奖励函数如下:
其中,RR(xR,yR,zR)和分别是智能体飞机的位置坐标和速度矢量,RB(xB,yB,zB)和分别是目标飞机的位置坐标和速度矢量,RRB=RB-RR指从红机到蓝机的连线,和分别是红机的攻击角和蓝机的逃逸角;
速度态势奖励函数如下:
当vopt>1.5vB时,
当vopt≤1.5vB时,
其中,vopt是最佳空战速度,文中vopt=200m/s;
高度态势奖励函数如下:
距离态势奖励函数如下:
其中,d=RRB是双方飞机之间的距离,Dopt是最佳空战距离,D0是一个常数参量,用来调整距离优势奖励函数的梯度,文中Dopt=200m,D0=2000m。
进一步的,步骤S4中自适应权重算法的设计方法:将攻击角度奖励、速度奖励、高度奖励和距离奖励对应的权重分为固定权重ω和动态权重f(R)两部分,总权重W由这两部分之积ω*f(R)决定,在动态权重f(R)中,f(·)是一个权重函数,文中选取f(x)=e-x作为权重函数,R是态势奖励,具体实施步骤为:
3)根据对权重进行归一化处理;
4)计算总权重:
与现有技术相比,本技术方案的有益效果:
在采用固定权重态势函数对智能体策略进行评价时,因角度优势奖励函数、速度优势奖励函数、高度优势奖励函数和距离优势奖励函数四种态势奖励函数在总权重中对应的权重不相同,因此会导致智能体在训练过程中追求权重最大的某个态势奖,忽略其余态势奖励的情况,最终会导致训练过程波动性较大,甚至难以收敛的问题。因此为了保证智能体训练过程的稳定性以及最终智能体的性能,必须建立基于动态权重的态势奖励评价体系。
本方案构建了一种可以准确评价智能体策略并能够引导智能体向最优策略收敛的自适应权重评价体系。同时本方案以近距空战数值模拟为基础,通过引入深度强化学习实现无人机近距空战自主决策,在此基础上建立了一种自适应权重评价体系,构建的自适应权重评价模型具有适用性强,态势评估精确,算法收敛稳定性高等特点,可用于无人机近距空战自主决策模型训练中的态势评价。
附图说明
图1是本发明一种飞行器近距空战态势评估自适应权重设计方法的流程图;
图2是本实施例中空战态势奖励结构图;
图3是本实施例中智能空战自主决策机模型图;
图4是本实施例中采用自适应权重设计方法训练时候的总回报收敛曲线;
图5是本实施例中采用固定权重设计方法训练时候的总回报收敛曲线;
图6是本实施例中采用自适应权重设计方法训练得到的智能体与直线运动目标对抗仿真结果图;
图7是本实施例中采用固定权重设计方法训练得到的智能体与直线运动目标对抗仿真结果图;
图8是本实施例中采用自适应权重设计方法训练得到的智能体与专家系统对抗仿真结果图;
图9是本实施例中采用固定权重设计方法训练得到的智能体与专家系统对抗仿真结果图;
图10是本实施例中采用自适应权重设计方法训练得到的智能体与采用固定权重设计方法训练得到的智能体对抗仿真结果图;
图11是本实施例中采用自适应权重设计方法训练得到的智能体与采用固定权重设计方法训练得到的智能体某次对抗仿真过程中获得的奖励曲线。
具体实施方式
为了方便本领域的人理解,下面结合实例与附图对本发明做进一步的说明;实施方式和实例只是本发明的特例,不作为对本发明的绝对限制。
实施例:
一种飞行器近距空战态势评估自适应权重设计方法,包括如下步骤:
S1、构建空战环境模型:空战对抗双方为两架性能参数完全相同的飞机,其中任一飞机由智能体控制,另一飞机由专家系统进行控制,这两架飞机的动力学和运动学方程分别为
其中,v为UCAV的速度,T为发动机推力,α为迎角,L为升力,D为空气阻力,m为UCAV的质量,g为当地重力加速度,μ为速度滚转角,γ为航迹倾角,ψ为航迹偏角,x、y、z分别为UCAV在地面坐标系三个坐标轴上的坐。
S2、构建智能空战自主决策机模型:采用深度学习中的深度神经网络作为自主决策机模型,自主决策机接收战场态势信息,输出飞机的决策指令。
S3、构建自主决策机训练模型:采用双延迟确定性策略梯度算法作为自主决策机训练算法。
S4、构建空战态势奖励函数模型和设计自适应权重算法。
其中奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。
攻击角度态势奖励函数如下:
其中,RR(xR,yR,zR)和分别是智能体飞机的位置坐标和速度矢量,RB(xB,yB,zB)和分别是目标飞机的位置坐标和速度矢量,RRB=RB-RR指从红机到蓝机的连线,和分别是红机的攻击角和蓝机的逃逸角;
速度态势奖励函数如下:
当vopt>1.5vB时,
当vopt≤1.5vB时,
其中,vopt是最佳空战速度,文中vopt=200m/s;
高度态势奖励函数如下:
距离态势奖励函数如下:
其中,d=RRB是双方飞机之间的距离,Dopt是最佳空战距离,D0是一个常数参量,用来调整距离优势奖励函数的梯度,文中Dopt=200m,D0=2000m。
自适应权重算法的设计方法:将攻击角度奖励、速度奖励、高度奖励和距离奖励对应的权重分为固定权重ω和动态权重f(R)两部分,总权重W由这两部分之积ω*f(R)决定,在动态权重f(R)中,f(·)是一个权重函数,文中选取f(x)=e-x作为权重函数,R是态势奖励,具体实施步骤为:
7)根据对权重进行归一化处理;
8)计算总权重:
通过对比固定权重方法和本自适应权重设计方法训练得到的智能体在空战仿真中的表现来进一步对本发明详细说明,具体实现方法如下:
首先建立飞行器近距空战环境模型,采用迎角、侧滑角和滚转角作为飞行器的控制指令,根据飞行器接受的控制指令和在空间中的位置,计算飞行器受到的外力,进而根据动力学和运动学模型解算飞行器的状态信息。其中飞行器的动力学和运动学模型如下所示:
其中,v为速度,T为发动机推力,α为迎角,D为空气阻力,m为飞行器质量,g为当地重力加速度,γ为航迹倾角,L为升力,μ为滚转角,ψ为航向角,x、y、z分别为三个方向的坐标。
完成以上空战环境建模后,下一步构建基于深度神经网络的无人机近距空战自主决策机模型,称其为Actor网络。Actor网络的作用是接收战场态势信息,输出UCAV的控制指令。Actor网络的输入参数包括智能体的位置信息Rr、对抗双方的相对位置RRB、智能体的速度信息Vr和对抗双方的相对速度VRB共13个参数,输出信息为UCAV的控制指令[α,μ,δ]。Actor网络由一个输入层,一个输出层和5个隐藏层组成,其中输入层包含13个神经元,输出层包含3个神经元,每个隐藏层分别包含256个神经元。神经元的激活函数采用ReLU函数。其具体结构如图3所示。
下一步建立智能空战自主决策机训练模型,采用深度强化学习中的双延迟策略梯度算法对建立的模型进行训练。如图2所示,智能体的奖励函数包括攻击角度优势、距离优势、速度优势和高度优势四部分。分别采用固定权重方法和本自适应权重设计方法进行训练,图1给出了自适应权重设计方法的具体操作流程。
如图4所示,采用自适应权重设计方法训练的智能体在经历了6万个训练步数后达到稳定,且训练过程较为平稳。如图5所示,采用固定权重方法训练的智能体在经历了8万个训练步数后达到稳定,且训练过程波动较大。
接下来分别在以下三种情况下进行测试:1)追击直线运动目标;2)与专家系统进行对抗;3)两种智能体进行空战对抗。
图6和图7分别给出了采用自适应权重设计方法和固定权重方法训练得到的智能体在与直线运动目标对抗时的仿真结果。由仿真结果可知在追击直线运动的目标时,采用自适应权重设计方法训练得到的智能体胜率和所需时间均优于采用固定权重训练得到的智能体。
图8和图9分别给出了采用自适应权重设计方法和固定权重方法训练得到的智能体在与专家系统对抗时的仿真结果。由仿真结果可知在追击直线运动的目标时,采用自适应权重设计方法训练得到的智能体胜率和所需时间均优于采用固定权重训练得到的智能体。
图10给出了不同训练阶段的采用固定权重训练得到的智能体与采用自适应权重设计方法训练得到的智能体进行空战对抗的仿真对抗结果。己方飞机由采用自适应权重设计方法训练得到的智能体控制,目标飞机由采用固定权重训练得到的智能体。由仿真结果可知,当采用两种权重方式进行训练的智能体性能稳定之后,基于自适应权重设计方法训练得到的智能体以大约5:1的优势完胜基于固定权重训练得到的智能体,且在相同的态势评价体系中,前者的态势奖励比后者高出约24%。
图11给出了某次仿真对抗过程中采用固定权重训练得到的智能体与采用自适应权重设计方法训练得到的智能体获得的态势奖励。
以上所述的仅是本发明的实施例,方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出,对于本领域的技术人员来说,在不脱离本发明技术方案的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (7)
1.一种飞行器近距空战态势评估自适应权重设计方法,其特征在于:包括如下步骤:
S1、构建空战环境模型;
S2、构建智能空战自主决策机模型;
S3、构建自主决策机训练模型;
S4、构建空战态势奖励函数模型和设计自适应权重算法。
3.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法,其特征在于:步骤S2中构建智能空战自主决策机模型的方法:采用深度学习中的深度神经网络作为自主决策机模型,自主决策机接收战场态势信息,输出飞机的决策指令。
4.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法,其特征在于:步骤S3中构建自主决策机训练模型的方法:采用双延迟确定性策略梯度算法作为自主决策机训练算法。
5.根据权利要求1所述的飞行器近距空战态势评估自适应权重设计方法,其特征在于:步骤S4中构建空战态势奖励函数模型的方法:奖励函数由攻击角度态势奖励函数、距离态势奖励函数、速度优势函数和高度态势奖励函数四部分组成。
6.根据权利要求5所述的飞行器近距空战态势评估自适应权重设计方法,其特征在于:攻击角度态势奖励函数如下:
其中,RR(xR,yR,zR)和分别是智能体飞机的位置坐标和速度矢量,RB(xB,yB,zB)和分别是目标飞机的位置坐标和速度矢量,RRB=RB-RR指从红机到蓝机的连线,和分别是红机的攻击角和蓝机的逃逸角;
速度态势奖励函数如下:
当vopt>1.5vB时,
当vopt≤1.5vB时,
其中,vopt是最佳空战速度,文中vopt=200m/s;
高度态势奖励函数如下:
距离态势奖励函数如下:
其中,d=|RRB|是双方飞机之间的距离,Dopt是最佳空战距离,D0是一个常数参量,用来调整距离优势奖励函数的梯度,文中Dopt=200m,D0=2000m。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259349.8A CN115688268A (zh) | 2022-10-14 | 2022-10-14 | 一种飞行器近距空战态势评估自适应权重设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211259349.8A CN115688268A (zh) | 2022-10-14 | 2022-10-14 | 一种飞行器近距空战态势评估自适应权重设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115688268A true CN115688268A (zh) | 2023-02-03 |
Family
ID=85067251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211259349.8A Pending CN115688268A (zh) | 2022-10-14 | 2022-10-14 | 一种飞行器近距空战态势评估自适应权重设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688268A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116679742A (zh) * | 2023-04-11 | 2023-09-01 | 中国人民解放军海军航空大学 | 一种多六自由度飞行器协同作战决策方法 |
CN116991074A (zh) * | 2023-08-28 | 2023-11-03 | 四川大学 | 一种智能权重下的近距空战机动决策优化方法 |
CN117192982A (zh) * | 2023-08-28 | 2023-12-08 | 四川大学 | 基于控制参数化的近距空战机动决策优化方法 |
CN117556681A (zh) * | 2023-07-20 | 2024-02-13 | 北京师范大学 | 一种智能空战决策方法、系统及电子设备 |
-
2022
- 2022-10-14 CN CN202211259349.8A patent/CN115688268A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116679742A (zh) * | 2023-04-11 | 2023-09-01 | 中国人民解放军海军航空大学 | 一种多六自由度飞行器协同作战决策方法 |
CN117556681A (zh) * | 2023-07-20 | 2024-02-13 | 北京师范大学 | 一种智能空战决策方法、系统及电子设备 |
CN117556681B (zh) * | 2023-07-20 | 2024-03-29 | 北京师范大学 | 一种智能空战决策方法、系统及电子设备 |
CN116991074A (zh) * | 2023-08-28 | 2023-11-03 | 四川大学 | 一种智能权重下的近距空战机动决策优化方法 |
CN117192982A (zh) * | 2023-08-28 | 2023-12-08 | 四川大学 | 基于控制参数化的近距空战机动决策优化方法 |
CN117192982B (zh) * | 2023-08-28 | 2024-05-14 | 四川大学 | 基于控制参数化的近距空战机动决策优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115688268A (zh) | 一种飞行器近距空战态势评估自适应权重设计方法 | |
CN113791634B (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
Park et al. | Differential game based air combat maneuver generation using scoring function matrix | |
CN107390706B (zh) | 一种基于预演机动规则系统的无人机近距格斗决策方法 | |
Jiandong et al. | UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning | |
Wang et al. | Influence of unmanned combat aerial vehicle agility on short-range aerial combat effectiveness | |
CN114063644B (zh) | 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN114330115B (zh) | 一种基于粒子群搜索的神经网络空战机动决策方法 | |
CN113625740B (zh) | 一种基于迁移学习鸽群优化的无人机空战博弈方法 | |
Li et al. | Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm | |
CN114756959A (zh) | 一种飞行器近距空战机动智能决策机模型设计方法 | |
Lee et al. | Autonomous control of combat unmanned aerial vehicles to evade surface-to-air missiles using deep reinforcement learning | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN115903865A (zh) | 一种飞行器近距空战机动决策实现方法 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
Chai et al. | A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat | |
Yuan et al. | Research on UCAV maneuvering decision method based on heuristic reinforcement learning | |
CN113625569A (zh) | 一种基于深度强化学习和规则驱动的小型无人机防控混合决策方法及系统 | |
Bae et al. | Deep reinforcement learning-based air-to-air combat maneuver generation in a realistic environment | |
CN113741500A (zh) | 仿哈里斯鹰智能捕食优化的无人机空战机动决策方法 | |
Toubman et al. | Rewarding air combat behavior in training simulations | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
CN115268496B (zh) | 一种无人机空中对抗机动控制器及其设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |